内容简介
本书是一本关于Python数据整理和数据质量的实用指南,主要介绍了如何使用Python进行数据清洗、转换和整合,以及如何确保数据的准确性和一致性。本书涵盖了数据整理基础、数据清洗、数据转换、数据整合、数据质量检查和数据可视化等内容。通过丰富的实例和代码示例,读者可以掌握Python数据整理和数据分析的相关技能。无论你是数据分析师、数据科学家还是其他领域的数据从业者,本书都不仅能够帮助你提高工作效率,还能够让你更好地理解和应用数据科学相关的知识和技能。
作者简介
Susan E. McGregor是哥伦比亚大学数据科学研究所的研究员,也是该研究所数据、媒体和社会中心的联合主管。十多年来,她一直在向非理工科的专业人士、研究生及本科生讲授编程与数据分析课程,并不断完善自己的教学方式。
目录
目录前言1
第1章数据整理与数据质量简介7
1.1什么是数据整理8
1.2什么是数据质量9
1.3为什么选用Python语言整理数据12
1.4编写并运行Python代码14
1.5如何在自己的设备上编写Python代码16
1.6在网页版的开发环境中编写Python代码25
1.7编写“HelloWorld!”程序25
1.8添加代码28
1.9运行代码29
1.10撰写文档、保存工作资料和管理不同版本的资料29
1.11小结40
第2章Python入门41
2.1词性42
2.2用循环结构与条件结构控制程序的走向51
2.3代码中可能出现的各种错误59
2.4用CitiBike数据来演示如何编写数据整理程序67
2.5小结74
第3章了解数据质量75
3.1判断数据是否合适77
3.2判断数据是否完整83
3.3提升数据的质量92
3.4小结94
第4章用Python处理基于文件与基于feed的数据95
4.1结构化的数据与非结构化的数据97
4.2处理结构化的数据101
4.3以了解失业情况为例来整理现实数据110
4.4处理非结构化的数据141
4.5小结147
第5章访问网络数据148
5.1联网访问在线的XML与JSON数据150
5.2API简介152
5.3以搜索引擎为例讲解如何调用基本的API153
5.4如何调用带有基本身份认证机制的API155
5.5阅读API文档157
5.6使用Python时保护你的API密钥160
5.7如何调用带有OAuth认证机制的API166
5.8调用API时所应遵循的行为准则178
5.9获取数据的最后一招:网页抓取180
5.10小结189
第6章评估数据质量190
6.1流行病与PPP192
6.2评估数据的完整程度192
6.3评估数据的适合程度220
6.4小结225
第7章清洗、转换和增强数据227
7.1如何从CitiBike数据中选取一部分内容228
7.2把数据文件清洗干净238
7.3把Excel表格中的日期处理好241
7.4把定宽数据转换成真正的CSV文件244
7.5修正拼写不一致的现象246
7.6为了找到简单方案而走过的弯路251
7.7一些容易出错的地方254
7.8增强数据255
7.9小结257
第8章调整并重构代码259
8.1重新思考自定义的函数259
8.2什么是作用域261
8.3为函数设计参数263
8.4返回值266
8.5以嵌套的形式调用函数267
8.6既有趣又有用的重构269
8.7用pydoc给自定义的脚本与函数撰写文档279
8.8让Python脚本支持命令行参数283
8.9命令行脚本与notebook的区别286
8.10小结287
第9章数据分析入门288
9.1情境很重要289
9.2常规与反常290
9.3评估集中趋势291
9.4另辟蹊径:识别异常值293
9.5数据分析可视化293
9.6这些200万美元的贷款记录是怎么回事306
9.7注意按比例计算317
9.8小结320
第10章展示数据322
10.1视觉说服力323
10.2把整理数据后形成的观点表达出来325
10.3如何选择图表326
10.4视觉说服力要素342
10.5通过seaborn与matplotlib库自定义更好的可视化图表346
10.6提高设计水平351
10.7小结352
第11章Python以外的工具353
11.1查看数据的其他工具353
11.2分享并展示数据的其他工具357
11.3考虑原则问题359
11.4小结360
附录A其他Python编程资源361
附录B再讲一讲Git365
附录C获取数据的渠道371
附录D与可视化及信息设计有关的资源376
······
最后修改:2025 年 03 月 13 日
© 允许规范转载