
內容簡介
本書是一本關於Python數據整理和數據質量的實用指南,主要介紹了如何使用Python進行數據清洗、轉換和整合,以及如何確保數據的準確性和一致性。本書涵蓋了數據整理基礎、數據清洗、數據轉換、數據整合、數據質量檢查和數據可視化等內容。通過豐富的實例和代碼示例,讀者可以掌握Python數據整理和數據分析的相關技能。無論你是數據分析師、數據科學家還是其他領域的數據從業者,本書都不僅能夠幫助你提高工作效率,還能夠讓你更好地理解和應用數據科學相關的知識和技能。
作者簡介
Susan E. McGregor是哥倫比亞大學數據科學研究所的研究員,也是該研究所數據、媒體和社會中心的聯合主管。十多年來,她一直在向非理工科的專業人士、研究生及本科生講授編程與數據分析課程,並不斷完善自己的教學方式。
目錄
目錄前言1
第1章數據整理與數據質量簡介7
1.1什麼是數據整理8
1.2什麼是數據質量9
1.3為什麼選用Python語言整理數據12
1.4編寫並運行Python代碼14
1.5如何在自己的設備上編寫Python代碼16
1.6在網頁版的開發環境中編寫Python代碼25
1.7編寫“HelloWorld!”程序25
1.8添加代碼28
1.9運行代碼29
1.10撰寫文檔、保存工作資料和管理不同版本的資料29
1.11小結40
第2章Python入門41
2.1詞性42
2.2用循環結構與條件結構控製程序的走向51
2.3代碼中可能出現的各種錯誤59
2.4用CitiBike數據來演示如何編寫數據整理程序67
2.5小結74
第3章了解數據質量75
3.1判斷數據是否合適77
3.2判斷數據是否完整83
3.3提升數據的質量92
3.4小結94
第4章用Python處理基於文件與基於feed的數據95
4.1結構化的數據與非結構化的數據97
4.2處理結構化的數據101
4.3以了解失業情況為例來整理現實數據110
4.4處理非結構化的數據141
4.5小結147
第5章訪問網絡數據148
5.1聯網訪問在線的XML與JSON數據150
5.2API簡介152
5.3以搜索引擎為例講解如何調用基本的API153
5.4如何調用帶有基本身份認證機製的API155
5.5閱讀API文檔157
5.6使用Python時保護你的API密鑰160
5.7如何調用帶有OAuth認證機製的API166
5.8調用API時所應遵循的行為準則178
5.9獲取數據的最後一招:網頁抓取180
5.10小結189
第6章評估數據質量190
6.1流行病與PPP192
6.2評估數據的完整程度192
6.3評估數據的適合程度220
6.4小結225
第7章清洗、轉換和增強數據227
7.1如何從CitiBike數據中選取一部分內容228
7.2把數據文件清洗幹淨238
7.3把Excel表格中的日期處理好241
7.4把定寬數據轉換成真正的CSV文件244
7.5修正拚寫不一致的現象246
7.6為了找到簡單方案而走過的彎路251
7.7一些容易出錯的地方254
7.8增強數據255
7.9小結257
第8章調整並重構代碼259
8.1重新思考自定義的函數259
8.2什麼是作用域261
8.3為函數設計參數263
8.4返回值266
8.5以嵌套的形式調用函數267
8.6既有趣又有用的重構269
8.7用pydoc給自定義的腳本與函數撰寫文檔279
8.8讓Python腳本支持命令行參數283
8.9命令行腳本與notebook的區別286
8.10小結287
第9章數據分析入門288
9.1情境很重要289
9.2常規與反常290
9.3評估集中趨勢291
9.4另辟蹊徑:識別異常值293
9.5數據分析可視化293
9.6這些200萬美元的貸款記錄是怎麼回事306
9.7注意按比例計算317
9.8小結320
第10章展示數據322
10.1視覺說服力323
10.2把整理數據後形成的觀點表達出來325
10.3如何選擇圖表326
10.4視覺說服力要素342
10.5通過seaborn與matplotlib庫自定義更好的可視化圖表346
10.6提高設計水平351
10.7小結352
第11章Python以外的工具353
11.1查看數據的其他工具353
11.2分享並展示數據的其他工具357
11.3考慮原則問題359
11.4小結360
附錄A其他Python編程資源361
附錄B再講一講Git365
附錄C獲取數據的渠道371
附錄D與可視化及信息設計有關的資源376
······
最後修改:2025 年 03 月 13 日
© 允許規範轉載
