目錄 Contents
前言
第0章 發現、齣發 1
0.1 何謂數據科學 1
0.1.1 海量的數據與科學的方法 2
0.1.2 數據科學並不是新概念 3
0.1.3 數據科學是一個係統工程 3
0.2 如何成為數據科學傢 4
0.3 為什麼是Python 6
0.4 一個簡單的例子 8
第1章 Python介紹 9
1.1 Python的版本之爭 10
1.2 Python解釋器 11
1.2.1 Mac OS X係統 11
1.2.2 Linux係統 11
1.2.3 Windows係統 12
1.3 第一段Python程序 14
1.4 使用Python shell調試程序 15
第2章 Python基礎知識 19
2.1 應當掌握的基礎知識 19
2.1.1 基礎數據類型 19
2.1.2 變量和賦值 21
2.1.3 操作符及錶達式 22
2.1.4 文本編輯器 23
2.2 字符串 27
2.3 獲取鍵盤輸入 29
2.4 流程控製 30
2.4.1 條件判斷 30
2.4.2 循環 31
2.4.3 縮進、空白和注釋 33
第3章 函數及異常處理 35
3.1 函數和函數的參數 36
3.1.1 定義函數 37
3.1.2 關鍵字參數和默認參數 38
3.1.3 可變數量的參數 39
3.1.4 遞歸 40
3.2 閉包 41
3.3 異常和斷言 44
第4章 高級字符串處理 47
4.1 字符集和字符編碼 47
4.1.1 ASCII字符集和編碼 48
4.1.2 Unicode字符集及UTF-8編碼 49
4.2 字符串操作和格式化 51
4.2.1 字符串的基本操作 51
4.2.2 字符串分割 52
4.2.3 字符串格式化 52
4.3 正則錶達式 53
4.3.1 正則錶達式入門 54
4.3.2 在Python中使用正則錶達式 57
第5章 容器和collections 60
5.1 元組 60
5.2 列錶 62
5.2.1 引用傳遞 64
5.2.2 列錶解析式 65
5.3 字典 66
5.4 collections 69
5.4.1 namedtuple 69
5.4.2 Counter 70
5.4.3 defaultdict 71
5.4.4 OrderedDict 71
第6章 Python標準庫簡介 73
6.1 math模塊 73
6.1.1 常見常量 73
6.1.2 無窮 74
6.1.3 整數轉換 75
6.1.4 絕對值和符號 76
6.1.5 常用計算 77
6.1.6 指數和對數 77
6.2 time 79
6.3 random 82
6.3.1 隨機數生成器 82
6.3.2 取樣 84
6.4 glob和fileinput 85
6.5 bz2和gzip 87
6.6 pprint 88
6.7 traceback 90
6.8 JSON 91
第7章 用Python讀寫外部數據 93
7.1 CSV文件的讀寫 94
7.1.1 讀取CSV文件 94
7.1.2 創建CSV文件 95
7.1.3 處理方言 96
7.1.4 將讀取的結果轉換成字典 97
7.2 Excel文件的讀寫 98
7.2.1 讀取Excel文件 98
7.2.2 寫Excel文件 99
7.3 MySQL的讀寫 101
7.3.1 寫入MySQL 103
7.3.2 讀取MySQL 105
第8章 統計編程 106
8.1 描述性統計 106
8.1.1 人口普查數據 106
8.1.2 均值和中位數 110
8.1.3 方差和標準差 111
8.1.4 分布 113
8.2 數據可視化入門 116
8.2.1 pyplot基礎 116
8.2.2 柱狀圖和餅圖 119
8.3 概率 122
第9章 爬蟲入門 124
9.1 網絡資源及爬蟲的基本原理 124
9.2 使用request模塊獲取HTML內容 127
9.2.1 關於HTTP協議 127
9.2.2 使用requests的get方法獲取HTML內容 129
9.3 使用Xpath解析HTML中的內容 133
9.3.1 HTML的層級和Xpath的基本概念 134
9.3.2 使用榖歌瀏覽器快速創建Xpath路徑 137
9.3.3 使用榖歌瀏覽器復製需要JS渲染的HTML頁麵 138
9.4 實戰:爬取京東商品品類及品牌列錶 144
第10章 數據科學的第三方庫介紹 149
10.1 Numpy入門和實戰 149
10.1.1 Numpy基礎 150
10.1.2 Numpy基本運算 153
10.1.3 Numpy高級特性 159
10.1.4 kNN實戰 162
10.2 Pandas的入門和實戰 167
10.2.1 Pandas基礎 168
10.2.2 泰坦尼剋號生存率分析實戰 176
10.3 Scikit-learn入門和實戰 180
10.3.1 機器學習術語 181
10.3.2 Scikit-learn基礎 183
10.3.2 實戰 186
第11章 利用Python進行圖數據分析 193
11.1 圖基礎 193
11.2 NetworkX入門 194
11.2.1 基本操作 194
11.2.2 為圖中的元素添加屬性 196
11.2.3 有嚮圖及節點的度數 197
11.2.4 構建圖及圖的操作 197
11.3 使用NetworkX進行圖分析 199
11.3.1 利用聯通子圖發現社區 199
11.3.2 通過三角計算強化社區發現 201
11.3.3 利用PageRank發現影響力中心 202
第12章 大數據工具入門 204
12.1 Hadoop 204
12.1.1 Hadoop的計算原理 205
12.1.2 在Hadoop上運行Python程序 208
12.2 Spark 211
12.2.1 為什麼需要Spark 211
12.2.2 如何學習Spark 212
12.3 大數據與數據科學的區彆 215
附錄A 編寫Python 2與Python 3兼容的代碼 217
附錄B 安裝完整的Python開發環境 225
附錄C 常用的Python技巧 235
· · · · · · (
收起)