第1 章 業務分析是一個蓬勃發展的方嚮 ................................. 1
1.1 業務分析是什麼 .............................................. 2
1.2 業務分析的應用現狀 ..................................... 3
1.3 如何應用業務分析 .......................................... 5
1.4 大數據與業務分析 .................................. 8
1.5 我們還在等什麼 .............................. 9
第2 章 開始我們的旅程——從數據談起 .................................... 10
2.1 我們討論的數據結構 ..................................... 11
2.1.1 行(Row)是什麼 .................................................................................................. 12
2.1.2 列(Column)是什麼 ............................................................................................. 13
2.1.3 多少行數據纔閤適 ................................................................................................. 15
2.1.4 我們需要什麼樣的列 ............................................................................................. 16
2.2 Statistics 和Modeler 的基本知識 ................................................ 18
2.3 數據導入(Loading Data) ....................................................... 24
2.4 數據探查(Data Exploring) ............................. 27
2.4.1 正態分布(Normal Distribution) ......................................................................... 28
2.4.2 數據探查的常見統計量 ......................................................................................... 30
2.4.3 數據可視化 ............................................................................................................. 35
2.5 本章小結 ............................................................... 47
第3 章 在分析之前,還需要數據預處理 ............................................ 48
3.1 數據的問題 ............................................. 49
3.2 數據校驗 .......................................................... 50
3.2.1 驗證規則 ................................................................................................................. 50
3.2.2 驗證數據 ................................................................................................................. 53
3.2.3 數據審計(Data Audit) ........................................................................................ 57
3.2.4 識彆異常數據 ......................................................................................................... 60
3.3 數據集成(Data Integration) ............................................ 65
3.3.1 在Statistics 中進行數據集成 ................................................................................. 66
3.3.2 在Modeler 中進行數據集成 .................................................................................. 68
3.4 數據轉換(Data Transformation) ..................................................... 73
3.4.1 分箱(Binning) ..................................................................................................... 73
3.4.2 數據調整(Data Rescale) .................................................................................... 78
3.4.3 數據重新編碼(Recode) ..................................................................................... 79
3.5 自動數據準備 ................................................................ 83
3.5.1 Statistics 中的自動數據準備 .................................................................................. 83
3.5.2 Modeler 中的自動數據準備 ................................................................................... 88
3.6 本章小結 ............................................... 89
第4 章 經典分析——統計學的魅力 .................................. 91
4.1 隨機變量及分布 ..................................................... 92
4.2 數理統計導引 .............................................. 94
4.3 參數估計 ................................................ 96
4.3.1 點估計...................................................................................................................... 96
4.3.2 區間估計 ................................................................................................................. 97
4.4 假設檢驗 .............................................................. 98
4.4.1 正態分布檢驗和t 檢驗 ........................................................................................ 101
4.4.2 非參數檢驗 ........................................................................................................... 108
4.5 相關分析 ............................................................ 111
4.6 方差分析 ............................................................... 113
4.7 迴歸分析 ............................................. 114
4.7.1 綫性迴歸分析 ....................................................................................................... 114
4.7.2 自動化綫性迴歸分析 ........................................................................................... 120
4.7.3 廣義綫性模型 ....................................................................................................... 122
4.7.4 廣義綫性混閤模型(Generalized Linear Mixed Mode,GLMM) .................. 128
4.8 本章小結 ........................................................... 135
第5 章 我想預測未來 ................................................................ 136
5.1 數據挖掘的技術分類 ............................................................... 136
5.1.1 有監督的建模技術 ............................................................................................... 137
5.1.2 無監督的建模技術 ............................................................................................... 138
5.1.3 Feature Selection 對於分類的意義 ...................................................................... 139
5.1.4 查看建模的結果 ................................................................................................... 139
5.2 決策樹 ................................................................................................ 140
5.2.1 C5.0 算法 ............................................................................................................... 141
5.2.2 分類和迴歸樹 ....................................................................................................... 145
5.2.3 卡方自動交互檢測法(CHAID) ....................................................................... 147
5.2.4 快速、無偏、高效的統計樹(QUEST) .......................................................... 148
5.2.5 交互式的決策樹構建方式 ................................................................................... 149
5.3 決策錶 .............................................................................................. 150
5.3.1 決策錶算法的設置 ............................................................................................... 151
5.3.2 交互式決策錶的生成方式 ................................................................................... 153
5.4 貝葉斯網絡 ........................................................................ 154
5.4.1 一些基本概念 ....................................................................................................... 154
5.4.2 IBM SPSS 的做法 ................................................................................................. 156
5.5 神經網絡(Neural Networks) ...................................................... 158
5.5.1 神經網絡是什麼 ................................................................................................... 158
5.5.2 SPSS 神經網絡算法 .............................................................................................. 160
5.6 支持嚮量機(Support Vector Machine) ................................... 162
5.6.1 什麼是綫性分類器 ............................................................................................... 162
5.6.2 Modeler 中的支持嚮量機 ..................................................................................... 163
5.7 最近相鄰(Nearest Neighbor) .................................... 165
5.8 我該選用哪種算法 ......................................................... 167
5.9 如何評價預測結果 .............................................. 170
5.9.1 基本指標 ............................................................................................................... 170
5.9.2 Gains ...................................................................................................................... 171
5.9.3 Lift .......................................................................................................................... 173
5.9.4 Response ................................................................................................................ 175
5.9.5 Profit ...................................................................................................................... 175
5.9.6 ROI ......................................................................................................................... 177
5.10 本章小結 .............................................................. 177
第6 章 我想發現聚類(Cluster) ............................................... 179
6.1 聚類技術 ......................................................................... 180
6.2 分層聚類 ......................................................................... 181
6.3 K-means ....................................................................................... 184
6.4 TwoStep ...................................................................... 188
6.4.1 預聚類.................................................................................................................... 189
6.4.2 離群值處理 ........................................................................................................... 189
6.4.3 聚類 ........................................................................................................................ 189
6.4.4 TwoStep 的使用 .................................................................................................... 190
6.5 Kohonen network .................................................. 192
6.6 我怎麼知道聚類結果是好的 ............................................................. 194
6.6.1 考察聚類的數量和每個聚類中的記錄數 ........................................................... 194
6.6.2 考察聚類內的特徵 ............................................................................................... 195
6.6.3 考察聚類間的特徵 ............................................................................................... 195
6.6.4 一個綜閤的考察指標Silhouette .......................................................................... 196
6.7 自動聚類 ......................................................... 197
6.8 理解聚類的結果 ........................................................................... 198
6.9 一個聚類分析應用的例子 ............................................. 201
6.10 本章小結 ............................................................... 202
第7 章 周而復始的規律——時間序列分析 .......................................... 203
7.1 時間序列 ................................................................................ 204
7.1.1 時間序列的類型 ................................................................................................... 204
7.1.2 時間序列的特徵 ................................................................................................... 205
7.2 指數平滑模型 ............................................................................. 206
7.2.1 簡單指數平滑法 ................................................................................................... 206
7.2.2 帶有趨勢調整的指數平滑法(霍爾特指數平滑法) ....................................... 208
7.2.3 帶有阻尼趨勢的指數平滑法 ............................................................................... 208
7.2.4 簡單季節指數平滑法 ........................................................................................... 209
7.2.5 帶有趨勢和季節調整的指數平滑法(溫特斯指數平滑法) ........................... 209
7.2.6 指數平滑法的初始化 ........................................................................................... 210
7.2.7 去除時間序列的趨勢和季節性因素 ................................................................... 211
7.3 自迴歸模型 ................................................ 212
7.3.1 自迴歸模型 ........................................................................................................... 212
7.3.2 移動平均模型 ....................................................................................................... 213
7.3.3 自迴歸移動平均模型(ARMA) ....................................................................... 213
7.3.4 差分自迴歸移動平均模型 ................................................................................... 214
7.4 SPSS 産品中的時間序列模型 ............................................... 214
7.4.1 Statistics 中的時間序列模型 ................................................................................ 214
7.4.2 Modeler 中的時間序列模型 ................................................................................. 235
7.5 時間序列分析的評價 ...................................................... 238
7.6 本章小結 ......................................................... 239
第8 章 你的行為完全可能被猜中——關聯規則分析 ................................. 240
8.1 基本概念 ............................................................. 241
8.2 Apriori 算法 ....................................................................... 245
8.2.1 Apriori 算法工作步驟 ........................................................................................... 245
8.2.2 Apriori 算法的評估方法 ....................................................................................... 246
8.2.3 Apriori 節點 ........................................................................................................... 247
8.3 CARMA 算法 ................................................................................ 249
8.3.1 CARMA 算法的工作步驟 .................................................................................... 249
8.3.2 CARMA 節點 ........................................................................................................ 251
8.4 序列算法 ................................................................... 252
8.5 關聯規則的評價 .......................................................................... 255
8.6 典型應用案例 .................................................................. 256
第9 章 我們還需要優化技術的幫忙 ......................................... 257
9.1 什麼是優化技術 ....................................................................... 258
9.2 優化問題的分類 ....................................................................... 259
9.2.1 綫性規劃 ............................................................................................................... 260
9.2.2 整數規劃 ............................................................................................................... 261
9.2.3 多目標規劃 ........................................................................................................... 262
9.2.4 動態規劃 ............................................................................................................... 262
9.3 IBM ILOG Optimization 介紹 ................................................. 263
9.4 本章小結 ...................................................................... 265
第10 章 有關方法論的問題 ..................................... 266
10.1 為什麼我們要討論方法論 .................................................. 267
10.2 CRISP-DM .............................................................................. 267
10.2.1 CRISP-DM 方法學 .............................................................................................. 268
10.2.2 CRISP-DM 參考模型.......................................................................................... 270
10.3 IBM SPSS CaDS ...................................................................... 273
10.3.1 Repository ............................................................................................................ 273
10.3.2 Job ........................................................................................................................ 274
10.3.3 Model Refresh and Champion Challenger .......................................................... 274
10.3.4 Scoring ................................................................................................................. 274
10.4 模型的部署不是終點............................................................... 275
第11 章 一個時髦的領域——決策管理 .................................................. 276
11.1 決策管理係統 ..................................................................... 276
11.1.1 什麼是決策 .......................................................................................................... 277
11.1.2 什麼是決策管理係統 .......................................................................................... 279
11.1.3 決策支持與決策管理的比較.............................................................................. 281
11.2 構建決策管理係統 ......................................................................... 282
11.2.1 構建決策支持係統的原則 .................................................................................. 282
11.2.2 閤適的決策 .......................................................................................................... 283
11.2.3 如何找到閤適的決策 .......................................................................................... 285
11.2.4 怎樣在決策管理係統中定義決策 ..................................................................... 287
11.2.5 決策管理係統中的優化技術.............................................................................. 292
11.2.6 決策影響的評估 .................................................................................................. 294
11.2.7 監控決策 .............................................................................................................. 297
11.2.8 決策的持續改進 .................................................................................................. 298
11.2.9 構建和部署決策服務 .......................................................................................... 299
11.2.10 實施決策管理的一些要求................................................................................ 300
11.3 IBM ADM ....................................................................... 301
11.3.1 ADM 是SPSS 數據分析能力的窗口 ................................................................ 301
11.3.2 ADM 的著眼點是將數據分析結果轉化為決策 ............................................... 302
11.3.3 ADM 是一個可以配置的決策服務平颱 ........................................................... 303
11.3.4 ADM 的工作步驟 ............................................................................................... 306
11.4 本章小結 ................................................................................ 308
後記 為未來做好準備 ......................................................... 309
· · · · · · (
收起)