目錄
前言
第1章 引言 1
1.1 什么是大數據 1
1.1.1 大數據概論 1
1.1.2 大數據的特點 1
1.1.3 大數據帶來的利益 2
1.1.4 大數據的類型 3
1.2 數據分析過程 4
1.3 專業(yè)領域知識 4
1.3.1 統(tǒng)計學 5
1.3.2 數據挖掘 5
1.3.3 機器學習 5
1.3.4 人工智能 6
1.3.5 數學 6
1.4 數據科學家做什么? 6
1.4.1 學術界 6
1.4.2 工業(yè)界 6
第2章 大數據的預處理、存儲和計算 8
2.1 數據的預處理 8
2.1.1 數據源 9
2.1.2 數據格式 9
2.1.3 數據形式 10
2.2 數據清洗 11
2.2.1 數據清洗的系統(tǒng)框架 12
2.2.2 待清洗數據的主要類型 12
2.2.3 數據檢測算法和清洗算法 13
2.2.4 數據清洗評估 16
2.3 云存儲和云計算* 17
習題2 18
第3章 數據可視化 20
3.1 基本原理 20
3.2 實現過程 20
3.3 可視化工具 21
3.4 數據可視化方法 21
第4章 回歸與分類(一) 25
4.1 線性回歸 25
4.1.1 模型介紹 26
4.1.2 參數估計 28
4.1.3 假設檢驗 32
4.1.4 模型評價與診斷 35
4.1.5 預測 39
4.2 線性回歸的推廣* 40
4.2.1 多項式回歸 41
4.2.2 樣條回歸 43
4.2.3 局部回歸 47
4.2.4 廣義加性模型 52
4.2.5 回歸性能的度量 54
4.3 時間序列分析 57
4.3.1 AR(p)模型 57
4.3.2 MA(q)模型 60
4.3.3 ARMA(p,q)模型 63
4.4 邏輯斯諦回歸 68
4.5 判別分類 72
4.5.1 線性判別分析 72
4.5.2 二次判別分析 75
4.6 k*近鄰分類 76
習題4 78
第5章 回歸與分類(二) 81
5.1 決策樹 81
5.1.1 回歸樹 82
5.1.2 分類樹 88
5.1.3 決策樹的優(yōu)缺點 91
5.2 Bagging分類 91
5.3 隨機森林分類 96
5.4 AdaBoost分類 98
5.5 支持向量機分類 103
5.5.1 *大間隔分類器 103
5.5.2 支持向量分類器 109
5.5.3 支持向量機 113
5.5.4 多分類的支持向量機 118
習題5 118
第6章 聚類及相關數據分析 120
6.1 聚類分析 120
6.1.1 距離的定義 120
6.1.2 系統(tǒng)聚類法 127
6.1.3 K{均值聚類 130
6.2 文本分析 134
6.2.1 基本概念 134
6.2.2 處理過程和任務 136
6.2.3 特征處理 138
6.2.4 文本表示模型 139
6.2.5 文本分類與文本聚類 143
6.2.6 應用實例 144
6.2.7 分布式文本挖掘 147
6.3 網絡圖形描述和模型* 148
6.3.1 圖的基本概念 148
6.3.2 復雜網絡的統(tǒng)計特征 149
6.3.3 小世界現象 151
6.3.4 模型介紹 154
6.4 網絡數據分析和圖形模型 157
6.4.1 網絡數據概述 157
6.4.2 網絡數據收集 158
6.4.3 網絡數據分析 160
6.5 關聯規(guī)則和推薦系統(tǒng) 164
6.5.1 關聯規(guī)則 164
6.5.2 推薦系統(tǒng) 166
6.5.3 基于內容的推薦系統(tǒng)設計過程 169
習題6 170
第7章 高維統(tǒng)計中的變量選擇 173
7.1 經典降維方法 173
7.1.1 主成分分析 173
7.1.2 因子分析 178
7.2 Lasso模型及其變形 185
7.2.1 Lasso基本方法 185
7.2.2 Lasso方法的拓展 188
7.2.3 其他降維方法 196
7.3 流形降維方法* 204
7.3.1 核主成分分析 205
7.3.2 局部線性嵌入 206
7.3.3 多維縮放 208
7.3.4 Isomap 209
7.4 非負矩陣分解* 210
7.4.1 基本原理 210
7.4.2 NMF的求解方法 211
7.4.3 應用 212
7.5 自編碼器 212
7.5.1 基本原理 213
7.5.2 可視化自編碼器 215
7.6 t-SNE 216
7.6.1 算法 216
7.6.2 應用 217
7.7 正則化方法 218
7.7.1 多項式擬合 218
7.7.2 過擬合和欠擬合 221
7.7.3 L2正則 222
7.7.4 L1正則 224
7.7.5 縮減參數的選取 225
習題7 225
第8章 *大期望算法(EM算法) 227
8.1 預備知識 228
8.2 算法描述 229
8.3 算法導出* 230
8.4 EM算法的應用 232
8.4.1 簡單實例——拋投硬幣實驗 232
8.4.2 男女生身高實例——混合高斯模型 235
習題8 240
第9章 貝葉斯方法 242
9.1 引論 242
9.2 貝葉斯統(tǒng)計推斷 243
9.2.1 一個例子 243
9.2.2 確定先驗分布 244
9.2.3 點估計 245
9.2.4 區(qū)間估計 245
9.2.5 假設檢驗 246
9.3 貝葉斯方法在變量選擇中的應用 246
9.3.1 貝葉斯模型選擇 246
9.3.2 采樣 248
9.3.3 貝葉斯變量選擇 249
習題9 250
第10章 隱馬爾可夫模型 252
10.1 隱馬爾可夫模型的基本概念 252
10.1.1 馬爾可夫鏈 252
10.1.2 隱馬爾可夫模型 253
10.1.3 觀測序列的生成過程 257
10.1.4 隱馬爾可夫模型的三個基本問題 257
10.2 概率計算算法 258
10.2.1 前向算法 258
10.2.2 后向算法 260
10.2.3 一些概率與期望值的計算 261
10.3 學習算法 262
10.3.1 監(jiān)督學習方法 262
10.3.2 Baum-Welch算法 263
10.3.3 Baum-Welch模型參數估計 265
10.4 預測算法 266
10.4.1 近似算法 266
10.4.2 維特比算法 267
習題10 271
第11章 神經網絡與深度學習 272
11.1 引言 272
11.2 神經網絡 272
11.2.1 簡介 272
11.2.2 神經元 274
11.2.3 感知器 275
11.2.4 神經網絡模型 276
11.2.5 激活函數 278
11.2.6 代價函數 280
11.2.7 梯度下降法 281
11.2.8 反向傳播算法 283
11.2.9 梯度檢驗 285
11.3 深度神經網絡 285
11.4 卷積神經網絡 286
11.4.1 卷積 287
11.4.2 卷積層 288
11.4.3 池化層 291
11.4.4 卷積神經網絡的網絡架構 292
11.4.5 權值的訓練 293
11.4.6 LeNet-5卷積神經網絡 295
11.5 循環(huán)神經網絡 297
11.5.1 簡單循環(huán)神經網絡 297
11.5.2 基于時間的反向傳播算法 299
11.5.3 梯度消失和梯度爆炸 302
11.5.4 長短時記憶網絡* 302
11.5.5 門限循環(huán)單元* 304
11.6 強化學習* 305
11.6.1 什么是強化學習? 305
11.6.2 強化學習的不同的環(huán)境 307
11.6.3 強化學習的幾個有代表性的算法及理論基礎 307
11.6.4 強化學習的相關應用 308
11.6.5 強化學習的平臺 308
11.6.6 強化學習的展望 309
11.7 深度學習在人工智能中的應用 309
11.7.1 深度學習在無人駕駛汽車領域的應用 309
11.7.2 深度學習在自然語言處理領域的應用 311
11.7.3 深度學習在醫(yī)療健康領域的應用 314
習題11 315
第12章 案例分析 316
12.1 金融數據分析案例 316
12.2 高維稀疏單細胞RNA測序數據的聚類研究 321
12.2.1 背景介紹 321
12.2.2 研究目標和內容 322
12.2.3 數據標準化 323
12.2.4 基于隱變量標準化兩階段單細胞無監(jiān)督類 325
12.3 手寫數字識別 327
12.3.1 MNIST數據的說明和導入 327
12.3.2 MNIST手寫數字神經網絡識別 330
參考文獻 337
附錄A R語言簡介 344
A.1 特點 344
A.2 安裝和運行 344
A.3 幫助命令和幫助工具 345
A.4 RStudio 346
A.5 R編程要點 347
附錄B Python語言介紹 356
B.1 基礎介紹 356
B.2 非基礎部分 367
B.3 機器學習常用module介紹 375
索引 379
彩圖