1 數據讀取 1 1.1 數據讀取常見問題 2 1.2 核心代碼 4 1.2.1 讀取Excel、csv、txt、json數據 4 1.2.2 讀取docx文件和查詢關鍵詞 5 1.2.3 讀取日志、圖像、聲音、視頻 7 1.2.4 Oracle、MySQL數據讀取 13 1.2.5 讀取Hive數據 18 1.2.6 數據導出到本地 19 2 數據探索性分析 20 2.1 數據查看 21 2.2 數據統(tǒng)計 22 2.3 數據分組分析 23 2.4 相關性分析 24 2.5 典型案例 25 3 數據預處理 28 3.1 注意問題 30 3.2 核心代碼 31 3.2.1 缺失值檢測和處理 31 3.2.2 異常值檢測和處理 34 3.2.3 數據標準化規(guī)范化正則化 38 3.2.4 數據平滑處理 41 3.2.5 樣本類別分布不均衡處理 47 3.2.6 數據降維 51 3.2.7 訓練集驗證集切分 56 3.3 典型案例 66 3.3.1 原理 66 3.3.2 代碼 68 4 特征選擇 69 4.1 過濾式特征提取 70 4.2 遞歸特征消除 73 4.3 嵌入式特征提取 74 4.4 典型案例 76 5 算法建模 79 5.1 主流數據挖掘算法 82 5.1.1 有監(jiān)督學習 82 5.1.2 無監(jiān)督學習 193 5.2 自動化調參 212 5.2.1 暴力搜索尋優(yōu) 213 5.2.2 隨機搜索尋優(yōu) 217 5.3 組合分類模型器 221 5.3.1 原理 221 5.3.2 函數及代碼 221 5.4 典型案例 226 5.4.1 人臉識別 227 5.4.2 多方程模型預測 232 6 可視化 237 6.1 基本圖形 239 6.1.1 折線圖 239 6.1.2 面積圖 248 6.1.3 柱形圖 253 6.1.4 散點圖 268 6.1.5 餅圖 279 6.2 分析圖形 280 6.2.1 詞云圖 280 6.2.2 相似度熱力圖 285 6.2.3 箱式分布圖 291 6.2.4 對應分析圖 306