大數(shù)據(jù)平臺(tái)技術(shù)實(shí)例教程

定　價(jià)：￥59.00

作　者：	鄭嘯
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

當(dāng)當(dāng)網(wǎng) (￥50.10)

ISBN：	9787121453816	出版時(shí)間：	2022-12-01	包裝：	平塑勒
開(kāi)本：		頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書(shū)通過(guò)大量實(shí)例介紹大數(shù)據(jù)平臺(tái)技術(shù)，分4篇。大數(shù)據(jù)存儲(chǔ)篇包括第1~3章，內(nèi)容包括大數(shù)據(jù)技術(shù)概述、數(shù)據(jù)采集和大數(shù)據(jù)、大數(shù)據(jù)框架的安裝和配置；大數(shù)據(jù)管理篇包括第4~7章，內(nèi)容包括HDFS、Hadoop分布式計(jì)算模型、分布式協(xié)調(diào)服務(wù)ZooKeeper、Hadoop的集群資源管理系統(tǒng)YARN；大數(shù)據(jù)分析篇包括第8~10章，內(nèi)容包括數(shù)據(jù)庫(kù)MySQL和數(shù)據(jù)倉(cāng)庫(kù)Hive、NoSQL數(shù)據(jù)庫(kù)HBase、基于內(nèi)存的分布式計(jì)算框架Spark；大數(shù)據(jù)應(yīng)用篇包括第11、12章，內(nèi)容包括數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用綜合案例。本書(shū)可作為高等學(xué)校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)、人工智能等理工類(lèi)專(zhuān)業(yè)大數(shù)據(jù)平臺(tái)技術(shù)課程的教材，也可供廣大計(jì)算機(jī)愛(ài)好者及軟件開(kāi)發(fā)人員參考。

作者簡(jiǎn)介

　　鄭嘯，安徽工業(yè)大學(xué)教授，博士畢業(yè)于東南大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)專(zhuān)業(yè)，碩士生導(dǎo)師，安徽省高等學(xué)校優(yōu)秀中青年骨干教師。主攻方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)、工業(yè)互聯(lián)網(wǎng)、云計(jì)算與服務(wù)計(jì)算、數(shù)據(jù)隱私保護(hù)。

圖書(shū)目錄

目錄
第1篇大數(shù)據(jù)存儲(chǔ)篇

第1章大數(shù)據(jù)技術(shù)概述 1
1.1 大數(shù)據(jù)源起和應(yīng)用 1
1.2 大數(shù)據(jù)技術(shù)框架 2
1.3 大數(shù)據(jù)就業(yè)崗位 5
1.4 大數(shù)據(jù)的特點(diǎn) 8
1.5 大數(shù)據(jù)的深遠(yuǎn)影響 9
1.6 大數(shù)據(jù)的意義和發(fā)展目標(biāo) 9
1.7 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)、
人工智能的關(guān)系 10
1.8 教材在線資源及使用說(shuō)明 12
1.9 本章思維導(dǎo)圖 14
1.10 習(xí)題 14
第2章數(shù)據(jù)采集和大數(shù)據(jù) 15
2.1 數(shù)據(jù)采集和ETL 15
2.2 網(wǎng)絡(luò)爬蟲(chóng) 15
2.2.1 通用網(wǎng)絡(luò)爬蟲(chóng)與聚焦網(wǎng)絡(luò)
爬蟲(chóng) 16
2.2.2 網(wǎng)絡(luò)爬蟲(chóng)的工作過(guò)程 16
2.3 Python常用開(kāi)發(fā)工具簡(jiǎn)介 16
2.3.1 Python開(kāi)發(fā)環(huán)境搭建 17
2.3.2 開(kāi)發(fā)工具PyCharm 17
2.3.3 開(kāi)發(fā)工具Jupyter Notebook 17
2.4 Python語(yǔ)言簡(jiǎn)介 18
2.4.1 Python常見(jiàn)的數(shù)據(jù)類(lèi)型 18
2.4.2 NumPy庫(kù) 22
2.5 基于Python的網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用
實(shí)例 25
2.5.1 Urllib庫(kù)介紹 25
2.5.2 數(shù)據(jù)采集和ETL實(shí)例 28
2.6 本章思維導(dǎo)圖 32
2.7 習(xí)題 32
第3章大數(shù)據(jù)框架的安裝和配置 33
3.1 大數(shù)據(jù)框架配置環(huán)境 33
3.2 Linux操作系統(tǒng)介紹 34
3.2.1 Linux的發(fā)展歷史 34
3.2.2 Linux版本特點(diǎn) 35
3.2.3 Linux版本選擇 36
3.3 Linux終端常見(jiàn)命令 37
3.3.1 基本命令 37
3.3.2 目錄操作命令 38
3.3.3 文件操作命令 41
3.3.4 系統(tǒng)工作命令 51
3.3.5 其他常見(jiàn)命令 54
3.4 虛擬機(jī)的使用 57
3.5 遠(yuǎn)程登錄工具配置 57
3.6 Hadoop偽分布式安裝和使用 58
3.6.1 環(huán)境配置 58
3.6.2 配置SSH免密登錄 58
3.6.3 配置JDK 58
3.6.4 Hadoop偽分布式配置 59
3.6.5 運(yùn)行WordCount實(shí)例 60
3.7 本章思維導(dǎo)圖 61
3.8 習(xí)題 62

第2篇大數(shù)據(jù)管理篇

第4章 HDFS 63
4.1 引言 63
4.2 HDFS基礎(chǔ)知識(shí) 64
4.2.1 HDFS的特點(diǎn) 65
4.2.2 HDFS的優(yōu)缺點(diǎn) 65
4.2.3 HDFS的核心概念 66
4.2.4 HDFS執(zhí)行流程 66
4.3 HDFS的常用Shell命令 68
4.4 Hadoop中HDFS的Web管理
界面 72
4.5 基于Java API的HDFS操作 73
4.5.1 實(shí)驗(yàn)環(huán)境配置 74
4.5.2 案例實(shí)現(xiàn) 76
4.6 本章思維導(dǎo)圖 78
4.7 習(xí)題 78
第5章 Hadoop分布式計(jì)算模型 79
5.1 完全分布式環(huán)境配置 79
5.2 完全分布式配置步驟 80
5.3 MapReduce計(jì)算模型 83
5.4 Mapper-Reducer實(shí)例 84
5.4.1 實(shí)驗(yàn)準(zhǔn)備 84
5.4.2 案例實(shí)現(xiàn) 84
5.5 本章思維導(dǎo)圖 89
5.6 習(xí)題 89
第6章分布式協(xié)調(diào)服務(wù)ZooKeeper 90
6.1 高可靠性大數(shù)據(jù)框架配置 90
6.2 ZooKeeper簡(jiǎn)介 91
6.3 ZooKeeper的常用命令 92
6.4 ZooKeeper的安裝與運(yùn)行 93
6.5 本章思維導(dǎo)圖 95
6.6 習(xí)題 95
第7章 Hadoop的集群資源管理系統(tǒng)
YARN 96
7.1 Hadoop資源管理配置 96
7.2 YARN簡(jiǎn)介 97
7.3 YARN的工作流程 98
7.4 YARN的安裝與運(yùn)行 99
7.5 本章思維導(dǎo)圖 100
7.6 習(xí)題 101
第3篇大數(shù)據(jù)分析篇

第8章數(shù)據(jù)庫(kù)MySQL和數(shù)據(jù)倉(cāng)庫(kù)
Hive 102
8.1 基于Hive的大數(shù)據(jù)分析
配置 102
8.2 Hive的意義和應(yīng)用 103
8.3 Hive和數(shù)據(jù)庫(kù)的異同 104
8.4 Hive的架構(gòu)模式及其執(zhí)行 106
8.5 MySQL的安裝和使用 108
8.5.1 MySQL數(shù)據(jù)庫(kù)簡(jiǎn)介 108
8.5.2 安裝MySQL 109
8.5.3 MySQL的基本操作 109
8.6 Hive的安裝 114
8.7 Hive表的操作 114
8.7.1 內(nèi)部表和外部表 114
8.7.2 Hive表的操作 115
8.8 典型內(nèi)置函數(shù)與自定義函數(shù) 118
8.8.1 空值轉(zhuǎn)換函數(shù)nvl 118
8.8.2 case when和sum函數(shù)的綜合
應(yīng)用 119
8.8.3 UDAF聚合函數(shù)concat 121
8.8.4 UDTF炸裂函數(shù)explode 123
8.8.5 窗口函數(shù) 124
8.8.6 自定義函數(shù)實(shí)例 127
8.9 本章思維導(dǎo)圖 131
8.10 習(xí)題 131
第9章 NoSQL數(shù)據(jù)庫(kù)HBase 132
9.1 大數(shù)據(jù)框架的數(shù)據(jù)庫(kù)存儲(chǔ)
配置 132
9.2 NoSQL概念和分類(lèi) 133
9.3 HBase數(shù)據(jù)庫(kù) 134
9.3.1 HBase數(shù)據(jù)模型 135
9.3.2 HBase體系架構(gòu)及組件 136
9.4 HBase的安裝 137
9.4.1 偽分布式 137
9.4.2 完全分布式 137
9.4.3 HBase的啟動(dòng)和關(guān)閉 138
9.4.4 HBase的網(wǎng)頁(yè)端 139
9.5 HBase的Shell操作 141
9.6 基于Java API訪問(wèn)HBase
實(shí)例 146
9.6.1 準(zhǔn)備工作 146
9.6.2 Eclipse環(huán)境下編程 146
9.7 HBase綜合實(shí)例 150
9.8 本章思維導(dǎo)圖 157
9.9 習(xí)題 157
第10章基于內(nèi)存的分布式計(jì)算
框架Spark 158
10.1 基于Spark的大數(shù)據(jù)分析框架
配置 158
10.2 Spark基礎(chǔ)知識(shí) 159
10.2.1 Spark的特點(diǎn) 159
10.2.2 Spark和Hadoop的比較 160
10.2.3 RDD的概念 161
10.2.4 Spark的運(yùn)行機(jī)制 161
10.2.5 Spark的運(yùn)行模式 163
10.3 Spark的安裝和使用 164
10.3.1 Spark安裝 164
10.3.2 Python 3和Jupyter安裝 165
10.3.3 啟動(dòng)PySpark 166
10.4 Spark的常用操作 168
10.5 Spark SQL的應(yīng)用 174
10.6 Spark綜合應(yīng)用實(shí)例 178
10.7 Spark的機(jī)器學(xué)習(xí) 179
10.7.1 MLlib 179
10.7.2 Scala語(yǔ)言 180
10.7.3 MLlib的機(jī)器學(xué)習(xí)算法 181
10.7.4 Spark的機(jī)器學(xué)習(xí)流程 183
10.8 本章思維導(dǎo)圖 194
10.9 習(xí)題 194
第4篇大數(shù)據(jù)應(yīng)用篇

第11章數(shù)據(jù)可視化 195
11.1 可視化分析展示配置 195
11.2 數(shù)據(jù)可視化概述 195
11.3 數(shù)據(jù)可視化繪圖 197
11.3.1 繪制折線圖 197
11.3.2 繪制柱狀圖 198
11.3.3 繪制直方圖 199
11.3.4 繪制散點(diǎn)圖 200
11.3.5 繪制餅圖 201
11.3.6 繪制極坐標(biāo)圖 202
11.3.7 繪制雷達(dá)圖 203
11.3.8 繪制熱力圖 205
11.3.9 繪制3D圖 206
11.4 綜合實(shí)例—鳶尾花數(shù)據(jù)集的
可視化分析 207
11.4.1 實(shí)驗(yàn)環(huán)境搭建 207
11.4.2 數(shù)據(jù)集介紹 208
11.4.3 數(shù)據(jù)可視化 208
11.5 本章思維導(dǎo)圖 217
11.6 習(xí)題 217
第12章大數(shù)據(jù)應(yīng)用綜合案例 218
12.1 醫(yī)療大數(shù)據(jù)應(yīng)用框架配置 218
12.2 案例概述 218
12.2.1 背景和意義 218
12.2.2 預(yù)備知識(shí) 220
12.2.3 技術(shù)方案 223
12.3 準(zhǔn)備數(shù)據(jù)和開(kāi)發(fā)環(huán)境配置 224
12.3.1 實(shí)驗(yàn)環(huán)境安裝簡(jiǎn)述 224
12.3.2 Sqoop的安裝和使用 225
12.3.3 數(shù)據(jù)集介紹 225
12.4 數(shù)據(jù)探索性分析 226
12.5 數(shù)據(jù)遷移 235
12.6 數(shù)據(jù)預(yù)處理 239
12.7 數(shù)據(jù)建模與訓(xùn)練 241
12.8 模型評(píng)估 244
12.8.1 特征重要性 244
12.8.2 混淆矩陣 245
12.8.3 評(píng)估指標(biāo) 245
12.8.4 ROC曲線 247
12.9 本章思維導(dǎo)圖 248
12.10 習(xí)題 248
附錄A 教材實(shí)驗(yàn) 249
實(shí)驗(yàn)1：基于Python的數(shù)據(jù)抓取和
清洗 249
實(shí)驗(yàn)2：基于Linux的Hadoop偽
分布式安裝和操作 250
實(shí)驗(yàn)3：分布式Hadoop的配置和
使用 252
實(shí)驗(yàn)4：基于數(shù)據(jù)倉(cāng)庫(kù)Hive的數(shù)據(jù)
分析 253
實(shí)驗(yàn)5：NoSQL數(shù)據(jù)庫(kù)HBase
使用 255
實(shí)驗(yàn)6：基于分布式Spark框架的
編程 256
實(shí)驗(yàn)7：綜合案例設(shè)計(jì)與實(shí)現(xiàn) 258
參考文獻(xiàn) 260