注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書教育/教材/教輔教材職業(yè)技術培訓教材大數據平臺技術實例教程

大數據平臺技術實例教程

大數據平臺技術實例教程

定 價:¥59.00

作 者: 鄭嘯
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121453816 出版時間: 2022-12-01 包裝: 平塑勒
開本: 頁數: 字數:  

內容簡介

  本書通過大量實例介紹大數據平臺技術,分4篇。大數據存儲篇包括第1~3章,內容包括大數據技術概述、數據采集和大數據、大數據框架的安裝和配置;大數據管理篇包括第4~7章,內容包括HDFS、Hadoop分布式計算模型、分布式協(xié)調服務ZooKeeper、Hadoop的集群資源管理系統(tǒng)YARN;大數據分析篇包括第8~10章,內容包括數據庫MySQL和數據倉庫Hive、NoSQL數據庫HBase、基于內存的分布式計算框架Spark;大數據應用篇包括第11、12章,內容包括數據可視化、大數據應用綜合案例。 本書可作為高等學校數據科學與大數據技術、計算機科學與技術、人工智能等理工類專業(yè)大數據平臺技術課程的教材,也可供廣大計算機愛好者及軟件開發(fā)人員參考。

作者簡介

  鄭嘯,安徽工業(yè)大學教授,博士畢業(yè)于東南大學計算機應用技術專業(yè),碩士生導師,安徽省高等學校優(yōu)秀中青年骨干教師。主攻方向為計算機網絡、工業(yè)互聯(lián)網、云計算與服務計算、數據隱私保護。

圖書目錄

目錄
第1篇 大數據存儲篇

第1章 大數據技術概述 1
1.1 大數據源起和應用 1
1.2 大數據技術框架 2
1.3 大數據就業(yè)崗位 5
1.4 大數據的特點 8
1.5 大數據的深遠影響 9
1.6 大數據的意義和發(fā)展目標 9
1.7 大數據與云計算、物聯(lián)網、
人工智能的關系 10
1.8 教材在線資源及使用說明 12
1.9 本章思維導圖 14
1.10 習題 14
第2章 數據采集和大數據 15
2.1 數據采集和ETL 15
2.2 網絡爬蟲 15
2.2.1 通用網絡爬蟲與聚焦網絡
爬蟲 16
2.2.2 網絡爬蟲的工作過程 16
2.3 Python常用開發(fā)工具簡介 16
2.3.1 Python開發(fā)環(huán)境搭建 17
2.3.2 開發(fā)工具PyCharm 17
2.3.3 開發(fā)工具Jupyter Notebook 17
2.4 Python語言簡介 18
2.4.1 Python常見的數據類型 18
2.4.2 NumPy庫 22
2.5 基于Python的網絡爬蟲應用
實例 25
2.5.1 Urllib庫介紹 25
2.5.2 數據采集和ETL實例 28
2.6 本章思維導圖 32
2.7 習題 32
第3章 大數據框架的安裝和配置 33
3.1 大數據框架配置環(huán)境 33
3.2 Linux操作系統(tǒng)介紹 34
3.2.1 Linux的發(fā)展歷史 34
3.2.2 Linux版本特點 35
3.2.3 Linux版本選擇 36
3.3 Linux終端常見命令 37
3.3.1 基本命令 37
3.3.2 目錄操作命令 38
3.3.3 文件操作命令 41
3.3.4 系統(tǒng)工作命令 51
3.3.5 其他常見命令 54
3.4 虛擬機的使用 57
3.5 遠程登錄工具配置 57
3.6 Hadoop偽分布式安裝和使用 58
3.6.1 環(huán)境配置 58
3.6.2 配置SSH免密登錄 58
3.6.3 配置JDK 58
3.6.4 Hadoop偽分布式配置 59
3.6.5 運行WordCount實例 60
3.7 本章思維導圖 61
3.8 習題 62


第2篇 大數據管理篇

第4章 HDFS 63
4.1 引言 63
4.2 HDFS基礎知識 64
4.2.1 HDFS的特點 65
4.2.2 HDFS的優(yōu)缺點 65
4.2.3 HDFS的核心概念 66
4.2.4 HDFS執(zhí)行流程 66
4.3 HDFS的常用Shell命令 68
4.4 Hadoop中HDFS的Web管理
界面 72
4.5 基于Java API的HDFS操作 73
4.5.1 實驗環(huán)境配置 74
4.5.2 案例實現(xiàn) 76
4.6 本章思維導圖 78
4.7 習題 78
第5章 Hadoop分布式計算模型 79
5.1 完全分布式環(huán)境配置 79
5.2 完全分布式配置步驟 80
5.3 MapReduce計算模型 83
5.4 Mapper-Reducer實例 84
5.4.1 實驗準備 84
5.4.2 案例實現(xiàn) 84
5.5 本章思維導圖 89
5.6 習題 89
第6章 分布式協(xié)調服務ZooKeeper 90
6.1 高可靠性大數據框架配置 90
6.2 ZooKeeper簡介 91
6.3 ZooKeeper的常用命令 92
6.4 ZooKeeper的安裝與運行 93
6.5 本章思維導圖 95
6.6 習題 95
第7章 Hadoop的集群資源管理系統(tǒng)
YARN 96
7.1 Hadoop資源管理配置 96
7.2 YARN簡介 97
7.3 YARN的工作流程 98
7.4 YARN的安裝與運行 99
7.5 本章思維導圖 100
7.6 習題 101
第3篇 大數據分析篇

第8章 數據庫MySQL和數據倉庫
Hive 102
8.1 基于Hive的大數據分析
配置 102
8.2 Hive的意義和應用 103
8.3 Hive和數據庫的異同 104
8.4 Hive的架構模式及其執(zhí)行 106
8.5 MySQL的安裝和使用 108
8.5.1 MySQL數據庫簡介 108
8.5.2 安裝MySQL 109
8.5.3 MySQL的基本操作 109
8.6 Hive的安裝 114
8.7 Hive表的操作 114
8.7.1 內部表和外部表 114
8.7.2 Hive表的操作 115
8.8 典型內置函數與自定義函數 118
8.8.1 空值轉換函數nvl 118
8.8.2 case when和sum函數的綜合
應用 119
8.8.3 UDAF聚合函數concat 121
8.8.4 UDTF炸裂函數explode 123
8.8.5 窗口函數 124
8.8.6 自定義函數實例 127
8.9 本章思維導圖 131
8.10 習題 131
第9章 NoSQL數據庫HBase 132
9.1 大數據框架的數據庫存儲
配置 132
9.2 NoSQL概念和分類 133
9.3 HBase數據庫 134
9.3.1 HBase數據模型 135
9.3.2 HBase體系架構及組件 136
9.4 HBase的安裝 137
9.4.1 偽分布式 137
9.4.2 完全分布式 137
9.4.3 HBase的啟動和關閉 138
9.4.4 HBase的網頁端 139
9.5 HBase的Shell操作 141
9.6 基于Java API訪問HBase
實例 146
9.6.1 準備工作 146
9.6.2 Eclipse環(huán)境下編程 146
9.7 HBase綜合實例 150
9.8 本章思維導圖 157
9.9 習題 157
第10章 基于內存的分布式計算
框架Spark 158
10.1 基于Spark的大數據分析框架
配置 158
10.2 Spark基礎知識 159
10.2.1 Spark的特點 159
10.2.2 Spark和Hadoop的比較 160
10.2.3 RDD的概念 161
10.2.4 Spark的運行機制 161
10.2.5 Spark的運行模式 163
10.3 Spark的安裝和使用 164
10.3.1 Spark安裝 164
10.3.2 Python 3和Jupyter安裝 165
10.3.3 啟動PySpark 166
10.4 Spark的常用操作 168
10.5 Spark SQL的應用 174
10.6 Spark綜合應用實例 178
10.7 Spark的機器學習 179
10.7.1 MLlib 179
10.7.2 Scala語言 180
10.7.3 MLlib的機器學習算法 181
10.7.4 Spark的機器學習流程 183
10.8 本章思維導圖 194
10.9 習題 194
第4篇 大數據應用篇

第11章 數據可視化 195
11.1 可視化分析展示配置 195
11.2 數據可視化概述 195
11.3 數據可視化繪圖 197
11.3.1 繪制折線圖 197
11.3.2 繪制柱狀圖 198
11.3.3 繪制直方圖 199
11.3.4 繪制散點圖 200
11.3.5 繪制餅圖 201
11.3.6 繪制極坐標圖 202
11.3.7 繪制雷達圖 203
11.3.8 繪制熱力圖 205
11.3.9 繪制3D圖 206
11.4 綜合實例—鳶尾花數據集的
可視化分析 207
11.4.1 實驗環(huán)境搭建 207
11.4.2 數據集介紹 208
11.4.3 數據可視化 208
11.5 本章思維導圖 217
11.6 習題 217
第12章 大數據應用綜合案例 218
12.1 醫(yī)療大數據應用框架配置 218
12.2 案例概述 218
12.2.1 背景和意義 218
12.2.2 預備知識 220
12.2.3 技術方案 223
12.3 準備數據和開發(fā)環(huán)境配置 224
12.3.1 實驗環(huán)境安裝簡述 224
12.3.2 Sqoop的安裝和使用 225
12.3.3 數據集介紹 225
12.4 數據探索性分析 226
12.5 數據遷移 235
12.6 數據預處理 239
12.7 數據建模與訓練 241
12.8 模型評估 244
12.8.1 特征重要性 244
12.8.2 混淆矩陣 245
12.8.3 評估指標 245
12.8.4 ROC曲線 247
12.9 本章思維導圖 248
12.10 習題 248
附錄A 教材實驗 249
實驗1:基于Python的數據抓取和
清洗 249
實驗2:基于Linux的Hadoop偽
分布式安裝和操作 250
實驗3:分布式Hadoop的配置和
使用 252
實驗4:基于數據倉庫Hive的數據
分析 253
實驗5:NoSQL數據庫HBase
使用 255
實驗6:基于分布式Spark框架的
編程 256
實驗7:綜合案例設計與實現(xiàn) 258
參考文獻 260

本目錄推薦

掃描二維碼
Copyright ? 讀書網 afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號