本書以當前流行的大數據采集技術和清洗技術為主,從大數據采集技術特性和實現入手,對其基本架構、實現原理、應用部署等方面進行了全面翔實的介紹。本書主要內容包括:大數據采集技術與應用概述、大數據同步技術——Datax、大數據清洗技術——Kettle、大數據日志采集技術——Logstash、大數據實時采集技術——Kafka、態(tài)勢感知——輿情熱點大數據平臺中的數據采集技術。 本書可作為高等學校應用型本科大數據、云計算、人工智能等相關專業(yè)的教材,也可作為高職高專大數據、云計算、人工智能等相關專業(yè)的教材,同時也適合希望深入了解大數據采集技術的開發(fā)人員學習使用。