在信息時代,存儲大量數據比較容易。通過Web、企業(yè)內部網、電傳新。聞獲得的文本數量在急劇增加,這導致信息過載。然而,數據量雖然增加了,但可用的信息卻在減少。文本挖掘是一個新的令人振奮的研究領域,其試圖通過綜合數據挖掘、機器學習、自然語言處理、信息檢索和知識管理等技術來解決信息過載問題。文本挖掘包括文本集合的預處理(文本分類、信息抽取)、中間結果存儲、中間結果分析技術(分布分析、聚類、趨勢分析、關聯(lián)規(guī)則抽?。┖妥罱K結果的可視化。它與關聯(lián)分析類似,為人們提供了分析海量文本數據的新工具,并且通過學習模式來指導抽取實體關系。本書首先討論了文本挖掘的總體結構以及文本挖掘預處理算法,然后深入地研究了文本挖掘核心操作,最后探討真實世界中文本挖掘的主要應用和DIAL,彌補了理論和實踐的脫節(jié)。本書主要可供對文本挖掘感興趣的本科高年級學生、研究生、研究人員和專業(yè)開發(fā)人員參考,對從事文本挖掘開發(fā)和使用文本挖掘系統(tǒng)的人也會有很大幫助。