隨著計算機(jī)技術(shù)的發(fā)展,各行各業(yè)都開始采用計算機(jī)及相應(yīng)的信息技術(shù)進(jìn)行管理和運(yùn)營,這使得企業(yè)生成、收集、存貯和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增。企業(yè)數(shù)據(jù)實(shí)際上是企業(yè)的經(jīng)驗(yàn)積累,當(dāng)其積累到一定程度時,必然會反映出規(guī)律性的東西;所以對企業(yè)來說,這些堆積如山的數(shù)據(jù)無異于一個巨大的寶庫。除此之外,互聯(lián)網(wǎng)的發(fā)展更是為我們帶來了海量的數(shù)據(jù)和信息。在缺乏強(qiáng)有力的工具的情況下,這些海量的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)的超出了人的理解和概括的能力。在這樣的背景下,人們迫切需要新一代的計算技術(shù)和工具來開采數(shù)據(jù)庫中蘊(yùn)藏的寶藏,使其成為有用的知識。在市場需求和技術(shù)基礎(chǔ)這兩個因素都具備的環(huán)境下,數(shù)據(jù)挖掘(Data?Mining)的概念與技術(shù)就應(yīng)運(yùn)而生了。
作為一門交叉學(xué)科,數(shù)據(jù)挖掘融合了包括數(shù)據(jù)庫、人工智能、統(tǒng)計學(xué)等在內(nèi)的多個領(lǐng)域的理論和技術(shù)。?而數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計是數(shù)據(jù)挖掘技術(shù)的三根強(qiáng)大的技術(shù)支柱。數(shù)據(jù)挖掘的主要任務(wù)是借助關(guān)聯(lián)規(guī)則,決策樹、聚類和基于樣例的學(xué)習(xí)。貝葉斯學(xué)習(xí)、粗糙集、神經(jīng)網(wǎng)絡(luò)、遺傳算法、統(tǒng)計分析等技術(shù).采用數(shù)據(jù)取樣(選取數(shù)據(jù)樣本)、?數(shù)據(jù)探索(可視化數(shù)據(jù)探索與聚類分析和因子分選、數(shù)據(jù)調(diào)整(數(shù)據(jù)重組細(xì)分與添加?和拆分記錄)、模式化(人工神經(jīng)網(wǎng)絡(luò)。決策樹模型,數(shù)理統(tǒng)計分析和時問序列分析)和評價(結(jié)論綜合和評價、是否修改數(shù)據(jù)、有新問題產(chǎn)生)等五個基本流程。這一過程可能要反復(fù)進(jìn)行,不斷地得到趨近事物的本質(zhì),不斷地優(yōu)化問題的解決方案,通過關(guān)聯(lián)分析、分類、聚類、預(yù)測和偏差檢測等發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系以及數(shù)據(jù)間的模式?。
隨著數(shù)據(jù)庫技術(shù)的向前發(fā)展,數(shù)據(jù)庫系統(tǒng)中不斷引入新的數(shù)據(jù)模型,如擴(kuò)充關(guān)系模型、面向?qū)ο竽P?、對象關(guān)系模型和演繹模型;根據(jù)數(shù)據(jù)的特性又分為空間的、時間的、多媒體的、主動的和科學(xué)的數(shù)據(jù)庫。相應(yīng)的,這些對數(shù)據(jù)挖掘技術(shù)也提出了新的要求,給出了新的發(fā)展方向。
數(shù)據(jù)挖掘技術(shù)未來的發(fā)展方向和研究焦點(diǎn)是對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如對文本數(shù)據(jù)、空間數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)進(jìn)行挖掘,處理的數(shù)據(jù) 會涉及到更多的數(shù)據(jù)類型,它們更復(fù)雜,結(jié)構(gòu)更獨(dú)特。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實(shí)體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
數(shù)據(jù)挖掘技術(shù)及其應(yīng)用是目前國際上的一個研究熱點(diǎn),并在許多行業(yè)中得到了很好的應(yīng)用,尤其是在市場營銷中獲得了成功,初步體現(xiàn)了其優(yōu)越性和發(fā)展?jié)摿?。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識、文獻(xiàn)知識等各類知識,將是實(shí)現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。