大數(shù)據(jù)應(yīng)用起源于互聯(lián)網(wǎng),正在向以數(shù)據(jù)生產(chǎn)、流通和利用為核心的各個產(chǎn)業(yè)滲透,主要呈現(xiàn)兩種發(fā)展方向:一是積極整合行業(yè)和機構(gòu)內(nèi)部的各種數(shù)據(jù)源,通過對整合后的數(shù)據(jù)進行挖掘分析?,從而發(fā)展大數(shù)據(jù)應(yīng)用。二是積極借助外部數(shù)據(jù),主要是互聯(lián)網(wǎng)數(shù)據(jù),來實現(xiàn)相關(guān)應(yīng)用。
為了實現(xiàn)大數(shù)據(jù)的應(yīng)用,使所有數(shù)據(jù)得到充分的利用,從而出現(xiàn)了數(shù)據(jù)挖掘相關(guān)技術(shù)。數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。
簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外,由于當(dāng)時計算能力的限制,對大數(shù)據(jù)量進行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制?,F(xiàn)在,由于各行業(yè)業(yè)務(wù)自動化的實現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機會的(Opportunistic)商業(yè)運作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰?,更主要是為商業(yè)決策提供真正有價值的信息,進而獲得利潤。但所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。
數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。目前,在很多領(lǐng)域,數(shù)據(jù)挖掘(data?mining)都是一個很時髦的詞,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業(yè)領(lǐng)域。數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷、客戶群體劃分、背景分析、交叉銷售等市場分析行為,以及客戶流失性分析、客戶信用記分、欺詐發(fā)現(xiàn)等等。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是對語法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
其中KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發(fā)的知識圖譜構(gòu)建與推理引擎,基于漢語詞法分析的基礎(chǔ)上,采用KGB語法實現(xiàn)了實時高效的知識生成,可以從非結(jié)構(gòu)化文本中抽取各類知識,并實現(xiàn)了從表格中抽取指定的內(nèi)容等。KGB同時可以定義不同的動作,如抽取動作,并能自定義各類后處理程序。利用KGB知識圖譜引擎可以抽取到產(chǎn)品的詳細(xì)報價信息,方便進行下一步的數(shù)據(jù)挖掘與圖譜構(gòu)建。
大數(shù)據(jù)挖掘技術(shù)是一個充滿希望的研究領(lǐng)域,商業(yè)利益的強大驅(qū)動力將會不停地促進它的發(fā)展。每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。對海量文本信息進行有效的數(shù)據(jù)挖掘已經(jīng)是自然語言處理、信息檢索、信息分類、信息過濾、語義挖掘、文本的機器學(xué)習(xí)等諸多應(yīng)用領(lǐng)域基礎(chǔ)且關(guān)鍵的研究問題,它影響著上層信息服務(wù)與信息共享的質(zhì)量和水平。NLPIR大數(shù)據(jù)語義智能技術(shù)將對中文數(shù)據(jù)挖掘技術(shù)進行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進自然語言理解系統(tǒng)的廣泛應(yīng)用。