隨著計(jì)算機(jī)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、平板電腦、手機(jī)的大眾化和微博、論壇、微信等網(wǎng)絡(luò)交流方式的日益紅火,數(shù)據(jù)資料的增長(zhǎng)正發(fā)生著巨大的變化。大數(shù)據(jù)興起的主要原因是數(shù)據(jù)量越來(lái)越大。從監(jiān)測(cè)的數(shù)據(jù)來(lái)看,數(shù)據(jù)量越來(lái)越多,每年都會(huì)翻番,數(shù)據(jù)一直在飛速增長(zhǎng);針對(duì)即時(shí)數(shù)據(jù)的處理也變得越來(lái)越快;通過(guò)各種終端,比如手機(jī)、PC、服務(wù)器等產(chǎn)生的數(shù)據(jù)越來(lái)越多。隨之而來(lái)的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)據(jù)的商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn)。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大數(shù)據(jù)分析也應(yīng)運(yùn)而生。
數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的滯后之間的矛盾越來(lái)越突出,人們希望在對(duì)已有的大量數(shù)據(jù)分析的基礎(chǔ)上進(jìn)行科學(xué)研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數(shù)據(jù)分析工具很難對(duì)數(shù)據(jù)進(jìn)行深層次的處理,使得人們只能望“數(shù)”興嘆。數(shù)據(jù)挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對(duì)大規(guī)模數(shù)據(jù)的分析處理而出現(xiàn)的。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘是最關(guān)鍵的工作。大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含在其中有價(jià)值的、潛在有用的信息和知識(shí)的過(guò)程,也是一種決策支持過(guò)程。其主要基于人工智能,機(jī)器學(xué)習(xí),模式學(xué)習(xí),統(tǒng)計(jì)學(xué)等。通過(guò)對(duì)大數(shù)據(jù)高度自動(dòng)化地分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業(yè)、商家、用戶調(diào)整市場(chǎng)政策、減少風(fēng)險(xiǎn)、理性面對(duì)市場(chǎng),并做出正確的決策。目前,在很多領(lǐng)域尤其是在商業(yè)領(lǐng)域如銀行、電信、電商等,數(shù)據(jù)挖掘可以解決很多問(wèn)題,包括市場(chǎng)營(yíng)銷策略制定、背景分析、企業(yè)管理危機(jī)等。大數(shù)據(jù)的挖掘常用的方法有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則等。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是對(duì)語(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
其中KGB(Knowledge Graph Builder)知識(shí)圖譜引擎是我們自主研發(fā)的知識(shí)圖譜構(gòu)建與推理引擎,基于漢語(yǔ)詞法分析的基礎(chǔ)上,采用KGB語(yǔ)法實(shí)現(xiàn)了實(shí)時(shí)高效的知識(shí)生成,可以從非結(jié)構(gòu)化文本中抽取各類知識(shí),并實(shí)現(xiàn)了從表格中抽取指定的內(nèi)容等。KGB同時(shí)可以定義不同的動(dòng)作,如抽取動(dòng)作,并能自定義各類后處理程序。利用KGB知識(shí)圖譜引擎可以抽取到產(chǎn)品的詳細(xì)報(bào)價(jià)信息,方便進(jìn)行下一步的數(shù)據(jù)挖掘與圖譜構(gòu)建。
數(shù)據(jù)挖掘技術(shù)是一個(gè)發(fā)展十分快的領(lǐng)域,?隨著對(duì)數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域日益廣泛的應(yīng)用,實(shí)現(xiàn)了數(shù)據(jù)資源共享及技術(shù)發(fā)展的跨域,從而大大提高了工作效率,并帶來(lái)巨大的成功。21世紀(jì)是信息時(shí)代的社會(huì),“信息不僅是資源,更是財(cái)富”,要實(shí)現(xiàn)經(jīng)濟(jì)的騰飛,需依賴高新尖科技的發(fā)展,故利用提供的信息,充分進(jìn)行數(shù)據(jù)挖掘,則將為數(shù)據(jù)庫(kù)的應(yīng)用開(kāi)辟了廣闊的前景,也為人類的文明開(kāi)辟了一個(gè)嶄新的時(shí)代。同時(shí)NLPIR大數(shù)據(jù)語(yǔ)義智能技術(shù)將對(duì)中文數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進(jìn)自然語(yǔ)言理解系統(tǒng)的廣泛應(yīng)用。