在信息化建設的過程中,數(shù)據(jù)分為三種類型: 結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù).隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算、3G、4G等技術(shù)的出現(xiàn)與普及,產(chǎn)生數(shù)據(jù)的設備也越來越多范圍越來越廣,大量非結(jié)構(gòu)化數(shù)據(jù),每時每刻都在產(chǎn)生并且傳播開來.如視頻、圖片、交互網(wǎng)站等,這些海量的數(shù)據(jù)顯然不能被存儲在預定義的結(jié)構(gòu)化表格中,相反,這些數(shù)據(jù)甚至來不及用傳統(tǒng)的數(shù)據(jù)管理模式來分析、存儲和管理,這就是大數(shù)據(jù).如何從海量的數(shù)據(jù)中分析和獲取特定的需求信息,這就是研究大數(shù)據(jù)的意義。
大數(shù)據(jù),又稱海量數(shù)據(jù),即所涉及到的數(shù)據(jù)量無法通過人工,在一定時間內(nèi)收集、管理、處理和整理出人們所需要的信息.其數(shù)據(jù)規(guī)模巨大,資料海量復雜,難以整理成為人類所能解讀的信息.其挑戰(zhàn)包括采集、管理、存儲、搜索、共享、分析和可視化。
大數(shù)據(jù)無孔不入,對人們生活的影響是全方位的,不僅改變生活和思維方式,也促使我們重新考慮最基本的準則.我們在享受大數(shù)據(jù)技術(shù)帶來便利的同時,也不得不面臨大數(shù)據(jù)產(chǎn)業(yè)鏈中形形色色的安全問題,如何保障大數(shù)據(jù)安全,并在信息安全領域有效利用,是擺在全民面前的一個重要 課題.我們要利用大數(shù)據(jù)技術(shù), 也要防范大數(shù)據(jù)安全,才能做到物盡其用.
北京理工大學大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是對語法、詞法和語義的綜合應用。NLPIR大數(shù)據(jù)語義智能分析平臺平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
其中KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發(fā)的知識圖譜構(gòu)建與推理引擎,基于漢語詞法分析的基礎上,采用KGB語法實現(xiàn)了實時高效的知識生成,可以從非結(jié)構(gòu)化文本中抽取各類知識,并實現(xiàn)了從表格中抽取指定的內(nèi)容等。KGB同時可以定義不同的動作,如抽取動作,并能自定義各類后處理程序。利用KGB知識圖譜引擎可以抽取到產(chǎn)品的詳細報價信息,方便進行下一步的數(shù)據(jù)挖掘與圖譜構(gòu)建。
例如KGB語法:
Knowledge: { [/LE;/w]+[采購方;甲方;發(fā)包方; 需方]} +1+{[-(/LE;/w)]20}s+{[(/LE;/w)]}
Action: Extract
Argument:甲方單位
表示的是:
如果 句首或者標點后,跟了{采購方;甲方;發(fā)包方};后面1步內(nèi)跟的不是標點也不是是句尾,20個單元內(nèi)的部分,將選中的詞抽取為甲方單位。
因此,數(shù)據(jù)挖掘技術(shù)是一個發(fā)展十分快的領域,?隨著對數(shù)據(jù)挖掘技術(shù)在各領域日益廣泛的應用,實現(xiàn)了數(shù)據(jù)資源共享及技術(shù)發(fā)展的跨域,從而大大提高了工作效率,并帶來巨大的成功。21世紀是信息時代的社會,“信息不僅是資源,更是財富”,要實現(xiàn)經(jīng)濟的騰飛,需依賴高新尖科技的發(fā)展,故利用提供的信息,充分進行數(shù)據(jù)挖掘,則將為數(shù)據(jù)庫的應用開辟了廣闊的前景,也為人類的文明開辟了一個嶄新的時代。同時NLPIR大數(shù)據(jù)語義智能技術(shù)將對中文數(shù)據(jù)挖掘技術(shù)進行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進自然語言理解系統(tǒng)的廣泛應用。