隨著云計算、物聯(lián)網(wǎng)和互聯(lián)網(wǎng)等技術的快速發(fā)展,各種移動設備、傳感網(wǎng)絡、電商網(wǎng)站、社交網(wǎng)絡時時刻刻都在生成各種各樣類型的數(shù)據(jù),大數(shù)據(jù)時代已經(jīng)到來。大數(shù)據(jù)即數(shù)據(jù)體量巨大、數(shù)據(jù)類型多樣、數(shù)據(jù)的質(zhì)量低、處理速度迅速的數(shù)據(jù)。大數(shù)據(jù)分析的核心是從大量數(shù)據(jù)中獲取有價值的內(nèi)容,更準確、更深層次的知識,而不是對數(shù)據(jù)簡單的統(tǒng)計和分析。
在大數(shù)據(jù)處理的過程中,數(shù)據(jù)分析是核心,因為大數(shù)據(jù)的價值全部在數(shù)據(jù)分析過程中產(chǎn)生?;ヂ?lián)網(wǎng)、硬件等技術迅猛發(fā)展,加深了人們對數(shù)據(jù)分析的需求。如果大數(shù)據(jù)是一種產(chǎn)業(yè),賺錢的重點在于如何提高數(shù)據(jù)的分析能力,通過分析發(fā)現(xiàn)數(shù)據(jù)的更多潛在的價值。在大數(shù)據(jù)時代,數(shù)據(jù)分析是數(shù)據(jù)價值發(fā)現(xiàn)的最重要環(huán)節(jié),也是決策的決定性元素。目前,在很多領域尤其是在商業(yè)領域如銀行、電信、電商等,數(shù)據(jù)挖掘可以解決很多問題,包括市場營銷策略制定、背景分析、企業(yè)管理危機等。大數(shù)據(jù)的挖掘常用的方法有分類、回歸分析、聚類、關聯(lián)規(guī)則、神經(jīng)網(wǎng)絡方法、Web?數(shù)據(jù)挖掘等。這些方法從不同的角度對數(shù)據(jù)進行挖掘。
大數(shù)據(jù)的特點是數(shù)據(jù)量大,但并沒有增加數(shù)據(jù)價值,相反增多了數(shù)據(jù)噪音,有很多數(shù)據(jù)放在存儲器里就沒再用過。數(shù)據(jù)量的突然增加,各種媒體數(shù)據(jù)被任 意碎片化。在應對處理大數(shù)據(jù)的技術挑戰(zhàn)中,大數(shù)據(jù)的降噪與清洗技術值得高度重視。早期主要是結(jié)構(gòu)化數(shù)據(jù)的挖掘,可從數(shù)據(jù)庫中發(fā)現(xiàn)時序知識、關聯(lián)知識和分類知識等。在大數(shù)據(jù)時代,數(shù)據(jù)庫已經(jīng)不能滿足人們的需求了。大數(shù)據(jù)中數(shù)據(jù)類型繁多,我們進入了一個非結(jié)構(gòu)化數(shù)據(jù)挖掘時代。因此,非結(jié)構(gòu)化數(shù)據(jù)挖掘是大數(shù)據(jù)處理的重要解決問題。
北京理工大學大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術是對語法、詞法和語義的綜合應用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術鏈條的共享開發(fā)平臺。
其中KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發(fā)的知識圖譜構(gòu)建與推理引擎,基于漢語詞法分析的基礎上,采用KGB語法實現(xiàn)了實時高效的知識生成,可以從非結(jié)構(gòu)化文本中抽取各類知識,并實現(xiàn)了從表格中抽取指定的內(nèi)容等。KGB同時可以定義不同的動作,如抽取動作,并能自定義各類后處理程序。利用KGB知識圖譜引擎可以抽取到產(chǎn)品的詳細報價信息,方便進行下一步的數(shù)據(jù)挖掘與圖譜構(gòu)建。
隨著云計算、移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等技術的發(fā)展和完善,相信大數(shù)據(jù)在各個領域的應用會越來越廣泛和深入,相關的研究也會越來越全面和深入,在信息管理領域,綜合應用數(shù)據(jù)挖掘技術和人工智能技術,獲取用戶知識、文獻知識等各類知識,將是實現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。