隨著計算機互聯(lián)網、移動互聯(lián)網、物聯(lián)網、平板電腦、手機的大眾化和微博、論壇、微信等網絡交流方式的日益紅火,數據資料的增長正發(fā)生著巨大的變化。大數據興起的主要原因是數據量越來越大。從監(jiān)測的數據來看,數據量越來越多,每年都會翻番,數據一直在飛速增長;針對即時數據的處理也變得越來越快;通過各種終端,比如手機、PC、服務器等產生的數據越來越多。隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。隨著大數據時代的來臨,大數據分析也應運而生。
數據的迅速增加與數據分析方法的滯后之間的矛盾越來越突出,人們希望在對已有的大量數據分析的基礎上進行科學研究、商業(yè)決策或者企業(yè)管理,但是目前所擁有的數據分析工具很難對數據進行深層次的處理,使得人們只能望“數”興嘆。數據挖掘正是為了解決傳統(tǒng)分析方法的不足,并針對大規(guī)模數據的分析處理而出現(xiàn)的。
在大數據時代,數據挖掘是最關鍵的工作。大數據的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數據庫中發(fā)現(xiàn)隱含在其中有價值的、潛在有用的信息和知識的過程,也是一種決策支持過程。其主要基于人工智能,機器學習,模式學習,統(tǒng)計學等。通過對大數據高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式,可以幫助企業(yè)、商家、用戶調整市場政策、減少風險、理性面對市場,并做出正確的決策。目前,在很多領域尤其是在商業(yè)領域如銀行、電信、電商等,數據挖掘可以解決很多問題,包括市場營銷策略制定、背景分析、企業(yè)管理危機等。大數據的挖掘常用的方法有分類、回歸分析、聚類、關聯(lián)規(guī)則等。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發(fā)的NLPIR大數據語義智能分析技術是對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網內容處理的全技術鏈條的共享開發(fā)平臺。
其中KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發(fā)的知識圖譜構建與推理引擎,基于漢語詞法分析的基礎上,采用KGB語法實現(xiàn)了實時高效的知識生成,可以從非結構化文本中抽取各類知識,并實現(xiàn)了從表格中抽取指定的內容等。KGB同時可以定義不同的動作,如抽取動作,并能自定義各類后處理程序。利用KGB知識圖譜引擎可以抽取到產品的詳細報價信息,方便進行下一步的數據挖掘與圖譜構建。
數據挖掘技術是一個發(fā)展十分快的領域,?隨著對數據挖掘技術在各領域日益廣泛的應用,實現(xiàn)了數據資源共享及技術發(fā)展的跨域,從而大大提高了工作效率,并帶來巨大的成功。21世紀是信息時代的社會,“信息不僅是資源,更是財富”,要實現(xiàn)經濟的騰飛,需依賴高新尖科技的發(fā)展,故利用提供的信息,充分進行數據挖掘,則將為數據庫的應用開辟了廣闊的前景,也為人類的文明開辟了一個嶄新的時代。同時NLPIR大數據語義智能技術將對中文數據挖掘技術進行深入研究,必將提供出高質量、多功能的中文數據挖掘算法并促進自然語言理解系統(tǒng)的廣泛應用。