朱振立
(河北省公安消防總隊(duì),河北石家莊,050081)
數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用
朱振立
(河北省公安消防總隊(duì),河北石家莊,050081)
隨著移動(dòng)互聯(lián)網(wǎng)的普及應(yīng)用,如何更高效的進(jìn)行網(wǎng)絡(luò)信息檢索來獲取需要的信息便顯得愈發(fā)重要。本文在廓清數(shù)據(jù)挖掘相關(guān)概念的基礎(chǔ)上,對數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用進(jìn)行了重點(diǎn)分析和討論。
數(shù)據(jù)挖掘;網(wǎng)絡(luò)信息檢索;應(yīng)用
隨著互聯(lián)網(wǎng)的日益蓬勃發(fā)展,如何從廣袤的網(wǎng)絡(luò)信息海洋中提取出有價(jià)值的信息、模式和關(guān)系,逐漸成為了一門新的領(lǐng)域——數(shù)據(jù)挖掘。作為一門交叉學(xué)科,數(shù)據(jù)挖掘融合了信息檢索、互聯(lián)網(wǎng)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、自然語言處理等不同的學(xué)科,用多樣技術(shù)完成具體的數(shù)據(jù)挖掘應(yīng)用。常見的應(yīng)用有:垂直搜索、推薦系統(tǒng)、智能問答、機(jī)器翻譯、輿情監(jiān)測、情報(bào)收集等等,可謂是深入到了我們?nèi)粘I畹姆椒矫婷妗?/p>
據(jù)不完全統(tǒng)計(jì),現(xiàn)在Web 網(wǎng)站的數(shù)量已經(jīng)突破10億大關(guān),有近1000 億個(gè)頁面,數(shù)據(jù)總量約10 萬億PB。而所謂數(shù)據(jù)挖掘,究其根本,就是要從浩如煙海的數(shù)據(jù)中歸納提取總結(jié)出我們所需要的知識。數(shù)據(jù)挖掘是從多個(gè)學(xué)科領(lǐng)域發(fā)展而來的學(xué)科,包括但不限于:統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)庫系統(tǒng)等等。
數(shù)據(jù)挖掘的任務(wù)主要包括兩類,一類是基于一些變量預(yù)測其他變量的未知值或未來值,稱為預(yù)測型任務(wù),常用的技術(shù)是分類(Classification),回歸(Regression)和偏差分析(Deviation Detection)。另一類是發(fā)現(xiàn)描述數(shù)據(jù)的人們可解釋的模式,稱為描述型任務(wù),常用的技術(shù)是聚類(Clustering),關(guān)聯(lián)規(guī)則挖掘(Association Rule Discovery)和摘要(Summarization)。
為了完成上述任務(wù),整個(gè)數(shù)據(jù)挖掘的流程為:獲取數(shù)據(jù)—選擇數(shù)據(jù)—預(yù)處理數(shù)據(jù)—數(shù)據(jù)規(guī)整 —數(shù)據(jù)挖掘—模式識別。不同階段會(huì)使用不同的技術(shù),但一定要把整個(gè)流程走通,數(shù)據(jù)挖掘才有意義。
網(wǎng)絡(luò)信息檢索其實(shí)是一個(gè)很大的主題,但是核心問題其實(shí)并不復(fù)雜,一是如何去表示信息,二是在這樣的基礎(chǔ)上如何去檢索信息。具體的評價(jià)標(biāo)準(zhǔn)是“效果”和“效率”。效果指的是如何準(zhǔn)確匹配查詢信息,一般來說會(huì)基于檢索模型進(jìn)行。效率指的是如何快速返回檢索結(jié)果,一般來說是基于索引進(jìn)行的。
2.1 內(nèi)容挖掘
在這個(gè)信息爆炸的年代,人們非常需要一個(gè)過濾和篩選信息的工具,搜索引擎原來承擔(dān)了這個(gè)角色,但隨著信息的增多,越來越多的冗余、片面和雜質(zhì)出現(xiàn)了,很多時(shí)候我們搜出來了結(jié)果,還是不知道要選什么。而且隨著智能手機(jī)的普及,傳統(tǒng)的長文章已經(jīng)不適合這樣的新瀏覽模式,也需要發(fā)展挖掘出一些新東西。
內(nèi)容挖掘便是指從網(wǎng)絡(luò)中存在的各類發(fā)布內(nèi)容、數(shù)據(jù)、文檔進(jìn)行挖掘,由于網(wǎng)絡(luò)中所包含的信息形式多樣,為了能更全面、更準(zhǔn)確的進(jìn)行數(shù)據(jù)挖掘,一般情況下便采用的是文本挖掘的形式。先將文檔通過自動(dòng)或手動(dòng)的方式表現(xiàn)出來,兩種方式各有優(yōu)缺點(diǎn),手動(dòng)通常依靠人工進(jìn)行標(biāo)注,效果比較可靠,效率較高,但耗費(fèi)的時(shí)間及人力成本較高,無法大批量使用。自動(dòng)方法最有代表性的是詞袋(Bag of Words)技術(shù),即使用文檔中出現(xiàn)的詞的集合來表示一篇文檔。但容易產(chǎn)生信息缺失的情況。隨后建立文檔索引,這里一個(gè)比較有代表性的工具就是Lucene,現(xiàn)在互聯(lián)網(wǎng)上廣為應(yīng)用的Elasticsearch和Solr都是基于 Lucene的。最后再進(jìn)行文檔檢索,文檔檢索的思路也很簡單:如果一篇文檔與一個(gè)查詢相似,那么該文檔與查詢相關(guān)。相似性一般根據(jù)字符串匹配來判定,比方說相似的詞匯或相同的語義。
現(xiàn)在最常用的是向量空間模型(Vector Space Model),其思路是文檔與查詢都是高維空間中的一個(gè)向量。用戶自由輸入文本也是一個(gè)向量,利用向量空間的相似性進(jìn)行查詢。
2.2 鏈接挖掘
除了頁面的內(nèi)容本身,超鏈接其實(shí)也能提供非常多有價(jià)值的信息。一條從頁面A指向頁面B的鏈接表明A與B相關(guān)且A 推薦/引用/投票/贊成B。Google 當(dāng)年最重要的PageRank 算法,其實(shí)就是這個(gè)問題的最初且最成功的解決方案。
PageRank 采用隨機(jī)游走(Random Walk)模型對網(wǎng)頁按照流行度或權(quán)威性進(jìn)行排序,簡單來說就是為圖中的每個(gè)節(jié)點(diǎn) vi計(jì)算一個(gè)PageRank 值 π(vi),可以看作用戶隨機(jī)點(diǎn)擊鏈接將會(huì)到達(dá)特定網(wǎng)頁的可能性。頁面節(jié)點(diǎn)的PageRank與其父節(jié)點(diǎn)的Rank值成正比,但與其父節(jié)點(diǎn)的出度(out-degree)成反比。除了PageRank外,還有一些網(wǎng)頁排序的算法,比如 Learning to Rank,就是基于學(xué)習(xí)的方法,比較常見的有 RankSVM、RankNet、ListNet等等。
2.3 觀點(diǎn)挖掘
情感分析與觀點(diǎn)挖掘主要應(yīng)用于產(chǎn)品比較與推薦、個(gè)人與機(jī)構(gòu)聲譽(yù)分析、電視節(jié)目滿意度分析、互聯(lián)網(wǎng)輿情分析和反恐與維穩(wěn)。目前很多互聯(lián)網(wǎng)平臺(如淘寶、大眾點(diǎn)評)都已經(jīng)利用這種技術(shù)幫助提取用戶評價(jià)中的關(guān)鍵詞以提供更好的用戶體驗(yàn)。
觀點(diǎn)挖掘基本的框架主要由這幾方面組成:應(yīng)用層:情感檢索,情感摘要,情感問答;核心層:情感要素抽取,情感傾向性分析,主客觀分析/觀點(diǎn)文本識別;基礎(chǔ)層:NLP 基本模塊,情感資源收集與標(biāo)注;來源:產(chǎn)品評論,電影評論,新聞評論,博客,微博。
2.3.1 觀點(diǎn)挖掘分類
而具體應(yīng)用中,會(huì)將文本按照所表達(dá)的總體情感進(jìn)行分類,可能的分類主要有如下三種,一般會(huì)從詞、句子、文檔三中粒度來進(jìn)行分析。主客觀分析/觀點(diǎn)文本識別:客觀:反映關(guān)于世界的事實(shí)信息;主觀:反映個(gè)人情感、信念等。傾向性分析(可看作主客觀分析的細(xì)粒度處理):對包含觀點(diǎn)的文本進(jìn)行傾向性判斷。情緒分析:憤怒、高興、喜好、悲哀、吃驚等等。
2.3.2 觀點(diǎn)挖掘任務(wù)
而對于觀點(diǎn)挖掘來說,一個(gè)觀點(diǎn)表示為一個(gè)五元組:目標(biāo)對象,目標(biāo)對象特征,觀點(diǎn)的情感值,觀點(diǎn)持有者,觀點(diǎn)表達(dá)時(shí)間。實(shí)際上,觀點(diǎn)抽取任務(wù)是很困難的,我們重點(diǎn)關(guān)注兩個(gè)子任務(wù):特征抽取與聚類(aspect extraction and grouping),抽取對象的所有特征表達(dá),并將同義特征表達(dá)聚類。每個(gè)特征類表示了關(guān)于該對象的獨(dú)一無二的某個(gè)特征;特征情感分類(aspect sentiment classification),確定觀點(diǎn)針對每個(gè)特征的情感傾向:正面、負(fù)面、中性。
隨著網(wǎng)絡(luò)信息量的增大,如何讓數(shù)據(jù)挖掘更加容易拓展效率更高,如何去挖掘有上下文關(guān)系的網(wǎng)絡(luò)信息,如何從復(fù)雜、異構(gòu)、網(wǎng)絡(luò)化數(shù)據(jù)中挖掘復(fù)雜知識及掘高質(zhì)量數(shù)據(jù),并保證網(wǎng)絡(luò)信息的安全性和隱私,都是未來數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息檢索應(yīng)用中需要努力的方向。
[1]董慧,唐敏.數(shù)據(jù)挖掘及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用[J].情報(bào)雜志,2010, 29(b06):153-156.
[2]胡錦成.Web文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及其在網(wǎng)絡(luò)檢索中的應(yīng)用[J].河北工程技術(shù)高等??茖W(xué)校學(xué)報(bào), 2005, 10(2):42-44.
Data mining and its application in network information retrieval
Zhu Zhenli
(Hebei provincial public security fire brigade, Shijiazhuang Hebei, 050081)
With the popularity of mobile Internet applications, it becomes increasingly important to more efficient network information retrieval to obtain the needed information Based mining related concepts in the clearance data, data mining is analyzed and discussed in the application of network information retrieval
data mining; network information retrieval; application