趙瑞
摘 要:社交媒體作為人們日常信息發(fā)布的重要方式,其中包含了大量有價值的學術信息。利用社交媒體中對科技文獻的描述或評論信息,挖掘其在輔助關鍵詞的自動提取方面的潛力。文章提出了通過社交媒體上發(fā)布的科技文獻相關描述構造背景信息,并在模型中添加背景信息以提升關鍵詞自動抽取的效果。在不同模型上的對比實驗,驗證了方法的有效性。
關鍵詞:社交媒體;文獻信息;關鍵詞抽取;信息抽取
社交媒體的流行,讓越來越多的研究人員樂于在社交媒體上分享關于學術研究的信息。社交媒體上包含了很多科研人員在分享或評論科技文獻時對文獻內容的轉述或概括信息,這些信息一方面幫助讀者快速了解文獻主題,另一方面可以作為有價值的背景信息,輔助文獻主題的概括提煉。本文利用Twitter上用戶在分享或評論科技文獻的描述信息作為背景信息,然后根據(jù)主題相關性篩選背景信息,最后將過濾后的背景信息加入到關鍵詞自動抽取模型中,實現(xiàn)科技文獻的自動抽取。通過對比實驗,加入社交媒體背景信息的模型在抽取效果上有明顯提高。
1 相關工作
利用文檔內部信息進行關鍵詞抽取是現(xiàn)有關鍵詞自動抽取的主流方法。例如,Salton等提出的基于統(tǒng)計的TF-IDF抽取方法就是借助文檔的詞頻特征來抽取關鍵詞,具有簡單易行的優(yōu)點。針對中文文檔,徐文海等也提出了一種基于TF-IDF的關鍵詞抽取方法,該方法首先對中文文檔進行分詞處理,然后利用詞的TF值和IDF值進行加權排序實現(xiàn)關鍵詞抽取[1]。除了考慮詞頻特征外,詞語出現(xiàn)的位置信息也可以作為關鍵詞抽取的特征。Mihalcea等提出了基于圖模型的關鍵詞抽取方法。羅準辰等提出了一種基于分離模型的中文關鍵詞提取方法,該方法分別針對詞和短語設計特征以提高關鍵詞自動抽取效果[2]。Witten等利用機器學習的方法來抽取關鍵詞,他們選取文檔中詞語的位置特征、詞頻特征等來訓練機器學習模型。在抽取關鍵詞時,除了考慮待抽取文檔本身的信息,同時也考慮與待抽取文檔相關的其他知識。Grineva等提出利用維基百科的文章題目和鏈接結構來構造圖模型抽取關鍵詞的方法。Luo等借助評論信息來提高新聞的關鍵詞抽取效果,該方法首先對評論信息進行了篩選,然后利用有效的評論信息來抽取關鍵詞。
社交媒體推文作為一種信息資源,越來越受到研究者重視。Ebner等通過研究Twitter信息隨時間的分布情況,提出Twitter信息網(wǎng)絡可以發(fā)現(xiàn)科研團隊中的領頭人。Stankovic等對Twitter信息進行話題分析,提出一種會議數(shù)據(jù)抽取模型,能夠自動抽取Twitter中的話題并分類。Gilbert等你用社會結構與社會關系學的方法,研究了Twitter傳播網(wǎng)絡,從而識別“學識淵博者”。本文將社交媒體信息應用于科技文獻的關鍵詞自動抽取,提出了一種基于社交媒體構造科技文獻背景信息,用來提升科技文獻關鍵詞抽取效果的方法。通過構建實驗數(shù)據(jù)集,并在不同抽取模型上進行實驗,驗證方法在關鍵詞自動抽取方面的有效性。
2 方法
2.1 背景信息獲取
本文選取計算機與信息科學領域5項國際會議上發(fā)表的部分論文為研究對象(信息與知識管理會議CIKM、自然語言處理頂級會議EMNLP、數(shù)據(jù)挖掘頂級會議KDD、國際機器學習大全ICML與信息檢索會議SIGIR),對社交媒體上包含相關論文評論或轉述的信息進行收集。
考慮到Twitter在學術數(shù)據(jù)密集性和數(shù)據(jù)開放獲取上的優(yōu)勢,本文選取Twitter作為社交媒體學術背景信息數(shù)據(jù)來源。利用Twitter的主題標簽功能對會議相關信息進行搜索,然后通過Twitter提供的數(shù)據(jù)API收集推文信息。最后,通過人工閱讀,將推文信息與其描述的文獻進行關聯(lián)。
2.2 關鍵詞自動抽取流程
本文采用的關鍵詞自動抽取流程。首先,運用2.1中的方法獲取文獻的社交媒體背景信息,然后對背景信息進行篩選,之后將篩選后的背景信息與待抽取文檔進行合并,最后對合并文檔進行預處理,并采用常用的關鍵詞抽取器進行處理得到關鍵詞。
考慮到待抽取文獻相關的推文中可能存在一些與文獻主題不相關的主題,因此在正式合并推文背景信息前添加了一個篩選過程,去掉與論文主題不相關的推文。另外,抽取的關鍵詞中可能只在背景信息中出現(xiàn),而沒在待抽取文獻中出現(xiàn),這類關鍵詞顯然是不合理的。因此,最后的過濾過程就是要將這類關鍵詞排除。
關鍵詞通常是名詞性短語,故預處理時需要對待抽取文獻進行詞性標注。本文采用了斯坦福大學開發(fā)的Loglinear Part-Of-Speech Tagger工具來完成詞性標注。關鍵詞抽取器則采用的是較為成熟的工具,主要用到三種:基于統(tǒng)計的TF-IDF算法、基于圖模型的SingleRank算法和基于機器學習的KEA算法。
3 實驗分析
3.1 實驗數(shù)據(jù)集
按照2.1的方案,本文從Twitter上獲取了與72篇論文相關的853條推文信息作為實驗數(shù)據(jù)??紤]到待抽取文獻中關鍵詞的數(shù)量不一,有的文獻沒有給出關鍵詞,有的文獻給出的關鍵詞數(shù)量過少,本文對72篇文獻的關鍵詞進行了人工標注,讓每篇文獻的關鍵詞數(shù)量為5~7個。
3.2 評價指標
為評價本文所提方法的抽取效果,選擇準確率(P)、召回率(R)和F1值作為評價指標,其計算公式如下:
P=自動抽取的正確關鍵詞數(shù)/自動抽取的全部關鍵詞數(shù)
R=自動抽取的正確關鍵詞數(shù)/人工標注的全部關鍵詞數(shù)
F1=2PR/(P+R)
3.3 實驗內容
首先利用現(xiàn)有的抽取器對待抽取文檔抽取關鍵詞,并計算其P、R和F1值;然后按照2.1和2.2所述方法,對加入了背景信息的合并文檔采用同樣的抽取器進行處理,并計算P、R和F1值。為了驗證方法的有效性,本文選擇了三種不同類型關鍵詞抽取器進行實驗,分別是基于統(tǒng)計的TF-IDF方法、基于圖模型的SingleRank方法和基于機器學習的KEA方法。三種方法都是常用的自動抽取關鍵詞方法,在不同領域均有良好的應用。其中TF-IDF和SingleRank屬于無監(jiān)督方法,KEA屬于有監(jiān)督學習方法。
實驗結果如表1所示,其中“*”標記的表示添加社交媒體背景信息的抽取結果,N表示抽取的關鍵詞個數(shù)。
從上表可以看出如下趨勢:抽取的準確率(P)隨著抽取關鍵詞個數(shù)的增大而降低,召回率(R)隨著抽取關鍵詞個數(shù)N的增大而增大,F(xiàn)1值隨著N的增大而先增后減。科技文獻給出的關鍵詞一般不會超過10個,所以本文選取N=10的對比實驗結果進行分析。TF-IDF的F1值分別為17.5%和20.4%,添加背景信息的抽取效果提升了17%。就F1值而言,SingleRank和KEA添加背景信息后在原基礎上效果分別提升了10%和5%。
實驗結果表明,本文提出的添加社交媒體背景信息輔助關鍵詞自動抽取方法,對于無監(jiān)督方法TF-IDF和SingleRank效果提升明顯,而對于有監(jiān)督學習方法KEA的提升效果相對較小。經(jīng)過分析,我們認為背景信息在一定程度上會將關鍵詞的特征突出得更為顯著。TF-IDF方法主要是根據(jù)詞頻特征值進行排序抽取的,添加背景信息后會進一步提高關鍵詞的詞頻特征值,因而會提升抽取效果。SingleRank方法將詞作為圖的節(jié)點,通過詞共現(xiàn)建立圖模型以描述文檔,然后通過詞的頻次和節(jié)點之間的聯(lián)系計算圖節(jié)點的權值,最后選取權值高的名詞性圖節(jié)點作為關鍵詞。背景信息的加入增加了關鍵詞的頻次和其節(jié)點間的聯(lián)系,故提升了關鍵詞的權值,因此提升了抽取效果。而對于KEA是以詞第一次出現(xiàn)的位置和頻次作為特征進行訓練的,而背景信息的添加對關鍵詞第一次出現(xiàn)的位置影響不大,所以抽取的改進效果有限。另外,KEA模型的訓練數(shù)據(jù)是沒有添加背景信息的,也有可能是提升效果不明顯的原因。
綜上所述,實驗結果表明對于TF-IDF和SingleRank這類無監(jiān)督的方法,添加社交媒體背景信息可以有效提升關鍵詞提升效果。而對于有監(jiān)督的機器學習方法,背景信息的添加對關鍵詞自動抽取的改進效果不明顯。
4 結束語
針對科技文獻關鍵詞自動抽取這一問題,本文提出了添加社交媒體背景信息以提升抽取效果的策略。實驗結果表明,社交媒體背景信息可以有效提升無監(jiān)督類抽取方法的效果,從而證明本文所提策略的有效性。社交媒體信息對于理解相關文獻的主題具有一定幫助,如何在有監(jiān)督的機器學習方法中更好地運用社交媒體信息,是一個值得進一步研究的問題。
參考文獻
[1]徐文海,溫有奎.一種基于TFIDF方法的中文關鍵詞抽取算法[J].情報理論與實踐,2008,31(2):298-302.
[2]羅準辰,王挺.基于分離模型的中文關鍵詞提取算法研究[J].中文信息學報,2009,23(1):63-70.