袁曉峰
(鹽城師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,江蘇鹽城 224002)
基于詞語相關(guān)度的文檔主題抽取算法
袁曉峰
(鹽城師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,江蘇鹽城 224002)
考慮到文檔中出現(xiàn)頻率較高的詞語能夠體現(xiàn)文檔的主題,設(shè)計(jì)了一種中文文檔主題抽取算法.該算法首先對(duì)目標(biāo)文檔進(jìn)行預(yù)處理,然后計(jì)算文檔中每個(gè)詞語的出現(xiàn)頻率,用出現(xiàn)頻率最高的幾個(gè)詞語作為文檔的主題.其中,將詞語間的相關(guān)度作為計(jì)算出現(xiàn)頻率的參考因素.詞語相關(guān)度的計(jì)算是基于中文知識(shí)庫《知網(wǎng)》的方法.實(shí)驗(yàn)證明,本算法具有較高的準(zhǔn)確性.
詞語相關(guān)度;出現(xiàn)頻率;知網(wǎng);主題抽取
文檔主題抽取的研究被廣泛應(yīng)用于搜索引擎、文本聚類等文本自動(dòng)處理方面的工作.目前,國內(nèi)相關(guān)研究集中于字同現(xiàn)頻率、語言理解、匹配和統(tǒng)計(jì)等方面[1-4].本研究在《知網(wǎng)》概念描述方法[5]的基礎(chǔ)上,著重研究《知網(wǎng)》中義原在縱向和橫向上的關(guān)系結(jié)構(gòu),以此來計(jì)算詞語之間的相關(guān)度.通過考慮詞語之間相關(guān)度,提出一種計(jì)算詞語出現(xiàn)頻率的新算法:首先對(duì)文檔進(jìn)行預(yù)處理,剔除停用詞;然后計(jì)算詞語之間的相關(guān)度,將初始出現(xiàn)頻率較低的詞歸于與之相關(guān)度較高的那些初始出現(xiàn)頻率較高的詞;最后用出現(xiàn)頻率較高的詞作為文檔主題.
《知網(wǎng)》中的概念是對(duì)詞匯語義的描述,是用知識(shí)表示語言來描述的,這種“知識(shí)表示語言”所用的詞匯稱為義原.詞語相關(guān)度計(jì)算需要考慮2個(gè)方面:詞語相似度與義原關(guān)聯(lián)度[6].
對(duì)于2個(gè)漢語詞語W1和W2,如果W1有n個(gè)義項(xiàng)(概念):S11,S12,……,S1n,W2有m個(gè)義項(xiàng)(概念):S21,S22,……,S2m,則W1和W2的相似度是各個(gè)概念的相似度之最大值,
概念之間的相似度計(jì)算可分為4個(gè)部分[7].
①第一基本義原,直接計(jì)算2個(gè)義原的相似度,記為Sim1(S1,S2);
②其他基本義原,可以看成是一個(gè)集合,通過建立2個(gè)集合中元素的對(duì)應(yīng)關(guān)系來計(jì)算2個(gè)集合的相似度,記為Sim2(S1,S2);
③關(guān)系義原,可以看成是一個(gè)特征結(jié)構(gòu),即“屬性:值”對(duì)的集合,每個(gè)“屬性:值”對(duì)為一個(gè)“特征”.2個(gè)特征之間一一對(duì)應(yīng)關(guān)系的建立就轉(zhuǎn)化為對(duì)相同“屬性”對(duì)應(yīng)“值”的相似度的計(jì)算,記為Sim3(S1,S2);
④關(guān)系符號(hào)描述,其值為一個(gè)特征結(jié)構(gòu),轉(zhuǎn)換為2個(gè)特征結(jié)構(gòu)的相似度計(jì)算,記為Sim4(S1,S2).
則,概念之間的相似度計(jì)算式為,
其中,βi(1 ≤i≤4)是可調(diào)節(jié)的參數(shù),且有,β1+β2+β3+β4=1,β1 ≥β2 ≥β3 ≥β4.
這樣,詞語之間的相似度計(jì)算就完全轉(zhuǎn)化為義原之間的相似度計(jì)算.
由于義原可根據(jù)上下位關(guān)系組織成樹狀結(jié)構(gòu)的層次體系,因此通過計(jì)算義原之間的距離可計(jì)算出義原之間的相似度[8],
其中,p1、p2分別表示兩個(gè)義原,d是p1和p2的距離,α是一個(gè)可調(diào)節(jié)的參數(shù),通常 α表示相似度為0.5時(shí)的詞語距離值.
兩個(gè)義原的關(guān)聯(lián)度記為A,其計(jì)算式為,
其中,pi和pj分別為義項(xiàng)Si和義項(xiàng)Sj的第一基本義原,D為橫向關(guān)聯(lián)影響深度,即某一義原向上第幾層的解釋義原會(huì)對(duì)其特征有影響.
詞語相關(guān)用以描述兩個(gè)詞語的概念之間的關(guān)系,而相關(guān)度是概念之間相關(guān)程度的度量.因此,詞語相關(guān)度是相似度和關(guān)聯(lián)度的加權(quán)求平均,其計(jì)算式為,
式中 ,η1+η2=1.
主題抽取可分為:對(duì)給定文本d進(jìn)行特征抽取和主題生成.特征抽取將文本用實(shí)詞序列表示,主題生成通過計(jì)算實(shí)詞序列中詞的出現(xiàn)頻率從而得到文本的主題.
通常,特征抽取需先對(duì)給定文本d進(jìn)行預(yù)處理,如分詞、去除停用詞等.為了降低整個(gè)算法的復(fù)雜性,本研究僅考慮把實(shí)詞作為特征詞,即不考慮連詞、代詞、副詞等虛詞,分詞是中文文本處理常用的步驟,本算法采用中科院中文分詞系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)進(jìn)行分詞,最后得到結(jié)果,
主題生成的主要思想是:首先,從經(jīng)過特征抽取的結(jié)果中選取出現(xiàn)頻率最大的s個(gè)詞語,并將其稱為待定主題詞,待定主題詞初始權(quán)值設(shè)為1;其次,計(jì)算文檔中其他詞匯與s個(gè)待定主題詞之間的相關(guān)度,并將相關(guān)度加到待定主題詞的權(quán)值上;最后,選定t個(gè)權(quán)值最大的主題詞作為文檔的主題.
主題抽取算法的具體步驟如下:
①選出d中出現(xiàn)頻率最高的s個(gè)詞集,合記為hf={w1,w2,…,ws},剩余的詞集合記為 ,left=d-hf={v1,v2,…,vn}.
②初始hf的權(quán)值,weight={g1=1,g2=1,…,gs=1}.
③計(jì)算left集合中的詞與hf中每個(gè)詞之間的相關(guān)度,rel=R(left,hf),并將hf中當(dāng)前詞權(quán)值加上rel.
④選出weight集合中值最大的t個(gè)詞,記為,subject={w1,w2,…,wt},此即為文檔d的主題.
由于算法的參數(shù)無法給出標(biāo)準(zhǔn)值,對(duì)此,本研究通過反復(fù)實(shí)驗(yàn)并與其他文獻(xiàn)比較,設(shè)置參數(shù)如下:
在實(shí)驗(yàn)中,本研究從復(fù)旦大學(xué)語料庫中抽取200篇帶有標(biāo)題的短篇新聞,其中政治類46篇、經(jīng)濟(jì)類45篇、科技類39篇、娛樂類22篇,其他48篇.并將主題句抽取的質(zhì)量好壞分為4個(gè)等級(jí):與原標(biāo)題基本一致、包含原標(biāo)題內(nèi)容、主題基本符合、主題不全面或主題偏離.若結(jié)果符合前3個(gè)等級(jí)則認(rèn)為抽取正確,并將文本篇數(shù)占總測(cè)試語料篇數(shù)的比例稱為主題句抽取正確率.實(shí)驗(yàn)結(jié)果如表1所示.
表1 主題抽取實(shí)驗(yàn)結(jié)果
從表1中的數(shù)據(jù)可以看出,政治類的新聞文檔主題抽取準(zhǔn)確率極高,幾乎為100%,與原標(biāo)題基本一致比率達(dá)到了93.5%;經(jīng)濟(jì)類和科技類的新聞文檔主題抽取準(zhǔn)確率分別為97.8%、97.4%,略低于政治類;娛樂類的新聞文檔主題抽取準(zhǔn)確率為90.9%,較前3類文檔偏低,這是因?yàn)閵蕵奉惖男侣剝?nèi)容不緊湊、話題比較廣所致;其他類文章的主題抽取準(zhǔn)確率不足90%.準(zhǔn)確率最高的新聞?lì)惖奈臋n主題相對(duì)集中,文章的布局緊緊圍繞主題,此也再次證明文章的主題分散對(duì)主題抽取有不利的影響.盡管如此,本算法對(duì)文檔主題的抽取準(zhǔn)確率都達(dá)到80%以上,證明了本算法的有效性.
出現(xiàn)頻率高的詞語能夠體現(xiàn)文檔的主題,不過頻率不能僅僅由該詞出現(xiàn)的次數(shù)決定,而必須考慮與該詞相關(guān)度較高的詞語的出現(xiàn)頻率.本研究提出了一種通過詞語相關(guān)度來統(tǒng)計(jì)詞語在文檔中出現(xiàn)的頻率,進(jìn)而通過詞語出現(xiàn)的頻率來抽取文檔主題的算法.實(shí)驗(yàn)表明,本算法對(duì)文檔主題的抽取準(zhǔn)確率較高.需要說明的是,該算法的主題抽取質(zhì)量與文檔的布局也有著密切的關(guān)系,主題思想越集中,抽取的準(zhǔn)確率越高;反之,主題思想越發(fā)散,抽取的準(zhǔn)確率越低.
:
[1]馬穎華,王永成,蘇貴陽,等.一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J].計(jì)算機(jī)研究與發(fā)展,2003,40(6):874-878.
[2]麻志毅,姚天順.基于情境的文本主題求解[J].計(jì)算機(jī)研究與發(fā)展,1998 ,35(4):344-348.
[3]Yin Zhonghang,Wang Yongcheng.Extracting Subject from Internet Newsby String Match[J].Journal of Software,2002,13(2):159-167.
[4]韓客松,王永成,沈洲,等.三個(gè)層面的中文文本主題自動(dòng)提取研究[J].中文信息學(xué)報(bào),2001,12(4):20-27.
[5]董振東,董強(qiáng).知網(wǎng)[EB/OL].http://www.keenage.com/html/c index .html,1999-2007.
[6]許云,樊孝忠,張鋒.基于知網(wǎng)的語義相關(guān)度計(jì)算[J].北京理工大學(xué)學(xué)報(bào),2005,25(5):411-414.
[7]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J].計(jì)算語言學(xué)及中文信息處理,2007,31(7):59-76.
[8]Agirre E,Rigau G.A Proposal for Word Sense Disambiguation Using ConceptualDistance[C]//Porceeding of International Conference on Recent Advances in Natural Language Processing.Bulgaria:arXiv.org,1995.
Algorithm of Document Subject Extraction Based on Word Relevancy
YUAN Xiaofeng
(College of Information Science and Technology,Yancheng Teachers University,Yancheng 224002,China)
A kind of subject extraction algorithm was designed based on the consideration that words with high frequent occurrence could represent the theme of the document.Firstly,this algorithm pre-processed the sample document and calculated the occurrence frequency of eachword of the document.Some most frequent words were used to represent the subject.The relevancy between words was referred to calculate the frequency of each word and the calculation of relevancy was based on the ontology Hownet.At last,the high accuracy of the algorithm was testified by the experiment.
word relevancy ;occurrence frequency ;Hownet;subject extraction
TP391.1
A
1004-5422(2012)04-0367-03
2012-09-04.
袁曉峰(1978—),男,碩士,從事計(jì)算機(jī)信息檢索與自然語言處理技術(shù)研究.