亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多元特征的中文網(wǎng)頁(yè)關(guān)鍵詞提取方法研究*

        2020-02-08 03:51:04張孝飛
        圖書館 2020年1期
        關(guān)鍵詞:詞頻分詞網(wǎng)頁(yè)

        張孝飛

        (西藏民族大學(xué)圖書館 陜西咸陽(yáng) 712082)

        1 引言

        隨著網(wǎng)絡(luò)技術(shù)與存儲(chǔ)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上的信息呈爆炸式增長(zhǎng),海量的網(wǎng)絡(luò)大數(shù)據(jù)既給情報(bào)研究帶來(lái)了機(jī)遇,也對(duì)其提出了挑戰(zhàn)。一方面通過(guò)新技術(shù)能在網(wǎng)絡(luò)數(shù)據(jù)中挖掘重要線索,使得政府、企業(yè)及科研機(jī)構(gòu)更加重視情報(bào)研究工作;另一方面網(wǎng)絡(luò)作為情報(bào)信息重要來(lái)源的新基地,使情報(bào)工作重新進(jìn)行了定位。然而網(wǎng)絡(luò)數(shù)據(jù)不同于傳統(tǒng)的文獻(xiàn)數(shù)據(jù),它是一種非結(jié)構(gòu)化數(shù)據(jù)資源。人們通常需要對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集、抽取、聚類等技術(shù)處理之后才能發(fā)現(xiàn)情報(bào)線索,在這一系列復(fù)雜技術(shù)處理中,網(wǎng)頁(yè)關(guān)鍵詞提取是核心環(huán)節(jié)。一個(gè)高質(zhì)量的關(guān)鍵詞可以直擊網(wǎng)頁(yè)事件的核心,成為情報(bào)監(jiān)測(cè)的重要線索,能夠有效提升政府決策情報(bào)、企業(yè)競(jìng)爭(zhēng)情報(bào)和科技研究情報(bào)的發(fā)現(xiàn)能力。

        首先,對(duì)國(guó)家和地方政府而言,伴隨著我國(guó)社會(huì)經(jīng)濟(jì)的轉(zhuǎn)型與發(fā)展,網(wǎng)絡(luò)成為輿論的集散地和中心地,各種矛盾通過(guò)網(wǎng)絡(luò)途徑暴露出來(lái)。國(guó)家和地方政府如何借助于信息技術(shù)手段從海量的網(wǎng)絡(luò)大數(shù)據(jù)中挖掘和發(fā)現(xiàn)社會(huì)突發(fā)事件及輿情熱點(diǎn)話題,進(jìn)而采取積極合理的措施對(duì)社會(huì)輿論進(jìn)行引導(dǎo),已經(jīng)成為政府決策情報(bào)研究的重要課題。最常見(jiàn)的決策情報(bào)監(jiān)測(cè)手段是網(wǎng)絡(luò)輿情監(jiān)測(cè)。網(wǎng)絡(luò)輿情是人們通過(guò)網(wǎng)絡(luò)媒體、博客及論壇等平臺(tái),對(duì)社會(huì)焦點(diǎn)問(wèn)題、突發(fā)事件等各種社會(huì)現(xiàn)象所表達(dá)的言論及意見(jiàn)的總和,是網(wǎng)民對(duì)事件的看法、情緒及態(tài)度的集中體現(xiàn)。網(wǎng)絡(luò)輿情的源頭來(lái)自于社會(huì)生活中的事件,而事件則主要由話題組成,話題又是由關(guān)鍵詞構(gòu)成,所以輿情監(jiān)測(cè)中的基礎(chǔ)環(huán)節(jié)是關(guān)鍵詞提取,高質(zhì)量的關(guān)鍵詞可以命中熱點(diǎn)話題的核心,成為輿情監(jiān)測(cè)與話題追蹤的重要線索。因此,只有準(zhǔn)確、迅速地找到合適的關(guān)鍵詞,才能有效地發(fā)現(xiàn)話題,進(jìn)而最終確定事件的源頭。

        對(duì)企業(yè)而言,面對(duì)激烈的市場(chǎng)競(jìng)爭(zhēng),如何借助于網(wǎng)絡(luò)大數(shù)據(jù)快速與準(zhǔn)確地獲取產(chǎn)品市場(chǎng)需求和同行競(jìng)爭(zhēng)者的相關(guān)情報(bào),進(jìn)而通過(guò)對(duì)策制定和預(yù)警機(jī)制在市場(chǎng)競(jìng)爭(zhēng)中獲得先機(jī)也已經(jīng)成為企業(yè)競(jìng)爭(zhēng)情報(bào)研究的課題。競(jìng)爭(zhēng)情報(bào)是對(duì)整體競(jìng)爭(zhēng)環(huán)境和競(jìng)爭(zhēng)對(duì)手的一個(gè)全面監(jiān)測(cè)過(guò)程。具體地說(shuō),競(jìng)爭(zhēng)情報(bào)是用合乎法律和道德的手段,通過(guò)長(zhǎng)期系統(tǒng)地跟蹤、收集、分析和處理各種可能對(duì)企業(yè)發(fā)展、決策及運(yùn)行產(chǎn)生影響的信息,最終提煉出本企業(yè)及主要對(duì)手企業(yè)在市場(chǎng)競(jìng)爭(zhēng)中的優(yōu)勢(shì)、劣勢(shì)和機(jī)會(huì)的關(guān)鍵情報(bào),從而為企業(yè)各職能部門在戰(zhàn)略規(guī)劃、投資與并購(gòu)、研究與發(fā)展、市場(chǎng)營(yíng)銷等方面制定決策提供依據(jù)[1]。通過(guò)對(duì)目前市場(chǎng)上的企業(yè)專用情報(bào)監(jiān)測(cè)系統(tǒng)的分析來(lái)看,其關(guān)鍵技術(shù)還是在于網(wǎng)絡(luò)信息關(guān)鍵詞的自動(dòng)提取。

        對(duì)于科研人員而言,如何從繁雜的網(wǎng)絡(luò)大數(shù)據(jù)中獲取有價(jià)值的科研信息也已經(jīng)成為研究情報(bào)的熱點(diǎn)課題。從研究情報(bào)、尤其是社科類的研究情報(bào)監(jiān)測(cè)來(lái)看,對(duì)于傳統(tǒng)結(jié)構(gòu)化文獻(xiàn)信息的研究,研究人員只需利用常規(guī)的文獻(xiàn)分類方法和檢索手段即可滿足某領(lǐng)域現(xiàn)狀及發(fā)展的需求分析。而對(duì)于網(wǎng)絡(luò)資料這類非結(jié)構(gòu)化的信息情報(bào)資料,只有關(guān)鍵詞提取才能夠?yàn)樵擃愋颓閳?bào)收集、自動(dòng)分類、鑒別篩選提供有用的素材和線索。

        綜上所述,關(guān)鍵詞提取是決策情報(bào)輿情監(jiān)測(cè)、競(jìng)爭(zhēng)情報(bào)線索發(fā)現(xiàn)、研究情報(bào)信息歸類的基礎(chǔ)性環(huán)節(jié),對(duì)于決策情報(bào)、競(jìng)爭(zhēng)情報(bào)及研究情報(bào)有重要的應(yīng)用價(jià)值,它是情報(bào)學(xué)的理論研究前沿,并朝著交叉學(xué)科的態(tài)勢(shì)發(fā)展[2]。

        2 相關(guān)研究工作及存在的問(wèn)題分析

        目前,國(guó)內(nèi)外學(xué)者在關(guān)鍵詞提取方面進(jìn)行了大量的研究與探索。歸納起來(lái),關(guān)鍵詞提取方法主要可分為四類:基于機(jī)器學(xué)習(xí)的方法、基于復(fù)雜網(wǎng)絡(luò)的方法、基于語(yǔ)義的方法和基于統(tǒng)計(jì)的方法。

        一是基于機(jī)器學(xué)習(xí)的方法。在大規(guī)模語(yǔ)料庫(kù)學(xué)習(xí)基礎(chǔ)之上,采用貝葉斯算法、支持向量機(jī)、最大熵模型以及決策樹等方法進(jìn)行訓(xùn)練,獲取相關(guān)模型特征,再利用構(gòu)建的模型進(jìn)行關(guān)鍵詞提取[3]。

        二是基于復(fù)雜網(wǎng)絡(luò)的方法。依據(jù)文本詞語(yǔ)的關(guān)系構(gòu)建候選特征詞復(fù)雜網(wǎng)絡(luò),計(jì)算以候選詞網(wǎng)絡(luò)節(jié)點(diǎn)度中心性、特征向量中心性和節(jié)點(diǎn)介數(shù)中心性為基礎(chǔ)的綜合特征值,提取一定閾值范圍的綜合特征值的候選特征詞作為關(guān)鍵詞。

        三是基于語(yǔ)義的方法。根據(jù)詞法分析對(duì)文本進(jìn)行自動(dòng)分詞與詞性標(biāo)注,然后依靠語(yǔ)義詞典和知識(shí)庫(kù)對(duì)切分的詞匯進(jìn)行語(yǔ)義標(biāo)注,在此基礎(chǔ)上分析詞匯在文本上下文中及詞匯間的語(yǔ)義關(guān)系,再利用復(fù)雜計(jì)算提取關(guān)鍵詞。

        四是基于統(tǒng)計(jì)的方法。根據(jù)文檔集詞語(yǔ)的統(tǒng)計(jì)信息來(lái)提取關(guān)鍵詞,最常用的基于統(tǒng)計(jì)的方法是詞頻—逆向文本頻率(TFIDF)方法。

        上述四種關(guān)鍵詞提取方法從不同的領(lǐng)域和角度進(jìn)行研究:基于機(jī)器學(xué)習(xí)的方法需要有人工標(biāo)注的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,構(gòu)建模型的完備性對(duì)訓(xùn)練語(yǔ)料的依賴性較大,若語(yǔ)料庫(kù)規(guī)模不足或人工標(biāo)注語(yǔ)料不夠準(zhǔn)確,將會(huì)導(dǎo)致提取的關(guān)鍵詞準(zhǔn)確性欠佳;基于復(fù)雜網(wǎng)絡(luò)的方法能夠較為準(zhǔn)確地提取文本關(guān)鍵詞,但依據(jù)詞匯的共現(xiàn)關(guān)系、概念同義關(guān)系、句法依存關(guān)系構(gòu)建詞語(yǔ)的網(wǎng)絡(luò)關(guān)系較為復(fù)雜,計(jì)算量很大,對(duì)于數(shù)量稍大的網(wǎng)絡(luò)文本時(shí)間效率過(guò)低,缺陷較為明顯;基于語(yǔ)義的方法在關(guān)鍵詞提取過(guò)程中融入了語(yǔ)義特征,實(shí)驗(yàn)效果較好,但該方法的實(shí)現(xiàn)需要背景知識(shí)庫(kù)的支持,且知識(shí)庫(kù)需要不斷更新和維護(hù);基于統(tǒng)計(jì)的方法關(guān)鍵詞提取算法相對(duì)簡(jiǎn)單,不需要語(yǔ)料庫(kù)訓(xùn)練,也不需要語(yǔ)義詞典和知識(shí)庫(kù)的支持,但準(zhǔn)確率和召回率相對(duì)較低。有一些研究者通過(guò)不同手段對(duì)TFIDF 方法進(jìn)行了改進(jìn),例如:李靜月考慮了中文文本結(jié)構(gòu)特征和詞語(yǔ)詞性特征對(duì)TFIDF算法進(jìn)行了改進(jìn),張建娥從計(jì)算詞語(yǔ)關(guān)聯(lián)度方面提出了《基于TFIDF 和詞語(yǔ)關(guān)聯(lián)度的中文關(guān)鍵詞提取方法》。這些改進(jìn)的統(tǒng)計(jì)方法在一定程度上提高了關(guān)鍵詞的提取精度。

        本文提出一種融合多元特征的中文網(wǎng)頁(yè)關(guān)鍵詞提取方法。該方法首先對(duì)網(wǎng)頁(yè)文本進(jìn)行分詞、詞性標(biāo)注,然后綜合計(jì)算出文本詞語(yǔ)的詞頻特征、詞性特征、詞長(zhǎng)特征、位置特征的統(tǒng)計(jì)信息,再利用同義詞詞典對(duì)同一文本候選關(guān)鍵詞中的高度同義詞進(jìn)行詞頻合并,并對(duì)鄰接組合詞生成進(jìn)行計(jì)算,最后按照綜合權(quán)值提取關(guān)鍵詞。該方法融合了詞語(yǔ)語(yǔ)義學(xué)和統(tǒng)計(jì)學(xué)多元特征,有效地彌補(bǔ)了單一統(tǒng)計(jì)方法在關(guān)鍵詞提取中的不足。實(shí)驗(yàn)結(jié)果顯示,該方法能顯著提高中文網(wǎng)頁(yè)關(guān)鍵詞的提取性能。

        3 關(guān)鍵詞提取方法

        3.1 整體框架

        本文關(guān)鍵詞提取方法的整體框架如圖1 所示,從圖中可以看出關(guān)鍵詞提取的思路包括:網(wǎng)頁(yè)預(yù)處理、統(tǒng)計(jì)特征、同義詞合并和組合詞生成,最后根據(jù)候選關(guān)鍵詞的綜合評(píng)分得到關(guān)鍵詞列表。

        圖1 整體框架圖

        3.2 網(wǎng)頁(yè)預(yù)處理

        3.2.1 網(wǎng)頁(yè)內(nèi)容抽取

        對(duì)于給定的網(wǎng)頁(yè)鏈接,首先利用爬蟲算法抓取網(wǎng)頁(yè)的HTML 半結(jié)構(gòu)化的文件,利用正則化規(guī)則對(duì)抓取的網(wǎng)頁(yè)進(jìn)行統(tǒng)一編碼,然后基于網(wǎng)頁(yè)結(jié)構(gòu)對(duì)網(wǎng)頁(yè)進(jìn)行去噪處理,即去除網(wǎng)頁(yè)中的導(dǎo)航條、廣告及版權(quán)等信息,最后抽取網(wǎng)頁(yè)標(biāo)題與正文信息以結(jié)構(gòu)化的方式保存。

        3.2.2 分詞與詞性標(biāo)注

        由于對(duì)網(wǎng)頁(yè)文本進(jìn)行分詞之后才能繼續(xù)關(guān)鍵詞提取的后續(xù)流程,所以分詞是網(wǎng)頁(yè)關(guān)鍵詞提取的基礎(chǔ)環(huán)節(jié),分詞質(zhì)量的優(yōu)劣直接影響到關(guān)鍵詞提取的準(zhǔn)確度。與英文文本相比,中文文本詞與詞之間沒(méi)有以空格符為分隔的語(yǔ)法特征,因此更為復(fù)雜。目前,國(guó)內(nèi)已經(jīng)出現(xiàn)了幾種成熟的中文分詞系統(tǒng),本文在進(jìn)行對(duì)比研究之后,選取中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的《漢語(yǔ)語(yǔ)法分析系統(tǒng)ICTCLAS》對(duì)抽取的網(wǎng)頁(yè)文本進(jìn)行分詞和詞性標(biāo)注,該分詞系統(tǒng)應(yīng)用廣泛且準(zhǔn)確率較高。

        3.2.3 停用詞過(guò)濾

        網(wǎng)頁(yè)中的關(guān)鍵詞基本上是由名詞、動(dòng)詞等有實(shí)際意義的詞匯組成。因此,我們?cè)趯?duì)抽取的網(wǎng)頁(yè)文本進(jìn)行分詞和詞性標(biāo)注之后,需要根據(jù)詞性對(duì)分詞結(jié)果進(jìn)行過(guò)濾,如利用算法過(guò)濾介詞、連詞、助詞等沒(méi)有實(shí)際意義的虛詞,只保留名詞、動(dòng)詞、形容詞和副詞等詞匯;然后再利用停用詞表對(duì)明顯不可能作為關(guān)鍵詞的停用詞語(yǔ)進(jìn)行第二次過(guò)濾,如“有”“這”“要”“我”“能”等,經(jīng)停用詞過(guò)濾后的詞匯稱為一級(jí)候選關(guān)鍵詞;最后統(tǒng)計(jì)候選關(guān)鍵詞集合中每一個(gè)詞匯在文檔中的頻率和位置等信息。

        3.3 特征選取及權(quán)重分配

        3.3.1 詞頻特征

        詞頻TF 是關(guān)鍵詞提取的一個(gè)重要特征,如果某個(gè)詞或短語(yǔ)在一篇文檔中出現(xiàn)的頻率越高,這個(gè)詞越有可能成為該文檔的關(guān)鍵詞[4]。詞頻權(quán)重通常由某個(gè)詞在某篇文檔中出現(xiàn)的次數(shù)表示,但由于文檔篇幅的長(zhǎng)短不一,導(dǎo)致關(guān)鍵詞的提取向長(zhǎng)文檔偏斜,因此,我們必須對(duì)詞頻特征進(jìn)行歸一化處理以分配合理的權(quán)重。根據(jù)詞頻特征計(jì)算文檔中詞條ti的權(quán)重Weight(freqti),公式如下:

        其中,TF(ti)表示詞條ti在文檔d 中出現(xiàn)的頻率;分母Max(TF(t1), TF (t2)…TF (tn))表示文檔d 中詞頻最大詞條的詞頻??梢钥闯觯琖eight(freqti)的值在0 和1 之間。

        3.3.2 詞性特征

        詞性特征表示一種淺層語(yǔ)言學(xué)知識(shí),該特征克服了采用傳統(tǒng)語(yǔ)言學(xué)方法的弊端,其詞性的獲取避免了對(duì)文本進(jìn)行復(fù)雜的語(yǔ)言學(xué)分析與標(biāo)注處理。中文網(wǎng)頁(yè)的關(guān)鍵詞通常集中在名詞、動(dòng)詞和形容詞等實(shí)詞之中。根據(jù)筆者大量的人工標(biāo)注抽取關(guān)鍵詞的實(shí)驗(yàn)統(tǒng)計(jì)分析,詞條ti詞性權(quán)重Weight(posti)設(shè)置的計(jì)算公式如下:

        3.3.3 詞長(zhǎng)特征

        詞語(yǔ)的語(yǔ)義也受到詞長(zhǎng)的影響,通常詞語(yǔ)長(zhǎng)度越長(zhǎng)表示的意思越具體,包含的語(yǔ)義信息更豐富,因此,長(zhǎng)度較長(zhǎng)詞語(yǔ)的成為關(guān)鍵詞的概率更大。但詞語(yǔ)長(zhǎng)度特征的權(quán)重并不是與其長(zhǎng)度成線性關(guān)系,在計(jì)算時(shí)需要做歸一化處理,詞條ti詞長(zhǎng)權(quán)重Weight(lenti)歸一化后的計(jì)算公式如下:

        其中,len(ti)表示詞條ti 的實(shí)際詞長(zhǎng),分母Max(len(t1), len(t2)…len(tn))表示文檔d 中詞條最長(zhǎng)詞的長(zhǎng)度,可以看出,Weight(lenti)的值在0 和1 之間。

        3.3.4 位置特征

        關(guān)鍵詞提取還有一個(gè)重要特征就是詞條在文檔中的位置,通常如果詞條出現(xiàn)在文檔的標(biāo)題、首段、尾段中,則其成為關(guān)鍵詞的概率較高。按照詞條在標(biāo)題、首段、末段、正文等位置分別賦予不同的權(quán)重,詞條ti的位置權(quán)重Weight(locti)計(jì)算公式如下:

        其中,loc(ti)表示詞條ti首次出現(xiàn)的次序,total_word表示文檔d 中詞條總數(shù),如果一個(gè)詞條多次出現(xiàn)在文檔中的不同位置則取所在位置中權(quán)重的最大值。

        3.4 同義詞合并

        3.4.1 《同義詞詞林?jǐn)U展版》簡(jiǎn)介

        《同義詞詞林?jǐn)U展版》是哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室對(duì)原版《同義詞詞林》進(jìn)行新詞擴(kuò)充、罕用詞剔除后而形成的一部漢語(yǔ)大詞表,它收錄了77 343 條詞語(yǔ)?!锻x詞詞林?jǐn)U展版》按樹形的層狀結(jié)構(gòu)組織所收錄的詞條,它具有5 級(jí)層結(jié)構(gòu),隨著層級(jí)的遞增,詞義刻畫更精細(xì),到了第5 層級(jí),每個(gè)分類包含的詞條數(shù)量已不大,多數(shù)分類已不可再分,只有一個(gè)詞語(yǔ),可以稱為原子節(jié)點(diǎn)或原子詞群?!锻x詞詞林?jǐn)U展版》中的每個(gè)詞語(yǔ)都有對(duì)應(yīng)的編碼,編碼是由5 層代碼和一位標(biāo)記碼共8 位構(gòu)成。第1 級(jí)用一位大寫英文字母表示;第2 級(jí)用一位小寫英文字母表示;第3 級(jí)用兩位十進(jìn)位數(shù)字表示;第4 級(jí)用一位大寫英文字母表示;第5 級(jí)用兩位十進(jìn)位數(shù)字表示。例:“Ae07C01=漁民 漁家 漁翁 漁夫 漁父 打魚郎”,其中,“Ae07C01=”是編碼,“漁民”“漁家”等是該編碼對(duì)應(yīng)的詞語(yǔ)。編碼自左至右按等級(jí)順序排列,編碼分支越靠右,詞語(yǔ)間的語(yǔ)義就越靠近。第8 位標(biāo)記符號(hào)有“=”“#”“@”3 種形式:“=”表示同義關(guān)系;“#”表示相關(guān)關(guān)系;“@”表示獨(dú)立關(guān)系,也就是該詞語(yǔ)無(wú)同義詞和相關(guān)詞[5]。

        3.4.2 同義詞合并

        在一篇網(wǎng)頁(yè)文檔中出現(xiàn)同義詞現(xiàn)象是很普遍的,即作者很可能選擇不同的詞語(yǔ)來(lái)表達(dá)相同的意思,如“保護(hù)”和“保衛(wèi)”、“教室”和“課堂”[6]。這些用不同詞語(yǔ)表達(dá)同一概念的現(xiàn)象可能會(huì)造成關(guān)鍵詞輸出結(jié)果的冗余或遺漏,影響到關(guān)鍵詞提取質(zhì)量。由于《同義詞詞林?jǐn)U展版》知識(shí)庫(kù)具有豐富的同義詞詞庫(kù),我們可以考慮利用《同義詞詞林?jǐn)U展版》詞匯間的同義關(guān)系對(duì)文檔中同義詞進(jìn)行合并。具體做法如下:對(duì)于網(wǎng)頁(yè)文檔中的每個(gè)一級(jí)候選關(guān)鍵詞在《同義詞詞林?jǐn)U展版》中找到其編碼第8 位標(biāo)記為“=”的同義關(guān)系詞匯組,利用該詞及其同義詞組遍歷一級(jí)候選關(guān)鍵詞序列,取序列中詞頻最高的詞匯作為該同義詞組的代表詞,并對(duì)文檔中所有該詞的同義一級(jí)候選詞頻進(jìn)行合并計(jì)算,將頻數(shù)和作為代表詞詞頻。對(duì)一級(jí)候選關(guān)鍵詞序列進(jìn)行同義詞合并后就形成了二級(jí)候選關(guān)鍵詞序列

        3.5 基于綜合特征的關(guān)鍵詞評(píng)分

        在對(duì)網(wǎng)頁(yè)文檔中的一級(jí)候選關(guān)鍵詞進(jìn)行同義詞合并處理后得到二級(jí)候選關(guān)鍵詞序列,針對(duì)二級(jí)候選關(guān)鍵詞序列中的每一個(gè)詞匯根據(jù)公式(1)、(2)、(3)、(4)設(shè)計(jì)一個(gè)詞匯綜合特征關(guān)鍵詞評(píng)分公式,如公式(5)所示:

        其中,Scorei(ti)表示二級(jí)候選關(guān)鍵詞條ti在文檔中的關(guān)鍵詞評(píng)分,A、B、C、D 為各特征權(quán)重的比例因子,用以調(diào)節(jié)不同特征權(quán)重在關(guān)鍵詞綜合評(píng)分中的貢獻(xiàn)度。

        3.6 組合詞生成

        由于目前的分詞算法很難分辨詞匯在文檔中的上下文語(yǔ)境關(guān)系,所以對(duì)文檔進(jìn)行分詞后經(jīng)常會(huì)出現(xiàn)完整詞匯被割裂的現(xiàn)象(例:“傳染病”被切分為“傳染”和“病”)或?qū)⒙?lián)系緊密的詞拆分成兩部分(如:“政府工作報(bào)告”被拆分成“政府”“工作”和“報(bào)告”)。因此,我們?cè)陉P(guān)鍵詞提取時(shí)必須考慮詞匯的特定語(yǔ)境及其完整性,有必要對(duì)經(jīng)過(guò)切分的詞匯進(jìn)行組合,從而得到一個(gè)表達(dá)語(yǔ)義更為完整和豐富的組合詞。

        3.6.1 組合詞生成規(guī)則

        本文在借鑒漢語(yǔ)言搭配相關(guān)研究成果的基礎(chǔ)上,通過(guò)大量實(shí)驗(yàn)得到組合詞生成的規(guī)則。由于3 詞以上組合詞出現(xiàn)的概率較低,所以本文在詞性組合規(guī)則中僅考慮2—3 詞的組合,3 詞以上的組合詞僅用前兩條規(guī)則限制,組合詞的具體生成規(guī)則如下:

        (1)詞語(yǔ)相鄰,且同時(shí)在文檔中出現(xiàn)多次;

        (2)組合詞至少在文檔中出現(xiàn)多次,以防止組合詞的偶然性;

        (3)兩組合詞的詞性組合必須符合“形容詞+名詞”“動(dòng)詞+名詞”“動(dòng)詞+副詞”“名詞+動(dòng)詞”“名詞+名詞”;

        (4)三組合詞的詞性組合必須符合“名詞+形容詞+名詞”“名詞+名詞+名詞”“動(dòng)詞+名詞+名詞”“名詞+名詞+動(dòng)詞”“名詞+動(dòng)詞+名詞”“形容詞+名詞+動(dòng)詞”

        3.6.2 組合詞的權(quán)重與關(guān)鍵詞評(píng)分

        組合詞的特征權(quán)重與組配的二級(jí)候選關(guān)鍵詞的詞頻和組合詞的詞頻有關(guān),假設(shè)組合詞t 是由n 個(gè)二級(jí)候選關(guān)鍵詞(t1、t2、…tn)組合成的,t 及其候選關(guān)鍵詞在同一文檔中的詞頻分別為a、a1、a2、…an,則組合詞的特征權(quán)重計(jì)算公式如下:

        得到了組合詞的特征權(quán)重后,再結(jié)合基于綜合特征的關(guān)鍵詞的評(píng)分方法可以得到組合的關(guān)鍵詞評(píng)分公式如下:

        其中,Score(t)表示組合詞t 的關(guān)鍵詞評(píng)分,E 表示調(diào)節(jié)因子表示組合詞的特征權(quán)重表示n 個(gè)二級(jí)候選關(guān)鍵詞綜合特征評(píng)分的算術(shù)平均值。

        3.7 關(guān)鍵詞生成

        關(guān)鍵詞提取的基本流程是:首先對(duì)給定的網(wǎng)頁(yè)進(jìn)行預(yù)處理形成一級(jí)候選關(guān)鍵詞;其次對(duì)一級(jí)關(guān)鍵詞進(jìn)行同義詞合并、基于綜合特征權(quán)重的關(guān)鍵詞評(píng)分后形成二級(jí)候選關(guān)鍵詞;然后對(duì)二級(jí)候選關(guān)鍵詞進(jìn)行組合詞生成;再對(duì)二級(jí)關(guān)鍵詞及組合詞按關(guān)鍵詞評(píng)分的降序排列,按組合詞從屬關(guān)系過(guò)濾(因?yàn)樵?jí)候選關(guān)鍵詞與其組合詞存在從屬關(guān)系,例如:組合詞“精準(zhǔn)扶貧”是由二級(jí)候選詞“精準(zhǔn)”與“扶貧”組合生成的),過(guò)濾是按照排列次序原則,也就是存在從屬關(guān)系的語(yǔ)匯誰(shuí)靠后過(guò)濾掉誰(shuí);最后按照用戶指定關(guān)鍵詞的數(shù)目取前N 個(gè)作為最終提取的關(guān)鍵詞。

        4 實(shí)驗(yàn)與分析

        為了驗(yàn)證本文所提出的關(guān)鍵詞提取算法的有效性,筆者利用實(shí)驗(yàn)進(jìn)行驗(yàn)證。為了保證實(shí)驗(yàn)數(shù)據(jù)的隨機(jī)性,我們隨機(jī)從新浪、搜狐等8 個(gè)新聞?lì)惥W(wǎng)站中抽取200 篇中文新聞網(wǎng)頁(yè),分別利用傳統(tǒng)的TF-IDF 方法和本文方法進(jìn)行網(wǎng)頁(yè)關(guān)鍵詞提取,將人工標(biāo)注的關(guān)鍵詞與算法自動(dòng)提取的關(guān)鍵詞進(jìn)行對(duì)比,得到關(guān)鍵詞提取效率結(jié)果。

        4.1 實(shí)驗(yàn)方法

        實(shí)驗(yàn)按照以下的流程進(jìn)行:

        (1)利用HtmlParser 編寫的包裝器提取樣本網(wǎng)頁(yè)的標(biāo)題和正文,利用中科院開(kāi)發(fā)的ICTCLAS 分詞系統(tǒng)對(duì)于提取的結(jié)構(gòu)化網(wǎng)頁(yè)信息進(jìn)行分詞及詞性標(biāo)注。

        (2)利用停用詞表去除文中的停用詞和標(biāo)點(diǎn),并統(tǒng)計(jì)詞的相關(guān)特征得到一級(jí)候選關(guān)鍵詞序列。

        (3)利用《同義詞詞林?jǐn)U展版》知識(shí)庫(kù)對(duì)一級(jí)候選關(guān)鍵詞序列進(jìn)行同義詞合并形成二級(jí)候選關(guān)鍵詞序列。

        (4)利用組合詞規(guī)則對(duì)二級(jí)候選關(guān)鍵詞進(jìn)行組合詞生成,分別利用公式5 和公式7 計(jì)算二級(jí)候選關(guān)鍵詞和組合詞的關(guān)鍵詞評(píng)分,經(jīng)過(guò)多次實(shí)驗(yàn)測(cè)試和調(diào)整,基于綜合特征的關(guān)鍵詞評(píng)分公式(即公式5)中的比例因子分別設(shè)定為:A=0.4、B=0.1、C=0.2、D=0.15,組合詞關(guān)鍵詞評(píng)分公式中(即公式7)的調(diào)節(jié)因子E=0.15。這樣設(shè)置突出了詞頻的貢獻(xiàn),因?yàn)楦哳l詞成為關(guān)鍵詞的可能性更大一些。

        (5)將二級(jí)候選關(guān)鍵詞與組合詞按關(guān)鍵詞評(píng)分降序排列,再進(jìn)行詞匯從屬關(guān)系過(guò)濾,取前N 個(gè)詞作為最終關(guān)鍵詞。

        以http://www.sohu.com/a/301634727_148781?_f=index_chan08news_3 搜狐網(wǎng)頁(yè)為例,文章標(biāo)題為“政府工作報(bào)告修改83 處 新增4 處‘改革’”,主要介紹了國(guó)務(wù)院研究室副主任郭瑋解讀2019 年政府工作報(bào)告修訂情況[7]。由本文算法提取的前5 個(gè)關(guān)鍵詞為“修改”“政府工作報(bào)告”“養(yǎng)老”“房地產(chǎn)”“保障”。由于分詞系統(tǒng)的局限性,傳統(tǒng)的關(guān)鍵詞提取算法不能提取出如“政府工作報(bào)告”這種組合關(guān)鍵詞,可能會(huì)提取出“政府”“工作”“報(bào)告”等,顯然沒(méi)有“政府工作報(bào)告”表達(dá)的意義完整和豐富。

        4.2 評(píng)價(jià)標(biāo)準(zhǔn)

        實(shí)驗(yàn)中采用查準(zhǔn)率(Precision)、查全率(Recall)和F測(cè)度值3 項(xiàng)指標(biāo)對(duì)關(guān)鍵詞提取算法的有效性進(jìn)行評(píng)價(jià)。為了理解以下實(shí)驗(yàn)中公式的意義,首先定義2 個(gè)變量,A 表示人工提取的關(guān)鍵詞,B 表示算法自動(dòng)提取的關(guān)鍵詞。

        (1)查準(zhǔn)率(Precision)指算法自動(dòng)提取和人工提取均判斷為關(guān)鍵詞的數(shù)量占整個(gè)自動(dòng)提取關(guān)鍵詞數(shù)量的比率[8]。它反映了關(guān)鍵詞提取算法抽取關(guān)鍵詞的準(zhǔn)確度。計(jì)算公式如下:

        (2)查全率(Recall)指算法自動(dòng)提取和人工提取均判斷為關(guān)鍵詞數(shù)量占整個(gè)人工提取關(guān)鍵詞數(shù)量的比率,它反映了關(guān)鍵詞提取算法發(fā)現(xiàn)關(guān)鍵詞的能力,計(jì)算公式如下:

        (3)F 測(cè)度值(F-measure)是查準(zhǔn)率和查全率的調(diào)和平均值。它反映了關(guān)鍵詞提取算法提取關(guān)鍵詞的綜合能力,計(jì)算公式如下:

        4.3 實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)中分別使用了傳統(tǒng)的TF-IDF 算法和本文的算法統(tǒng)計(jì)了抽取不同關(guān)鍵詞個(gè)數(shù)情況下的查準(zhǔn)率、查全率和F測(cè)量值。實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表1 所示:

        表1 兩種算法在不同關(guān)鍵詞個(gè)數(shù)情況下提取性能對(duì)比

        從實(shí)驗(yàn)結(jié)果可以看出,本文算法的查準(zhǔn)率、查全率和F 測(cè)度值都要優(yōu)于傳統(tǒng)的TF-IDF 算法。本文算法既考慮了詞頻、詞長(zhǎng)等多種特征的整合,又考慮了同義詞對(duì)關(guān)鍵詞提取的影響,另外組合詞的生成也有利于使關(guān)鍵詞的語(yǔ)義更豐富;而傳統(tǒng)的TF-IDF 算法僅考慮詞頻特征及逆文本頻率指數(shù)對(duì)關(guān)鍵詞提取的影響,考慮的特征偏少,性能效果不如本文的算法。

        圖2 兩種算法的查準(zhǔn)率隨關(guān)鍵詞個(gè)數(shù)變化圖

        圖2 表示兩種算法的查準(zhǔn)率隨關(guān)鍵詞個(gè)數(shù)變化的趨勢(shì)。從圖中可以看出,本文算法的查準(zhǔn)率要優(yōu)于傳統(tǒng)的TF-IDF算法,兩種算法的查準(zhǔn)率都呈現(xiàn)隨關(guān)鍵詞個(gè)數(shù)增加而遞減的趨勢(shì),這是因?yàn)殛P(guān)鍵詞個(gè)數(shù)較少時(shí),其綜合權(quán)值越靠前,被正確提取的可能性就越大,因此查準(zhǔn)率越高。

        圖3 兩種算法的查全率隨關(guān)鍵詞個(gè)數(shù)變化圖

        圖3 表示兩種算法的查全率隨關(guān)鍵詞個(gè)數(shù)變化的趨勢(shì)。從圖中可以看出,本文算法的查全率要優(yōu)于傳統(tǒng)的TF-IDF 算法,兩種算法的查全率都呈現(xiàn)隨關(guān)鍵詞個(gè)數(shù)增加而遞增的趨勢(shì),這是因?yàn)樗£P(guān)鍵詞個(gè)數(shù)較少時(shí),部分關(guān)鍵詞的權(quán)值排序靠后不能被提取,因此查全率越低。

        圖4 兩種算法的F 測(cè)度值隨關(guān)鍵詞個(gè)數(shù)變化圖

        圖4 勾勒出了兩種算法的F 測(cè)量值隨關(guān)鍵詞個(gè)數(shù)變化的趨勢(shì)。從圖中可以看出,本文算法的F 測(cè)量值明顯高于傳統(tǒng)的TF-IDF 算法,兩種算法的F 測(cè)量值都隨關(guān)鍵詞個(gè)數(shù)的增加呈現(xiàn)先增后減的趨勢(shì),在關(guān)鍵詞個(gè)數(shù)為5 時(shí)達(dá)到最大。

        5 結(jié)論

        本文采取了基于多元特征并組合詞生成的關(guān)鍵詞提取算法。實(shí)驗(yàn)結(jié)果表明:本文算法明顯優(yōu)于傳統(tǒng)的TF-IDF 算法,能夠抽取到令人滿意的關(guān)鍵詞。但是,本文所提出的關(guān)鍵詞提取新算法只是初步嘗試和探索,還存在不足和需要優(yōu)化的地方:①關(guān)鍵詞綜合評(píng)分公式中的比例因子和組合關(guān)鍵詞評(píng)分公式中的調(diào)節(jié)因子是實(shí)驗(yàn)測(cè)試總結(jié)出來(lái)的,缺乏權(quán)威性,可能會(huì)對(duì)提取精度有所影響;②對(duì)于分詞系統(tǒng)不能正確切分的未登錄詞組合算法在關(guān)鍵詞提取時(shí)可能存在遺漏。下一步的研究方向是修正算法進(jìn)一步提升關(guān)鍵詞提取效率和精度,注重未登錄詞的識(shí)別與提取研究,切實(shí)體現(xiàn)關(guān)鍵詞提取技術(shù)在決策情報(bào)、競(jìng)爭(zhēng)情報(bào)和研究情報(bào)監(jiān)測(cè)中的作用。

        (來(lái)稿時(shí)間:2019 年5 月)

        猜你喜歡
        詞頻分詞網(wǎng)頁(yè)
        基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        結(jié)巴分詞在詞云中的應(yīng)用
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        值得重視的分詞的特殊用法
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        詞頻,一部隱秘的歷史
        云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
        10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        亚洲一区二区三区免费av在线| 人妻体体内射精一区二区| 日韩人妻无码一区二区三区| 亚洲一区二区三区成人| 麻豆精品久久久久久久99蜜桃 | 国产激情电影综合在线看 | 欧美精品一区二区精品久久| 久久久午夜精品福利内容| 免费毛片性天堂| 一区二区三区免费视频网站| 少妇太爽高潮在线播放| 永久免费毛片在线播放| 成人妇女免费播放久久久| 欧洲日韩视频二区在线| 少妇高潮呻吟求饶视频网站| 午夜精品久久久久久久久| 亚洲av久久久噜噜噜噜| 免费人成在线观看视频播放| 一本无码人妻在中文字幕| 中文字幕人成乱码中文| 日韩精品 在线 国产 丝袜| 久久久天堂国产精品女人| 久久中文字幕日韩无码视频| 青青草免费视频一区二区| 亚洲日韩精品无码av海量| 亚洲经典三级| 亚洲国产精品久久久久婷婷软件| 日本一区二区三区四区啪啪啪| 特黄做受又粗又长又大又硬| 秒播无码国产在线观看| 久久麻豆精亚洲av品国产精品| 国产亚洲精品国产精品| 一色桃子中文字幕人妻熟女作品 | 最新国产熟女资源自拍| 亚洲午夜无码av毛片久久| 国产丰满老熟女重口对白| 一级无码啪啪| 国产人妖av在线观看| 日本中国内射bbxx| 99久久久无码国产精品9| 91在线观看国产自拍|