胡冰瑤 古麗拉·阿東別克
(新疆大學(xué)信息科學(xué)與工程學(xué)院 新疆 烏魯木齊 830046)
哈薩克文網(wǎng)絡(luò)熱點(diǎn)關(guān)鍵詞提取方法研究
胡冰瑤 古麗拉·阿東別克
(新疆大學(xué)信息科學(xué)與工程學(xué)院 新疆 烏魯木齊 830046)
(新疆多語種信息技術(shù)實(shí)驗(yàn)室 新疆 烏魯木齊 830046)
針對目前少數(shù)民族語言方面熱點(diǎn)關(guān)鍵詞提取算法研究較少,而且精度和效率不高這一問題,提出一種哈薩克文網(wǎng)絡(luò)熱點(diǎn)關(guān)鍵詞提取方法。將預(yù)處理后得到的文本利用多重因子加權(quán)改進(jìn)的TF-IDF算法進(jìn)行關(guān)鍵詞提取,后續(xù)根據(jù)其位置和頻率信息進(jìn)行關(guān)鍵詞組配,得到候選熱點(diǎn)關(guān)鍵詞集合;結(jié)合TF-PDF算法和媒體關(guān)注度思想,構(gòu)造關(guān)鍵詞熱度評分標(biāo)準(zhǔn)公式KHD(Keywords Hot Degree),實(shí)現(xiàn)對熱點(diǎn)關(guān)鍵詞的提取。實(shí)驗(yàn)結(jié)果證明此方法可行有效,并且在提取精度和效率上都有顯著提高。
哈薩克文 詞頻 文檔頻率 媒體關(guān)注度 熱點(diǎn)關(guān)鍵詞
近年來,隨著互聯(lián)網(wǎng)的普及,我們進(jìn)入了一個信息爆炸的大數(shù)據(jù)時代。新疆是一個多民族聚居的省份,在這里多種語言被廣泛使用。哈薩克語作為新疆幾大主流語言之一,其使用人數(shù)也在逐年上升,哈薩克文網(wǎng)頁數(shù)量的增長速度也越來越快。如何在海量的哈薩克文網(wǎng)絡(luò)文本中快速準(zhǔn)確地找到人們感興趣的熱點(diǎn)信息成為了關(guān)注的焦點(diǎn)。本文探討如何對互聯(lián)網(wǎng)上的海量哈薩克文網(wǎng)頁信息進(jìn)行分析、處理,從而獲取近期流行熱點(diǎn)關(guān)鍵詞的相關(guān)技術(shù)問題。
1.1 關(guān)鍵詞提取
就目前來看,國內(nèi)外相繼提出了多種關(guān)鍵詞自動提取方法,主要有3類:基于語義;基于機(jī)器學(xué)習(xí);基于統(tǒng)計。如王立霞等人在關(guān)鍵詞提取過程中將詞語語義特征融入,利用居間度密度來度量語義關(guān)鍵程度[1]。王錦波等人采用樸素貝葉斯模型對標(biāo)記好關(guān)鍵詞的文本進(jìn)行訓(xùn)練,獲得各個特征項(xiàng)出現(xiàn)的概率,用來提取文本的關(guān)鍵詞[2]。統(tǒng)計方法上,林滿山等人使用多線程多重因子加權(quán)的文本關(guān)鍵詞提取算法,提高了關(guān)鍵詞的提取精度[3]。
1.2 熱度計算
關(guān)于熱度計算,李渝勤等人將候選短語分為命名實(shí)體和非命名實(shí)體串,通過基礎(chǔ)權(quán)值和波動權(quán)值來綜合評估候選短語的熱度[4]。翟東海等人采用互信息作為熱點(diǎn)詞突發(fā)性的度量手段,使用類間離散度作為調(diào)節(jié)因子構(gòu)建突發(fā)性度量公式來提取熱點(diǎn)詞[5]。程肖對傳統(tǒng)的TF-PDF算法進(jìn)行了改進(jìn),取得了一定的效果,但會出現(xiàn)非熱點(diǎn)的高頻詞權(quán)值過高的問題[6]。
1.3 本文方法
哈薩克語屬于黏著語類型,跟漢語有很大不同,但與英語有一定的相似之處,每個詞之間都以空格或者標(biāo)點(diǎn)符號隔開,而且都是由詞干和詞綴組成,所以哈薩克文在文本預(yù)處理時必須進(jìn)行詞干提取。由于哈薩克文的基礎(chǔ)研究還不是特別成熟,還沒有開發(fā)出類似中文分詞器的工具,因此本文是利用空格和標(biāo)點(diǎn)符號對詞進(jìn)行切分。這種切分方法可能會出現(xiàn)詞語分離的現(xiàn)象,故本文在關(guān)鍵詞提取后又進(jìn)行了組配工作,盡可能減少了詞語分離。
經(jīng)過預(yù)處理后的語料中仍然會存在大量的對文章主題意義不大的詞,而使用TF-PDF算法進(jìn)行詞語熱度計算時對詞頻的依賴程度又比較高,大量高頻出現(xiàn)且本身意義不大的詞會大大降低該算法的正確率,效果不理想。所以本文在結(jié)合哈薩克文的特點(diǎn)及其研究現(xiàn)狀的基礎(chǔ)上,先選擇對預(yù)處理過的網(wǎng)絡(luò)文本語料進(jìn)行關(guān)鍵詞的提取和組配,得到候選熱點(diǎn)關(guān)鍵詞集。這樣在過濾大量非關(guān)鍵的高頻詞的同時,又減少了后續(xù)工作的計算量;后續(xù)在傳統(tǒng)TF-PDF算法的基礎(chǔ)上結(jié)合媒體關(guān)注度的思想對詞集中的候選熱點(diǎn)關(guān)鍵詞進(jìn)行熱度計算,實(shí)現(xiàn)熱點(diǎn)關(guān)鍵詞的提取。實(shí)驗(yàn)結(jié)果證明該算法可行有效,在提取準(zhǔn)確率和時間效率上都有顯著提高。
2.1 數(shù)據(jù)獲取及預(yù)處理
本文通過網(wǎng)絡(luò)爬蟲對多個哈薩克文新聞網(wǎng)站進(jìn)行抓取來獲得真實(shí)新聞?wù)Z料。由于網(wǎng)頁中存在大量噪音信息,必須對網(wǎng)頁進(jìn)行正文抽取,后續(xù)對抽取的正文文本進(jìn)行位置標(biāo)注、分詞、詞干提取、詞性標(biāo)注、停用詞過濾等預(yù)處理,得到候選關(guān)鍵詞集合。
2.2 關(guān)鍵詞提取
傳統(tǒng)的TF-IDF算法是由Salton和McGill針對向量空間信息檢索樣例提出的一種用來表示文本特征的方法[7]。前人運(yùn)用傳統(tǒng)TF-IDF權(quán)重計算公式提取關(guān)鍵詞有一定的效果,但是此方法還存在一些問題,如:
(1) 同一個候選關(guān)鍵詞wi在長文檔中可能會比短文檔有更高的詞頻,從而偏向長文檔。
(2) 詞條出現(xiàn)在文檔的不同位置時,其重要程度也是不一樣的。
(3) 傳統(tǒng)方法沒有對候選詞詞性進(jìn)行考慮,通過查閱文獻(xiàn)可知,在總數(shù)量上,名詞和包含名詞性成分的關(guān)鍵詞占了絕大部分[8],因此需要對不同詞性的候選詞賦予不同的權(quán)重。
針對上述問題,本文在傳統(tǒng)的TF-IDF算法的基礎(chǔ)上,對其進(jìn)行多重因子綜合加權(quán)后得到了一個新的權(quán)重公式Score(wi),利用此公式來計算候選關(guān)鍵詞的權(quán)值。
2.2.1 歸一化處理
不管重要與否,同一個候選關(guān)鍵詞wi在長文檔中可能會比短文檔有更高的詞頻,為防止它偏向長的文檔,須進(jìn)行歸一化處理。下面是比較常用的一種歸一化處理的TF-IDF公式,如式(1)所示:
(1)
其中,w(ti,d)為詞ti在文本d中的權(quán)重,而tf(ti,d)為詞ti在文本d中的詞頻,N為文本集中文本的個數(shù),nti是詞ti在文本集中出現(xiàn)詞ti的文本個數(shù),分母為歸一化因子。
2.2.2 位置加權(quán)
除了TF-IDF值,候選關(guān)鍵詞的重要程度還受其出現(xiàn)位置的影響。由于不同位置的詞對文本的作用是不一樣的。因此,對于不同位置的詞應(yīng)該進(jìn)行加權(quán)處理。位置權(quán)重設(shè)為αti,其值如式(2)所示:
(2)
其中,各分段的系數(shù)需多次實(shí)驗(yàn)進(jìn)行調(diào)節(jié),以達(dá)到較好的效果。
設(shè)Sti為該詞在相應(yīng)位置出現(xiàn)的次數(shù),加入了位置權(quán)重后的詞權(quán)重計算如式(3)所示:
(3)
2.2.3 詞性加權(quán)
由于不同詞性的詞語在表達(dá)文本信息能力方面重要性不同,本文引入了P(wi)來表示詞語的詞性權(quán)重系數(shù),通過多次實(shí)驗(yàn),規(guī)定名詞的權(quán)重系數(shù)P(wi)=2.5,動詞和形容詞的權(quán)重系數(shù)P(wi)=1,其他詞性的權(quán)重系數(shù)為0。
2.2.4 綜合加權(quán)
結(jié)合式(1)-式(3)及詞性系數(shù)P(wi),將新聞文檔中任意候選關(guān)鍵詞wi,進(jìn)行綜合加權(quán),權(quán)值函數(shù)如式(4)所示:
Score(wi)=w(ti,d)×Loc(wi)×P(wi)
(4)
利用式(4)計算得到每一個候選關(guān)鍵詞的權(quán)重,該權(quán)重即候選關(guān)鍵詞重要性和代表文檔能力。
2.2.5 關(guān)鍵詞組配
在新聞網(wǎng)頁中一些關(guān)鍵詞通常連在一起,但在分詞過程中被切分,導(dǎo)致其不能完整表示其原來的意義,所以本文根據(jù)候選關(guān)鍵詞在文中出現(xiàn)的位置和頻率情況對其進(jìn)行了組配。
組配過程如下:
1) 根據(jù)綜合加權(quán)公式計算所有候選關(guān)鍵詞的評分,選出每篇文檔評分最高的10個詞語作為組配關(guān)鍵詞的初始集合。
2) 由于在分詞過程中已經(jīng)對每個詞進(jìn)行了位置標(biāo)注并以其第一次出現(xiàn)時的順序編號,此步驟我們對初始集合里的候選關(guān)鍵詞進(jìn)行編號匹配,規(guī)則為:編號相鄰的進(jìn)行組合,小號在前,大號在后。如兩個號相鄰組成二元詞,三個編號相鄰則組成三元詞,依次類推。
3) 對新組成的詞組,在本篇文檔中進(jìn)行掃描,統(tǒng)計其頻次,大于閾值S時,我們認(rèn)為這一詞組組配成功的概率較大,將其取出。此處閾值S的取值為多次實(shí)驗(yàn)后確定。
4) 利用式(4)計算組配成功的候選關(guān)鍵詞的權(quán)值,將一元候選關(guān)鍵詞與新組配的多元候選關(guān)鍵詞按權(quán)值高低排序,取每篇文檔權(quán)值最高的前10個詞作為此文檔正式抽取的關(guān)鍵詞。
關(guān)鍵詞提取模塊,本文改進(jìn)了傳統(tǒng)的TF-IDF方法,先進(jìn)行歸一化處理,再引入位置因子和詞性因子進(jìn)行綜合加權(quán)計算,后續(xù)根據(jù)其位置和頻率信息進(jìn)行了關(guān)鍵詞組配,得到正式的關(guān)鍵詞。經(jīng)過關(guān)鍵詞提取后的文本組成了候選熱點(diǎn)關(guān)鍵詞集,過濾掉了大量非關(guān)鍵的高頻詞,為后續(xù)熱點(diǎn)關(guān)鍵詞提取準(zhǔn)確率和整體運(yùn)算效率的提高打下了基礎(chǔ)。
2.3 熱度計算
2.3.1 傳統(tǒng)TF-PDF算法
TF-PDF算法是Bun和Ishizuka提出的,其中心思想是一個熱點(diǎn)新聞話題必然會被多篇新聞報道,并且關(guān)于這個話題的新聞報道頻度和數(shù)量都相對較高[9]。
傳統(tǒng)的TF-PDF算法中,某個渠道詞匯的權(quán)重與它在該渠道出現(xiàn)的頻率呈線性比,與該渠道包含該詞匯的文檔比率呈指數(shù)比,詞匯的總權(quán)重為其在每個渠道的權(quán)重之和,如下所示:
(5)
(6)其中:Wj表示詞匯j的權(quán)重;Nc表示渠道C中文檔的總數(shù)量;njc表示詞匯j所在渠道包含的文檔數(shù)量;Fjc表示詞匯j在渠道C出現(xiàn)的頻率;D表示渠道的數(shù)量;K表示一個渠道詞匯的總數(shù)量。
2.3.2 本文熱度計算方法
文獻(xiàn)[10]提出了基于話題媒體關(guān)注度的計算方法。簡要地說,如果一個新聞話題在單個網(wǎng)站中相關(guān)新聞越多,說明此話題受到這個網(wǎng)站的關(guān)注程度就越高;如果一個新聞話題被越多網(wǎng)站報道,那這個話題被網(wǎng)絡(luò)媒體關(guān)注的程度越高。
結(jié)合TF-PDF算法和話題媒體關(guān)注度的思想,本文構(gòu)造了關(guān)鍵詞熱度公式KHD(Keywords Hot Degree),來定量地描述關(guān)鍵詞受關(guān)注的程度。影響關(guān)鍵詞熱度的因素主要有兩點(diǎn):關(guān)鍵詞相關(guān)文檔數(shù)目和詞頻。關(guān)鍵詞的熱度與其出現(xiàn)的頻度及其相關(guān)的文檔數(shù)成正比。關(guān)鍵詞熱越高,說明用戶對該關(guān)鍵詞的興趣越大,越容易形成熱點(diǎn)關(guān)鍵詞。
改進(jìn)后的計算公式如式下所示:
(7)
(8)其中,KHDi為關(guān)鍵詞i的熱度;TF為候選關(guān)鍵詞的詞頻;N是文檔總數(shù);Di是關(guān)鍵詞i的相關(guān)文檔數(shù)目;|Di|表示關(guān)鍵詞i的標(biāo)準(zhǔn)頻度,C為該文檔中的關(guān)鍵詞總數(shù)。
熱度計算模塊,使用式(7)、式(8)對候選熱點(diǎn)關(guān)鍵詞進(jìn)行計算,選取權(quán)值排名前X的候選詞條作為熱點(diǎn)關(guān)鍵詞。
3.1 實(shí)現(xiàn)流程
本文的實(shí)現(xiàn)流程如圖1所示。
圖1 實(shí)現(xiàn)流程圖
3.2 實(shí)驗(yàn)數(shù)據(jù)
本文選取了一個包含2526篇文檔的測試集來檢測本文方法的有效性。測試集中的文檔是利用網(wǎng)絡(luò)爬蟲對多個哈語版新聞網(wǎng)站進(jìn)行爬取獲得的,時間段為2015年5月1日-15日。
3.3 實(shí)驗(yàn)結(jié)果與分析
3.3.1 關(guān)鍵詞提取結(jié)果分析
此部分我們采用了準(zhǔn)確率、召回率、F-measure三項(xiàng)指標(biāo)來對實(shí)驗(yàn)結(jié)果進(jìn)行度量。將提取結(jié)果與文章中擬定好的關(guān)鍵詞進(jìn)行比較,此過程有精確匹配和近似匹配兩種方式。其中近似匹配,就是相似的或存在包含關(guān)系的詞語之間我們認(rèn)為其可以匹配。
本文選用單獨(dú)基于詞頻TF和傳統(tǒng)TF-IDF這兩種方法作為基準(zhǔn)方法進(jìn)行哈薩克文關(guān)鍵詞提取對照性實(shí)驗(yàn)。選取5個關(guān)鍵詞時,實(shí)驗(yàn)結(jié)果見表1所示。
表1 基準(zhǔn)方法和本文方法實(shí)驗(yàn)結(jié)果
經(jīng)過多次實(shí)驗(yàn)比對發(fā)現(xiàn),對關(guān)鍵詞提取結(jié)果進(jìn)行近似匹配的評價更有實(shí)際意義。三種方法在近似匹配比較下的結(jié)果分析柱狀圖,如圖2所示。
圖2 近似匹配結(jié)果分析
從表1和圖2的統(tǒng)計結(jié)果可以看出,經(jīng)過改進(jìn)后的TF-IDF算法不管是精確匹配還是近似匹配,在查準(zhǔn)率、召回率、F-measure上都高于基準(zhǔn)算法。另外每篇文檔關(guān)鍵詞提取個數(shù)對應(yīng)的準(zhǔn)確率也做了統(tǒng)計,當(dāng)關(guān)鍵詞提取個數(shù)為10個時,準(zhǔn)確率達(dá)到了95.8%,證明采用每篇文章權(quán)值排名靠前的10個詞來代替原文章,作為后續(xù)熱度計算的測試集合這一方法是可行的,如表2所示。
表2 不同關(guān)鍵詞提取個數(shù)對應(yīng)的查準(zhǔn)率
3.3.2 熱點(diǎn)關(guān)鍵詞提取結(jié)果分析
此部分選用單獨(dú)使用改進(jìn)的TF-PDF算法來進(jìn)行熱點(diǎn)關(guān)鍵詞提取這一方法作為對照實(shí)驗(yàn)。本文采用的是將兩種算法進(jìn)行結(jié)合的方法,先進(jìn)行關(guān)鍵詞提取再進(jìn)行熱度計算,在關(guān)鍵詞提取階段采用了基于多重因子加權(quán)的TF-IDF算法,進(jìn)行過關(guān)鍵詞提取后,由每篇文章權(quán)值排名靠前的10個詞來代替原文章,作為后續(xù)熱度計算的測試集合;熱度計算階段結(jié)合了TF-PDF算法和媒體關(guān)注度的思想構(gòu)造了關(guān)鍵詞熱度評分公式KHD,實(shí)現(xiàn)對熱點(diǎn)關(guān)鍵詞的提取,此處計算TF時直接調(diào)用關(guān)鍵詞提取階段保存好的詞頻數(shù)據(jù)。傳統(tǒng)TF-PDF算法和本文方法提取出的排名前15位的熱點(diǎn)關(guān)鍵詞,如表3、表4所示。
表3 單獨(dú)使用TF-PDF算法提取的熱點(diǎn)關(guān)鍵詞
表4 本文方法提取的熱點(diǎn)關(guān)鍵詞
因?yàn)槿狈y(tǒng)一的評價標(biāo)準(zhǔn),對得到的網(wǎng)絡(luò)熱點(diǎn)關(guān)鍵詞進(jìn)行評價是比較困難的,而且目前沒有對少數(shù)民族語言的網(wǎng)絡(luò)熱點(diǎn)新聞主題進(jìn)行收集分析的平臺。為驗(yàn)證本文方法的有效性,選擇了新浪網(wǎng)的中文熱點(diǎn)新聞來進(jìn)行比照,本文將表3、表4中提取出的哈薩克文熱點(diǎn)關(guān)鍵詞翻譯成中文,根據(jù)其實(shí)際意思來確定其是否在熱點(diǎn)新聞中出現(xiàn)。5月1日-15日之間各類別排名靠前的新浪網(wǎng)熱點(diǎn)新聞主題,如表5所示。
表5 新浪網(wǎng)熱點(diǎn)新聞
從表3、表4和表5可以看出,按照本文兩種算法結(jié)合的方法排名前15的熱點(diǎn)關(guān)鍵詞翻譯成中文后出現(xiàn)在了新浪網(wǎng)上的9個熱門新聞主題中,而單獨(dú)使用改進(jìn)的TF-PDF算法排序的15個熱點(diǎn)關(guān)鍵詞只出現(xiàn)在了新浪網(wǎng)上的5個熱門新聞主題中,這說明本文方法在提取準(zhǔn)確度上要優(yōu)于基準(zhǔn)方法,同時有助于熱點(diǎn)話題的發(fā)現(xiàn)。
另外,隨著文檔數(shù)目的不斷增加,本文方法在時間效率方面的優(yōu)勢也得到了體現(xiàn),這在大數(shù)據(jù)時代是非常重要的,如圖3所示。
圖3 基準(zhǔn)方法和本文方法時間效率折線圖
本文在結(jié)合哈薩克文特點(diǎn)的基礎(chǔ)上,創(chuàng)新性地將TF-IDF和TF-PDF這兩種統(tǒng)計算法進(jìn)行了有機(jī)結(jié)合,先用多重因子加權(quán)改進(jìn)的TF-IDF算法進(jìn)行文檔關(guān)鍵詞提取并組配,得到候選熱點(diǎn)關(guān)鍵詞集,為后續(xù)關(guān)鍵詞熱度計算打下了良好的基礎(chǔ);熱度計算階段,結(jié)合TF-PDF算法和媒體關(guān)注度的思想,在傳統(tǒng)TF-PDF公式的基礎(chǔ)上構(gòu)造了關(guān)鍵詞熱度評分公式KHD,使用此公式對候選熱點(diǎn)關(guān)鍵詞進(jìn)行計算,選取排名前X的詞作為熱點(diǎn)關(guān)鍵詞。結(jié)果表明,本文方法在準(zhǔn)確率和時間效率上都優(yōu)于基準(zhǔn)方法,并且有助于網(wǎng)絡(luò)輿情熱點(diǎn)話題的發(fā)現(xiàn)。文本數(shù)據(jù)的預(yù)處理過程對熱點(diǎn)關(guān)鍵詞提取的準(zhǔn)確度有很大的影響,后續(xù)工作中,將結(jié)合更多哈薩克文的語言特點(diǎn)對文本預(yù)處理及熱點(diǎn)話題發(fā)現(xiàn)方面做進(jìn)一步研究。
[1] 王立霞,淮曉永. 基于語義的中文文本關(guān)鍵詞提取算法[J]. 計算機(jī)工程, 2012, 38(1):1-4.
[2] 王錦波,王蓮芝,高萬林,等. 一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J]. 計算機(jī)應(yīng)用與軟件, 2014, 31(2):174-176,181.
[3] 林滿山,韓雪嬌,宋威. 基于多線程多重因子加權(quán)的關(guān)鍵詞提取算法[J]. 計算機(jī)工程與設(shè)計, 2013, 34 (7) : 2398-2402,2407.
[4] 李渝勤,孫麗華. 面向互聯(lián)網(wǎng)輿情的熱詞分析技術(shù)[J]. 中文信息學(xué)報, 2011, 25(1) : 48-53,59.
[5] 翟東海,王佳君,聶洪玉,等. 基于互信息的熱點(diǎn)詞發(fā)現(xiàn)和突發(fā)性話題檢測研究[J]. 西藏大學(xué)學(xué)報(自然科學(xué)版), 2013 ,28 (1) :82-87.
[6] 程肖. 網(wǎng)絡(luò)輿情熱點(diǎn)主題詞提取研究[D]. 杭州:杭州電子科技大學(xué), 2010.
[7] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J]. 計算機(jī)應(yīng)用, 2009, 29:167-170,180.
[8] 錢愛兵,江嵐. 基于改進(jìn)TF-IDF的中文網(wǎng)頁關(guān)鍵詞抽取_以新聞網(wǎng)頁為例[J]. 情報理論與實(shí)踐, 2008, 31(6): 945-950.
[9]BunKK,IshizukaM.TopicExtractionfromNewsArchiveUsingTF-PDFAlgorithm[C]//Proceedingsofthe3rdInternationalConferenceonWebInformationSystemsEngineering, 2002: 73-82.
[10] 王永恒.海量短語信息挖掘技術(shù)的研究與實(shí)現(xiàn)[D]. 長沙:國防科學(xué)技術(shù)大學(xué), 2006.
RESEARCH ON THE KAZAKH NETWORK HOT KEYWORDS EXTRACTION METHOD
Hu Bingyao Gulia·Altenbek
(CollegeofInformationScienceandEngineering,XinjiangUniversity,Urumqi830046,Xinjiang,China) (Multi-lingualInformationTechnologyLaboratoryofXinjiang,Urumqi830046,Xinjiang,China)
In order to improve the accuracy and efficiency of the hot key words extraction algorithm for minority language,a new hot keywords extracting method is proposed.Firstly,this method extracts the keywords of the preprocessed text by the improved TF-IDF weighting algorithm and tries to link them together in the light of their location and frequency information,then the candidate hot keywords are obtained.Then,it constructs the KHD (Keywords Hot Degree) formula based on the combination of TF-PDF algorithm and the thought of media attention to achieve the extraction of hotkeywords.Experimental results show that this method is feasible and effective and the extraction accuracy and efficiency has been significantly improved.
Kazakh Term frequency Document frequency Media attention Hot keywords
2015-10-09。國家自然科學(xué)基金項(xiàng)目(61063025,61363062)。胡冰瑤,碩士生,主研領(lǐng)域:自然語言信息處理。古麗拉·阿東別克,教授。
TP3
A
10.3969/j.issn.1000-386x.2017.01.008