王英杰
(北京建筑大學(xué) 測繪與城市空間信息學(xué)院,北京100044)
網(wǎng)頁文本信息是非結(jié)構(gòu)化數(shù)據(jù),文本格式自由多樣,內(nèi)容更新頻繁,在不同文章環(huán)境下容易產(chǎn)生不同的意義。地理學(xué)名詞匯具有不同于基礎(chǔ)詞匯的形式與用法,往往蘊(yùn)含著豐富專業(yè)信息,將地理學(xué)名詞引入文本分類可以有效提高對地理相關(guān)文本的分類結(jié)果。因此,本文針對文本分類提出了基于地理學(xué)名詞的特征權(quán)重計(jì)算方法,在分詞過程中識別地理學(xué)名詞使其不被分割,在向量空間模型表示中利用地理學(xué)名詞,重新分配特征權(quán)重從而提高分類器的性能,即提高與地理相關(guān)的文本信息分類的正確率。
文本分類或者稱為自動文本分類,是指計(jì)算機(jī)將載有信息的一篇文本映射到預(yù)先給定的某一類別或某幾類別主題的過程。文本分類另外也屬于自然語言處理領(lǐng)域。本文中文本和文檔不加區(qū)分,具有相同的意義。
文本分類的形式化定義如下:
地理學(xué)名詞反映了地理學(xué)內(nèi)容的廣泛性,還反映了中國地理現(xiàn)象和中國地理學(xué)研究的特色,并對所有選定的地理學(xué)名詞進(jìn)行了科學(xué)定義。針對地理學(xué)名詞的特點(diǎn)提出了本文文本分類的技術(shù)路線。
(1)利用爬蟲技術(shù)爬取百科平臺文本數(shù)據(jù),將文本統(tǒng)一化處理,得到待分類文本信息。
(2)在文本預(yù)處理過程中加入地理學(xué)名詞詞典,利用地理學(xué)名詞重新對文本分詞,一并得到統(tǒng)計(jì)量。
(3)基于地理學(xué)名詞提出新的特征權(quán)重計(jì)算公式,得到全新特征矩陣。
(4)在已有的基礎(chǔ)上使用K 近鄰算法作為分類器訓(xùn)練方法,通過分類器得到文本分類。
以往TF-IDF 算法基本關(guān)注是特征項(xiàng)的詞頻和逆文本頻率這兩個(gè)指數(shù),而詞頻和逆文本頻率對于地理相關(guān)文本的特殊性是沒有任何意義的,所以根據(jù)文本中地理名詞的特殊性,使用其加入語料庫,可以解決文本分詞過程中出現(xiàn)的歧義問題,從而有效地提高文本分詞的準(zhǔn)確率。并且根據(jù)特殊的語義產(chǎn)生的分詞能夠更有效地描述文本,使文本的向量空間模型更準(zhǔn)確。因此本文針對現(xiàn)有的TF-IDF 算法,提出了基于地理學(xué)名詞的改進(jìn)策略。
針對特征項(xiàng)長度改進(jìn)權(quán)重:特征項(xiàng)的字?jǐn)?shù)可以衡量該特征項(xiàng)是否重要,在文本分詞后的統(tǒng)計(jì)結(jié)果中,單字是頻率最高的,而多字的特征項(xiàng)則頻率較低。而且對于特征項(xiàng)而言,單字不能傳達(dá)有效的信息且難以用來作為文本信息的特征。而多字特征項(xiàng)卻本身所傳達(dá)的信息量多可以作為文本信息的特征,因此這一指標(biāo)可以用來衡量特征項(xiàng)的權(quán)重。通常較長的特征用來表示特定的信息,例如“天安門”所傳達(dá)的信息就是特定地點(diǎn),因此利用特征項(xiàng)長度改進(jìn)權(quán)重。
本文基于地理學(xué)名詞在地理相關(guān)文本中的重要性及特殊性對其基礎(chǔ)上改進(jìn),提出了改進(jìn)的權(quán)重算法公式:
其中l(wèi)en(t)是特征項(xiàng)的長度,將分子,分母同時(shí)加上len(t)將會提高特征項(xiàng)t 在文本d 中的權(quán)重。
基于改進(jìn)特征項(xiàng)權(quán)重的文本分類流程:
(1)文本預(yù)處理得到文本分詞和文本詞典。
(2)特征處理包括特征頻率統(tǒng)計(jì),特征評估,特征加權(quán)。
(3)將文本建立向量空間模型(向量表示)。
(4)輸入分類器得到分類結(jié)果。
實(shí)驗(yàn)使用開源jieba 工具對原始數(shù)據(jù)進(jìn)行分詞處理,利用傳統(tǒng)TFIDF 算法作為比照實(shí)驗(yàn)。
通常文本分類的評價(jià)指標(biāo)為精度(Precision)、召回率(Recall)和F1 得分(F1 score)。
精度(P)是正確分類樣本占總分類樣本數(shù)量的百分比,召回率(R)是正確分類樣本占某分類總樣本數(shù)量的百分比,F(xiàn)1 值是平衡查準(zhǔn)率和查全率兩個(gè)不同分類效果指標(biāo),對某一類別。
類別 傳統(tǒng)TF-IDF (實(shí)驗(yàn)1) 傳統(tǒng)TFIDF 結(jié)合改進(jìn)權(quán)重 (實(shí)驗(yàn)2) P R F1 P R F1 1 86.65 87.94 86.96 91.11 92.45 92.35 2 89.97 89.71 89.73 91.52 92.79 91.03 3 81.73 84.62 82.08 91.79 91.59 92.3 平均值 86.12 87.42 86.26 91.47 92.28 91.89
從上表中可得實(shí)驗(yàn)二的準(zhǔn)確率和召回率均比實(shí)驗(yàn)一高且F1 得分平均值比實(shí)驗(yàn)二的F1 得分平均值高5.54%,通過實(shí)驗(yàn)對比可得,地理學(xué)名詞加入文本預(yù)處理可使分類有所提升,同時(shí)可以減少特征項(xiàng)的數(shù)量使向量空間模型的緯度降低。
本文基于傳統(tǒng)TF-IDF 算法,提出一種新的地理文本分類方法,根據(jù)地理特征名詞、和特征項(xiàng)長度因素改進(jìn)了傳統(tǒng)TF-IDF 中的權(quán)值計(jì)算,針對不同特征項(xiàng)采取不同計(jì)算方式。最后通過數(shù)據(jù)分析及評價(jià)指標(biāo)數(shù)值驗(yàn)證該方法合理有效且效果較好。然而該方法尚未深入考慮待分類文本中未識別的地理特征項(xiàng)如何提取。