黃春梅 王松磊
摘? 要:自然語言處理是人工智能領(lǐng)域中的一個(gè)熱門方向,而文本分類作為自然語言處理中的關(guān)鍵技術(shù)受到專家學(xué)者的廣泛關(guān)注。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展,海量的文本踴躍出來。文本越來越多,通過人工對文本進(jìn)行分類的成本越來越高。本文針對短文本分類問題,使用詞袋模型從詞向量中提取詞頻矩陣,刪除停止詞與低頻詞。再使用TF-IDF算法提取文本特征,進(jìn)行文本分類研究,最終可以使短文本以較高的正確率歸類。
關(guān)鍵詞:自然語言處理;短文本分類;詞袋模型;TF-IDF
中圖分類號:TP391.1? ? ?文獻(xiàn)標(biāo)識碼:A
Abstract:Natural language processing (NLP) is a hot field in the field of artificial intelligence.Text categorization,as a key technology in NLP,has attracted extensive attention from experts and scholars.With the development of computer networks,massive texts have come out enthusiastically.As there are more and more texts,it becomes more and more expensive to classify them manually.In this paper,we use the bag of words model to extract the word frequency matrix from the word vectors and delete the stop words and low-frequency words.Then TF-IDF algorithm is used to extract text features and conduct text classification research so that the short text can be classified with high accuracy.
Keywords:natural language processing;short text classification;bag of words;TF-IDF
1? ?引言(Introduction)
近年來,受到計(jì)算機(jī)技術(shù)高速發(fā)展,以及大量文本在互聯(lián)網(wǎng)領(lǐng)域出現(xiàn)的影響,網(wǎng)絡(luò)文本資源呈指數(shù)級增長。面對這些規(guī)模甚為龐大,并且類型極為多樣的文本數(shù)據(jù),如何精準(zhǔn)劃分文本類型,已直接關(guān)系到信息檢索系統(tǒng)的性能,其發(fā)揮著關(guān)鍵性影響。
文本分類技術(shù)在自然語言處理中所占比重成分越來越高,許多研究人員對文本分類技術(shù)的研究變得尤為重視。文本分類任務(wù)可以拆分為特征工程和分類器,完成數(shù)據(jù)到信息和信息到知識的過程[1]。詞袋模型不考慮文本內(nèi)各詞間的上下文關(guān)系,只考慮所有詞所占的權(quán)重,權(quán)重則與文本內(nèi)詞的出現(xiàn)頻率相關(guān)[2]。文本特征選擇方法較多,其中TF-IDF可以有效評估特定字詞對于一個(gè)文本集或一個(gè)語料庫中的重要程度[3,4]。
本文研究基于句子的詞頻特性和tf-idf特征,使用一種基于詞袋模型和TF-IDF的短文本分類方法。該方法使用詞袋模型從詞向量中提取詞頻矩陣,將tf-idf特征作為短文本分類的一個(gè)重要特征,用以解決現(xiàn)有短文本分類問題。
2? ?詞袋模型(Bag of words)
Bag of Words,也稱作“詞袋”。它用于描述文本的一個(gè)簡單數(shù)學(xué)模型,也是常用的一種文本特征提取方式[5]。在信息檢索中,詞袋模型假定對于一個(gè)文本,忽略其次序和語法,僅僅當(dāng)作是該文本中若干個(gè)詞匯的集合。該文本中,每個(gè)詞匯都是互不相關(guān)的,每個(gè)詞匯的出現(xiàn)都不依賴于其他詞匯。也就是說,文本中任意一個(gè)單詞不管出現(xiàn)在任意哪個(gè)位置,都不會受到其他因素的影響[6]。
文本分析的主要目標(biāo)之一是將文本轉(zhuǎn)換成數(shù)值形式,這樣就可以在上面使用機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練。機(jī)器學(xué)習(xí)算法需要處理數(shù)值形式的數(shù)據(jù),以便它們能夠分析數(shù)據(jù)并且提取有用的信息。詞袋模型從文檔的所有單詞中提取特征單詞,并且用這些特征項(xiàng)矩陣建模。這就使得每一份文檔可以描述成一個(gè)詞袋。而且只需要記錄單詞的數(shù)量,語法和單詞的順序都可以忽略。
一個(gè)文檔的單詞矩陣是一個(gè)記錄出現(xiàn)在文檔中的所有單詞的次數(shù)。因此,一份文檔能被描述成各種單詞權(quán)重的組合體。通過設(shè)置條件,可以篩選出更有意義的單詞。順帶,還可以構(gòu)建出現(xiàn)在文檔中所有單詞的頻率直方圖,這就是一個(gè)特征向量。這個(gè)特征向量被用于文本分類[7]。
3? ?TF-IDF模型(TF-IDF models)
TF-IDF模型是一類應(yīng)用廣泛的加權(quán)技術(shù),經(jīng)常被用來進(jìn)行信息檢索和數(shù)據(jù)挖掘。TF(Term Frequency)是詞頻的簡稱,可理解為文本內(nèi)詞匯出現(xiàn)的頻率,逆文本頻率的縮寫為IDF,即一個(gè)詞語普遍關(guān)鍵性的度量[8]。
此模型的核心思想為:若某短語(或詞)于一篇文章內(nèi)多次出現(xiàn),即TF較高,同時(shí)甚少出現(xiàn)于其他文章內(nèi),那么判定該短語(或詞)具備良好類別區(qū)分性能,在分類方面具備適用性。實(shí)際上,TF-IDF為TF*IDF。其中,TF代表文檔內(nèi)詞條出現(xiàn)的頻率。后者IDF的核心思想為:若包含詞條t的文檔愈少,即n愈小,IDF則愈大,那么表示,詞條t在分類區(qū)分方面能力突出。若某一類文檔C內(nèi)有m個(gè)文檔均內(nèi)含詞條t,而非此類文檔內(nèi)所含t的文檔量合計(jì)是k,很明顯,n(包含t的全部文檔量)為上述m、k之和。當(dāng)m大的時(shí)候,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區(qū)分能力不強(qiáng)。然而客觀情況是,若一個(gè)詞條頻繁出現(xiàn)于一個(gè)類的文檔內(nèi),那么表示此詞條可很好體現(xiàn)這個(gè)類的文本屬性,對于此類詞條,應(yīng)賦予其較高權(quán)重,同時(shí)可將其當(dāng)作此類文本的特征詞,用來和其他類文檔作鑒別[9]。
在某指定文件內(nèi),可將TF理解為某給定詞語于此文件內(nèi)出現(xiàn)的頻率。此數(shù)值為詞數(shù)歸一化處理的結(jié)果,即對向量長度實(shí)施縮放處理,全部元素的合計(jì)值等于1,由此避免它偏向長文件(相較短文件,同一詞語在長文件內(nèi)的詞數(shù)可能更高,而與此詞語是否重要無關(guān))。就在某一特定文件內(nèi)的詞語ti而言,可通過下式來體現(xiàn)其重要性:
在式(1)內(nèi),符號ni,j代表ti此詞在dj此文件內(nèi)出現(xiàn)的次數(shù),那么上式分母表示dj內(nèi)全部字詞出現(xiàn)次數(shù)的合計(jì)值[10]。
IDF為逆文本頻率的簡稱,將其作為度量來評估一個(gè)詞語是否具有普遍重要性。計(jì)算詞頻時(shí),假定所有的單詞都是同等重要的。但是不能只依賴每個(gè)單詞出現(xiàn)的頻率,因?yàn)橄馻nd和the這樣的詞出現(xiàn)很多次。為了平衡這些常見詞語的頻率,需要減少他們的權(quán)重并衡量這些罕見詞匯。這有助于識別出對每個(gè)文檔都獨(dú)一無二的單詞,從而制定一個(gè)獨(dú)特的特征向量。某一特定詞語IDF的求解途徑為,總文件數(shù)量÷包含此詞語的文件數(shù)量,然后把兩者相除所得值取對數(shù)即為IDF,具體公式為:
式(2)中:|D|代表語料庫內(nèi)文件總量;|{j:ti∈dj}|代表包含ti此詞語的文件數(shù)量(也可理解為ni,不等于零的文件數(shù)量)。若此詞語ti未在語料庫內(nèi),就會出現(xiàn)除數(shù)等于零的結(jié)果,所以,通常使用1+|{j:ti∈dj}|。
最后,TF-IDF的值是這兩個(gè)值的乘積值:
某特定文件中的高詞語頻率,結(jié)合此詞語于文件集合內(nèi)的低文件頻率,能夠生成高權(quán)重的TF-IDF[11]。故而,TF-IDF傾向于將常用的詞語過濾掉,將重要詞語保留下來。
4? ?實(shí)驗(yàn)分析(Experiment analysis)
4.1? ?實(shí)驗(yàn)數(shù)據(jù)集
本文基于詞袋模型和TF-IDF的短文本分類研究使用20newsgroups數(shù)據(jù)集當(dāng)作訓(xùn)練數(shù)據(jù)集。此數(shù)據(jù)集是用來進(jìn)行信息檢索研究、文本挖掘與文本分類的國際標(biāo)準(zhǔn)數(shù)據(jù)集的其中之一,其所含的新聞組文檔數(shù)量大約為20 000,被均勻劃分成20個(gè)主題各異的新聞組集合,部分集合如表1所示。
表1中的key值對應(yīng)Scikit-learn庫中數(shù)據(jù)集的名字,value為分類名稱。
測試數(shù)據(jù)集如表2所示。
4.2? ?實(shí)驗(yàn)過程
本文實(shí)驗(yàn)使用基于Python的機(jī)器學(xué)習(xí)庫Scikit-learn,采用20newsgroups數(shù)據(jù)集作為訓(xùn)練集,具體過程如圖1所示。
(1)首先導(dǎo)入20newsgroups數(shù)據(jù)集作為訓(xùn)練使用,對其進(jìn)行分詞處理。
(2)使用詞袋模型對詞向量進(jìn)行計(jì)數(shù)處理,將其轉(zhuǎn)為詞頻矩陣。
(3)刪除停止詞(不攜帶任何主題信息的高頻詞)與低頻詞(出現(xiàn)次數(shù)極低的詞匯,通常是一些不常用的專有名詞)。
(4)統(tǒng)計(jì)詞頻,得到詞頻特征。
(5)計(jì)算tf-idf特征。
4.3? ?實(shí)驗(yàn)結(jié)果
本文中的實(shí)驗(yàn),先用20newsgroups訓(xùn)練數(shù)據(jù)集對分類器進(jìn)行訓(xùn)練,通過對訓(xùn)練數(shù)據(jù)集使用詞袋模型和TF-IDF模型,得到訓(xùn)練后的分類器。接著用測試數(shù)據(jù)集對此分類器進(jìn)行實(shí)驗(yàn),得出的實(shí)驗(yàn)結(jié)果如表3所示。
通過表3可以看出,經(jīng)過訓(xùn)練的分類器對于每個(gè)用于測試的句子都做出了正確的分類。
5? ?結(jié)論(Conclusion)
隨著計(jì)算機(jī)硬件、大數(shù)據(jù)和人工智能的不斷發(fā)展,海量的文本數(shù)據(jù)會越來越多,對于文本分類的研究也就越來越重要。使用詞袋模型和TF-IDF算法模型能夠精確地對短文本進(jìn)行分類,極大地簡化了人力勞動(dòng)。因此可為文本的分類提供更為可靠的數(shù)據(jù)和方法支持。
下一步工作將在改進(jìn)的TF-IDF算法基礎(chǔ)上建立一個(gè)效率更高的文本分類預(yù)測模型。
參考文獻(xiàn)(References)
[1] Bicalho P,Pita M,Pedrosa G,et al.A general framework to expand short text for topic modeling[J].Information Sciences,2017(393):66-81.
[2] Yan DF,Ke N,Gu C,et al.Multi-label text classification model based on semantic embedding[J].The Journal of China Universities of Posts and Telecommunications,2019,2(1):95-104.
[3] Ma H,Zhou R,Liu F,et al.Effectively classifying short texts via improved lexical category and semantic features[C].Proc of International Conference on Intelligent Computing,2016:163-174.
[4] 錢愛兵,江嵐.基于改進(jìn)TF-IDF的中文網(wǎng)頁關(guān)鍵詞抽取——以新聞網(wǎng)頁為例[J].情報(bào)理論與實(shí)踐,2008,31(6):945-950.
[5] 胡學(xué)鋼.基于詞匯鏈的中文新聞網(wǎng)頁關(guān)鍵詞抽取方法[J].模式識別與人工智能,2010,123(1):45-51.
[6] 趙鵬.一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法[J].模式識別與人工智能,2007,20(6):827-831.
[7] 郭詩瑤.融合上下文信息的文本分類算法的研究及應(yīng)用[D].北京郵電大學(xué),2019:21-43.
[8] 施聰鶯.TFIDF算法研究綜述[J].計(jì)算機(jī)應(yīng)用,2009,29(6):167-180.
[9] Purda L,Skillicorn D.Accounting variables,deception,and a bag of words: Assessing the tools of fraud detection[J].Contemporary Accounting Research,2015,32(3):1193-1223.
[10] 劉嬌.基于深度學(xué)習(xí)的多語種短文本分類方法研究[D].延邊大學(xué),2018:23-44.
[11] 孟濤,王誠.基于擴(kuò)展短文本詞特征向量的分類研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(4):57-62.
作者簡介:
黃春梅(1973-),女,碩士,副教授.研究領(lǐng)域:云存儲,智能教育.
王松磊(1992-),男,碩士生.研究領(lǐng)域:自然語言處理.