蘇雪峰,李 茹,張 虎
(1.山西大學商務學院 電子商務系,山西 太原 030031;2.山西大學 計算機與信息技術學院,山西 太原 030006;3.山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
高考語文試卷現(xiàn)代文閱讀理解占有很大的比重,涉及的體裁主要有小說、散文、論文等體裁,答題系統(tǒng)如何準確識別閱讀材料的體裁是一項關鍵性技術。閱讀材料的體裁對于文章結構、表達方式、表現(xiàn)手法、修辭、語義、問句類型等具有一定的制約作用,而這些技術又是閱讀理解的關鍵技術,體裁識別準確率的提高有助于上述技術性能的提升。本文以解決高考語文閱讀理解答題系統(tǒng)中現(xiàn)代文閱讀材料體裁自動識別問題為出發(fā)點,重點研究體裁分類中的特征抽取、特征選擇及其分類方法,一方面探索體裁分類的研究方法,另一方面為解決高考閱讀理解答題系統(tǒng)中的閱讀材料體裁分類問題提供一個可行的解決方案。
國外有關體裁以及語言風格的定量研究始于20世紀80年代末90年代初。Biber使用統(tǒng)計的方法對比研究了語料庫中不同體裁文章在時態(tài)、詞語的詞性、從句類型等特征上的頻率分布,從語言學的角度指出了不同體裁的文章在語言特征上存在顯著差異,不同體裁的文章具有不同的語言學特征。Karlgren & Cutting對布朗語料庫中所包含的4大類15小類體裁的語料進行了語言特征分析,統(tǒng)計分析的語言特征主要有動詞、名詞、介詞、符號的使用數(shù)量,第一和第二人稱的使用數(shù)量,which、that、it等代詞和關系代詞的使用數(shù)量,平均句長以及平均單詞長度等特征。Kessler在總結和研究Biber和Karlgren工作的基礎之上,提出了體裁分類的4類特征線索,結構線索、詞匯線索、字符線索和派生線索,基于結構線索和詞匯線索的特征需要在標注后的語料中獲取,而基于字符線索的特征可直接從語料中獲取,基于派生線索的特征通過其它特征求比率或計算來獲取[1]。Petrenz對上述幾位學者提出的體裁分類方法進行了對比研究,指出各體裁分類特征對于分類的穩(wěn)定性表現(xiàn)各異,其中詞性特征的穩(wěn)定性最好,隨著語料庫中文檔主題的不斷變化,使用了詞性特征的分類方法所得到的分類錯誤率不會有大幅度的變化[2];Petrenz還系統(tǒng)研究了體裁分類的特征選擇問題和跨語言的體裁分類題,提出了一種半監(jiān)督學習方法,討論了體裁分類的語料庫構建問題[3-5]。Salvador提出了一種獨立于語言的基于詞匯深層特征的特征抽取方法[6]。
國內關于體裁分類的研究起步較晚,研究的學者較少。方鷙飛等通過抽取文檔的符號、詞匯、格式、結構等特征,構建了針對政論體、科技體、詩歌體、新聞體、公文體5種體裁文檔的分類特征體系,并使用SVM(support vector machine)算法進行了分類研究[7]。鄧琦等使用改進的卡方和改進的df.idf方法進行體裁分類特征選擇,研究了不同主題分布下的體裁分布情況,指出了主題與體裁之間存在著密切的聯(lián)系,并將主題類別信息引入到體裁分類特征中,在包含旅游、生活、體育、房產、娛樂5個主題,記敘文、說明文、議論文、應用文、新聞5種體裁的語料庫上進行了封閉測試,準確率在82%-93%之間[8]。在體裁分類應用方面,張書卿等研究了微博文本與政論體、公文體、科技體、文學體文本的分類問題,從體裁的角度指出了微博文本與傳統(tǒng)文本的區(qū)別[9]。
目前國內的相關研究都是針對有明顯結構特征的完整文章進行體裁識別研究,還沒有查閱到專門研究高考閱讀理解材料或文本片斷的體裁分類的論文,也沒有查閱到國內專門針對體裁分類研究的標準語料庫和數(shù)據(jù)集。已有的部分研究主要是從互聯(lián)網(wǎng)上下載相關體裁的文章,構建各自的數(shù)據(jù)集,規(guī)模偏小,沒有統(tǒng)一標準。另外,高考語文現(xiàn)代文閱讀所提供的材料往往是文章的節(jié)選,會丟很多結構特征,已有的方法不宜直接使用,使得針對閱讀材料體裁分類的特征選擇和分類識別更加困難。
從語言學的角度講,體裁是文章構成的一種規(guī)格和模式,是文章內在性質的外化表現(xiàn),屬于文章的形式范疇。體裁是人類在社會活動過程中為了適用不同的交流目的而自然形成的對文章結構和形式的“規(guī)范”,它對文章的寫作有著明顯的制約和規(guī)范作用,它與文章作者的個人風格、主題思想的表達、社會歷史環(huán)境等有著密切的聯(lián)系。
從機器學習的角度講,體裁識別是一種分類問題。本文研究的體裁分類不僅指文章的體裁,還包括一定長度的文本片斷的體裁,稱為文本體裁。文本體裁分類是文本分類的一個重要分支,文本分類主要根據(jù)文本的主題進行分類,而文本體裁分類主要根據(jù)文本的結構和形式進行分類,文本的主題和結構又密切相關。
設X為文本集合,C為體裁類別集合,文本x與類別c的關系可表示為(x,c)∈X×C,即為文本與類別之間指定一個二元值,則體裁分類就是尋找一個函數(shù)映射θ:X×C→{T,F},T表示文本x的體裁類別是c,F(xiàn)表示文本x的體裁類別不是c。
體裁分類的一般流程如圖1所示。
圖1 文本體裁分類流程
體裁分類體系的確定是研究體裁自動分類的基本問題,但由于體裁的特殊性,在不同的歷史時期、不同的國家具有不同的分類體系,沒有一個權威統(tǒng)一的劃分標準。在不同的應用場景中,分類的體系也不盡相同。在我國中小學語文教學中,體裁分為一般文章和文學作品兩大類,一般文章主要包括記敘文、議論文、說明文、應用文等體裁,文學作品主要包括詩歌、散文、小說、戲劇等體裁。近10年全國語文高考現(xiàn)代文閱讀中,科技文和文學作品是必考的兩類文本,其中,科技文閱讀材料主要包括議論文和說明文兩類體裁,文學作品主要包括小說和散文兩類體裁。另外,國家863項目高考語文智能答題系統(tǒng)的研究主要針對北京高考,而北京高考現(xiàn)代文閱讀只涉及科技文和文學作品兩類體裁。本文重點研究高考中必考的科技文和文學作品兩類文本的體裁分類問題。
體裁分類不同于主題分類,體裁和主題是文章的兩種固有屬性,體裁主要強調形式,主題主要強調內容,二者在特征選擇上具有較大差別,主題分類以字、詞特征為主,而體裁分類以形式、結構等特征為主。目前關于體裁分類的研究中特征選取仍以淺層特征為主,本文根據(jù)高考閱讀材料的特點,從符號、詞性和詞匯3個方面進行分類特征的抽取。
2.2.1 符號特征
科技文語法規(guī)范,多用陳述句,少用疑問句,基本不用感嘆句和祈使句。文學作品句型種類豐富,陳述句、感嘆句、疑問句都要使用。各類句型的使用情況可通過統(tǒng)計標點符號的使用頻率來描述,句號、感嘆號、問號的使用頻率反映了陳述句、感嘆句、疑問句使用的多少。
通過對3100篇文檔構成的科技文和文學作品語料庫中句號、感嘆號、問號、省略號4種標點符號的平均使用頻率的統(tǒng)計,生成了圖2所示的標點符號頻率分布條形圖,其中標點符號pun在語料庫i類文檔中的平均分布頻率計算公式為
其中,countk(pun)為標點符號pun在文檔k中出現(xiàn)的頻數(shù),total_pun(k)為文檔k中包含的標點符號總數(shù),Ni為語料庫中i類文檔的總數(shù)。
圖2 科技文、文學作品標點符號平均頻率分布
如圖2所示,文學作品中使用句號的平均頻率低于科技文中的使用頻率,而感嘆號、問號、省略號的平均使用頻率高于在科技文中的使用頻率。另外,省略號在散文中使用頻率較高,表達某種不精確、不完整的表達;而在科技文中很少使用省略號,一定程度上反映出了科技文表達規(guī)范、平實、準確的特征。初步的分析結果表明標點符號的頻率分布與各種句型在科技文、文學作品中的使用情況是一致的,所以將標點符號特征用來反映句型特征并作為文學作品、科技文分類特征是合理的。
2.2.2 詞性特征
科技文用來說明具體事物或事理,介紹科技、文化、地理、人文等知識,表明作者的觀點和態(tài)度,主要使用議論和說明的表達方式,較多使用外來詞和科技術語,語言平實簡潔,邏輯性強,少用形象性、描繪性的詞語。文學作品用來描寫對社會、人生、自然界的感悟,塑造人物形象,主要使用敘述、描寫、抒情的表達方式,使用詞語較為廣泛,較多使用描繪性、情感性、形象性詞語。
由于科技文和文學作品存在上述特征,而這些特征能通過文章中使用的各類詞的詞性頻率分布來反映,為了驗證詞性特征作為分類特征的合理性,進行了初步的統(tǒng)計分析,生成了各類詞性分布的條形圖(如圖3所示)。圖3中列出的是在語料庫中平均分布頻率較高的21類詞性的分布情況,語料庫采用863詞性標注集進行標注(共28種標記),其中詞性標記pos在語料庫第i類文檔中的平均分布頻率計算公式為
countk(pos)為詞性標記pos在文檔k中出現(xiàn)的頻數(shù),total_word(k)為文檔k包含的詞語總數(shù),Ni為語料庫中i類文檔的總數(shù)。
圖3 科技文、文學作品詞性頻率分布條形圖
語料庫中各類詞的頻率分布表明科技文和文學作品使用的詞語在詞性分布上存在較大差別。形容詞(標記為a)、副詞(標記為d)、成語(標記為i)、方位名詞(標記為nl)、時間名詞(標記為nt)在文學作品中的平均分布頻率高于在科技文中的分布頻率,體現(xiàn)了文學作品較多使用描繪性、情感性、形象性詞語的特征。名詞(標記為n)、外來詞(標記為ws)、連詞(標記為c)、介詞(標記為p)、其它名詞修飾詞(標記為b)等在科技文中的平均分布頻率高于在文學作品中的分布頻率,體現(xiàn)了科技文較多使用外來詞和科技術語,語言平實簡潔的特征。
2.2.3 詞匯特征
科技文的主要表達方式是議論和說明,文章邏輯性強,較多使用聯(lián)結詞表示文章的層次結構,如“首先、其次、再次、此外、總之”等詞語;常使用舉例子、做比較、打比方、列數(shù)字等說明方法,較多使用如“比如、譬如、如圖、如表、對比、相比”等詞語。文學作品的主要表達方式是敘述、描寫,也會用到抒情和議論的表達方式,描述細致,富有情感,較多使用情感詞和擬聲詞,如“愁、怒、悲、怕、憂、喜歡、愛”等情感詞。文學作品常用比喻修辭手法,較多使用比喻詞,如“仿佛、像、好像”等。科技文和文學作品在人稱的使用上也有一定的差異,科技文較少使用第一人稱。
此外,通過對語料庫的統(tǒng)計分析發(fā)現(xiàn),科技文和文學作品在動詞的使用上也具有較大差別,除了通用高頻詞“是、會、能、讓”等詞外,文學作品中大量使用表示行為的單字詞(如看、走、聽等)、表示心理活動(如想、愛、怕、喜歡等)和表示趨向的動詞(如上、下、回、來等)。科技文較多使用表示發(fā)展、變化和雙字行為動詞,如“研究、進行、發(fā)展、演變、出現(xiàn)、調查、顯示、使用”等。
詞匯特征可分為邏輯聯(lián)結詞、說明方法詞、人稱代詞、情感詞、比喻詞、高頻動詞6類,其中人稱代詞又分為第一人稱、第二人稱、第三人稱3類;情感詞分為程度詞、負面評價詞、正面評價詞、負面情感詞、正面情感詞、主張詞6類;高頻動詞分為科技文高頻動詞和文學作品高頻動詞兩類。邏輯聯(lián)結詞、說明方法詞、人稱代詞、比喻詞詞表根據(jù)相關語言知識進行手工構建,情感詞詞表使用hownet情感詞典。高頻動詞詞表使用χ2統(tǒng)計法進行篩選[7],公式為
其中,A表示語料庫中體裁類別c和動詞t同時再現(xiàn)的次數(shù);B表示t出現(xiàn)c不出現(xiàn)的次數(shù);C為t不出現(xiàn)c出現(xiàn)的次數(shù);D為t和c均未出現(xiàn)的次數(shù)。n為語料庫中文本的數(shù)量。χ2(t,c)值越大,t和c的相關性越強。每一類通過設置一個閾值選擇χ2(t,c)較大的動詞構成高頻動詞表。
邏輯聯(lián)結詞、說明方法詞、比喻詞在文本中的分布頻率,人稱代詞、情感詞、高頻動詞中每一子類在文本中的分布比例對于區(qū)分科技文和文學品具有一定的作用。所以,本文將邏輯聯(lián)結詞、說明方法詞、比喻詞在文本中的分布頻率作為3個分類特征,分布頻率的量化方法為詞頻與文本長度的比值;人稱代詞、情感詞、高頻動詞每一子類在文本中的分布比例作為分類特征,第i個子類的分布比例量化方法為
其中,sc為某一類詞,sci為其第i個子類,count(sci)表示文本中包含的sci類詞的數(shù)量,N表示sc類詞的子類數(shù)。
在體裁自動分類特征抽取的研究中,除了上述3類特征,一些統(tǒng)計特征和結構特征也是比較普遍使用的特征。如平均句長、平均段、條文句的頻次、段首序碼頻次等特征研究詩歌體、政論體、新聞體、公文體和科技體的體裁分類問題。通過對語料的分析,科技文和文學作品沒有類似公文、科技論文和新聞體明顯的統(tǒng)計和結構特征,平均句長、段長并沒有明顯的差異,條文句和段首序號等結構特征也不存在,所以本文沒有選擇統(tǒng)計和結構特征作為分類特征。
特征抽取階段對每一特征進行了量化,并采用條形圖的方法對特征進行了定性分析。顯然,每一個特征對分類的貢獻能力是不同的,有必要應用定量的方法度量每一個特征的重要性,并從中選取最重要的特征,剔除不重要的特征。
特征選擇的方法主要有信息增益(IG)、互信息(MI)、卡方統(tǒng)計(CHI)等[10,11],這些方法的一般思想是通過計算特征與類別的相關程度確定特征的重要性,特征與類別相關度越高重要性越大,就越有可能作為分類特征。上述方法將特征選擇與特征取值的計算看作是兩個過程,如文本分類中使用IG選擇特征,使用TF-IDF計算特征的取值。特征與類別的相關度一般不能直接作為特征的取值,同樣特征的取值也不能直接用來計算特征與類別的相關程度。本文使用基于類內離差和類間離差的方法進行特征選擇,該方法直接使用特征的取值評價特征的重要性,提高特征選擇的效率。
一般地,一個特征在不同類模式中的分布重疊越小,可分性就越強。特征的取值在不同類間的離差越大,在同一類中取值越密集,重疊就越小。所以可以將特征的類間離差與類內離差的比值作為評價特征的函數(shù)。
設Pi為wi類的先驗概率,由Pi=Ni/N得到,N為各模式類總的訓練樣本數(shù),則定義在第j個特征上的總的類內離差為
設mj為第j個特征上的總平均值,定義在第j個特征上的總的類間離差為
第j個特征總的類間離差越大,且總的類內離差越小,區(qū)分能力越強,則可定義特征j的評價函數(shù)為
D_ratioj=SBj/SWj
D_ratioj就是我們評價特征的指標值,一個特征的D_ratioj值越大越好,在特征選取過程中,保留D_ratioj較大的特征,去除D_ratioj較小的特征。表1列出了D_ratioj值大于1的詞性特征的評價值、總類內離差和總類間離差。
表1 部分詞性特征的評價值
表1所示的對記性標記的評價結果與圖3的條形圖分析結果基本一致,表明基于離差的特征評價方法能比較有效地反映特征的區(qū)別能力,對于特征選擇具有重要指導作用。
目前國內外有關體裁分類的研究主要是基于淺層特征的,分類算法大多是基于SVM的方法,區(qū)別主要表現(xiàn)在特征選擇和體裁分類體系的不同上。SVM分類方法在處理高維、小樣本數(shù)據(jù)集中具有較好的整體性能,其基本思想是在特征空間中尋找最優(yōu)超平面,以該平面為分類面實現(xiàn)對文本的分類。本文中的各類特征的特征值都進行了規(guī)范化處理,每一個文本都表示成了實數(shù)向量,適合使用SVM方法訓練分類器。
在實驗中,從網(wǎng)上下載了科技文和文學作品共3100篇文檔,其中2600篇作為訓練數(shù)據(jù)集,500篇作為測試數(shù)據(jù)集1;同時還收集了2004-2016年全國各省高考真題,以及部分省份的模擬試題科技文和文學作品閱讀材料共450篇作為測試數(shù)據(jù)集2。實驗數(shù)據(jù)集的分布情況見表2。
表2 數(shù)據(jù)集統(tǒng)計情況
所有文本統(tǒng)一使用哈工大IR實驗室提供的LTP接口進行文本分詞處理,詞性標注采用863標注集。在預處理階段對文本的詞性特征和符號特征進行了統(tǒng)計,在統(tǒng)計詞匯特征之前需要構建各類詞的詞表,高頻動詞詞表采用卡方法進行自動構建,其它類詞表包含的詞數(shù)量少,由人工構建,根據(jù)這些詞表統(tǒng)計詞性特征;最后按照文中2.2節(jié)的方法計算每一個特征的特征值。
對高考答題系統(tǒng)而言,預測一篇現(xiàn)代文閱讀材料是文學作品還是科技文同等重要,所以分類器的評價指標采用分類中普遍使用的準確率(precision)、召回率(recall)和F1值(F1-measure)評價每一類的分類性能,并使用三類指標的宏平均考察整體的分類性能[11]。
實驗結果表明,在動詞大小為160,特征個數(shù)為25的情況下,SVM算法在線性核、規(guī)則化參數(shù)C=10,回歸精度epsilon=0.1時具有良好的性能,實驗的運行結果評價見表3。
表3 分類性能評價
實驗結果表明,本文提出的基于詞性特征、符號特征和詞匯特征的特征抽取方法和基于類內和類間離差的特征選擇方法能描述科技文和文學作品在體裁上的本質特征,通過SVM分類算法能訓練出的分類器性能較好,兩類的準確率較為接近,平均準確率達到了96%。
分類器在測試集1上的分類性能較優(yōu)是由于測試集1和訓練集都是從同一數(shù)據(jù)集中隨機選取的,來自于同一總體,各類特征的分布較為接近,識別的準確率較高;測試集2為高考閱讀材料,來源廣泛,文章的主題、風格各異,而且都是節(jié)選,加之訓練數(shù)據(jù)集在覆蓋面上的局限性,使得分類器在測試集2中的性能與在測試集1性能相比有所下降,但幅度不大,表明本文提出的方法具有良好的穩(wěn)定性。
在詞匯特征的抽取過程中需要用到各類詞表,情感詞表使用了hownet情感詞表,動詞詞表使用卡方法進行自動選擇,其它詞表規(guī)模較小,都為手工構建。動詞詞表的大小對分類性能具有一定的影響,為了確定最優(yōu)的詞表,實驗根據(jù)卡方值的大小對詞表進行了降序排序,然后選擇排序靠前的N個詞作為動詞詞表。根據(jù)不同的N值在訓練集上進行了10折交叉驗證,計算平均準確率,N的大小對分類性能的影響如圖4所示。
圖4 動詞詞表大小對準確率的影響
實驗結果表明,N的取值在140-170范圍內,分類的準確率最高;N值小于140時,隨著N的增大,準確率不斷提高,存在較大的振蕩;N值大于170時準確率有所下降,但下降曲線較為平緩。從N值對準確率影響的曲線上可以說明,當詞表達到一定規(guī)模時,基本覆蓋了常用詞,準確率達到了一定水平,而且相對比較穩(wěn)定;此時再增加一些非常用詞來擴充詞表,準確率會有所下降,但下降較為平穩(wěn)。在最終的分類模型中,選擇N=160訓練分類器。
特征的個數(shù)對分類的性能也具有重要影響,實驗按照2.3中提出的特征評價方法計算每一個特征的評價值,并按照評價值對特征集進行降序排序,采用逐步向前選擇的方法加入特征,在訓練集上進行10折交叉驗證,計算平均準確率,特征個數(shù)對分類性能的影響如圖5所示。
圖5 特征個數(shù)對準確率的影響
實驗結果表明,特征個數(shù)小于15時,隨著特征個數(shù)的增加,準確率不斷提高;特征個數(shù)為15時,準確率已達到最優(yōu),但特征個數(shù)在線15-25之間時,準確率出現(xiàn)小幅振蕩,當特征個數(shù)大于25時,準確率趨于穩(wěn)定。在最終的分類模型中,選擇了25個特征訓練分類器,其中符號特征3個,詞性特征14個,詞匯特征8個。
實驗結果表明,基于“詞性特征+符號特征+詞匯特征”的特征構建方法和基于離差的特征選擇方法能有效抽取體裁分類的重要特征,使用這些特征訓練的線性核SVM分類器在動詞詞表大小為160,特征個數(shù)為25時表現(xiàn)出了良好的性能,在測試集1和測試集2上的平均準確率分別為97%和96%。
本文以解決高考答題系統(tǒng)中科技文和文學作品閱讀理解中的體裁識別問題為出發(fā)點,從體裁分類的淺層特征入手,使用統(tǒng)計分析的方法分析了詞性特征、符號特征、詞匯特征在兩類體裁中的差異,提出了基于頻率分布的特征量化方法和基于類間和類內離差的特征選擇方法。使用這些特征訓練的SVM分類器表現(xiàn)較為穩(wěn)定,識別準確率較高,能較好地解決高考智能答題系統(tǒng)閱讀材料的體裁識別問題。另外,文中提出的“詞匯特征+符號特征+詞匯特征”的體裁分類方法提供了從特征分析、特征量化、特征抽取、特征選擇、到模型訓練與評價一套完整的方法體系,能為解決不同應用場景下的文本體裁分類問題提供有益的指導。
本文的研究主要是為了解決高考機器人針對的北京高考現(xiàn)代文閱讀材料中涉及的兩類體裁的自動分類問題,沒有研究更細粒度的體裁類別,還有改進的空間。一方面加大訓練樣本集的多樣性和覆蓋面,構建更加完整的有針對性的語料庫,為更細粒度的體裁分類識別研究做準備;另一方面研究和加入深層特征,如主題、修辭、表達方式等特征,使分類器能識別更細粒度的文本體裁,通過以上兩個方面的改進,解決面向全國高考的現(xiàn)代文閱讀材料體裁自動分類問題。
參考文獻:
[1]Brett Kessler,Geoffery Nunberg,Hinrieh Schutze.Automa-tic detection of text genre[C]//Proceedings of 35th Annual Meeting of Association for Computational Linguistics.New York:ACM,1997:32-38.
[2]Philipp Petrenz,Bonnie Webber.Stable classification of text genres[J].Computational Linguistics,2011,37(2):385-393.
[3]Philipp Petrenz.Cross-lingual genre classification[C]//Proceedings of the Student Research Workshop at EACL.France:Association for Computational Linguistics,2012.
[4]Philipp Petrenz.Cross-lingual genre classification[D].Edinburgh:University of Edinburgh,2014:30-34.
[5]Philipp Petrenz,Bonnie Webber.Robust cross-lingual genre classication through comparable corpora[C]//The Procee-dings of the 5th Workshop on Building and Using Comparable Corpora.New York:ACM,2014.
[6]Llorens-Salvador M,Delany S J.Deep level lexical features for cross-lingual authorship attribution[C]//ECIR Workshop on Modeling,Learning and Mining for Cross/Multilinguality.German:Springer,2016:16-25.
[7]FANG Zhifei,LIN Hongfei,YANG Zhihao,et al.Automatic classification of Chinese text genre[J].Journal of Chinese Information Processing,2005,20(2):20-32(in Chinese).[方鷙飛,林鴻飛,楊志豪,等.中文文本體裁的自動分類機制[J].中文信息學報,2005,20(2):20-32.]
[8]DENG Qi,SU Yidan,CAO Bo,et al.Research on feature selection in Chinese text genre classification[J].Computer Engineering,2008,34(23):89-91(in Chinese).[鄧琦,蘇一丹,曹波,等.中文文本體裁分類中特征選擇的研究[J].計算機工程,2008,34(23):89-91.]
[9]ZHANG Shuqing,ZHOU Wen,OUYANG Chunping,et al.Comparison of genre features between micro-blog text and traditional text[J].Journal of University of South China(Science and Technology),2015,29(2):89-90(in Chinese).[張書卿,周文,歐陽純萍,等.微博文本和傳統(tǒng)文本體裁特征對比[J].南華大學學報(自然科學版),2015,29(2):89-90.]
[10]YANG Jieming.The research of text representation and feature selection in text categorization[D].Changchun:Jilin University,2013(in Chinese).[楊杰明.文本分類中文本表示模型與特征選擇算法研究[D].長春:吉林大學,2013.]
[11]LIU Haifeng,LIU Shousheng,SONG Aling.Improved method of IG feature selection based on word frequency distribution[J].Computer Engineering and Applications,2017,53(4):113-117(in Chinese).[劉海峰,劉守生,宋阿羚.基于詞頻分布信息的優(yōu)化IG特征選擇方法[J].計算機工程與應用,2017,53(4):113-117.]