朱曉亮 吳逸塵 殷 姿
1(華中師范大學(xué)國(guó)家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心 湖北 武漢 430079)2(華中師范大學(xué)教育大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室 湖北 武漢 430079)
語(yǔ)文課程標(biāo)準(zhǔn)[1]以及語(yǔ)文學(xué)科研究者均明確強(qiáng)調(diào),在小學(xué)語(yǔ)文作文中要加強(qiáng)寫(xiě)作素材的積累,并使學(xué)生能結(jié)合自身實(shí)際加以利用[2]。然而,當(dāng)前語(yǔ)文作文教學(xué)中提供的素材數(shù)量龐雜且缺乏組織,在小學(xué)生有限的認(rèn)知能力之下,若不經(jīng)過(guò)加工直接推送,極易造成認(rèn)知過(guò)載以至于引發(fā)學(xué)習(xí)迷航。因此,在當(dāng)前小學(xué)中高年級(jí)語(yǔ)文寫(xiě)作教學(xué)過(guò)程中,缺少有效的作文素材資源輔助,這就要求在小學(xué)語(yǔ)文學(xué)科作文領(lǐng)域的信息化建設(shè)中,把握好優(yōu)秀作文素材的存儲(chǔ)管理工作,并且能夠?yàn)閭€(gè)性化的作文素材提供數(shù)據(jù)支撐。
對(duì)小學(xué)語(yǔ)文作文素材的存儲(chǔ),借助知識(shí)圖譜[3]的概念,將各個(gè)優(yōu)秀作文語(yǔ)料視為本體的同時(shí),必然會(huì)涉及到如何對(duì)本體進(jìn)行有效的屬性描述。而能夠從作文語(yǔ)料本身抽取屬性,即作文的標(biāo)簽,則是描述的核心內(nèi)容。一方面,傳統(tǒng)的標(biāo)簽抽取策略大部分采用關(guān)鍵詞抽取方案,沒(méi)有做到對(duì)作文語(yǔ)料的合理安排,即缺乏對(duì)小學(xué)語(yǔ)文作文標(biāo)簽的定義。另一方面,原始語(yǔ)料文本中包含的大量冗余信息也會(huì)對(duì)文本的關(guān)鍵信息抽取產(chǎn)生干擾。
綜上所述,文本利用自然語(yǔ)言處理中文本自動(dòng)摘要的方法去除冗余,并在定義了小學(xué)語(yǔ)文作文語(yǔ)料標(biāo)簽的前提下,提出了一種基于自動(dòng)文摘技術(shù)的小學(xué)語(yǔ)文作文語(yǔ)料自動(dòng)標(biāo)簽抽取方法。
1.1.1 自動(dòng)摘要
在對(duì)小學(xué)語(yǔ)文作文原始語(yǔ)料的處理過(guò)程中,為了使語(yǔ)料能更好地表達(dá)文章中心思想,則需要對(duì)原始語(yǔ)料進(jìn)行去除冗余操作,其中,最常用的方法是文本自動(dòng)摘要。自動(dòng)文摘最早于1958年由Luhn提出,起初沒(méi)有得到較高的關(guān)注度,但隨著信息時(shí)代數(shù)據(jù)的爆炸式增長(zhǎng),人們逐漸意識(shí)到自動(dòng)文摘對(duì)于文本去除冗余、提取中心的重要性。
自動(dòng)文摘主要過(guò)程為文本分析、信息選取及文摘語(yǔ)言轉(zhuǎn)換[4],從不同角度可以分為不同類(lèi)型,從文摘的獲取方式上可分為抽取型文摘和理解型文摘。抽取型文摘主要是從原文中選取合適的句子組成文摘,理解型文摘[5]則是通過(guò)對(duì)原文進(jìn)行語(yǔ)義上的分析生成文摘,而理解型文摘因其較為深入的自然語(yǔ)言特征,一直處于技術(shù)攻堅(jiān)階段,故不具有實(shí)用性。本文采用抽取型文摘的技術(shù)方案對(duì)語(yǔ)料進(jìn)行預(yù)處理。
圖1為抽取型自動(dòng)摘要的一般流程。其中,預(yù)處理環(huán)節(jié)主要對(duì)文本內(nèi)容進(jìn)行編碼及斷句處理。特征分析階段則通過(guò)不同的分析方法獲取原文中句子的權(quán)重,再通過(guò)對(duì)權(quán)重排序,選出適量句子,重新排序后輸出。
圖1 抽取型摘要的一般流程
1.1.2 作文自動(dòng)摘要
目前主流的抽取型文摘方案來(lái)自于Rada Mihalcea和Paul Tarau提出的TextRank算法,是對(duì)谷歌基于圖的網(wǎng)頁(yè)權(quán)重計(jì)算方法PageRank加權(quán)重演變而來(lái)[6],主要用于關(guān)鍵詞抽取和文摘句抽取[7]。
TextRank算法分為計(jì)算相似度和排序兩個(gè)部分,對(duì)于一篇語(yǔ)料而言,首先將句子分離出來(lái),依據(jù)PageRank的思路建立圖。其中,圖的節(jié)點(diǎn)就是句子,節(jié)點(diǎn)之間的權(quán)值就是句子之間的相似度。然而,選擇不同的相似度算法,對(duì)TankRank產(chǎn)生的最終結(jié)果也有不同影響[8]。因此,本文比較了幾種主流的相似度計(jì)算方法,進(jìn)而選擇出一種最適用于作文語(yǔ)料處理的自動(dòng)文摘方法。
1) 經(jīng)典相似度算法。該方法借助于兩個(gè)句子之間的共有詞語(yǔ)來(lái)達(dá)到整體相似度計(jì)算的目的。
2) 基于編輯距離的相似度算法。該方法的核心思想為計(jì)算從一個(gè)子串轉(zhuǎn)移到另一個(gè)子串所需要的最小步驟,主要操作為“替換”、“插入”和“刪除”。通常認(rèn)為,兩個(gè)子串的編輯距離越小,相似度越大。
3) 基于Word2Vec的相似度算法。Word2Vec可用于對(duì)文本進(jìn)行詞語(yǔ)聚類(lèi),獲取關(guān)鍵詞[9]。其主要思想是將自然語(yǔ)言中的詞匯,映射到一個(gè)共同的維度內(nèi),使之成為一個(gè)個(gè)具有統(tǒng)一意義的短向量[10]。本文首先需要訓(xùn)練基于Skip-Gram+HierarchySoftmax的模型,然后獲取詞語(yǔ)之間的相似度關(guān)系,最后推算出句子間的相似度。
4) 基于BM25的相似度算法。BM25算法基于概率檢索模型,其核心思想為解析搜索詞,生成對(duì)應(yīng)的語(yǔ)素信息,并將語(yǔ)素與文檔進(jìn)行比對(duì),最后由每一個(gè)比對(duì)結(jié)果進(jìn)行加權(quán)求和得到最終的相似度。
本文采用ROUGE對(duì)這四種相似度算法進(jìn)行評(píng)價(jià)。ROUGE是由Chin-Yew Lin在2004年提出的一種針對(duì)自然語(yǔ)言處理的自動(dòng)評(píng)價(jià)方法[11],在其評(píng)價(jià)指標(biāo)中,Precision用于描述機(jī)器摘要的準(zhǔn)確率,也被稱(chēng)為查準(zhǔn)率;Recall用于描述機(jī)器摘要的召回率,也被稱(chēng)為查全率;F-Score是Precision與Recall的加權(quán)平均值,反映了機(jī)器摘要結(jié)合準(zhǔn)確率和召回率的統(tǒng)一分?jǐn)?shù)。通過(guò)對(duì)1 410條數(shù)據(jù)進(jìn)行摘要處理,得到測(cè)試結(jié)果如表1所示。
表1 四種自動(dòng)摘要相似度算法的ROUGE評(píng)分結(jié)果
續(xù)表1
從表1中可以看出,基于Word2Vec的相似度算法在F-Score上的得分較低?;诰庉嬀嚯x的計(jì)算方法在準(zhǔn)確度上得分較高,基于BM25的計(jì)算方法在查全率上得分較高,并且,兩者在最后的F-Score得分上相差不大。經(jīng)典相似度計(jì)算方法在各個(gè)指標(biāo)上均獲得了較合理的分?jǐn)?shù),類(lèi)似的情況也體現(xiàn)在ROUGE-2、ROUGE-W的評(píng)分方法中。
但在實(shí)際的標(biāo)簽抽取過(guò)程中,由于語(yǔ)料內(nèi)容繁多,因此對(duì)時(shí)間效率也有一定的要求。本文在測(cè)試時(shí),也對(duì)這4種算法的時(shí)間消耗做了記錄,結(jié)果如表2所示。
表2 四種自動(dòng)摘要相似度算法的耗時(shí)
從表2中可以看出,BM25算法雖然在ROUGE得分上不是最高的,但在計(jì)算的時(shí)間效率上領(lǐng)先較多。在F-Score相差甚微的前提下,本文最終選取BM25算法作為作文語(yǔ)料自動(dòng)文摘預(yù)處理的相似度算法,并得到基于TextRank算法的作文語(yǔ)料抽取型自動(dòng)文摘結(jié)果。
1.2.1 分 詞
在進(jìn)行標(biāo)簽抽取之前,需要將句子以詞匯組合的形式呈現(xiàn),在自然語(yǔ)言處理中,通常采用中文分詞的方法加以實(shí)現(xiàn)。目前主要的分詞方法有基于詞典的方法和基于統(tǒng)計(jì)的方法,由于基于詞典的方法在算法復(fù)雜度以及分詞速度上更具有優(yōu)勢(shì),故本文選取基于詞典的分詞方法進(jìn)行分詞處理。
在基于詞典的分詞方法中,選擇基于N-最短路徑的分詞算法作為主要算法。其基本思想是根據(jù)詞典,順序匹配出在中文字串中所有可能的出現(xiàn)的詞的集合[12]。相較于傳統(tǒng)分詞算法,其特性更適合發(fā)掘命名實(shí)體,故最適合本文分詞方案。
1.2.2 命名實(shí)體識(shí)別
在小學(xué)語(yǔ)文作文標(biāo)簽抽取的過(guò)程中,需要對(duì)經(jīng)過(guò)分詞處理后的作文語(yǔ)料進(jìn)行詞性標(biāo)注,識(shí)別出能夠代表作文類(lèi)型的詞語(yǔ),這就涉及命名實(shí)體識(shí)別。
目前對(duì)中文語(yǔ)料中普通的人名、地名等命名實(shí)體識(shí)別的研究中,中科院俞鴻魁等設(shè)計(jì)的一種層疊隱馬爾可夫模型就能達(dá)到不錯(cuò)的效果。層疊隱馬爾可夫模型由三層隱馬爾可夫模型構(gòu)成,自下而上分別是人名識(shí)別HMM、地名識(shí)別HMM和機(jī)構(gòu)名識(shí)別HMM。
通過(guò)對(duì)作文語(yǔ)料的觀察發(fā)現(xiàn),機(jī)構(gòu)名出現(xiàn)的頻率并不高,因此本文將重點(diǎn)關(guān)注人名和地名的識(shí)別?;趯盈B隱馬爾可夫模型中關(guān)于人名和地名的部分標(biāo)注角色見(jiàn)表3。
表3 人名及地名的部分角色標(biāo)注
利用層疊隱馬爾可夫模型可以高效地識(shí)別小學(xué)作文語(yǔ)料中的重要人名地名,從而協(xié)助標(biāo)簽抽取過(guò)程中的作文分類(lèi)標(biāo)簽的獲取。
1.2.3 詞典設(shè)計(jì)
在實(shí)際處理作文語(yǔ)料時(shí)發(fā)現(xiàn),一些特殊名詞如“父親”、“母親”等,命名實(shí)體識(shí)別模型不會(huì)對(duì)其作出實(shí)體判斷。但實(shí)際上,這些詞語(yǔ)應(yīng)歸類(lèi)于人物描寫(xiě)標(biāo)簽的范疇。另外,一些地名中包含的名詞出現(xiàn)頻率較高,分詞模型可能會(huì)對(duì)其進(jìn)行單獨(dú)分類(lèi)。為了避免這些情況,本文提出了一種自定義的詞典內(nèi)容來(lái)協(xié)助標(biāo)簽抽取。針對(duì)人物相關(guān)名詞,本文結(jié)合實(shí)際經(jīng)驗(yàn),借助不同類(lèi)型名詞分類(lèi)建立專(zhuān)屬詞典,與命名實(shí)體識(shí)別模型相結(jié)合達(dá)到更準(zhǔn)確的結(jié)果。具體分類(lèi)見(jiàn)表4。
表4 人物描寫(xiě)類(lèi)型自建詞典
針對(duì)地名的情況,可依據(jù)詞綴來(lái)進(jìn)行相應(yīng)識(shí)別,具體分類(lèi)見(jiàn)表5。通過(guò)對(duì)實(shí)際語(yǔ)料分析表明,小學(xué)語(yǔ)文作文中對(duì)家鄉(xiāng)的描寫(xiě)一般以風(fēng)景為主,故把其歸類(lèi)到景物描寫(xiě)中。
表5 景物描寫(xiě)類(lèi)型自建詞典
前一節(jié)針對(duì)摘要的自動(dòng)獲取方法以及標(biāo)簽抽取過(guò)程中所需要的分詞、命名實(shí)體識(shí)別以及詞典設(shè)計(jì)等技術(shù)方法進(jìn)行了比較與分析。本節(jié)將介紹基于自動(dòng)摘要的作文標(biāo)簽抽取策略,該策略的實(shí)現(xiàn)方式如圖2所示。
圖2 基于自動(dòng)摘要的作文標(biāo)簽抽取方法
通過(guò)對(duì)小學(xué)作文語(yǔ)料的分析,本文將文章標(biāo)簽總數(shù)限制為6個(gè),同時(shí)根據(jù)標(biāo)簽涵蓋的內(nèi)容將其分為文章類(lèi)型、核心實(shí)體、關(guān)鍵描述三個(gè)大類(lèi)。其中,文章類(lèi)型指的是小學(xué)語(yǔ)文作文的分類(lèi),由于小學(xué)語(yǔ)文作文的具體類(lèi)別界限可以從不同維度、不同細(xì)分程度來(lái)劃定,而作文分類(lèi)并非本文的唯一目的,故后文對(duì)文章類(lèi)型的闡述主要以人物描寫(xiě)和景物描寫(xiě)兩個(gè)大類(lèi)進(jìn)行區(qū)分。
核心實(shí)體是從文章中獲取的最核心命名實(shí)體。在人物描寫(xiě)分類(lèi)中,核心實(shí)體是主要描寫(xiě)的人物;在景物描寫(xiě)分類(lèi)中,核心實(shí)體是景物場(chǎng)景。關(guān)鍵描述是文章中頻繁出現(xiàn)的形容詞或文章中出現(xiàn)的俗語(yǔ)、成語(yǔ)等描述性詞語(yǔ)。各分類(lèi)限制詞數(shù)見(jiàn)表6。
表6 標(biāo)簽三個(gè)分類(lèi)的詞數(shù)規(guī)定
分詞及命名實(shí)體識(shí)別基于開(kāi)源自然語(yǔ)言處理框架HanLP實(shí)現(xiàn),抽取過(guò)程如圖3所示。
圖3 標(biāo)簽抽取整體步驟
命名實(shí)體識(shí)別在分詞的結(jié)果上進(jìn)行,最終以詞性標(biāo)注的方式顯示。去除停用詞目的在于去除抽取結(jié)果中的常用詞語(yǔ),減少對(duì)抽取策略的干擾,采用綜合停用詞表法實(shí)現(xiàn)。對(duì)于本文所需要的標(biāo)簽詞語(yǔ),其詞性類(lèi)型如表7所示。其中,nr、ns代表最終獲取的標(biāo)簽類(lèi)型中的核心實(shí)體的詞性,其他詞性為關(guān)鍵描述中所涉及的詞性。
表7 標(biāo)簽抽取重點(diǎn)關(guān)注詞性及實(shí)體
其中,習(xí)慣用語(yǔ)、俗語(yǔ)一般為4字以上詞語(yǔ),是為了與文本中字?jǐn)?shù)少且出現(xiàn)頻繁的詞語(yǔ)加以區(qū)分,從而更加精確地獲取與文章核心實(shí)體相關(guān)的描述性詞語(yǔ)。將經(jīng)過(guò)命名實(shí)體識(shí)別后的結(jié)果按照詞語(yǔ)-詞性存儲(chǔ)為列表,并按照降序從上而下排列,從高頻詞開(kāi)始分析,具體分析過(guò)程見(jiàn)圖4。
圖4 詞語(yǔ)-詞性列表分析流程
對(duì)于核心實(shí)體的獲取過(guò)程主要分為兩個(gè)步驟,第一,依據(jù)標(biāo)準(zhǔn)命名實(shí)體識(shí)別的方法進(jìn)行識(shí)別,當(dāng)詞語(yǔ)詞性為nr/ns時(shí),檢查該分類(lèi)下計(jì)數(shù)器是否等于上限次數(shù)2個(gè),若已達(dá)到上限則不作處理,反之將其加入到結(jié)果集中。第二,對(duì)于進(jìn)行標(biāo)準(zhǔn)命名實(shí)體識(shí)別方法后沒(méi)有標(biāo)記出的詞語(yǔ),優(yōu)先采用自建詞典配對(duì),若該詞語(yǔ)存在于自建詞語(yǔ)中,則進(jìn)行與第一步類(lèi)似的操作。
獲取到的實(shí)體除了存儲(chǔ)到結(jié)果集中以外,還需要記錄詞頻來(lái)表示該實(shí)體所屬類(lèi)型占的權(quán)重,若結(jié)果集中核心實(shí)體的次數(shù)已滿(mǎn)足,則后續(xù)識(shí)別到的詞語(yǔ)繼續(xù)計(jì)算權(quán)重但不添加到結(jié)果集中。若自建詞典中也不存在當(dāng)前分析的詞語(yǔ),則該詞語(yǔ)進(jìn)入到關(guān)鍵描述的判斷中,關(guān)鍵描述判斷的具體描述規(guī)則如下所示,依據(jù)以下規(guī)則,可以獲取到標(biāo)簽分類(lèi)中的關(guān)鍵描述部分。
關(guān)鍵描述判斷流程:
(1) 當(dāng)前詞語(yǔ)長(zhǎng)度是否超過(guò)2,不滿(mǎn)足則輸出否;
(2) 當(dāng)前詞語(yǔ)的詞頻是否大于等于2,不滿(mǎn)足則輸出否;
(3) 當(dāng)前詞語(yǔ)詞性是否為所要求的描述性詞語(yǔ)詞性,不滿(mǎn)足則輸出否;
(4) 同時(shí)滿(mǎn)足(1)、(2)、(3)條件的,判斷詞語(yǔ)屬于關(guān)鍵描述;
(5) 特殊情況下,出現(xiàn)次數(shù)超過(guò)3次且長(zhǎng)度大于等于2的一般名詞(詞性為n)及專(zhuān)有名詞(詞性為nz)將被判斷屬于關(guān)鍵描述;
(6) 當(dāng)列表讀取結(jié)束,總標(biāo)簽數(shù)仍不滿(mǎn)足目標(biāo)的情況下,對(duì)詞語(yǔ)列表中詞頻為1,但字?jǐn)?shù)在4個(gè)以上的俗語(yǔ)及成語(yǔ)進(jìn)行補(bǔ)充錄入。
當(dāng)從列表中獲取的標(biāo)簽數(shù)已經(jīng)滿(mǎn)足需求或者詞語(yǔ)-詞性列表已經(jīng)讀取到末尾,則結(jié)束詞語(yǔ)列表分析。此時(shí),判斷命名實(shí)體中的兩個(gè)大類(lèi)的權(quán)重對(duì)比,即判斷nr.weight和ns.weight,來(lái)確定文章類(lèi)型標(biāo)簽。若nr.weight>ns.weight,則該分類(lèi)標(biāo)簽為人物描寫(xiě);若nr.weight 對(duì)于抽取標(biāo)簽的結(jié)果,沒(méi)有現(xiàn)行的統(tǒng)一標(biāo)準(zhǔn)。因此,本文設(shè)計(jì)三個(gè)維度來(lái)評(píng)價(jià)抽取的結(jié)果,這三個(gè)維度分別為分類(lèi)準(zhǔn)確度、實(shí)體準(zhǔn)確度和形容詞準(zhǔn)確度,總分值設(shè)為6分。 1) 分類(lèi)準(zhǔn)確度用于描述標(biāo)簽中作文分類(lèi)的正確與否。分類(lèi)主要為人物描寫(xiě)和景物描寫(xiě)兩個(gè)大類(lèi),正確得1分,錯(cuò)誤得0分,該項(xiàng)評(píng)分總分1分。 2) 實(shí)體準(zhǔn)確度用于描述標(biāo)簽中核心實(shí)體的正確程度,該項(xiàng)總分2分。由于核心實(shí)體標(biāo)簽數(shù)量為1~2個(gè),故具體得分情況為:當(dāng)核心實(shí)體標(biāo)簽數(shù)量為1個(gè)的時(shí)候,實(shí)體選取正確得2分,錯(cuò)誤得0分;當(dāng)核心實(shí)體標(biāo)簽數(shù)量為2個(gè)的時(shí)候,根據(jù)正確得數(shù)量獲取得分。 3) 關(guān)鍵描述準(zhǔn)確度用于描述標(biāo)簽中獲取到的形容詞或重要名詞是否合適,該項(xiàng)總分3分。多個(gè)形容詞情況下,從前至后按詞頻比求取加權(quán)平均值,共劃分為4個(gè)層級(jí)進(jìn)行評(píng)分工作,分別為: (1) 所摘取關(guān)鍵描述與核心實(shí)體之間的關(guān)聯(lián)度高,且對(duì)核心實(shí)體的描述十分貼切,如“險(xiǎn)峻”之于“華山”,該情況得分為3分。 (2) 所摘取形容詞與核心實(shí)體之間關(guān)聯(lián)度一般,但對(duì)于核心實(shí)體所屬類(lèi)型而言,較為貼切。如“波瀾不興”之于“滇池”,該形容不具有代表性,但對(duì)于湖泊而言,相對(duì)通用,該情況得2分。 (3) 所摘取形容詞于核心實(shí)體之間關(guān)聯(lián)度較低,但對(duì)于分類(lèi)標(biāo)簽而言,尚可利用。如“層巒疊翠”之于“太湖”,雖不具有較強(qiáng)關(guān)聯(lián)性,但對(duì)于景物描寫(xiě)分類(lèi)而言,尚有利用價(jià)值,該情況得1分。 (4) 所摘取形容詞于核心實(shí)體之間無(wú)關(guān)聯(lián)度,且于分類(lèi)標(biāo)簽無(wú)價(jià)值。如“勤奮”之于“死海”,該情況得0分。 本文研究基于上述評(píng)分標(biāo)準(zhǔn),以總分6分,3個(gè)維度入手,通過(guò)人工評(píng)價(jià)的方式對(duì)標(biāo)簽抽取進(jìn)行分?jǐn)?shù)評(píng)估。通過(guò)嚴(yán)格設(shè)定各評(píng)分段位界定方法,可以有效降低人工評(píng)價(jià)中主觀色彩過(guò)強(qiáng)引起的結(jié)果偏差。 本文對(duì)比測(cè)試選擇關(guān)鍵詞抽取算法,由于對(duì)比項(xiàng)為關(guān)鍵詞抽取,不具有文章分類(lèi)能力,故選取5個(gè)關(guān)鍵詞來(lái)與本文標(biāo)簽抽取策略獲取的結(jié)果進(jìn)行除分類(lèi)外的對(duì)比。 TF-IDF即詞頻-逆文件頻率,是常用于資訊檢索及資訊探勘的一種加權(quán)技術(shù),其核心思想為一個(gè)詞在一篇文檔中出現(xiàn)頻次高,而在其他文檔中出現(xiàn)頻次小,則具有代表價(jià)值。對(duì)應(yīng)到單文檔的關(guān)鍵詞抽取中,則將對(duì)應(yīng)句子視為評(píng)估單位。 TextRank算法也常被用于關(guān)鍵詞提取。為了計(jì)算句子之間的關(guān)聯(lián)性,在PageRank的基礎(chǔ)上引入了邊的權(quán)值概念,并運(yùn)用相應(yīng)的相似度算法進(jìn)行計(jì)算。而在獲取關(guān)鍵詞的過(guò)程中,若將詞視為句子,則所有節(jié)點(diǎn)之間的權(quán)重變?yōu)?,那么TextRank算法的計(jì)算就退變回了PageRank算法。 Word2Vec可以將詞語(yǔ)轉(zhuǎn)換為語(yǔ)義向量,自然也能運(yùn)用于關(guān)鍵詞提取。本文對(duì)比方案利用樸素貝葉斯假設(shè),將句子序列視為詞語(yǔ)序列的集合。具體計(jì)算詞語(yǔ)權(quán)重的方法為將序列集合中詞語(yǔ)與詞語(yǔ)之間的轉(zhuǎn)移概率進(jìn)行求和操作。 測(cè)試數(shù)據(jù)為小學(xué)語(yǔ)文作文共50篇,涉及到的年級(jí)為三年級(jí)、四年級(jí)和五年級(jí)。采用人工盲評(píng)的方式進(jìn)行打分,計(jì)算結(jié)果取平均分,保留小數(shù)點(diǎn)后三位最終的得分結(jié)果如表8所示。 表8 測(cè)試結(jié)果 本文提出的標(biāo)簽自動(dòng)抽取方案在不計(jì)算分類(lèi)準(zhǔn)確度的情況下最終得分為2.625分,計(jì)算分類(lèi)準(zhǔn)確度的情況下最終得分為3.431分,明顯優(yōu)于常用關(guān)鍵詞算法。其中,分類(lèi)準(zhǔn)確度達(dá)到80%,能夠比較有效地區(qū)分人物描寫(xiě)和景物描寫(xiě)。在實(shí)體準(zhǔn)確度上,本文方案、TF-IDF算法以及TextRank算法在實(shí)體準(zhǔn)確度上都取得了較好的效果,但Word2Vec的結(jié)果卻差強(qiáng)人意,這可能是由于在關(guān)鍵詞權(quán)重計(jì)算方法上缺少針對(duì)性。 在關(guān)鍵描述的得分結(jié)果上,本文得分明顯優(yōu)于其他三類(lèi)得分,這說(shuō)明本文所提出的標(biāo)簽抽取策略在該評(píng)價(jià)標(biāo)準(zhǔn)下取得了較好的效果。一方面是因?yàn)楸疚姆桨冈谶x取關(guān)鍵描述的時(shí)候主動(dòng)排除了動(dòng)詞的干擾,但是在另外三種算法中卻沒(méi)有體現(xiàn)。另一方面,由于本文方案采用了自動(dòng)摘要去除冗余,因此能夠更好地獲取到中心內(nèi)容,而另外三類(lèi)算法沒(méi)有對(duì)原始語(yǔ)料進(jìn)行去除冗余操作,導(dǎo)致一般性動(dòng)詞的大量留存,最終干擾了關(guān)鍵描述的抽取結(jié)果。 最后,在對(duì)不同年級(jí)的評(píng)分結(jié)果進(jìn)行比較時(shí)發(fā)現(xiàn),高年級(jí)的平均得分明顯高于低年級(jí),這是因?yàn)楦吣昙?jí)學(xué)生用詞更加豐富,更加適合本文方案。當(dāng)然,在對(duì)關(guān)鍵描述的獲取上,本文仍有較大的進(jìn)步空間,但這并不妨礙本方案的可用性。 本文圍繞當(dāng)前小學(xué)語(yǔ)文作文輔助中,作文素材的非結(jié)構(gòu)化特征與語(yǔ)料信息化所需要的結(jié)構(gòu)化數(shù)據(jù)之間的矛盾,提出了基于文本自動(dòng)摘要的小學(xué)語(yǔ)文作文標(biāo)簽提取方法,實(shí)現(xiàn)作文語(yǔ)料的結(jié)構(gòu)化組織。 本文對(duì)標(biāo)簽抽取過(guò)程中涉及的關(guān)鍵技術(shù)進(jìn)行了對(duì)比分析,選取了抽取型自動(dòng)文摘方法、基于詞典的分詞方案以及有監(jiān)督的命名實(shí)體識(shí)別方法等作為主要技術(shù)框架。同時(shí),本文嘗試給出了小學(xué)語(yǔ)文作文標(biāo)簽的定義并根據(jù)應(yīng)用場(chǎng)景設(shè)定了相應(yīng)的評(píng)價(jià)指標(biāo)。仿真實(shí)驗(yàn)表明,本文方法在小學(xué)語(yǔ)文作文領(lǐng)域的標(biāo)簽準(zhǔn)確度評(píng)估中相較于傳統(tǒng)的關(guān)鍵詞算法有較大提升。3 測(cè)試與評(píng)價(jià)
3.1 評(píng)價(jià)指標(biāo)
3.2 對(duì)比方案
3.3 測(cè)試結(jié)果
4 結(jié) 語(yǔ)