喬亞勃 高永兵 馬 寧
(內(nèi)蒙古科技大學(xué) 信息工程學(xué)院,內(nèi)蒙古 包頭014010)
網(wǎng)絡(luò)的用戶數(shù)量隨著互聯(lián)網(wǎng)的普及呈爆發(fā)式增長(zhǎng),數(shù)據(jù)的產(chǎn)生更是以指數(shù)級(jí)的速率增長(zhǎng)。其中文本信息是關(guān)注的重點(diǎn),盡管海量的文本數(shù)據(jù)資源支持了文本技術(shù)的發(fā)展與研究,但其價(jià)值密度過低,數(shù)據(jù)中包含了大量重復(fù)、噪聲和垃圾數(shù)據(jù)。評(píng)估短文本的質(zhì)量對(duì)于許多應(yīng)用程序(例如推薦系統(tǒng)和在線搜索,以查找高質(zhì)量的文章過濾掉低質(zhì)量的文章)是一個(gè)關(guān)鍵問題。
目前文本質(zhì)量評(píng)估大致分為長(zhǎng)文本質(zhì)量評(píng)估與短文本質(zhì)量評(píng)估兩大類。長(zhǎng)文本質(zhì)量評(píng)估主要針對(duì)中英文作文自動(dòng)評(píng)分研究,國(guó)外對(duì)于自動(dòng)評(píng)估系統(tǒng)的研究較早,目前美國(guó)教育考試領(lǐng)域已經(jīng)實(shí)用的AES 系統(tǒng)有PEG、IEA、E-rater[1-2]。國(guó)內(nèi)涉足此領(lǐng)域的研究較晚,曹亦徽和楊晨使用潛在語(yǔ)義分析方法對(duì)漢語(yǔ)作文自動(dòng)評(píng)分進(jìn)行研究。劉明楊等人通過對(duì)作文中排比以及比喻修辭的自動(dòng)識(shí)別,對(duì)高考作文進(jìn)行自動(dòng)評(píng)分研究。付瑞吉[3]等人提出了一種基于CNN 和BiLSTM 的混合網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)美句識(shí)別對(duì)高考作文自動(dòng)評(píng)分。用于長(zhǎng)文本的評(píng)估方法并不能簡(jiǎn)單的套用到短文本上。針對(duì)處理深度的不同,國(guó)內(nèi)對(duì)于短文本質(zhì)量評(píng)估可分為淺層功能評(píng)估與深層功能評(píng)估兩類。淺層功能評(píng)估,即主要針對(duì)文本信息的可信度、準(zhǔn)確性、及時(shí)性、完整性、真實(shí)性等一系列表面特征進(jìn)行評(píng)估。盛宇等人根據(jù)內(nèi)容相關(guān)度、內(nèi)容質(zhì)量、內(nèi)容更新計(jì)算出信息質(zhì)量綜合指數(shù),通過統(tǒng)計(jì)個(gè)人相關(guān)詞表并與公共相關(guān)詞表結(jié)合、去重后得出個(gè)人領(lǐng)域相關(guān)詞表,對(duì)博文進(jìn)行質(zhì)量評(píng)估。胡媛[4]從微博信源可信度和信息質(zhì)量的雙路徑視角構(gòu)建微博信息質(zhì)量評(píng)價(jià)指標(biāo)體系。深層功能評(píng)估,Yiru Wang[5]等人提出聯(lián)合模型CoQAN 設(shè)計(jì)三個(gè)子網(wǎng)絡(luò)來解耦布局組織、寫作特征和文本語(yǔ)義。其中文本語(yǔ)義子網(wǎng)使用改進(jìn)的hi-Bert 模型,其包含兩個(gè)層級(jí)的編碼器依次對(duì)文檔進(jìn)行編碼,分別應(yīng)用于句子級(jí)別和文檔級(jí)別,深入學(xué)習(xí)單詞和句子之間的交互關(guān)系。高永兵等人提出了一種基于AMR 解析的短文本質(zhì)量評(píng)估的方法,主要從語(yǔ)法層面對(duì)微博短文本進(jìn)行質(zhì)量評(píng)估,根據(jù)語(yǔ)法結(jié)構(gòu)的完整性以及句子序列緊密性對(duì)句子進(jìn)行打分,將句子質(zhì)量分為高、中、低三類。此方法較適用于語(yǔ)法成分比較齊全、句式結(jié)構(gòu)較完整短句,對(duì)于語(yǔ)法不齊全、簡(jiǎn)約、缺乏上下文信息的優(yōu)美句來說并不能很好的做出評(píng)估。
要實(shí)現(xiàn)短文本質(zhì)量評(píng)估任務(wù),不僅要分析文本的淺層特征,更重要的是將文本進(jìn)行解析,從文本的語(yǔ)法、語(yǔ)義、語(yǔ)用等深層特征入手。本文提出一種AMR 解析與優(yōu)美句識(shí)別相結(jié)合的模型如圖1所示。針對(duì)語(yǔ)法較齊全、結(jié)構(gòu)完整的句子,通過AMR 質(zhì)量評(píng)估模型對(duì)其進(jìn)行評(píng)分,除以上句式以外的其他句式定義為特殊語(yǔ)句,通過優(yōu)美句識(shí)別模型對(duì)其進(jìn)行評(píng)估,實(shí)現(xiàn)了對(duì)優(yōu)美句的精確識(shí)別,彌補(bǔ)了AMR 質(zhì)量評(píng)估模型存在的缺陷。
圖1 AMR 與優(yōu)美句識(shí)別模型流程圖
微博中不乏有在語(yǔ)法生動(dòng)、句式比較靈活、巧用文言詞、古詩(shī)詞等某一方面或幾方面有突出之處的有文采的特殊短句,本文稱之為“優(yōu)美句”。這些優(yōu)美句通常語(yǔ)言精練、語(yǔ)句簡(jiǎn)短,但語(yǔ)法成分不齊全,句式結(jié)構(gòu)比較特殊。在對(duì)數(shù)據(jù)進(jìn)行評(píng)估時(shí),AMR 質(zhì)量評(píng)估模型因評(píng)估規(guī)則不完善,沒有針對(duì)優(yōu)美句識(shí)別的相應(yīng)算法和規(guī)則,模型將優(yōu)美句評(píng)估成低質(zhì)量的語(yǔ)句。本文將提取AMR 質(zhì)量打分較低的語(yǔ)句,然后利用優(yōu)美句識(shí)別模型對(duì)其進(jìn)行二次評(píng)定。最后,綜合AMR 質(zhì)量評(píng)估模型與優(yōu)美句識(shí)別模型的最終得分對(duì)句子進(jìn)行分類。
已有實(shí)驗(yàn)表明Bert 網(wǎng)絡(luò)模型可以捕獲語(yǔ)言的結(jié)構(gòu)信息。Bert不同的網(wǎng)絡(luò)層對(duì)特征的編碼也是不同的,較低層學(xué)習(xí)到的是詞語(yǔ)級(jí)別等表面特征,中間層學(xué)習(xí)到的是語(yǔ)法層面的特征,頂層學(xué)習(xí)到的是語(yǔ)義特征。Jawahar[6]等人使用十個(gè)句子級(jí)別的探測(cè)任務(wù)來評(píng)估每層網(wǎng)絡(luò)編碼不同類型語(yǔ)言特征的能力,并將這十個(gè)任務(wù)分為表面層任務(wù)、句法層任務(wù)、語(yǔ)義層任務(wù),表面層任務(wù)用來探測(cè)句子長(zhǎng)度,句子中單詞的存在;句法層任務(wù)用來探測(cè)詞序敏感性,語(yǔ)法樹深度,語(yǔ)法樹頂級(jí)成分序列;語(yǔ)義層任務(wù)用來探測(cè)時(shí)態(tài)檢查,主語(yǔ)數(shù)量,名詞動(dòng)詞隨機(jī)替換敏感度,協(xié)作分句連詞的隨機(jī)交換。
Bert 模型首先對(duì)輸入的句子序列進(jìn)行預(yù)處理,中文是以單個(gè)字作為基本處理單位。模型中還加入了特殊字符“[CLS]”作為標(biāo)記序列的前綴,并在每個(gè)句子后綴“[SEP]”。文本分類任務(wù)中,Bert 模型最終將整個(gè)句子中所有字/詞的語(yǔ)義信息都融合在“[CLS]”中作為整個(gè)句子的語(yǔ)義表示。
圖2 優(yōu)美句識(shí)別模型
一個(gè)句子序列X1:T=(x1,...,x)T,語(yǔ)言模型將聯(lián)合概率p(x1:T)按自回歸的方式分解為:
Bert 模型提出的MLM(Mask Language Model)將其分解為:
目前國(guó)內(nèi)外還沒有統(tǒng)一的短文本質(zhì)量評(píng)估的語(yǔ)料庫(kù)和測(cè)試集。從微博中爬取10000 條經(jīng)過篩選與處理后的數(shù)據(jù),其中500 條作為數(shù)據(jù)集A 使用AMR 質(zhì)量評(píng)估進(jìn)行測(cè)評(píng),人工標(biāo)注數(shù)據(jù)集中每句話的質(zhì)量等級(jí)類別,因目前中文AMR 解析準(zhǔn)確率不高,將數(shù)據(jù)轉(zhuǎn)換成AMR 解析樹后,需要進(jìn)行人工校正;9500 條數(shù)據(jù)為數(shù)據(jù)集B,作為優(yōu)美句識(shí)別模型的數(shù)據(jù)集,人工標(biāo)注該數(shù)據(jù)集中每個(gè)句子優(yōu)美(標(biāo)記為“1”)或不優(yōu)美(標(biāo)記為“0”)。
首先對(duì)數(shù)據(jù)集A 進(jìn)行AMR 解析并人工校正,經(jīng)AMR 質(zhì)量評(píng)估模型打分。通過測(cè)試得知,AMR 質(zhì)量評(píng)估模型存在一些缺陷,日常中發(fā)現(xiàn)的優(yōu)美句,因其語(yǔ)法不齊全、結(jié)構(gòu)復(fù)雜、句式不規(guī)律等諸多因素,造成AMR 質(zhì)量評(píng)估模型對(duì)優(yōu)美句的質(zhì)量評(píng)估并不敏感。如給簡(jiǎn)單句子打高分,而給優(yōu)美語(yǔ)句打低分等情況。
用標(biāo)注好的數(shù)據(jù)集B 訓(xùn)練Bert 模型,提取優(yōu)美句相關(guān)特征,并進(jìn)行微調(diào)。將AMR 質(zhì)量評(píng)估模型打分低的語(yǔ)句通過訓(xùn)練好的Bert模型進(jìn)行二次評(píng)定,最終Bert 模型評(píng)估優(yōu)美句準(zhǔn)確率達(dá)到83.88%。
本次實(shí)驗(yàn)采用兩組實(shí)驗(yàn)進(jìn)行對(duì)比,實(shí)驗(yàn)一為AMR 質(zhì)量評(píng)估模型實(shí)驗(yàn),實(shí)驗(yàn)二為基于AMR 與優(yōu)美句識(shí)別的實(shí)驗(yàn),對(duì)比結(jié)果如表1 所示:
表1 對(duì)比實(shí)驗(yàn)
通過表中數(shù)據(jù)可以發(fā)現(xiàn),實(shí)驗(yàn)二的準(zhǔn)確率明顯高于實(shí)驗(yàn)一的準(zhǔn)確率。實(shí)驗(yàn)一是基于AMR 解析基礎(chǔ)之上的,目前AMR 對(duì)英文的解析效果比較準(zhǔn)確,雖然CAMR 解析器是針對(duì)中文的,但其準(zhǔn)確率并不是很理想。這是造成AMR 質(zhì)量評(píng)估模型準(zhǔn)確率低的主要原因。另一個(gè)原因是AMR 質(zhì)量評(píng)估模型的評(píng)估方法相對(duì)較少,有待補(bǔ)充。中文語(yǔ)言豐富,句式復(fù)雜等因素,很難對(duì)句子進(jìn)行徹底的剖析。
本文主要依據(jù)優(yōu)美句的識(shí)別來評(píng)估短文本的質(zhì)量,提出以AMR 與優(yōu)美句識(shí)別相結(jié)合的方法,利用優(yōu)美句識(shí)別模型對(duì)特殊句式進(jìn)行二次評(píng)估,增加了對(duì)短文本質(zhì)量評(píng)估的方法,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的質(zhì)量評(píng)估模型與其他單一模型相比在精度上有了提高。通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性。