魏天珂,呂學(xué)強(qiáng),周 強(qiáng)
1 (北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101 2(清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌),清華大學(xué)信息技術(shù)研究院語(yǔ)音與語(yǔ)言技術(shù)中心, 北京 100084)
在漢語(yǔ)中,句群是在語(yǔ)義上有邏輯聯(lián)系,在語(yǔ)法上有結(jié)構(gòu)關(guān)系,在語(yǔ)流中銜接連貫的一組句子的組合[1].每個(gè)句群一般有一個(gè)明晰的中心意思.80年代以來(lái),由于受到國(guó)外“句子實(shí)際切分”以及“話語(yǔ)語(yǔ)言學(xué)”問(wèn)題討論的影響,我國(guó)對(duì)句群研究的關(guān)注度逐漸加強(qiáng)[2].近幾年研究表明,句群的研究對(duì)機(jī)器翻譯以及閱讀理解問(wèn)題有著至關(guān)重要的作用[3-5].另外,句群比單個(gè)句子考慮了更大的上下文環(huán)境,且相對(duì)整個(gè)篇章,句群的結(jié)構(gòu)更加清晰、簡(jiǎn)單,這些特點(diǎn)使得句群在很多文本研究中越發(fā)受歡迎.
在漢語(yǔ)中,大多數(shù)的篇章都是由不同的主題組織的,而一個(gè)句群只含有一個(gè)明確的中心思想,因此,句群的切分問(wèn)題可以視作語(yǔ)篇不同主題片段的識(shí)別問(wèn)題.根據(jù)人們的寫作特點(diǎn)與閱讀習(xí)慣,一般根據(jù)主題信息按照從頂向下的方式將相同主題的信息組織起來(lái),然后利用自底向上的方式判斷當(dāng)前句子與上一個(gè)句子之間的關(guān)系.通過(guò)這樣一種“從頂向下+自底向上”的方式就可以將整個(gè)語(yǔ)篇的結(jié)構(gòu)劃分清楚.在句群切分過(guò)程中,如果能夠識(shí)別句子之間的連貫關(guān)系,判斷兩個(gè)句子是否在描述同一個(gè)主題,就可以得出這兩個(gè)句子是否在同一個(gè)句群中,從而實(shí)現(xiàn)句群的自動(dòng)切分.我們?cè)谇耙浑A段的研究中得出,如果兩個(gè)句子之間有連貫關(guān)系,那么這兩個(gè)句子總是在一個(gè)句群中,相反這兩句則分別是兩個(gè)句群的結(jié)尾和開(kāi)始1.在自然語(yǔ)言處理領(lǐng)域中,兩個(gè)句子(以下簡(jiǎn)稱句對(duì))之間的關(guān)系識(shí)別早已不是新話題,許多專家學(xué)者在英語(yǔ)方面已經(jīng)做了很多研究,在DRC(Discourse Relation Classification)、PI(Paraphrase Identification)、TE(Textual Entailment)等問(wèn)題上取得了可觀的成果.另一方面,如果只在兩句的上下文環(huán)境中進(jìn)行句群的切分,有可能造成句群顆粒度過(guò)于碎或者過(guò)于大.因此,在句對(duì)關(guān)系分類時(shí)加入句群的主題信息,可以利用更大的上下文環(huán)境,使得切分出的句群更加準(zhǔn)確.
目前大多數(shù)的分類方法都是利用有監(jiān)督方法進(jìn)行學(xué)習(xí),訓(xùn)練時(shí)需要大量的標(biāo)注數(shù)據(jù),而實(shí)際環(huán)境中通常并不能夠獲取大規(guī)模的標(biāo)注數(shù)據(jù),因此需要利用弱標(biāo)注或是無(wú)標(biāo)注的數(shù)據(jù)來(lái)解決數(shù)據(jù)短缺難題.段落和句群在結(jié)構(gòu)上有許多相似之處,兩者分割邊界重合的情況十分常見(jiàn),因此,可以將此類數(shù)據(jù)集作為句群邊界的弱標(biāo)注數(shù)據(jù)集,將其與原始句群標(biāo)注數(shù)據(jù)集進(jìn)行合并.在這個(gè)弱標(biāo)注環(huán)境下,本文提出了一種句群自動(dòng)切分方法,利用CNN(Convolutional Neural Network)對(duì)輸入的漢語(yǔ)句對(duì)進(jìn)行分類,在輸入層加入句群主題特征來(lái)引入句群切分最需要的上下文信息,后加入注意力機(jī)制對(duì)卷積層的輸出進(jìn)行改善.最后將句對(duì)的分類結(jié)果轉(zhuǎn)換成句群結(jié)構(gòu)與人工構(gòu)建的評(píng)測(cè)語(yǔ)料進(jìn)行對(duì)比,使用宏嚴(yán)格一致率與宏模糊一致率以及WindowDiff[7]對(duì)句群切分結(jié)果進(jìn)行綜合評(píng)定.
在下面幾節(jié)中,第二節(jié)主要介紹相關(guān)工作,第三節(jié)主要是漢語(yǔ)句群自動(dòng)劃分模型設(shè)計(jì)與相關(guān)評(píng)價(jià)函數(shù);第四節(jié)主要給出了實(shí)驗(yàn)結(jié)果與分析說(shuō)明;最后的第五節(jié)是結(jié)論與展望.
獲取大規(guī)模的標(biāo)注數(shù)據(jù)是昂貴且困難的,例如,在科學(xué)應(yīng)用中,獲取標(biāo)簽數(shù)據(jù)需要進(jìn)行重復(fù)實(shí)驗(yàn)或人工標(biāo)注.在醫(yī)學(xué)應(yīng)用中,獲得新藥物的活性分子可能需要昂貴的專業(yè)知識(shí).而另一方面,許多領(lǐng)域的大規(guī)模弱標(biāo)注語(yǔ)料普遍存在且閑置.因此,利用弱標(biāo)記的訓(xùn)練數(shù)據(jù)可能有助于提高性能并發(fā)現(xiàn)數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)[8].這些弱標(biāo)注數(shù)據(jù)集的標(biāo)簽相對(duì)于標(biāo)注數(shù)據(jù)集是不完整的,在本文任務(wù)中,那些不完整的標(biāo)簽數(shù)據(jù)集對(duì)應(yīng)的是段落邊界與句群邊界不重合的部分.而田小琳等指出,段落和句群在很多地方是相似的,在一定程度上甚至可以相等.因此,在弱標(biāo)注段落數(shù)據(jù)集中,有大部分的段落邊界標(biāo)簽是與句群邊界標(biāo)簽相同的.所以,本文在弱標(biāo)注環(huán)境下,對(duì)句群自動(dòng)切分進(jìn)行了研究.
目前對(duì)漢語(yǔ)句群的自動(dòng)切分研究不是很多.王榮波(2015)[9]等提出了基于多元判別分析的漢語(yǔ)句群自動(dòng)劃分方法,并根據(jù)多個(gè)特征.例如,句群主題特征、句間連貫關(guān)系特征等設(shè)計(jì)出評(píng)價(jià)函數(shù),在每一個(gè)段落的句子組合中,選取最合適的一個(gè)句子組合作為句群,并使用518個(gè)句群進(jìn)行實(shí)驗(yàn).然而其過(guò)程并沒(méi)有真正實(shí)現(xiàn)自動(dòng)化,且只在段落內(nèi)部進(jìn)行了句群切分的研究,而眾多研究表明,句群也可能由多個(gè)段落組成.由此可見(jiàn),對(duì)句群的自動(dòng)切分不能只局限在段落內(nèi)部.朱靖波等(2017)[10]在整個(gè)篇章的層面上使用多元判別分析對(duì)段落實(shí)現(xiàn)了段落的自動(dòng)切分,并利用遺傳算法來(lái)降低窮舉帶來(lái)的高時(shí)間復(fù)雜度.以上相關(guān)研究均意識(shí)到了主題對(duì)于句群和段落這類語(yǔ)篇單位的重要性.可見(jiàn)句群或段落的有效切分與其主題有著密切聯(lián)系.另一方面,目前大部分的文本切分,一般是以整篇文檔作為分析單位,在進(jìn)行深度學(xué)習(xí)的過(guò)程中導(dǎo)致信息學(xué)習(xí)不夠徹底,從而遺漏很多重要信息.從單個(gè)句子層面分析文本切分,又會(huì)遺失很多至關(guān)重要的上下文信息.因此,本文在句對(duì)的層面上對(duì)小顆粒度單位—句群進(jìn)行切分,考慮了上下文重要信息,又避免了直接處理整個(gè)文本的復(fù)雜性.是十分合適的研究單位.
有關(guān)句對(duì)關(guān)系的識(shí)別與分類,Yin等(2016)[11]提出的ABCNN(Attention-Based Convolutional Neural Network)在很多數(shù)據(jù)集上均取得了不錯(cuò)的效果.他以卷積神經(jīng)網(wǎng)絡(luò)CNN作為基礎(chǔ)模型,利用Yoon Kim[12]論文中所提出的卷積方式,直接在輸入層加注意力機(jī)制(attention)來(lái)改善卷積層的輸出,后又在卷積層加入注意力機(jī)制對(duì)卷積層輸出的結(jié)果進(jìn)行改善.他分別在AS(Answer Selection)領(lǐng)域的WiKiQA,PI(Paraphrase Identification)領(lǐng)域的MSRP,TE(Textual Entailment)領(lǐng)域的SenEval 2014 Task進(jìn)行實(shí)驗(yàn).都得到了不錯(cuò)的效果.Ji等(2016)[13]提出的DRLM(Discourse Relation Language Models)同樣對(duì)句對(duì)關(guān)系進(jìn)行了分類,使用LSTM(Long Short-Term Memory)[14]模型,并用兩個(gè)向量來(lái)表示上下文環(huán)境,一個(gè)向量表示句子內(nèi)部詞語(yǔ)級(jí)別的上下文環(huán)境,另一個(gè)向量是句對(duì)之間的上下文環(huán)境.然后將這兩個(gè)向量進(jìn)行線性組合.他在PDTB(Penn Discourse Treebank)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),同樣取得了不錯(cuò)的效果.Qin等(2016)[16]提出一種stacking gated 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),也對(duì)語(yǔ)篇句子之間的隱性關(guān)系進(jìn)行了研究,并且細(xì)化了句對(duì)關(guān)系,將其分為4大類,即COMP(COMPARISON),CONT(CONTINGENCY),EXP(EXPANSION,TEMP(TEMPORAL).他在PDTB數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),四個(gè)類別的F1值均有不錯(cuò)的效果.該作者在2017年[17]又提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)-對(duì)抗神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),繼續(xù)研究語(yǔ)篇句子之間的隱性關(guān)系,取得了新的進(jìn)展.
以上關(guān)于句對(duì)關(guān)系分類都可以為句群邊界句的識(shí)別提供理論基礎(chǔ)和技術(shù)支撐.例如,在TE問(wèn)題中處理“蘊(yùn)含”或是“矛盾”關(guān)系時(shí),“蘊(yùn)含”即為兩個(gè)句子語(yǔ)義較為相似時(shí)的句對(duì)關(guān)系,對(duì)應(yīng)在句群切分任務(wù)上,句對(duì)關(guān)系可以意味著“連貫”;“矛盾”則兩個(gè)句子語(yǔ)義差別較大,對(duì)應(yīng)在句群切分任務(wù)上,句對(duì)關(guān)系可以意味著“不連貫”.因此,無(wú)論在處理PI、TE還是本任務(wù)的句對(duì)連貫關(guān)系識(shí)別,都有一定的相通性.上文也提到,句群主題特征對(duì)句群邊界的識(shí)別有重要作用,因此,結(jié)合句群主題特征的句對(duì)分類可能更適合本文的任務(wù).
詞向量作為神經(jīng)網(wǎng)絡(luò)模型最基礎(chǔ)的第一步,在一定程度上決定著一個(gè)模型的好壞.為了選擇一個(gè)性能較高的詞向量模型,本文從不同方面對(duì)詞向量進(jìn)行了研究,從語(yǔ)料規(guī)模、領(lǐng)域和詞向量維度上進(jìn)行了探索.從網(wǎng)絡(luò)上搜集新聞、百度百科、維基百科、新浪微博等不同領(lǐng)域不同規(guī)模的語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn),利用skip-gram模型訓(xùn)練出不同維度的詞向量以供選擇.并使用NLPCC-ICCPOL 2016[18]公開(kāi)評(píng)測(cè)數(shù)據(jù)集進(jìn)行評(píng)測(cè),該數(shù)據(jù)集由北京大學(xué)吳云芳老師組織20位語(yǔ)言學(xué)研究生標(biāo)注(結(jié)果取平均)完成.共500個(gè)詞對(duì),全部隨機(jī)抽取自NLPCC-ICCPOL 2016給出的一萬(wàn)個(gè)詞.最后利用詞向量進(jìn)行詞對(duì)相似度計(jì)算,從而完成對(duì)詞向量的評(píng)測(cè).
本文的任務(wù)是實(shí)現(xiàn)漢語(yǔ)語(yǔ)篇句群的自動(dòng)切分,將相鄰的兩個(gè)句子組成的句對(duì)輸入到神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行分類.并將其分為兩類,即句對(duì)之間分為有連貫關(guān)系或無(wú)連貫關(guān)系.本文基于ABCNN(加入注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型)進(jìn)行修改實(shí)驗(yàn).該模型原本使用了兩層CNN,卷積方式是一個(gè)窗口最后只生成一個(gè)卷積值,然后在句子長(zhǎng)度上進(jìn)行滑動(dòng),得到一個(gè)長(zhǎng)度為“句子長(zhǎng)度+滑動(dòng)窗口值-1”的向量.在第一層CNN的輸入層就加入注意力機(jī)制attention,其原理是將輸入拓展成雙通道.即先計(jì)算矩陣A,其每個(gè)元素Aij代表句子1中第i個(gè)詞語(yǔ)對(duì)句子2中第j個(gè)詞語(yǔ)的匹配分?jǐn)?shù)(match_score),然后分別計(jì)算兩個(gè)句子的attention map.在第二層CNN中,當(dāng)計(jì)算完attention矩陣A,需要分別為兩個(gè)句子計(jì)算兩個(gè)attention權(quán)重向量,即修改了池化層方法,不再是簡(jiǎn)單的Average Pooling,而是根據(jù)計(jì)算出的attention權(quán)重向量計(jì)算.但是,該作者提出ABCNN模型的初衷是為了處理PI問(wèn)題或TE問(wèn)題,例如,句子1為“一個(gè)有多個(gè)男人玩的足球賽”,句子2為“一些男人正在足球賽”,在輸入層利用句子1中第i個(gè)詞語(yǔ)對(duì)句子2中第j個(gè)詞語(yǔ)的匹配分?jǐn)?shù)很有必要.然而,這不一定適合本文任務(wù).因此,本文修改了ABCNN-1模型,即在輸入層添加句群主題信息,不再利用ABCNN在輸入層中給出的attention,設(shè)計(jì)出更適合本文任務(wù)的神經(jīng)網(wǎng)絡(luò)模型--結(jié)合主題特征的注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)模型Theme Attention based Convolutional Neural Network(TABCNN).其中,第二層卷積層所用的注意力機(jī)制仍然使用ABCNN-2模型,Attention 矩陣A的計(jì)算方法不變.
原本的輸入層只需要將輸入句子進(jìn)行padding后轉(zhuǎn)化成詞向量即可,為了能夠利用句群主題信息,更好地進(jìn)行句群邊界的區(qū)分,在進(jìn)行word embedding時(shí),在每一個(gè)句子最后加入該句所屬的主題向量.所有的主題向量在進(jìn)行句對(duì)分類前預(yù)先利用主題聚類模型進(jìn)行訓(xùn)練.句群主題信息的提取采用文檔主題生成模型(LDA),只是將提取主題的單位從文檔縮短至句群.用于文檔主題提取的語(yǔ)料除了人工標(biāo)注的句群之外,還使用了段落.訓(xùn)練得出了35個(gè)主題信息,然后根據(jù)主題id與詞語(yǔ)id之間的分布關(guān)系,以及詞語(yǔ)id與主題id之間的概率分布,計(jì)算出每一個(gè)句子的主題向量,將此主題向量和詞語(yǔ)向量放在一起,共同構(gòu)建句子向量矩陣作為TABCNN模型的輸入.通過(guò)這樣的方法有效地放大了不同句群主題之間的差異,更大程度地利用上下文信息,從而提升句群邊界句的識(shí)別效率.具體處理過(guò)程如圖1所示.
圖1 TABCNN結(jié)構(gòu)
另外,為了說(shuō)明段落信息在句群主題提取模型和句對(duì)關(guān)系分類模型中的可利用性,本文在135篇人工標(biāo)注的語(yǔ)篇上進(jìn)行了段落和句群的對(duì)比實(shí)驗(yàn).統(tǒng)計(jì)出了兩者在邊界上的差異.數(shù)據(jù)如表1所示.
表1 135篇語(yǔ)料中段落和句群的邊界差異
根據(jù)表1可得,125個(gè)段落包含了544個(gè)句群,說(shuō)明有n個(gè)句群組成一個(gè)段落的情況,這與之前的研究相符合.即段落一般由多個(gè)句群組成.同時(shí)也有45個(gè)句群包含79個(gè)段落的情況,即n個(gè)段落組成一個(gè)句群,這樣的情況多出現(xiàn)在語(yǔ)篇有“詩(shī)篇”結(jié)構(gòu)時(shí),或者為了強(qiáng)調(diào)某個(gè)意義而故意一句一段時(shí).因此這也屬于正常情況.而大部分的段落邊界是與句群邊界重合的,由此我們得出,段落信息在某種意義上與句群較為相近,因此,在進(jìn)行句群主題提取或是句對(duì)關(guān)系分類時(shí),可以利用段落信息對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行擴(kuò)充.
對(duì)于神經(jīng)網(wǎng)絡(luò)模型評(píng)測(cè),使用準(zhǔn)確率.對(duì)于句群邊界的差異,將其分為包含與交叉,對(duì)此使用宏嚴(yán)格一致率、宏模糊一致率來(lái)進(jìn)行對(duì)比統(tǒng)計(jì).之所以引入宏模糊一致率,是因?yàn)橛袝r(shí)出現(xiàn)句群包含情況時(shí),并不能說(shuō)明算法切分出的句群一定不正確.畢竟句群邊界的位置并不是絕對(duì)的,句群是一個(gè)相對(duì)靈活的單位.因此,宏模糊一致率也有一定的參考作用.其中宏嚴(yán)格一致率=模型切分句群與人工標(biāo)注句群邊界一致的句群總數(shù)/模型切分句群總數(shù);宏模糊一致率=模型切分句群與人工標(biāo)注句群邊界相等+包含的總數(shù)/模型切分句群總數(shù).具體公式如下所示:
宏嚴(yán)格一致率=
(1)
宏模糊一致率=
(2)
同時(shí)使用文本分割中公認(rèn)的WindowDiff評(píng)價(jià)方法對(duì)句群切分的結(jié)果進(jìn)行評(píng)測(cè).具體如公式(3)所示.
WindowDiff(ref,hyp)=
(3)
2SG = sentence group 句群邊界.PG = paragraph 段落邊界
其中,ref指人工判斷的分割模式,hyp是指算法給出的分割模式.b(i,j)表示位置i和位置j之間分割點(diǎn)的個(gè)數(shù).N表示語(yǔ)篇中句子的數(shù)量.
本文訓(xùn)練詞向量的語(yǔ)料來(lái)自維基百科、新浪微博、新聞,使用Spearman相關(guān)系數(shù)*https://baike.baidu.com/item/spearman相關(guān)系數(shù)/7977847fr=aladdin和Pearson相關(guān)系數(shù)*https://baike.baidu.com/item/皮爾森相關(guān)系數(shù)/4222137fr=aladdin進(jìn)行數(shù)據(jù)對(duì)比,具體如表2所示.
表2 詞向量評(píng)測(cè)結(jié)果
對(duì)比三個(gè)基于維基百科的詞向量,可以得出詞匯的總數(shù)和訓(xùn)練的維度共同決定著詞向量的性能.但是詞匯總數(shù)比訓(xùn)練維度更加決定著詞向量的性能.對(duì)于同領(lǐng)域的語(yǔ)料,一般語(yǔ)料越大效果越好.領(lǐng)域內(nèi)的語(yǔ)料對(duì)相似領(lǐng)域任務(wù)的效果提升非常明顯,但在領(lǐng)域不契合時(shí)甚至?xí)胸?fù)面作用.因此,語(yǔ)料規(guī)模和語(yǔ)料領(lǐng)域之間的權(quán)衡也應(yīng)該注意.有時(shí)語(yǔ)料的領(lǐng)域純度比語(yǔ)料規(guī)模更重要.特別是在任務(wù)領(lǐng)域的語(yǔ)料比較小時(shí),加入大量其他領(lǐng)域的語(yǔ)料可能會(huì)有很負(fù)面的影響.對(duì)于分析詞向量語(yǔ)言學(xué)特性的任務(wù),維度越大效果越好.
選擇一個(gè)合適領(lǐng)域的語(yǔ)料,在此前提下,語(yǔ)料規(guī)模越大越好.使用大規(guī)模的語(yǔ)料進(jìn)行訓(xùn)練,可以普遍提升詞向量的性能,如果使用領(lǐng)域內(nèi)的語(yǔ)料,對(duì)同領(lǐng)域的任務(wù)會(huì)有顯著的提升.詞向量的維度一般需要選擇50維及以上,特別當(dāng)衡量詞向量的語(yǔ)言學(xué)特性時(shí),詞向量的維度越大,效果越好.目前實(shí)驗(yàn)結(jié)果至少在200維以上才能得到較好的性能.選擇2的冪次方(256,512)效果好于200維,但是差異不是很明顯,考慮到越大的詞向量維度會(huì)使得句群矩陣越發(fā)龐大,因此,考慮維度選擇不能只考慮“越大越好”.本文選擇序號(hào)為5和8的詞向量模型供后續(xù)神經(jīng)網(wǎng)絡(luò)模型評(píng)測(cè)和使用.
本文從北大人民日?qǐng)?bào)語(yǔ)料和清華句法樹(shù)庫(kù)(TCT)[19]中選取句對(duì)語(yǔ)料進(jìn)行訓(xùn)練實(shí)驗(yàn),其中從北大人民日?qǐng)?bào)語(yǔ)料庫(kù)中選出了4000篇語(yǔ)料共27141個(gè)段落、137452個(gè)句對(duì)作為弱標(biāo)注數(shù)據(jù)集.從清華句法樹(shù)庫(kù)中選取人工標(biāo)注的241篇語(yǔ)料共1358個(gè)句群、10879個(gè)句對(duì)作為標(biāo)注數(shù)據(jù).具體數(shù)據(jù)如表3所示.
另外從清華句法樹(shù)庫(kù)中選取147篇人工標(biāo)注的語(yǔ)料作為測(cè)試數(shù)據(jù).共776個(gè)句群、4774個(gè)句對(duì).
表3 句對(duì)分類實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)設(shè)置
進(jìn)行句群主題聚類所用的語(yǔ)料也從北大人民日?qǐng)?bào)語(yǔ)料和清華句法樹(shù)庫(kù)選取,具體數(shù)據(jù)設(shè)置如表4所示.
表4 句群主題實(shí)驗(yàn)數(shù)據(jù)設(shè)置
當(dāng)選擇序號(hào)為5的詞向量模型進(jìn)行實(shí)驗(yàn)時(shí),各類模型的實(shí)驗(yàn)結(jié)果如表5所示.
表5 v5詞向量下各個(gè)模型實(shí)驗(yàn)數(shù)據(jù)對(duì)比
需要說(shuō)明的是,MDA方法是沒(méi)有分類正確率.因此,按照其所用評(píng)測(cè)方法選取了評(píng)價(jià)分值最高的句群來(lái)對(duì)比宏嚴(yán)格一致率等.通過(guò)數(shù)據(jù)可以看出,MDA方法所得的宏嚴(yán)格一致率較低,錯(cuò)誤率較高.使用傳統(tǒng)的SVM對(duì)句對(duì)進(jìn)行分類,識(shí)別正確率也較低.將預(yù)測(cè)的句對(duì)關(guān)系標(biāo)簽轉(zhuǎn)換為句群結(jié)構(gòu)時(shí),其宏嚴(yán)格一致率只有0.543,而WindowDiff相對(duì)較高.但使用機(jī)器學(xué)習(xí)相關(guān)方法比MDA效果要好.在使用神經(jīng)網(wǎng)絡(luò)模型之后,句對(duì)關(guān)系的識(shí)別正確率有了明顯的提升,且ABCNN模型比DRLM模型提升的效果更加明顯.相應(yīng)地,其句群邊界的宏嚴(yán)格一致率也有了明顯的提升.而加入句群主題向量特征的ABCNN模型,其句對(duì)關(guān)系識(shí)別正確率也有了提升.至此達(dá)到了所有模型實(shí)驗(yàn)中最好結(jié)果.
為了說(shuō)明進(jìn)一步說(shuō)明模型提升的效果,本文抽檢了預(yù)測(cè)文本中的數(shù)據(jù),具體如表6所示,其中標(biāo)簽1為連貫,-1為不連貫.在第一個(gè)句對(duì)例子中,兩個(gè)句子在語(yǔ)義上差別較大,但主題描述的卻是同一類.因此,在加入句群主題模型之后,預(yù)測(cè)的標(biāo)簽由不連貫變成了連貫.第二個(gè)句對(duì)例子中,句子1屬于一個(gè)句群的最后一句,旨在說(shuō)明“中古關(guān)系”在前段時(shí)期的友好發(fā)展.句子2屬于另一個(gè)句群的開(kāi)始句,旨在說(shuō)明“中古關(guān)系”以后的發(fā)展前景.兩個(gè)句子看似十分連貫,但卻表明了不同的主題,因此,在加入句群主題信息之后,預(yù)測(cè)的標(biāo)簽由連貫變成了不連貫.
另一方面,為了直觀地對(duì)比句群切分結(jié)果,本文抽取了幾個(gè)句群切分片段,具體如表7所示.
表6 句對(duì)預(yù)測(cè)樣例分析
表7 句群切分片段樣例1
分析表7可得,該片段從第1句到第7句為一整個(gè)段落(人工標(biāo)注的語(yǔ)篇都帶有段落標(biāo)記信息).人工標(biāo)注第1-3句為一個(gè)句群,第4-7句為一個(gè)句群.段落比句群顆粒度大.使用SVM模型,第1句邊界正確,但是在第3句進(jìn)行了切分,明顯錯(cuò)誤.使用ABCNN模型,切分出的信息與原始的段落信息一致.使用TABCNN模型,切分出的信息與人工標(biāo)注的句群信息一致.從該篇可以得出,使用TABCNN模型切分出的句群與人工標(biāo)注的句群信更貼切.
表8 句群切分片段樣例2
該片段第1-4句為一整個(gè)段落,人工標(biāo)注為兩個(gè)句群,第1-2句和第3-4句,SVM模型和ABCNN模型切分出的句群信息和段落信息一致,而TABCNN切分出的句群信息和人工標(biāo)注的句群一致.與片段一中出現(xiàn)的情況類似.
綜上所述,使用ABCNN模型已經(jīng)能夠基本實(shí)現(xiàn)對(duì)句群的切分,可見(jiàn)使用大規(guī)模的弱標(biāo)注段落信息和小規(guī)模的句群信息作為訓(xùn)練語(yǔ)料是可行的.另外,加入了主題特征之后的TABCNN模型,在處理不同主題句對(duì)分類時(shí)效果更好,從而使得句群切分效果較好.
另外,為了對(duì)比不同詞向量對(duì)模型的影響,本文還選擇序號(hào)為8的詞向量模型進(jìn)行實(shí)驗(yàn)時(shí),各類模型的實(shí)驗(yàn)結(jié)果如表9所示.
通過(guò)數(shù)據(jù)可以得出,各類正確率都有了小幅度的提升,因此,一個(gè)好的詞向量模型可以有效地提升語(yǔ)言模型和分類模型的正確率.另一方面,在利用了性能更好的詞向量之后,句群的宏嚴(yán)格一致率的提升效果和WindowDiff下降程度并不是十分大.所以,詞向量并不是唯一決定分類模型效率的因素,應(yīng)該根據(jù)任務(wù)本身,設(shè)計(jì)相應(yīng)的模型來(lái)提升效果.對(duì)于本文任務(wù)來(lái)講,還需要考慮句對(duì)之間的結(jié)構(gòu)關(guān)系等.而本文所用的注意力機(jī)制考慮到了句對(duì)結(jié)構(gòu)關(guān)系,又引入了句群主題特征等,從不同層面上對(duì)句群切分任務(wù)進(jìn)行了分析和實(shí)驗(yàn).
表9 v8詞向量下各個(gè)模型實(shí)驗(yàn)數(shù)據(jù)對(duì)比
本文提出了一種句群自動(dòng)切分的方法,在弱標(biāo)注環(huán)境下,利用卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制對(duì)句對(duì)進(jìn)行分類,并融合句群主題信息來(lái)有效地利用上下文信息.還評(píng)估了一系列詞向量模型,從一定程度上說(shuō)明了詞向量對(duì)于自然語(yǔ)言處理的重要性.一系列的實(shí)驗(yàn)表明,使用弱標(biāo)注段落信息可以基本實(shí)現(xiàn)對(duì)句群的切分.利用句對(duì)與句群主題信息對(duì)句群進(jìn)行切分也行之有效.且卷積神經(jīng)網(wǎng)絡(luò)模型比循環(huán)神經(jīng)網(wǎng)絡(luò)更適合處理句對(duì)連貫關(guān)系的識(shí)別任務(wù).
當(dāng)然,本文也有不足之處,在處理句對(duì)結(jié)構(gòu)十分不相稱情況時(shí)效果不夠好,容易遺失長(zhǎng)句的重要信息.且我們將處理單位定格在句對(duì)層面上也會(huì)漏掉相應(yīng)的一些信息,畢竟句群切分需要更大的上下文信息,雖然從外部引入上下文信息的方法可行,但是過(guò)于復(fù)雜,模型訓(xùn)練時(shí)間過(guò)長(zhǎng).因此,本文下一步的研究工作將試著去掉從外部法,挖掘三句甚至更多句子蘊(yùn)含的結(jié)構(gòu)和語(yǔ)義關(guān)系來(lái)進(jìn)行句群的切分.