王寶鑫 鄭德權(quán) 王曉雪 趙姍姍 趙鐵軍
?
基于文本蘊(yùn)含的選擇類問題解答技術(shù)研究
王寶鑫 鄭德權(quán)?王曉雪 趙姍姍 趙鐵軍
哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001; ?通信作者, E-mail: dqzheng@mtlab.hit.edu.cn
利用選擇類問題具有明確候選項(xiàng)的特點(diǎn), 簡化問題分類過程, 并針對(duì)長文本語義蘊(yùn)含短文本語義的語言現(xiàn)象, 提出一種根據(jù)文本蘊(yùn)含強(qiáng)度大小對(duì)候選答案進(jìn)行排序的方法。在沒有大規(guī)模問答對(duì)的情況下, 采用維基百科中文語料庫, 以全國各省市高考地理選擇題作為實(shí)驗(yàn)數(shù)據(jù), 通過句子相似度和文本蘊(yùn)含兩種方法來解答地理選擇題。實(shí)驗(yàn)表明, 基于文本蘊(yùn)含方法的準(zhǔn)確率為36.93%, 比基于詞嵌入的句子相似度方法提高2.44%, 比基于向量空間模型的句子相似度方法提高7.66%, 驗(yàn)證了該文本蘊(yùn)含強(qiáng)度計(jì)算方法的有效性。
文本蘊(yùn)含; 選擇題; 詞嵌入; 句子相似度
問答系統(tǒng)通常分為三類: 基于知識(shí)庫的問答系統(tǒng)、基于大規(guī)模文本的問答系統(tǒng)和基于問答對(duì)的問答系統(tǒng)[1]。隨著互聯(lián)網(wǎng)的快速發(fā)展以及電子文本的增多, 社區(qū)問答系統(tǒng)(community question answering, CQA)和基于大規(guī)模文本的問答系統(tǒng)的相關(guān)研究不斷增多, 但是針對(duì)選擇題這類對(duì)人們?nèi)粘I詈蛯W(xué)習(xí)影響較大的問答系統(tǒng)的研究相對(duì)較少。
本文對(duì)具有明確候選項(xiàng)的選擇題問答系統(tǒng)進(jìn)行研究, 利用大規(guī)模維基百科中文語料作為數(shù)據(jù)源, 提出一種根據(jù)文本蘊(yùn)含強(qiáng)度大小對(duì)候選答案進(jìn)行排序的方法, 利用選擇題選項(xiàng)的規(guī)范性來確定問題分類, 降低了問題分析過程的復(fù)雜度。最后將本文的方法與傳統(tǒng)的句子相似度計(jì)算方法進(jìn)行比較。
1 相關(guān)工作
1.1 文本蘊(yùn)含相關(guān)工作
文本蘊(yùn)含[2]是一個(gè)連貫文本與一個(gè)假設(shè)文本之間的一種關(guān)系, 如果假設(shè)文本的語義可以通過文本推斷出來, 則認(rèn)為文本蘊(yùn)含文本。文本蘊(yùn)含由Dagan等[2]在2004年提出, 其相關(guān)的任務(wù)一般包含識(shí)別、產(chǎn)生和抽取, 其中關(guān)于文本蘊(yùn)含識(shí)別(recognize textual entailment, RTE)的相關(guān)研究相對(duì)較多, RTE在問答系統(tǒng)、信息抽取、機(jī)器翻譯評(píng)測等很多應(yīng)用中起關(guān)鍵作用[3]。RTE常采用的方法有單獨(dú)基于詞匯、句法、淺層語義的無監(jiān)督方法和基于分類器的有監(jiān)督學(xué)習(xí)方法等[4]。有監(jiān)督方法往往需要較多訓(xùn)練數(shù)據(jù), 并且對(duì)于訓(xùn)練數(shù)據(jù)的領(lǐng)域依賴性較強(qiáng), 因此本文采用基于詞匯的無監(jiān)督方法。以往對(duì)文本蘊(yùn)含識(shí)別的研究多集中在兩個(gè)句子之間, 評(píng)測的任務(wù)也僅僅是評(píng)估句子是否蘊(yùn)含句子。本文文本蘊(yùn)含識(shí)別則是集中在長文本與短語之間、長文本與句子之間。實(shí)際上, 兩個(gè)文本之間是否存在蘊(yùn)含關(guān)系很難分清界限, 所以現(xiàn)有的文本蘊(yùn)含識(shí)別系統(tǒng)多是根據(jù)某一確定標(biāo)準(zhǔn)來判斷兩個(gè)句子是否存在蘊(yùn)含關(guān)系。由于本文研究的是已有明確候選答案的選擇題類問答系統(tǒng), 需要比較文本對(duì)文本1的蘊(yùn)含關(guān)系是否大于文本對(duì)文本2的蘊(yùn)含關(guān)系, 而不是簡單地判斷兩個(gè)文本之間是否存在蘊(yùn)含關(guān)系。因此, 為衡量蘊(yùn)含關(guān)系的大小, 本文提出文本蘊(yùn)含強(qiáng)度的概念。
1.2 問答系統(tǒng)相關(guān)工作
問答系統(tǒng)一般包含3個(gè)主要組成部分: 問題分析、信息檢索和答案抽取。依據(jù)處理數(shù)據(jù)的格式, 問答系統(tǒng)可以劃分為三類: 基于知識(shí)庫的問答系統(tǒng)、基于自由文本的問答系統(tǒng)和基于問題答案對(duì)的問答系統(tǒng)。早期的問答系統(tǒng)大部分是基于知識(shí)庫的問答系統(tǒng), 但是由于知識(shí)庫構(gòu)建需要消耗大量的資源, 產(chǎn)生的問答系統(tǒng)局限性也比較大, 所以該類問答系統(tǒng)多用來解決限定領(lǐng)域的問題。隨著互聯(lián)網(wǎng)的興起, 網(wǎng)絡(luò)上的文本數(shù)量激增, 隨之興起的是基于自由文本的問答系統(tǒng), 即從已經(jīng)存在的非結(jié)構(gòu)化文本中抽取答案。自2005年末以來, 隨著CQA數(shù)據(jù)的大量出現(xiàn), 問題答案對(duì)數(shù)量的增多[5], 基于問答對(duì)的問答系統(tǒng)逐漸成為研究熱點(diǎn)。
本文采用全國各省市高考地理選擇題作為實(shí)驗(yàn)數(shù)據(jù), 進(jìn)行關(guān)于選擇題問答系統(tǒng)的研究。由于知識(shí)庫的匱乏, 構(gòu)建知識(shí)庫需要消耗大量人力和時(shí)間, 且關(guān)于高考題的問答對(duì)的數(shù)目相對(duì)較少, 重復(fù)問題出現(xiàn)的可能性低, 因此本文采用依賴于自由文本的問答系統(tǒng)。本文的選擇題問答系統(tǒng)可以看做問答對(duì)類和自由文本類問答系統(tǒng)的結(jié)合: 一方面, 它與CQA一樣擁有天然的候選答案可供選擇; 另一方面, 該系統(tǒng)通過自由文本對(duì)選擇題進(jìn)行解答。傳統(tǒng)的基于自由文本的問答系統(tǒng)由于沒有天然可靠的候選答案, 所以問題研究的重點(diǎn)多集中在對(duì)問題精細(xì)分類、從文本中檢索相關(guān)信息以及從文本中抽取簡潔的答案等方面。本文中涉及的選擇題問答, 由于候選選項(xiàng)已經(jīng)確定, 所以重點(diǎn)研究如何對(duì)候選項(xiàng)進(jìn)行評(píng)分排序。本文采用計(jì)算文本蘊(yùn)含(textual entailment, TE)強(qiáng)度的方法來解決選擇題型問答。
2 算法與理論推導(dǎo)
2.1 問題定義
定義1 文本蘊(yùn)含強(qiáng)度。
對(duì)于一個(gè)連貫文本與一個(gè)假設(shè)文本, 如果可以根據(jù)推斷出, 則說明與之間存在一個(gè)有向的文本蘊(yùn)含關(guān)系。過去對(duì)于文本蘊(yùn)含的研究多集中于兩個(gè)文本與是否含有蘊(yùn)含關(guān)系, 然而在很多實(shí)際任務(wù)中, 不僅需要定性地判斷兩個(gè)文本之間是否存在蘊(yùn)含關(guān)系, 而且在不蘊(yùn)含的情況下, 可能還需要判斷是否部分蘊(yùn)含, 以及部分蘊(yùn)含多少[6]。例1給出一個(gè)部分蘊(yùn)含的示例。
例1: 李娜出生于1982年, 是中國著名網(wǎng)球運(yùn)動(dòng)員。
: 李娜是中國女子網(wǎng)球運(yùn)動(dòng)員。
在例1中可以看到, 從句中可以推斷出句的部分信息, 然而并不能推斷出句的全部信息, 其中“女子”這一信息無法從句中推斷出來。
針對(duì)此現(xiàn)象, 本文提出文本蘊(yùn)含強(qiáng)度的概念, 文本對(duì)的文本蘊(yùn)含強(qiáng)度指與之間信息的交集占全部信息的比重, 即連貫文本對(duì)假設(shè)文本的蘊(yùn)含關(guān)系的大小。
定義2 長文本蘊(yùn)含。
過去針對(duì)文本蘊(yùn)含的研究, 多是判斷兩個(gè)句子之間的蘊(yùn)含關(guān)系。然而實(shí)際問題中, 可能會(huì)出現(xiàn)需要判斷長文本(多個(gè)句子)對(duì)一個(gè)句子的文本蘊(yùn)含關(guān)系, 即長文本蘊(yùn)含。例2給出一個(gè)長文本對(duì)單句的語義蘊(yùn)含示例。
例2: 李娜, 1982年2月26日出生在湖北省武漢市, 中國女子網(wǎng)球運(yùn)動(dòng)員。2008年北京奧運(yùn)會(huì)女子單打第四名。
: 網(wǎng)球運(yùn)動(dòng)員李娜在2008年北京奧運(yùn)會(huì)獲得女子單打第四名。
顯然從文本可以推斷出文本, 因此文本蘊(yùn)含文本。然而文本包含兩個(gè)句子, 每個(gè)句子分別包含一部分文本的信息, 過去RTE的很多研究方法對(duì)于該類問題并不適用。
RTE常常采用有監(jiān)督的機(jī)器學(xué)習(xí)算法, 將其作為一個(gè)分類任務(wù)進(jìn)行解決, 但是在文本是多個(gè)句子的情況下, 很多特征對(duì)該類問題并不適用, 并且需要人工標(biāo)注較多的訓(xùn)練數(shù)據(jù)(長文本蘊(yùn)含的標(biāo)注往往需要消耗更多的時(shí)間和人力)。Glickman等[7]采用基于詞對(duì)齊的產(chǎn)生式模型, 計(jì)算文本蘊(yùn)含關(guān)系, 但是他們只考慮了詞之間的共現(xiàn)關(guān)系而忽視了詞語語義、詞語位置等信息。Jijkoun等[8]利用詞語相似度的方法來識(shí)別兩個(gè)句子的語義蘊(yùn)含關(guān)系, 但其語義相似度是基于WordNet計(jì)算的, 有一定局限性, 并且也沒有考慮詞語位置的關(guān)系。本文改進(jìn)了文獻(xiàn)[7-8]的算法, 提出一個(gè)啟發(fā)式算法對(duì)文本蘊(yùn)含強(qiáng)度進(jìn)行求解。
2.2 文本蘊(yùn)含強(qiáng)度計(jì)算方法
文本對(duì)文本的蘊(yùn)含強(qiáng)度大小TES(Textual Entailment Strength)滿足式(1):
其中,表示連貫文本的詞數(shù),表示假設(shè)文本的詞數(shù),表示文本中的詞對(duì)文本中的詞語義蘊(yùn)含的大小,表示詞語對(duì)應(yīng)蘊(yùn)含強(qiáng)度占總蘊(yùn)含強(qiáng)度的權(quán)重。本文用與之間的相似度來近似估計(jì)對(duì)的語義蘊(yùn)含大小。
可以這樣理解式(1): 對(duì)于文本中的每個(gè)詞, 找到在文本中與它相似度最高的詞, 計(jì)算與之間的相似度, 最后再對(duì)所有詞語相似度加權(quán)平均, 求得文本蘊(yùn)含強(qiáng)度。其中與的關(guān)系相當(dāng)于一種詞對(duì)齊關(guān)系, 如圖1所示。
的計(jì)算過程如下: 定義()表示文本出現(xiàn)的概率,()表示詞語所在文本出現(xiàn)的概率,(|)表示在詞語出現(xiàn)的情況下, 文本出現(xiàn)的概率。直觀上,(|)越大,在公式中所占的比重越大。
由貝葉斯公式(式(2))可知, 當(dāng)(|H)=1,()為定值時(shí),(|)與成正比。恰好是IDF(inverse document frequency), 常用來表示一個(gè)詞語對(duì)文本的區(qū)分度。本文使用式(3)所示的歸一化IDF作為權(quán)重。
傳統(tǒng)詞義相似度計(jì)算多是通過WordNet和HowNet等知識(shí)庫計(jì)算的, 因此詞義相似度的計(jì)算效果往往會(huì)受限于知識(shí)庫的大小。近幾年, 基于神經(jīng)網(wǎng)絡(luò)的Word Embedding因其在詞語語義表示方面的良好性能受到廣泛關(guān)注[9–11]。Word Embedding將語料庫中的每個(gè)詞表示為一個(gè)低維實(shí)數(shù)向量, 可以很好地表示兩個(gè)詞語語義之間的距離。Glickman等[7]的方法需要計(jì)算任意兩個(gè)詞語在一句話的共現(xiàn)次數(shù), 往往需要較大的空間開銷。Word Embedding也利用了詞共現(xiàn)的信息, 并且能更好地表達(dá)一個(gè)詞語的語義。因此, 本文中的相似度是采用Word Embedding計(jì)算余弦相似度得到的, 余弦相似度的計(jì)算如下:
將式(1)~(4)的過程進(jìn)行總結(jié),得到算法1。
算法1 基于詞語相似度的文本蘊(yùn)含強(qiáng)度計(jì)算。
初始化:
總相似度totalSim=0
總權(quán)重totalWeight=0
1 for= 1, ...,do
3 totalSim+=IDF(v) maxSim
4 totalWeight+=IDF(v)
5 end for
6 文本蘊(yùn)含強(qiáng)度TES=totalSim/totalWeight
7 Return TES
2.3 算法改進(jìn)
算法1雖然可以在一定程度上表達(dá)文本蘊(yùn)含關(guān)系, 但是沒有考慮詞語位置信息。當(dāng)文本過長時(shí), 如果文本中相鄰的兩個(gè)詞在文本中所對(duì)應(yīng)的詞之間的距離很大, 那么與的詞語之間的語義蘊(yùn)含強(qiáng)度相應(yīng)降低, 如例3所示。
例3: 新月與滿月時(shí), 太陽、地球、月球呈一直線, 潮差最大, 稱作大潮; 上下弦月時(shí), 三者呈直角, 潮差最小, 稱為小潮。
1: 地球處在太陽與月球之間, 出現(xiàn)大潮。
2: 地球處在太陽與月球之間, 出現(xiàn)小潮。
對(duì)于例3, 顯然文本對(duì)1的文本蘊(yùn)含強(qiáng)度應(yīng)該大于對(duì)2的蘊(yùn)含強(qiáng)度。事實(shí)上, 從文本可以推斷出1, 而無法推斷出2。因此, 我們提出對(duì)應(yīng)的改進(jìn)算法, 相應(yīng)的蘊(yùn)含強(qiáng)度計(jì)算如下:
其中,和分別表示假設(shè)文本和連貫文本的詞數(shù),表示詞語在文本中所在的位置下標(biāo),表示詞語在文本中對(duì)應(yīng)詞所在的位置下標(biāo), 即是文本中的兩個(gè)詞之間的距離。
文本中相鄰的兩個(gè)詞所對(duì)應(yīng)的文本中的兩個(gè)詞距離越遠(yuǎn), 其語義蘊(yùn)含強(qiáng)度越低, 且這種降低趨勢(shì)隨距離增大先緩慢降低, 到一定距離后再加速降低, 最后再緩慢降低, 高斯函數(shù)(式(6))正好滿足這種下降趨勢(shì)。
我們用動(dòng)態(tài)規(guī)劃求解獲得最終TES的值, 具體描述如算法2所示。
算法2 改進(jìn)的文本蘊(yùn)含強(qiáng)度計(jì)算
輸出: 文本蘊(yùn)含強(qiáng)度TES
1 初始化:
2 遞推:
3 終止:
3 選擇類問題解答及分析
鑒于高考地理題具有易獲取、少干擾、形式規(guī)范以及可靠性高的特點(diǎn), 本文采用各地高考近十年的地理選擇題, 去除其中含有圖片的題目以及計(jì)算類題目, 剩余287道選擇題作為最終的實(shí)驗(yàn)數(shù)據(jù)。
本文方法分為預(yù)處理、問題分析、信息檢索與答案抽取4個(gè)模塊, 如圖2所示。
3.1 預(yù)處理
預(yù)處理階段, 對(duì)維基百科文本語料進(jìn)行分詞, 并用分詞后的維基百科中文文本語料和Mikolov 等[10–11]提出的word2vec工具實(shí)現(xiàn)Word Embedding的訓(xùn)練。使用目前國際上句法分析效果比較好的ZPar[12]工具, 對(duì)選擇題選項(xiàng)進(jìn)行句法分析。
3.2 問題分析
3.2.1 關(guān)鍵詞抽取
本文通過傳統(tǒng)的TF-IDF方法來提取關(guān)鍵詞, 即根據(jù)計(jì)算選擇題題干部分的TF-IDF的數(shù)值大小進(jìn)行排序, 去除停用詞后, 依據(jù)TF-IDF值的大小依次選取關(guān)鍵詞, 本文實(shí)驗(yàn)中選取的關(guān)鍵詞數(shù)目為3。例4是一道高考地理選擇題的實(shí)例。例5是針對(duì)例4的一個(gè)抽取關(guān)鍵詞的例子。從例5可以看出, 基于TF-IDF抽取關(guān)鍵詞的方法雖然簡單, 但是在地理選擇題題干中的表現(xiàn)很好。
例4 春季, 歐洲阿爾卑斯山區(qū), 背風(fēng)坡常常出現(xiàn)冰雪迅速融化或雪崩。其主要原因是
A. 反氣旋控制下沉增溫
B. 暖鋒過境釋放熱量
C. 西風(fēng)帶南移釋放熱量
D. 局地氣流下沉增溫
例5 題干:“春季, 歐洲阿爾卑斯山區(qū), 背風(fēng)坡常常出現(xiàn)冰雪迅速融化或雪崩。其主要原因是”。抽取關(guān)鍵詞:背風(fēng)坡、阿爾卑斯、雪崩。
3.2.2 問題分類
傳統(tǒng)問答系統(tǒng)的問題分類通常比較精細(xì), 一方面為了確定答案的類型, 同時(shí)也為了對(duì)不同類別的問題采用不同的方法來解答。本文采用的高考題具有規(guī)范性, 候選答案的形式規(guī)范且符合問題要求。根據(jù)該特點(diǎn), 依據(jù)選擇題的選項(xiàng)對(duì)問題分為兩大類:一類是候選答案為名詞短語的選擇題; 另一類是候選答案為句子的選擇題。本文對(duì)選項(xiàng)的分析判斷采用句法分析, 4個(gè)選項(xiàng)中含有名詞短語(NP)的選項(xiàng)有兩個(gè)及兩個(gè)以上則為名詞短語類型, 否則即為句子類型(IP)。
例6是一道地理選擇題, 其中的4個(gè)選項(xiàng)都是NP, 因此該選擇題將會(huì)被劃分為名詞短語類型。
例6 人類已知月球上的能源有
A. (NP (NN 生物能) (PU 、) (NN 風(fēng)能))
B. (NP (NN 核能) (PU 、) (NN 潮汐能))
C. (NP (NN 潮汐能) (PU 、) (NN 太陽能))
D. (NP (NN 太陽能) (PU 、) (NN 核能))
3.2.3 問句正誤傾向分析
選擇題經(jīng)常會(huì)要求判斷“不正確”、“錯(cuò)誤”或“不合理”。對(duì)于這類問題, 我們將其識(shí)別出來, 為后面的答案抽取過程提供幫助。該部分主要通過人工配置詞典的方法, 對(duì)選擇題題干進(jìn)行識(shí)別, 例如, 在題目的問句中出現(xiàn)“不正確”一詞, 則將該問題作為錯(cuò)誤傾向類的問題。
3.3 信息檢索
對(duì)中文維基百科的詞條建立索引, 根據(jù)問題分析階段抽取出來的關(guān)鍵詞, 在維基百科語料中檢索相應(yīng)的詞條, 將與其對(duì)應(yīng)的百科文本提取出來。
3.4 答案抽取
該階段分別采用句子相似度和文本蘊(yùn)含兩種方法來實(shí)現(xiàn)答案抽取。最后根據(jù)問題分析中的正誤傾向性判斷來選擇答案。如果是正向問題, 則選擇分值最高的選項(xiàng), 否則, 選擇分值最低的選項(xiàng)。
3.4.1 句子相似度
在中文維基百科文本中檢索關(guān)鍵詞對(duì)應(yīng)的百科文本, 將選項(xiàng)與百科文本中的所有句子一一進(jìn)行相似度計(jì)算, 選取最高的相似度作為該選項(xiàng)最終的分?jǐn)?shù)。相似度計(jì)算分別采用基于TF-IDF的向量空間模型和基于Word Embedding的句子相似度計(jì)算。
基于VSM的句子相似度: 將兩個(gè)句子表示為兩個(gè)向量, 向量的每一維權(quán)值對(duì)應(yīng)每個(gè)詞的TF-IDF值, 再對(duì)兩個(gè)向量計(jì)算余弦相似度, 作為兩個(gè)句子最終的相似度。
基于Word Embedding的句子相似度: 如式(7)和(8)所示, 將句子中每個(gè)詞的Word Embedding向量相加取平均值作為句子的向量, 再對(duì)兩個(gè)句子的向量計(jì)算余弦相似度, 作為兩個(gè)句子最終的相似度。
3.4.2 文本蘊(yùn)含
將關(guān)鍵詞對(duì)應(yīng)的維基百科文本整體作為文本, 句子選項(xiàng)作為文本, 對(duì)短語類的問題采用算法1, 對(duì)句子類的問題采用算法2, 計(jì)算對(duì)的文本蘊(yùn)含強(qiáng)度。
4 實(shí)驗(yàn)結(jié)果與分析
由于本文問答系統(tǒng)中候選項(xiàng)已經(jīng)確定, 正確答案一定會(huì)出現(xiàn)在候選項(xiàng)中, 且每道題都有固定的4個(gè)候選項(xiàng), 所以本文對(duì)問答系統(tǒng)的評(píng)測標(biāo)準(zhǔn)采用準(zhǔn)確率。算法2中高斯函數(shù)的參數(shù)設(shè)置如下:,。
根據(jù)句子相似度和文本蘊(yùn)含得到的最終問答系統(tǒng)準(zhǔn)確率如表1所示。從表1可見, 基于Word Embedding的相似度計(jì)算方法好于基于VSM的方法。可見基于Word Embedding的方法比VSM的方法能更好地表達(dá)句子的語義。從表1還可以看出, 算法1對(duì)名詞短語類的問題效果比較好, 而算法2對(duì)于句子類的問題效果較好。綜合兩種方法后, 本文提出的方法最終的準(zhǔn)確率可達(dá)36.93%。
表1 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文方法的有效性, 在選取關(guān)鍵詞對(duì)應(yīng)的百科全部文本作為連貫文本之外, 還將百科文本中不同數(shù)目的連續(xù)句子作為進(jìn)行實(shí)驗(yàn), 選取其中最大的文本蘊(yùn)含強(qiáng)度作為最終選項(xiàng)的分值。
圖3是對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果, 可以看出, 算法1對(duì)應(yīng)名詞短語類問題的解答準(zhǔn)確率隨著句子數(shù)目的增大而呈上升趨勢(shì), 但是算法1卻無法對(duì)候選項(xiàng)為句子的問題進(jìn)行有效解答。隨著句子數(shù)目增大, 算法1對(duì)句子類問題逐漸失效。原因可能有以下兩點(diǎn): 1)算法1無法很好地分析含有完整句法結(jié)構(gòu)的句子所對(duì)應(yīng)的文本蘊(yùn)含情況; 2)詞短語部分的選擇題更傾向于概念類題目, 相對(duì)簡單, 而候選答案為句子的選擇題分析則較為復(fù)雜, 需要更深層的語義分析, 因此無法直接從百科抽取答案。
例7是在算法2中正確而在算法1中錯(cuò)誤的一個(gè)例子(算法2的答案為D, 算法1的答案為A), 其對(duì)應(yīng)的候選項(xiàng)都為句子。例7在一定程度上反映了算法2對(duì)候選項(xiàng)為句子的問題的解答效果比算法1好。
例7 在森林中一旦遭遇火災(zāi), 下列做法正確的是
A. 使用沾濕的毛巾遮住口鼻, 順風(fēng)逃離
B. 如果火勢(shì)突然減弱, 則可以放心休息
C. 選擇低洼地或坑洞躲避
D. 伺機(jī)逆風(fēng)突破林火包圍
算法2在名詞短語類問題上的表現(xiàn)不如算法1, 原因可能是名詞短語類選項(xiàng)大多由多個(gè)實(shí)體名詞混合在一起組成, 在百科文本中出現(xiàn)的位置相對(duì)分散, 限制其位置會(huì)導(dǎo)致最終的準(zhǔn)確率較低。算法2對(duì)于候選項(xiàng)為句子的問題解答效果顯然比算法1好很多, 并且其準(zhǔn)確率隨著句子數(shù)目增多而增大, 這也說明算法2對(duì)于計(jì)算長文本對(duì)句子的文本蘊(yùn)含強(qiáng)度的效果明顯。
5 結(jié)論
本文針對(duì)選擇類問題解答方法進(jìn)行了研究, 提出了一種新的計(jì)算文本蘊(yùn)含強(qiáng)度的方法。在沒有大規(guī)模訓(xùn)練數(shù)據(jù)的情況下, 僅用維基百科中文語料庫, 通過Word Embedding計(jì)算文本蘊(yùn)含強(qiáng)度來解決地理選擇類問題, 最終基于文本蘊(yùn)含方法的準(zhǔn)確率為36.93%, 比基于VSM的句子相似度方法的準(zhǔn)確率高7.66%, 比基于Word Embedding的句子相似度方法高2.44%。實(shí)驗(yàn)驗(yàn)證了本文提出的文本蘊(yùn)含計(jì)算方法對(duì)長文本蘊(yùn)含短文本的情況效果明顯, 并且文本蘊(yùn)含也是解答選擇類問題的有效的方法。
由于本文關(guān)于文本蘊(yùn)含強(qiáng)度的計(jì)算方法是分別針對(duì)長文本對(duì)短語和長文本對(duì)句子兩種類型的文本蘊(yùn)含情況進(jìn)行的, 所以該方法在句子對(duì)句子類型的文本蘊(yùn)含強(qiáng)度的計(jì)算效果仍有待提升。此外, 對(duì)于推理類地理選擇題, 本文的方法在很多情況下并不適用, 需要后期構(gòu)建大型的知識(shí)庫以及邏輯推理框架來解決。
[1]毛先領(lǐng), 李曉明. 問答系統(tǒng)研究綜述. 計(jì)算機(jī)科學(xué)與探索, 2012, 6(3): 193-207
[2]Dagan I, Glickman O. Probabilistic textual entail-ment: generic applied modeling of language varia-bility // Proc of the Pascal Workshop on Learning Methods for Text Understanding & Mining. Grenoble, 2004: 26–29
[3]Androutsopoulos I, Malakasiotis P. A survey of paraphrasing and textual entailment methods. Journal of Artificial Intelligence Research, 2009, 38(4): 135–187
[4]袁毓林, 王明華. 文本蘊(yùn)涵的推理模型與識(shí)別模型. 中文信息學(xué)報(bào), 2010, 24(2): 3–13
[5]張中峰, 李秋丹. 社區(qū)問答系統(tǒng)研究綜述. 計(jì)算機(jī)科學(xué), 2010, 37(11): 19–23
[6]Levy O, Zesch T, Dagan I, et al. Recognizing partial textual entailment // Proceedings of the 51st Annual Meeting of the Association for Computational Lingui-stics. Sofia, 2013: 451–455
[7]Glickman O, Dagan I M. A lexical alignment model for probabilistic textual entailment // Machine Lear-ning Callenges: Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Tectual Entailment. Berlin: Springer, 2006: 287–298
[8]Jijkoun V, de Rijke M. Recognizing textual entailment using lexical similarity // Proc of the First PASCAL Challenges Workshop on RTE. Southampton, 2005: 73–76
[9]Collobert R, Weston J. A unified architecture for natural language processing: deep neural networks with multitask learning // Proceedings of the 25th International Conference on Machine Learning. Helsinki, 2008: 160–167
[10]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space // Proceedings of the Workshop at ICLR. Scottsdale, 2013: 1–12
[11]Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality // Proceedings of Neural Information Processing Systems. Lake Tahoe, 2013: 3111–3119
[12]Zhang Y, Clark S. Syntactic processing using the generalized perceptron and beam search. Compu-tational Linguistics, 2011, 37(1): 105–151
Multiple-Choice Question Answering Based on Textual Entailment
WANG Baoxin, ZHENG Dequan?, WANG Xiaoxue, ZHAO Shanshan, ZHAO Tiejun
School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001; ? Corresponding author, E-mail: dqzheng@mtlab.hit.edu.cn
This paper proposes a method to compute textual entailment strength, taking multiple-choice questions which have clear candidate answers as research objects, aiming at the phenomenon of long text entailing short text. Two methods are used to answer the college entrance examination geography multiple-choice questions based on the Wikipedia Chinese Corpus in the absence of large-scale questions and answers. One is based on the sentence similarity and the other is based on the textual entailment proposed above. The accuracy rate of the proposed method is 36.93%, increasing by 2.44% than the way based on the word embedding sentence similarity, increasing 7.66% than the way based on the Vector Space Model sentence similarity, which confirm the effectiveness of the method based on the textual entailment.
textual entailment; multiple-choice question; word embedding; sentence similarity
10.13209/j.0479-8023.2016.017
TP391
2015-06-19;
2015-08-17; 網(wǎng)絡(luò)出版日期: 2015-09-29
國家自然科學(xué)基金(61173073)和863計(jì)劃(2015AA015405)資助