亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存句法分析的復(fù)合事實(shí)型問(wèn)句分解方法

        2017-07-18 10:53:41張偉男
        中文信息學(xué)報(bào) 2017年3期
        關(guān)鍵詞:句法結(jié)構(gòu)嵌套類別

        劉 雄,張 宇,張偉男,劉 挺

        (哈爾濱工業(yè)大學(xué) 社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001)

        基于依存句法分析的復(fù)合事實(shí)型問(wèn)句分解方法

        劉 雄,張 宇,張偉男,劉 挺

        (哈爾濱工業(yè)大學(xué) 社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001)

        問(wèn)答系統(tǒng)一直以來(lái)都是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)之一,然而現(xiàn)有問(wèn)答系統(tǒng)技術(shù)對(duì)復(fù)合事實(shí)型問(wèn)句的處理效果并不完美。為了增強(qiáng)問(wèn)答系統(tǒng)理解復(fù)合事實(shí)型問(wèn)句的能力,該文提出了一種針對(duì)復(fù)合事實(shí)型問(wèn)句的分解方法: 使用基于樹(shù)核的支持向量機(jī)對(duì)問(wèn)句的分解類別進(jìn)行識(shí)別,進(jìn)而使用基于依存句法分析的方法生成分解結(jié)果。實(shí)驗(yàn)結(jié)果顯示,在我們所構(gòu)建的高質(zhì)量問(wèn)句分解語(yǔ)料庫(kù)中,我們的方法對(duì)問(wèn)句分解類別進(jìn)行了準(zhǔn)確的識(shí)別,同時(shí)也可以較好地生成嵌套型問(wèn)句的子問(wèn)句。

        問(wèn)句分解;復(fù)合事實(shí)型問(wèn)句;問(wèn)句理解;問(wèn)答系統(tǒng);自然語(yǔ)言處理

        1 引言

        問(wèn)答系統(tǒng)是目前自然語(yǔ)言處理領(lǐng)域中的研究熱點(diǎn)之一,它以精準(zhǔn)的答案直接回答用戶以自然語(yǔ)言方式表達(dá)的問(wèn)題。宏觀地來(lái)看,問(wèn)答系統(tǒng)一般由三個(gè)主要部分組成: 問(wèn)題理解、篇章檢索及答案抽取[1]。隨著用戶越來(lái)越傾向于輸入自然語(yǔ)言問(wèn)題作為查詢,問(wèn)題理解成為了信息檢索和問(wèn)答系統(tǒng)領(lǐng)域的研究重點(diǎn)之一。

        對(duì)于用戶輸入的復(fù)合型自然語(yǔ)言問(wèn)題,回答此類復(fù)合的問(wèn)題往往要求問(wèn)答系統(tǒng)結(jié)合多個(gè)文檔的內(nèi)容得出答案,而傳統(tǒng)的問(wèn)題理解技術(shù)(如問(wèn)題分類[2]、問(wèn)題主題識(shí)別[3]、自動(dòng)查詢擴(kuò)展[4]、復(fù)述[5]及詞項(xiàng)賦權(quán)[6]等)不能夠有效地幫助問(wèn)答系統(tǒng)處理此類問(wèn)題。

        受TREC(text retrieval conference)評(píng)測(cè)的影響,問(wèn)答系統(tǒng)領(lǐng)域通常將問(wèn)句分為如下幾類: 事實(shí)型問(wèn)句、列表型問(wèn)句、定義型問(wèn)句、原因型問(wèn)句及HOW-TO型問(wèn)句等。事實(shí)型問(wèn)題關(guān)心的是時(shí)間、地點(diǎn)、人物及事件等客觀事實(shí),簡(jiǎn)單事實(shí)型問(wèn)句的答案通常很短,為包含事實(shí)的詞或短語(yǔ),可以通過(guò)其上下文構(gòu)成的語(yǔ)境從文檔庫(kù)中直接抽取得到;復(fù)合事實(shí)型問(wèn)句中包含多于一個(gè)的簡(jiǎn)單事實(shí)型問(wèn)句作為子問(wèn)句,并且通常具有復(fù)雜的修飾限制,最終答案需要分別解答原始問(wèn)題中包含的各個(gè)子問(wèn)句,并在原始問(wèn)題的修飾限制條件下綜合各個(gè)子問(wèn)句的答案得到。

        在我們的研究過(guò)程中,從分解的角度出發(fā),將可分解的復(fù)合事實(shí)型問(wèn)句歸為并列類和嵌套類兩類。例如問(wèn)句“考拉,又叫作樹(shù)袋熊,是哪個(gè)國(guó)家的國(guó)寶動(dòng)物”就是一個(gè)并列類的問(wèn)句,它可以分解成“考拉是哪個(gè)國(guó)家的國(guó)寶動(dòng)物”和“樹(shù)袋熊是哪個(gè)國(guó)家的國(guó)寶動(dòng)物”兩個(gè)并列的子問(wèn)句,這兩個(gè)子問(wèn)句的答案都是原問(wèn)句的最終答案;而問(wèn)句“飛機(jī)的發(fā)明者是哪國(guó)人”則屬于嵌套類,它需要被分解為“飛機(jī)的發(fā)明者是誰(shuí)”(其答案為“萊特兄弟”)和“萊特兄弟是哪國(guó)人”兩個(gè)嵌套的子問(wèn)句,外層子問(wèn)句需要得到內(nèi)層子問(wèn)句的答案才能進(jìn)行解答。

        復(fù)合事實(shí)型問(wèn)句分解技術(shù)研究具有如下意義:

        (1) 為回答復(fù)合事實(shí)型問(wèn)句提供證據(jù)支持,增強(qiáng)問(wèn)答系統(tǒng)的可信度。在問(wèn)答系統(tǒng)中,通過(guò)展示問(wèn)句分解得到的各個(gè)子問(wèn)句、對(duì)應(yīng)的子問(wèn)句答案及子問(wèn)句之間的關(guān)系,可以讓用戶了解問(wèn)答系統(tǒng)解決問(wèn)題的過(guò)程,增加用戶對(duì)問(wèn)答系統(tǒng)的信任度。

        (2) 豐富原始問(wèn)句的語(yǔ)義信息,提高答案準(zhǔn)確度。將子問(wèn)句的答案帶回到原始問(wèn)句中,可以更加明確原始問(wèn)句的提問(wèn)意圖,提高準(zhǔn)確回答原始問(wèn)句的概率。

        2 相關(guān)工作

        總體來(lái)說(shuō),由于復(fù)合問(wèn)句的分解研究工作在問(wèn)句理解中是一個(gè)新興的研究方向,國(guó)內(nèi)外學(xué)者對(duì)于復(fù)合問(wèn)句分解技術(shù)的研究尚處于初級(jí)階段,前人相關(guān)的研究工作積累也較少。同時(shí),不同學(xué)者所做的研究針對(duì)不同的問(wèn)題類型及數(shù)據(jù)集,國(guó)際上沒(méi)有權(quán)威機(jī)構(gòu)組織相關(guān)工作的評(píng)測(cè),這也造成沒(méi)有標(biāo)準(zhǔn)問(wèn)題集可用于不同方法之間的比較,無(wú)法直接比較各種方法的優(yōu)劣。

        IBM公司研發(fā)的沃森機(jī)器人在美國(guó)益智問(wèn)答游戲節(jié)目“危險(xiǎn)邊緣(Jeopardy!)”中大勝優(yōu)秀的人類選手而聞名全球,Deep QA項(xiàng)目是沃森背后的主要問(wèn)答框架。IBM的研究團(tuán)隊(duì)在其論文[7]中介紹了他們?cè)趩?wèn)句分解方面的工作: 與本文分類體系類似地,他們將節(jié)目中的線索句分成并行類和嵌套類,對(duì)這兩類問(wèn)題應(yīng)用不同的方法進(jìn)行檢測(cè)和分解,通過(guò)對(duì)復(fù)合事實(shí)型問(wèn)句的分解,沃森在“Jeopardy!”決賽問(wèn)題集上的準(zhǔn)確率提高了1.5%。

        START問(wèn)答系統(tǒng)是美國(guó)麻省理工學(xué)院研究開(kāi)發(fā)的世界上第一個(gè)面向網(wǎng)絡(luò)的問(wèn)答系統(tǒng),自1993年12月上線連續(xù)運(yùn)行至今。其領(lǐng)導(dǎo)者Boris Katz教授在其論文[8]中闡述了他們?cè)赟TART系統(tǒng)中所應(yīng)用的三種問(wèn)句分解策略: 基于語(yǔ)言學(xué)知識(shí)的句法分解策略、基于詳盡語(yǔ)言描述內(nèi)容的語(yǔ)義分解策略,以及將問(wèn)句和資源內(nèi)容同時(shí)分解成斷言的策略。

        社區(qū)問(wèn)答系統(tǒng)(community question answering, CQA)是近年來(lái)互聯(lián)網(wǎng)上蓬勃發(fā)展的問(wèn)答服務(wù),已經(jīng)積累了許多高質(zhì)量問(wèn)答資源。Liu等人在其論文[9]中針對(duì)CQA問(wèn)答資源提出一套分類體系,并從不同的答案資源中抽取自動(dòng)摘要,以回答用戶所提出問(wèn)題中的不同部分。這也可以看作是問(wèn)句分解在社區(qū)問(wèn)答系統(tǒng)中的一次應(yīng)用探索。

        現(xiàn)有相關(guān)研究均證明了: 通過(guò)對(duì)復(fù)合問(wèn)句的分解,識(shí)別子問(wèn)句之間的關(guān)系,可以提高這些問(wèn)答系統(tǒng)回答復(fù)合問(wèn)題的能力。在用戶查詢從關(guān)鍵詞過(guò)渡到復(fù)雜自然語(yǔ)言的趨勢(shì)下,分解復(fù)合問(wèn)句將在問(wèn)句理解模塊中占據(jù)重要的位置。

        3 基于樹(shù)核及依存句法分析的問(wèn)句分解方法

        由于問(wèn)句分解是問(wèn)答系統(tǒng)中一個(gè)新興的任務(wù),前人的經(jīng)驗(yàn)和積累都很少。因此,作為研究的第一步,我們需要收集相應(yīng)的復(fù)合事實(shí)型問(wèn)句集合,制訂詳盡的標(biāo)注規(guī)則,以構(gòu)建高質(zhì)量的問(wèn)句分解語(yǔ)料庫(kù),作為進(jìn)一步研究的基礎(chǔ)。

        在構(gòu)建語(yǔ)料庫(kù)的過(guò)程中,我們總結(jié)歸納出了復(fù)合事實(shí)型問(wèn)句的三種分解類型,分別是原子類(atomic)、并列類(parallel)及嵌套類(nested)。對(duì)問(wèn)句的分解類別進(jìn)行識(shí)別是問(wèn)句分解中的一個(gè)必要步驟,它可以在兩方面幫助我們完成問(wèn)句分解的任務(wù): 一方面,不同的分解類別表示了不同子問(wèn)句之間的關(guān)系: 在并列類問(wèn)句中,各個(gè)子問(wèn)句之間獨(dú)立互斥,而在嵌套類問(wèn)句中,外層子問(wèn)句的解答需要依賴于內(nèi)層子問(wèn)句的答案;另一方面,并列類問(wèn)句和嵌套類問(wèn)句在句法結(jié)構(gòu)等語(yǔ)言學(xué)特征上存在明顯的差異,準(zhǔn)確地識(shí)別這兩種類型可以給子問(wèn)句序列生成以指導(dǎo)信息,讓我們?cè)诤罄m(xù)分解時(shí)做到有的放矢。

        借助于分解類別識(shí)別結(jié)果的指導(dǎo)信息,我們可以對(duì)不同類型的問(wèn)句訓(xùn)練不同的機(jī)器學(xué)習(xí)模型。我們的子問(wèn)句生成方法借鑒了自然語(yǔ)言處理中句法分析的工作,將子問(wèn)句生成的過(guò)程融入到句法分析器生成句法樹(shù)的過(guò)程中,以完成對(duì)復(fù)合事實(shí)型問(wèn)句的分解工作。

        本章將從語(yǔ)料標(biāo)注規(guī)則、分解類別識(shí)別及子問(wèn)句生成三個(gè)方面來(lái)闡述我們的復(fù)合事實(shí)型問(wèn)句分解方法。

        3.1 語(yǔ)料標(biāo)注規(guī)則

        為了規(guī)范問(wèn)句分解的標(biāo)注過(guò)程,縮小不同標(biāo)注者主觀意見(jiàn)所帶來(lái)的標(biāo)注差別,我們?cè)O(shè)定了詳細(xì)的標(biāo)注規(guī)則,一條數(shù)據(jù)的標(biāo)注格式定義如圖1所示。

        圖 1 問(wèn)句分解數(shù)據(jù)標(biāo)注格式

        如圖 1 所示,一條問(wèn)句分解數(shù)據(jù)的標(biāo)注結(jié)果由“問(wèn)句編號(hào)”“問(wèn)句分詞結(jié)果”“分解類別”及“子問(wèn)句序列”四部分組成,并由符號(hào)“|”作為這四部分之間的分隔符。

        問(wèn)句分詞結(jié)果是由若干詞項(xiàng)組成的序列,詞項(xiàng)與詞項(xiàng)之間以空格符號(hào)分隔,在每個(gè)詞項(xiàng)中,由“-”連接詞語(yǔ)序號(hào)和詞語(yǔ)內(nèi)容,詞語(yǔ)序號(hào)從“0”開(kāi)始計(jì)數(shù)。

        為了區(qū)分不同的問(wèn)句分解類別,我們?cè)O(shè)定了三個(gè)類: “ATOMIC”“PARALLEL”“NESTED”,分別對(duì)應(yīng)了原子類、并列類及嵌套類。

        子問(wèn)句序列由符號(hào)“=”連接詞語(yǔ)序號(hào)序列及子問(wèn)句答案代號(hào)組成。詞語(yǔ)序號(hào)序列由空格連接若干詞語(yǔ)序號(hào)組成,以表示子問(wèn)句。此外,若該問(wèn)句為嵌套類,且當(dāng)前子問(wèn)句非最“內(nèi)層”子問(wèn)句,則可以插入適當(dāng)?shù)淖訂?wèn)句答案代號(hào),使當(dāng)前子問(wèn)句更通順。

        圖 2 展示了問(wèn)句分解標(biāo)注的一個(gè)具體實(shí)例,它是語(yǔ)料庫(kù)中的第25號(hào)問(wèn)句,問(wèn)句具體內(nèi)容分詞后的結(jié)果為“在/我國(guó)/可/兌換/的/國(guó)際/通用/外幣/中/,/最/值錢/的/是/哪個(gè)/幣種”,它的分解類別被標(biāo)注為“NESTED”(即嵌套類)。第一個(gè)子問(wèn)句的內(nèi)容為“我國(guó)/可/兌換/的/國(guó)際/通用/外幣”,其答案為一個(gè)列表,用代號(hào)“LIST0”表示;第二個(gè)子問(wèn)句的內(nèi)容為“在/LIST0/中/,/最/值錢/的/是/哪個(gè)/幣種”,其答案為原問(wèn)句的最終答案,以代號(hào)“ANS”表示。

        圖 2 問(wèn)句分解標(biāo)注示例

        3.2 基于樹(shù)核的分解類別識(shí)別

        如前所述,原子類、并列類及嵌套類構(gòu)成了我們的問(wèn)句分解類別體系。

        不同分解類別的問(wèn)句主要差異體現(xiàn)在句法結(jié)構(gòu)上,因此我們?cè)谶M(jìn)行分解類別識(shí)別的過(guò)程中使用的方法主要從問(wèn)句的句法結(jié)構(gòu)特征出發(fā)。句法分析器是一種廣泛應(yīng)用于自然語(yǔ)言處理各個(gè)任務(wù)的工具,它們能夠提供句子的句法結(jié)構(gòu)信息;樹(shù)核通過(guò)子結(jié)構(gòu)的重合度來(lái)度量?jī)蓚€(gè)句法樹(shù)的結(jié)構(gòu)相似度,被成功地應(yīng)用于問(wèn)題分類的任務(wù)中。我們應(yīng)用了此類基于樹(shù)核的方法[10]來(lái)進(jìn)行問(wèn)句分解類別識(shí)別的工作。

        樹(shù)核的定義公式如式(1)所示,用兩棵句法樹(shù)中以各個(gè)節(jié)點(diǎn)為根的子樹(shù)中相同的子結(jié)構(gòu)數(shù)目來(lái)度量這兩棵句法樹(shù)的相似度。計(jì)算時(shí)我們定義不同的子結(jié)構(gòu),則可以得到如下四種不同的樹(shù)核空間。

        (1) 子樹(shù)(subtree,ST)空間: 樹(shù)T中的任意節(jié)點(diǎn)及該節(jié)點(diǎn)所有后代節(jié)點(diǎn)可組成樹(shù)S,則S為T的一棵子樹(shù),ST空間直接用子樹(shù)作為子結(jié)構(gòu)。

        (2) 子集樹(shù)(subset tree,SST)空間: SST與ST大致相同,唯一的不同在于: 在SST中,原樹(shù)中的非終結(jié)符可以作為子結(jié)構(gòu)的葉子節(jié)點(diǎn),而在ST中,原樹(shù)中的非終結(jié)符是不可以作為葉子結(jié)構(gòu)子節(jié)點(diǎn)的。

        (3) 子集樹(shù)—詞袋(SST-BOW)空間: 在SST的基礎(chǔ)上,進(jìn)一步比較子結(jié)構(gòu)中葉子節(jié)點(diǎn)上的標(biāo)記符,若兩者葉子節(jié)點(diǎn)上的標(biāo)記符相同,則相似度增加。

        (4) 部分樹(shù)(partial tree,PT)空間: PT在SST的基礎(chǔ)上進(jìn)一步放松了控制,允許子結(jié)構(gòu)只使用語(yǔ)法生成規(guī)則一部分,而之前ST和SST中的子結(jié)構(gòu)均需遵守語(yǔ)法完整的生成規(guī)則。

        我們采用支持向量機(jī)作為分類器,將樹(shù)核作為支持向量機(jī)中的核方法,對(duì)不同的分解類別進(jìn)行識(shí)別。

        3.3 基于依存句法分析的子問(wèn)句生成

        在子問(wèn)句生成的過(guò)程中,借鑒依存句法分析的工作,我們保留了依存句法樹(shù)的整體結(jié)構(gòu),而將樹(shù)中邊上的依存關(guān)系標(biāo)簽改為表征問(wèn)句分解信息的分解標(biāo)簽。這樣做的優(yōu)點(diǎn)在于: (1)保留了原句法樹(shù)的結(jié)構(gòu),可提供句法結(jié)構(gòu)信息;(2)前人已經(jīng)積累了許多優(yōu)秀的依存句法分析方法,這些方法都可以被用到子問(wèn)句生成的過(guò)程中。

        表征問(wèn)句分解信息的分解標(biāo)簽可以根據(jù)標(biāo)注結(jié)果自動(dòng)地生成,其生成過(guò)程簡(jiǎn)潔明了,可以看作一個(gè)二進(jìn)制編碼的過(guò)程: 對(duì)于問(wèn)句中的每個(gè)詞語(yǔ),如果該詞語(yǔ)出現(xiàn)在某層的子問(wèn)句中,則對(duì)應(yīng)的二進(jìn)制編碼置為1;若該詞語(yǔ)在某層子問(wèn)句中未出現(xiàn),則對(duì)應(yīng)的二進(jìn)制編碼置為0;將二進(jìn)制編碼轉(zhuǎn)換為十進(jìn)制數(shù)即得到所對(duì)應(yīng)的分解標(biāo)簽。例如在圖 2的標(biāo)注結(jié)果中,共有兩層的子問(wèn)句,則每個(gè)詞語(yǔ)的二進(jìn)制編碼有兩位,對(duì)于該問(wèn)句的最后一個(gè)詞“幣種”,它在第一層子問(wèn)句中并未出現(xiàn),僅出現(xiàn)在第二層子問(wèn)句中,其二進(jìn)制標(biāo)簽為“10”,轉(zhuǎn)換為十進(jìn)制標(biāo)簽為“2”。圖 3 展示了圖 2標(biāo)注結(jié)果轉(zhuǎn)化后的句法樹(shù)。

        圖 3 帶有問(wèn)句分解標(biāo)簽依存句法樹(shù)

        我們使用了基于圖的依存分析方法訓(xùn)練面向問(wèn)句分解的依存句法分析器?;趫D的依存句法分析方法由McDonald首先提出[11],他將依存分析問(wèn)題化歸為在一個(gè)有向圖中尋找最大生成樹(shù)的問(wèn)題。

        式 (2)定義了句子x所對(duì)應(yīng)的依存句法樹(shù)y的得分,其中f(i,j)是詞i與詞j之間依存關(guān)系的特征向量,而w則為對(duì)應(yīng)的權(quán)重向量。在我們面向問(wèn)句分解的依存句法分析器中,主要從當(dāng)前詞、父親節(jié)點(diǎn)詞、子節(jié)點(diǎn)詞及孫子節(jié)點(diǎn)詞的詞性、樹(shù)結(jié)構(gòu)中抽取特征組成特征向量f,使用感知器算法訓(xùn)練權(quán)重向量w,使用高階的Eisner算法進(jìn)行解碼[12]。

        4 實(shí)驗(yàn)結(jié)果及討論

        4.1 語(yǔ)料庫(kù)構(gòu)建結(jié)果及評(píng)價(jià)

        我們收集了江蘇衛(wèi)視《一站到底》欄目從2012年3月至2013年1月共91期節(jié)目中提問(wèn)的約 8 500個(gè)復(fù)合事實(shí)型問(wèn)句,以純文本保存。

        在標(biāo)注過(guò)程中,我們先讓三位標(biāo)注者同時(shí)標(biāo)注了前1 000個(gè)問(wèn)句,以期標(biāo)注人員可以熟悉并理解所制定的標(biāo)注規(guī)則,并對(duì)標(biāo)注規(guī)則的認(rèn)知達(dá)成一致。至于剩余約7 500個(gè)問(wèn)句,則分別派給三位標(biāo)注者2 500個(gè)問(wèn)句進(jìn)行標(biāo)注。

        我們對(duì)三位標(biāo)注者前1 000句的標(biāo)注一致性進(jìn)行了評(píng)價(jià),評(píng)價(jià)的標(biāo)準(zhǔn)采用了常用的Fleiss’ Kappa值[13]。

        對(duì)于分解類別(即ATOMIC、PARALLEL和NESTED)的標(biāo)注,三位標(biāo)注者的一致性達(dá)到了0.779 251,在Fleiss’ Kappa的評(píng)價(jià)類別里達(dá)到了第二檔。

        對(duì)于子問(wèn)句序列的標(biāo)注,我們同樣也做了評(píng)價(jià)。在評(píng)價(jià)時(shí),我們將標(biāo)注問(wèn)題看成對(duì)每個(gè)詞的二分類問(wèn)題,即該詞是否出現(xiàn)于某子問(wèn)句中。根據(jù)這樣的評(píng)價(jià)方法,三位標(biāo)注者的子問(wèn)句序列標(biāo)注一致性達(dá)到了0.697 617,同樣達(dá)到了Fleiss’ Kappa評(píng)價(jià)類別中的第二檔。

        圖 4 分解類別占比分布

        為了解分解類別分布,我們也對(duì)其進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如圖 4 所示。在我們所標(biāo)注的8 500多句中,不可分解的問(wèn)句占比49%,略少于一半;而可分解的問(wèn)句占比51%,略多于一半。進(jìn)一步地觀察,在可分解的問(wèn)句中,嵌套類問(wèn)句占比三分之二,而并列類問(wèn)句占比三分之一。

        4.2 分解類別識(shí)別的實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證句法結(jié)構(gòu)信息在問(wèn)句分解類別識(shí)別過(guò)程中的作用,在實(shí)驗(yàn)中我們使用了如下六種樹(shù)結(jié)構(gòu)。

        (1) 短語(yǔ)句法樹(shù)(constituency tree,CT): 此類句法樹(shù)遵循短語(yǔ)結(jié)構(gòu)句法,樹(shù)的內(nèi)部節(jié)點(diǎn)均為句法節(jié)點(diǎn),而葉子節(jié)點(diǎn)均為詞語(yǔ)節(jié)點(diǎn)。

        (2) 詞語(yǔ)中心句法樹(shù)(lexical centered tree,LCT): 此類句法樹(shù)由依存句法樹(shù)轉(zhuǎn)化得到,以詞語(yǔ)作為中心節(jié)點(diǎn),將對(duì)應(yīng)的語(yǔ)法關(guān)系和詞性作為添加到詞語(yǔ)中的孩子節(jié)點(diǎn)。

        (3) 詞性中心句法樹(shù)(postag centered tree,PCT): 此類句法樹(shù)在保留依存句法結(jié)構(gòu)的基礎(chǔ)上,以詞性節(jié)點(diǎn)作為中心,將對(duì)應(yīng)的語(yǔ)法關(guān)系節(jié)點(diǎn)作為其父親節(jié)點(diǎn),而對(duì)應(yīng)的詞語(yǔ)節(jié)點(diǎn)作為孩子節(jié)點(diǎn)。

        (4) 語(yǔ)法關(guān)系中心句法樹(shù)(grammatical relation centered tree,GRCT): 此類句法樹(shù)同樣保留了依存句法的結(jié)構(gòu),但它們以語(yǔ)法關(guān)系節(jié)點(diǎn)作為中心,分別將詞性節(jié)點(diǎn)和詞語(yǔ)節(jié)點(diǎn)作為語(yǔ)法關(guān)系節(jié)點(diǎn)的孩子節(jié)點(diǎn)和孫子節(jié)點(diǎn)。

        (5) 詞語(yǔ)詞性序列樹(shù)(lexical and postag sequence tree,LPST): 此類樹(shù)忽略了問(wèn)句的句法結(jié)構(gòu),直接將詞語(yǔ)節(jié)點(diǎn)和詞性節(jié)點(diǎn)依次添加到樹(shù)的根節(jié)點(diǎn)。

        (6) 詞語(yǔ)序列樹(shù)(lexical sequence tree,LST): 此類樹(shù)忽略了問(wèn)句的句法結(jié)構(gòu),直接將詞語(yǔ)節(jié)點(diǎn)依次添加到樹(shù)的根節(jié)點(diǎn)中。

        在實(shí)驗(yàn)中,上述句法樹(shù)中的短語(yǔ)結(jié)構(gòu)句法樹(shù)均使用Stanford Parser[14]自動(dòng)分析生成,而依存句法結(jié)構(gòu)樹(shù)均使用哈爾濱工業(yè)大學(xué)語(yǔ)言技術(shù)平臺(tái)[15](language technology platform,LTP)自動(dòng)分析生成。

        基于樹(shù)核的問(wèn)句分解類別識(shí)別實(shí)驗(yàn)結(jié)果如表 1~表 4 所示,表中不同行表示不同的樹(shù)核空間,而不同列表示不同的樹(shù)結(jié)構(gòu)。我們采用了三種問(wèn)句分解類型(即ATOMIC、PARALLEL和NESTED)的F1值,以及總體的分類準(zhǔn)確率(ACC)作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),各個(gè)指標(biāo)均是在整個(gè)語(yǔ)料庫(kù)上做了五次交叉驗(yàn)證后取平均值計(jì)算得到的。

        觀察表中結(jié)果我們可以看到,整體表現(xiàn)最好的句法樹(shù)為短語(yǔ)句法樹(shù)(CT),在四個(gè)評(píng)價(jià)指標(biāo)上,均是使用短語(yǔ)句法樹(shù)結(jié)構(gòu)的組合取得了最優(yōu)效果。而在由依存句法樹(shù)轉(zhuǎn)換得到的三種樹(shù)結(jié)構(gòu)中,語(yǔ)法關(guān)系中心樹(shù)(GRCT)的表現(xiàn)更好,與CT的表現(xiàn)基本相當(dāng)。這是由于短語(yǔ)句法比依存句法稍簡(jiǎn)單,短語(yǔ)句法樹(shù)生成的準(zhǔn)確率稍高。

        表1 原子類問(wèn)句識(shí)別F1值

        表 2 并列類問(wèn)句識(shí)別F1值

        表 3 嵌套類問(wèn)句識(shí)別F1值

        表 4 分解類型識(shí)別整體分類準(zhǔn)確率(ACC)

        而從樹(shù)核空間上來(lái)講,SST及其改進(jìn)版SST-BOW較ST及PT表現(xiàn)更加優(yōu)異。這說(shuō)明對(duì)于我們的任務(wù),SST比較子結(jié)構(gòu)時(shí)的限制程度剛好,而ST限制過(guò)緊,PT限制過(guò)松。

        LST+SST及LST+ST兩個(gè)組合在識(shí)別PARALLEL類和ATOMIC類的時(shí)候完全失效,其原因在于LST直接將樹(shù)扁平化,忽略了問(wèn)句的句法結(jié)構(gòu)信息,這進(jìn)一步說(shuō)明了句法結(jié)構(gòu)信息在問(wèn)句分解類別識(shí)別任務(wù)中起到了關(guān)鍵的作用。

        另一個(gè)發(fā)現(xiàn)是,除了在CT+SST的組合中,PARALLEL類的F1值略高于NESTED類的F1值以外,在其余的句法樹(shù)和樹(shù)核空間的組合里,關(guān)于三種問(wèn)句分解類型F1值的排序均是ATOMIC>NESTED>PARALLEL,這反映了三種不同分解類別的識(shí)別難度。

        4.3 子問(wèn)句生成的實(shí)驗(yàn)結(jié)果

        我們對(duì)語(yǔ)料庫(kù)中嵌套類及并列類的問(wèn)句分別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表 5 所示,表中的數(shù)據(jù)均由10次交叉驗(yàn)證得到。

        每類實(shí)驗(yàn)分為兩組: 一組為生成第一層子問(wèn)句,對(duì)于原問(wèn)句中的每個(gè)詞語(yǔ),只需判斷其是否出現(xiàn)在第一層子問(wèn)句中,因此分解標(biāo)簽數(shù)目均為2;另一組生成完整的子問(wèn)句序列,句子中的每個(gè)詞語(yǔ)可出現(xiàn)在若干層子問(wèn)句中,因此分解標(biāo)簽數(shù)目有所增加,其中嵌套類的標(biāo)簽數(shù)目為7,而并列類的標(biāo)簽數(shù)目為13。

        表 5 基于依存句法分析的復(fù)合子問(wèn)句生成實(shí)驗(yàn)結(jié)果

        評(píng)價(jià)時(shí)我們引入了評(píng)價(jià)依存句法分析器常用的兩個(gè)指標(biāo): UAS(unlabeled attachment score)和LAS(labeled attachment score)。在實(shí)驗(yàn)結(jié)果中,嵌套類UAS都高于85%,并列類UAS均在80%左右,說(shuō)明我們的方法可以很好地保留句子的句法結(jié)構(gòu)信息;嵌套類LAS處于70%左右,可以為子問(wèn)句生成提供有效指導(dǎo),而并列類LAS在50%左右,相對(duì)較低。

        同時(shí),為了實(shí)際檢驗(yàn)子問(wèn)句生成的效果,我們將生成的子問(wèn)句詞序列與標(biāo)注的子問(wèn)句詞序列進(jìn)行了比較以得到準(zhǔn)確率,同時(shí)使用編輯距離作為容忍度。我們的實(shí)驗(yàn)在嵌套類問(wèn)句集合上取得了不錯(cuò)的效果: 在容忍度為2的條件下,兩組實(shí)驗(yàn)的準(zhǔn)確率為60%左右;在容忍度為1的條件下,準(zhǔn)確率為47%左右;在精確比較的條件下,子問(wèn)句生成的準(zhǔn)確率也有28%。

        通過(guò)觀察發(fā)現(xiàn),我們的方法在并列類問(wèn)句上取得的效果在各個(gè)比較維度上都弱于嵌套類。通過(guò)觀察實(shí)際的分解結(jié)果我們做出了如下的分析: 嵌套類問(wèn)句的分解比較“立體”,子問(wèn)句通常分布在一個(gè)較大的子樹(shù)中;而并列類問(wèn)句的分解則比較“扁平”,分解時(shí)通常需要將以頓號(hào)或連詞等連接的若干并列成分放入不同的子問(wèn)句中,而這些并列成分在句法分析時(shí)會(huì)分布在同一棵子樹(shù)下。我們的分解方法基于依存句法分析的過(guò)程,更加適合嵌套類問(wèn)句的特點(diǎn),因此在嵌套類的問(wèn)句上取得的效果更佳。

        進(jìn)一步地,我們還和前人的工作[16]進(jìn)行了比較,結(jié)果如表 6 所示。前人工作分解的目標(biāo)是問(wèn)句中的一個(gè)隱含事實(shí)(可視為子問(wèn)句的不同表達(dá)),使用了人工定義的句法模板生成候選,然后進(jìn)一步使用語(yǔ)言模型對(duì)候選進(jìn)行排序。通過(guò)比較可以發(fā)現(xiàn),我們的工作使用了規(guī)模更大的語(yǔ)料,分解得也更準(zhǔn)確。

        表 6 與前人的工作進(jìn)行比較

        5 結(jié)論及未來(lái)工作

        從增強(qiáng)問(wèn)答系統(tǒng)理解復(fù)合事實(shí)型問(wèn)句能力的角度出發(fā),本文提出了基于依存句法分析的問(wèn)句分解方法,并從問(wèn)句分解語(yǔ)料庫(kù)構(gòu)建、問(wèn)句分解類別識(shí)別及子問(wèn)句生成三個(gè)方面闡述了復(fù)合事實(shí)型問(wèn)句分解的研究工作。最終,我們構(gòu)建了高質(zhì)量的問(wèn)句分解語(yǔ)料庫(kù),對(duì)問(wèn)句分解類別進(jìn)行了準(zhǔn)確的識(shí)別,并能較好地生成嵌套型問(wèn)句的子問(wèn)句。

        盡管我們當(dāng)前的方法可以較好地解決部分問(wèn)句分解的問(wèn)題,但是對(duì)于并列類的復(fù)合問(wèn)句仍有部分問(wèn)題亟待解決。同時(shí),在問(wèn)答系統(tǒng)中如何高效地利用問(wèn)句分解的結(jié)果,以期獲得更高質(zhì)量的答案,也是未來(lái)的研究方向之一。

        [1] Ferrucci David, Brown Eric, Chu-Carroll Jennifer, et al. Building Watson: An Overview of the DeepQA Project[J]. AI Magazine, 2010, 31(3): 59-79.

        [2] Bu Fan, Zhu Xingwei, Hao Yu, et al. Function-based question classification for general QA[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 1119-1128.

        [3] Duan Huizhong, Cao Yunbo, Lin Chin-Yew, et al. Searching Questions by Identifying Question Topic and Question Focus.[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics Human Language Tchnologies. 2008: 156-164.

        [4] Carpineto Claudio, Romano Giovanni. A Survey of Automatic Query Expansion in Information Retrieval[J]. ACM Computing Surveys, ACM, 2012, 44(1): 1-50.

        [5] Androutsopoulos Ion, Malakasiotis Prodromos. A Survey of Paraphrasing and Textual Entailment Methods[J]. Journal of Artificial Intelligence Research, 2010: 135-187.

        [6] Zhang W, Ming Z, Zhang Y, et al. The Use of Dependency Relation Graph to Enhance the Term Weighting in Question Retrieval.[C]//COLING. 2012: 3105-3120.

        [7] Kalyanpur Aditya, Patwardhan Siddharth, Boguraev Branimir K, et al. Fact-based question decomposition in DeepQA[J]. IBM Journal of Research and Development, 2012, 56(3,4): 13: 1-13: 11.

        [8] Katz Boris, Borchardt Gary, Felshin Sue. Syntactic and Semantic Decomposition Strategies for Question Answering from Multiple Resources[C]//Proceedings of the AAAI 2005 workshop on inference for textual question answering. 2005: 35-41.

        [9] Liu Y, Li S, Cao Y, et al. Understanding and summarizing answers in community-based question answering services[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 497-504.

        [10] Croce Danilo, Moschitti Alessandro, Basili Roberto. Structured Lexical Similarity via Convolution Kernels on Dependency Trees[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 1034-1046.

        [11] McDonald Ryan, Pereira Fernando, Ribarov Kiril, et al. Non-projective Dependency Parsing using Spanning Tree Algorithms[C]//Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Morristown, NJ, USA: Association for Computational Linguistics, 2005: 523-530.

        [12] Che Wanxiang, Li Zhenghua, Li Yongqiang, et al. Multilingual Dependency-based Syntactic and Semantic Parsing[C]//Proceedings of the Thirteenth Conference on Computational Natural Language Learning: Shared Task. Association for Computational Linguistics, 2009: 49-54.

        [13] Fleiss Joseph L. Measuring Nominal Scale Agreement among Many Raters.[J]. Psychological Bulletin, 1971, 76(5): 378-382.

        [14] Socher Richard, Bauer John, Manning Christopher D, et al. Parsing With Compositional Vector Grammars[C]//Proceedings of the 51th Annual Meeting of the Association for Computational Linguistics. 2013.

        [15] Che Wanxiang, Li Zhenghua, Liu Ting. LTP: a Chinese Language Technology Platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. Association for Computational Linguistics, 2010: 13-16.

        [16] 張健. 問(wèn)答系統(tǒng)中問(wèn)題拆分技術(shù)研究[D]. 哈爾濱工業(yè)大學(xué)碩士學(xué)位論文, 2013.

        ADecompositionMethodforComplexFactoidQuestionsBasedonDependencyParsing

        LIU Xiong, ZHANG Yu, ZHANG Weinan, LIU Ting

        (Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, Harbin, Heilongjiang 150001,China)

        Question answering systems have been one of the hot research areas of natural language processing for a long time. To enhance the ability of analyzing complex factoid questions in question answering systems, we presented a novel method to decompose complex factoid questions: using a tree kernel based support vector machine to recognize decomposition categories of questions, and generating decomposition results with a dependency parsing based method. The evaluation shows that based on the high quality question decomposition corpus we had built, our method recognizes question decomposition categories with high performance and generated sub-question series with high quality, especially for the nested-typeones.

        question decomposition; complex factoid question; question analysis; question answering system; natural language processing

        劉雄(1990—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、問(wèn)答系統(tǒng)。

        張宇(1972—),博士,教授,主要研究領(lǐng)域?yàn)樾畔z索、問(wèn)答。

        張偉男(1985—),博士,講師,主要研究領(lǐng)域?yàn)榱奶鞕C(jī)器人、對(duì)話系統(tǒng)。

        1003-0077(2017)03-0140-07

        2015-12-11定稿日期: 2016-02-19

        國(guó)家自然科學(xué)基金(61472105)

        TP391

        : A

        猜你喜歡
        句法結(jié)構(gòu)嵌套類別
        例析“立幾”與“解幾”的嵌套問(wèn)題
        基于嵌套Logit模型的競(jìng)爭(zhēng)性選址問(wèn)題研究
        現(xiàn)代漢語(yǔ)句法結(jié)構(gòu)解讀
        山西青年(2017年7期)2017-01-29 18:25:26
        《基本句法結(jié)構(gòu):無(wú)特征句法》評(píng)介
        服務(wù)類別
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        一種基于區(qū)分服務(wù)的嵌套隊(duì)列調(diào)度算法
        無(wú)背景實(shí)驗(yàn)到有背景實(shí)驗(yàn)的多重嵌套在電氣專業(yè)應(yīng)用研究
        河南科技(2014年23期)2014-02-27 14:19:17
        聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見(jiàn)肉類別
        一区二区三区一片黄理论片| 99久久久无码国产aaa精品| 在线观看亚洲AV日韩A∨| 日韩精品少妇专区人妻系列| 国产精品国产三级国产av18| 国产免费一区二区三区免费视频| 精品无码一区二区三区爱欲九九| 亚洲a∨好看av高清在线观看 | 少妇高潮久久蜜柚av| 国产精品av在线| 四虎影视永久在线精品| 免费人成视频欧美| av免费网站免费久久网| 把女的下面扒开添视频| 婷婷综合久久中文字幕蜜桃三电影 | 蜜臀av一区二区| 亚洲最大av免费观看| 一区二区三区视频亚洲| 精品视频无码一区二区三区| 亚洲人成无码网站久久99热国产 | 日韩亚洲av无码一区二区不卡 | 香港三级日本三韩级人妇久久| 香港aa三级久久三级| 在教室伦流澡到高潮hnp视频| 淫欲一区二区中文字幕| av免费不卡一区二区| 性大毛片视频| 高清国产一级毛片国语| 精品国产一区二区三区av新片| 青青草原亚洲| 精品视频一区二区三三区四区| 国产精品一区二区三区蜜臀| 精品国产亚洲av麻豆| 永久免费看啪啪网址入口| 国产亚洲美女精品久久| 婷婷开心五月亚洲综合| 性色欲情网站| 国内精品大秀视频日韩精品| 激情网色图区蜜桃av| 精品无码人妻夜人多侵犯18| 日韩a毛片免费观看|