亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于英文文檔的WHY問句自動(dòng)問答技術(shù)研究

2010-04-17 07:53:00郭雁軍

科技傳播 2010年12期

郭雁軍

北京交通大學(xué)電子信息工程學(xué)院，北京 100044

1 “WHY”問句的自動(dòng)問答研究

完整的“WHY”問答系統(tǒng)分為兩個(gè)步驟：1）從文章所有的句子中找出與問句相關(guān)的句子，稱作“資訊檢索”的部分。2）從相關(guān)句子中找出問句的答案，稱作“答案獲取”，這部分是問答系統(tǒng)主要研究的重點(diǎn)。常見的“答案獲取”方法是利用“實(shí)體名標(biāo)記”(NamedEntityTagging，簡記為NE)的技術(shù)，再加上“問句與上下文相似度的計(jì)算”。從簡單的關(guān)鍵字比對，到復(fù)雜的語意以執(zhí)行判斷，都可能會(huì)用到上下文與問句相似度計(jì)算方法

在閱讀理解問答系統(tǒng)（ReadingComprehension，簡記為RC）的研究上，Anandetal.(2000)和 RiloffandThelen(2000)有相關(guān)研究。系統(tǒng)針對單篇文章，找到問句的答案。TREC問句系統(tǒng)與這類問答系統(tǒng)主要的不同點(diǎn)是答案來源為多篇相關(guān)文章，答案可能重復(fù)出現(xiàn)多次，有較多機(jī)會(huì)找到答案，但復(fù)雜也會(huì)比較多。閱讀測試問答系統(tǒng)則相反，答案可能只出現(xiàn)在文章中一次，所以需要較復(fù)雜的方法來找到不是那么明顯的答案，但是另一方面影響的因素會(huì)較少，本文主要研究閱讀理解問答系統(tǒng)。

2 “WHY”問句自動(dòng)問答關(guān)鍵技術(shù)

自動(dòng)問答的關(guān)鍵技術(shù)主要包括：語料的深加工、關(guān)鍵詞匹配與賦值、答案句的確定等。

2.1 語料的深加工

“WHY”問句自動(dòng)問答的實(shí)現(xiàn)首先要求對語料進(jìn)行深加工，關(guān)鍵技術(shù)主要包括名詞短語標(biāo)注、去掉停用詞、語料中的各個(gè)詞語的詞干化(Stemming)、指代消解、字根還原、同義詞擴(kuò)展。

2.2 關(guān)鍵詞匹配與賦值

在本論文中，主要研究了基于規(guī)則的“WHY”問句自動(dòng)問答技術(shù)，所用到的策略主要有通用的關(guān)鍵詞匹配策略(也稱為WordMatch策略)，這個(gè)策略能夠初步確定包含關(guān)鍵詞的句子的得分，WordMatch策略將在第二章重點(diǎn)介紹，然后針對“WHY”問題，制定專用的句子得分策略。

在系統(tǒng)的處理過程中由于語法和語意的多樣性，系統(tǒng)不會(huì)像人一樣主觀理解一些潛在的規(guī)則，所以得出的結(jié)論存在誤差，只有結(jié)合了語意和語境才會(huì)使系統(tǒng)判斷準(zhǔn)確，這方面得工作將在以后得研究中進(jìn)行。

2.3 答案的確定

答案主要是根據(jù)WordMatch策略以及針對“WHY”問題專用的得分策略確定。

2.4 評測標(biāo)準(zhǔn)

評價(jià)是任何自然語言處理技術(shù)的系統(tǒng)中一個(gè)關(guān)鍵的部分，也是最有爭議的一個(gè)部分。評價(jià)對自動(dòng)問答系統(tǒng)等各種問答系統(tǒng)提供了很多的好處，一個(gè)好的評測環(huán)境將會(huì)對整個(gè)系統(tǒng)質(zhì)量的提高起促進(jìn)作用。因此好的評價(jià)方法也就成為了一個(gè)迫切等待解決的問題。

國際上一般采用的評測標(biāo)準(zhǔn)與 T REC（The Text REtrieval Conference）評測標(biāo)準(zhǔn)一致， TREC Conference(http://trec.nist.gov)被認(rèn)為是最具權(quán)威的信息檢索技術(shù)評測規(guī)范。

選擇評價(jià)方法主要考慮了以下一些因素：評價(jià)自動(dòng)化實(shí)現(xiàn)，不需要人參與；應(yīng)該和人工評價(jià)的基準(zhǔn)一致等。

針對每個(gè)不同的問題，可采用3種評價(jià)指標(biāo)[Hirschman et al.1999]：Precison&Recall(準(zhǔn)確率和召回率 ) ，HumSent準(zhǔn)確率及AutSent準(zhǔn)確率。無論哪種評價(jià)指標(biāo)，系統(tǒng)最終得分為問題集中所有問題得分的平均值。我們在進(jìn)行語料深加工時(shí)，提供了問題答案的關(guān)鍵詞， Precision&Recall與 A utSent準(zhǔn)確率均基于問題答案的關(guān)鍵詞來做出評價(jià)。

Precison&Recall在詞這一級別，將系統(tǒng)的返回結(jié)果與正確答案進(jìn)行比較。

就形成正確答案的難易程度而言，Precison&Recall與AutSent有明顯的優(yōu)勢，因?yàn)樗鼈儍H依賴于出版商提供的答案關(guān)鍵詞，而HumSent則需要人工的對每一個(gè)問題加以標(biāo)注。

[1]沈天左，陳信希.以網(wǎng)絡(luò)內(nèi)容為基礎(chǔ)的問答系統(tǒng)“why”問句的研究.國立臺(tái)灣大學(xué)資訊工程系.

[2]付鴻鵠.基于Web的開放領(lǐng)域問答系統(tǒng)研究.中國科學(xué)院研究生生院.

[3]崔桓，蔡?hào)|風(fēng)，等.基于網(wǎng)絡(luò)的問答系統(tǒng)及信息抽取算法的研究[J].中文信息學(xué)報(bào).