吳靈慧
摘 要 目前,問(wèn)答系統(tǒng)已經(jīng)廣泛應(yīng)用到社會(huì)各個(gè)方面,其作為整個(gè)計(jì)算機(jī)領(lǐng)域重點(diǎn)的研究領(lǐng)域,引起了人們的高度重視。文章對(duì)問(wèn)答系統(tǒng)的基礎(chǔ)概念、發(fā)展歷史、關(guān)鍵技術(shù)及未來(lái)的發(fā)展趨勢(shì)進(jìn)行簡(jiǎn)要闡述,旨在為問(wèn)答系統(tǒng)今后發(fā)展打下良好基礎(chǔ)。
關(guān)鍵詞 問(wèn)答系統(tǒng);信息檢索;答案抽取;問(wèn)題分析
中圖分類號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2019)230-0147-02
隨著互聯(lián)網(wǎng)的迅猛發(fā)展和計(jì)算機(jī)的廣泛普及,人們一直尋找迅速并準(zhǔn)確地獲取信息的方法。在過(guò)去20年里,各類搜索引擎產(chǎn)品不斷出現(xiàn)和發(fā)展,迎合了用戶的信息檢索需求。然而當(dāng)數(shù)據(jù)量不斷增加,海量數(shù)據(jù)資源匯集到一起時(shí),搜索引擎的缺點(diǎn)逐漸開(kāi)始暴露。傳統(tǒng)的搜索引擎只能以檢索關(guān)鍵詞作為輸入,這就要求用戶必須用數(shù)量有限的詞來(lái)準(zhǔn)確表達(dá)查詢需求,對(duì)用戶的信息檢索能力要求較高,這對(duì)于絕大多數(shù)普通用戶來(lái)說(shuō)并不友好。
此外,傳統(tǒng)搜索引擎返回的結(jié)果通常也不盡如人意,仍需用戶自己在搜索引擎系統(tǒng)返回的網(wǎng)頁(yè)列表中查找具體的信息,這就容易使用戶的體驗(yàn)大打折扣?;谏鲜龃嬖诘膯?wèn)題,問(wèn)答系統(tǒng)應(yīng)運(yùn)而生,與傳統(tǒng)搜索引擎不同,問(wèn)答系統(tǒng)可以針對(duì)任意以自然語(yǔ)言形式提出的問(wèn)題返回給用戶確切的答案。由此可見(jiàn),問(wèn)答系統(tǒng)能更好地表達(dá)和滿足用戶的要求。本文對(duì)問(wèn)答系統(tǒng)的發(fā)展歷史、關(guān)鍵技術(shù)及發(fā)展趨勢(shì)進(jìn)行簡(jiǎn)要介紹,旨在幫助讀者對(duì)問(wèn)答系統(tǒng)有全面的認(rèn)識(shí)和了解。
1 問(wèn)答系統(tǒng)發(fā)展歷史
問(wèn)答系統(tǒng)的發(fā)展歷史已有70余年,早在1950年,計(jì)算機(jī)科學(xué)之父艾倫圖靈便提出了使用自然語(yǔ)言進(jìn)行人機(jī)交互的相關(guān)技術(shù),進(jìn)而使得問(wèn)答系統(tǒng)的誕生成為了現(xiàn)實(shí)。
在20世紀(jì)60年代,借助人工智能的相關(guān)技術(shù),第一批問(wèn)答系統(tǒng)出現(xiàn)在人們的視眼中,典型的代表系統(tǒng)有BASEBALL、LUNAR和ELIZA[ 1 ]。Baseball允許用戶對(duì)籃球比賽的相關(guān)內(nèi)容進(jìn)行提問(wèn),并返回相應(yīng)的結(jié)果;Lunar能夠?qū)r石樣本分析實(shí)驗(yàn)的相關(guān)內(nèi)容進(jìn)行問(wèn)答;ELIZA系統(tǒng)主要用于精神疾病患者的恢復(fù)過(guò)程,能夠?qū)崿F(xiàn)簡(jiǎn)單的交流過(guò)程。這3個(gè)系統(tǒng)都在各自的領(lǐng)域中取得了巨大的成功,但這些問(wèn)答系統(tǒng)只能接受特定形式的自然語(yǔ)言問(wèn)句形式,無(wú)法實(shí)現(xiàn)開(kāi)放領(lǐng)域的問(wèn)答。
在20世紀(jì)70年代和80年代期間,隨著計(jì)算機(jī)語(yǔ)言學(xué)理論的深入研究及發(fā)展,問(wèn)答系統(tǒng)也逐漸向著更為復(fù)雜的領(lǐng)域發(fā)展。這個(gè)時(shí)期誕生了大量的項(xiàng)目,其中就包含了著名的Berkeley Unix Consultant(UC),然而UC系統(tǒng)提供的對(duì)話實(shí)例并不能完美應(yīng)用到現(xiàn)實(shí)對(duì)話場(chǎng)合中。
20世紀(jì)90年代以后,問(wèn)答系統(tǒng)進(jìn)入了開(kāi)放領(lǐng)域和基于自由文本的新時(shí)期,在此期間,國(guó)外開(kāi)發(fā)出一些相對(duì)成熟的問(wèn)答系統(tǒng)。1993年,麻省理工學(xué)院(MIT)的人工智能實(shí)驗(yàn)室開(kāi)發(fā)出了世界上第一個(gè)名為START的問(wèn)答系統(tǒng)。START可以回答一些有關(guān)地理、文化、科技、歷史等方面的簡(jiǎn)單問(wèn)題。例如:對(duì)于問(wèn)題“Whats the capital of China?”START將會(huì)回答“The capital of China is Beijing.”。密歇根大學(xué)于2002年開(kāi)發(fā)的AnswerBus[ 2 ]是個(gè)多語(yǔ)種的自動(dòng)問(wèn)答系統(tǒng),它可以回答以英語(yǔ)、法語(yǔ)、和葡萄牙語(yǔ)等語(yǔ)言提出的問(wèn)題。
在文本信息檢索會(huì)議(TREC, Text Retrieval Conference)將QA track引入到會(huì)議主題后,新型問(wèn)答系統(tǒng)的研究發(fā)展得到了進(jìn)一步促進(jìn),問(wèn)答系統(tǒng)研究自此進(jìn)入了開(kāi)放域研究的時(shí)代[ 3 ]?,F(xiàn)如今,越來(lái)越多的高校和公司都參與到了有關(guān)問(wèn)答系統(tǒng)技術(shù)的研究中,包括人們熟知的蘋(píng)果、三星、Google、阿里巴巴、劍橋大學(xué)等,使得問(wèn)答系統(tǒng)的發(fā)展得到了進(jìn)一步推進(jìn)。同時(shí),憑借著信息技術(shù)的發(fā)展,問(wèn)答系統(tǒng)的研究者們總結(jié)提煉了大量的常問(wèn)問(wèn)題與回答數(shù)據(jù),為問(wèn)答系統(tǒng)技術(shù)的進(jìn)一步發(fā)展打下了堅(jiān)實(shí)的基礎(chǔ)。其中典型的代表為2005年出現(xiàn)的社區(qū)問(wèn)答(community based question answering,CQA[ 4 ])數(shù)據(jù),如Yahoo! Answer。
2 問(wèn)答系統(tǒng)關(guān)鍵技術(shù)
問(wèn)答系統(tǒng)關(guān)鍵技術(shù)主要包括問(wèn)題分析、信息檢索、答案抽取3個(gè)部分。本章節(jié)將對(duì)這3個(gè)部分進(jìn)行簡(jiǎn)要介紹。
2.1 問(wèn)題分析
在問(wèn)答系統(tǒng)工作時(shí),首要的任務(wù)便是對(duì)用戶提出的問(wèn)題進(jìn)行分析。問(wèn)題分析包括類型分析、主旨識(shí)別、問(wèn)句指代及語(yǔ)法分析等工作。問(wèn)答系統(tǒng)的首要工作是判定問(wèn)題的類別,通常問(wèn)題的類別也是答案的類別,所以這個(gè)過(guò)程對(duì)問(wèn)答系統(tǒng)來(lái)說(shuō)必不可缺。問(wèn)答系統(tǒng)規(guī)則分類器根據(jù)問(wèn)題的特征對(duì)用戶提出的問(wèn)題進(jìn)行分類,之后對(duì)問(wèn)題中的關(guān)鍵詞進(jìn)行提??;關(guān)鍵詞的提取是問(wèn)題分析的核心步驟,問(wèn)答系統(tǒng)往往會(huì)對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展來(lái)更好的理解用戶的查詢意圖;最后問(wèn)答系統(tǒng)將對(duì)問(wèn)題的表達(dá)形式進(jìn)行重新組織,以便于計(jì)算機(jī)進(jìn)行答案查找。
2.2 信息檢索
信息檢索是問(wèn)答系統(tǒng)與普通搜索引擎之間的橋梁。信息檢索的步驟包括文檔檢索、段落檢索和富信息索引。信息檢索過(guò)程的核心內(nèi)容是將問(wèn)題分析過(guò)程中提取到的關(guān)鍵詞在后臺(tái)文檔庫(kù)中進(jìn)行匹配,以找到最相關(guān)的文檔。信息檢索模塊的輸入一般是幾個(gè)關(guān)鍵詞的組合,同時(shí)根據(jù)語(yǔ)種的不同,問(wèn)答系統(tǒng)還需要對(duì)英文關(guān)鍵詞進(jìn)行詞根操作,對(duì)中文關(guān)鍵詞進(jìn)行分詞處理等。信息檢索步驟的關(guān)鍵在于確定文檔相關(guān)性的權(quán)重和對(duì)文檔進(jìn)行合理排序,這樣才能保證向用戶呈現(xiàn)最相關(guān)的信息。
2.3 答案抽取
答案抽取是問(wèn)答系統(tǒng)的最后一步。答案抽取的主要目的是從文檔信息中獲得用戶想要的答案,以滿足用戶的需求。答案抽取一般分為兩個(gè)步驟,第一步為生成候選答案集合,第二步為提取答案。生成候選答案集合即使用在文檔中匹配得到的短語(yǔ)構(gòu)成候選答案集,提取答案即在所得候選答案集的基礎(chǔ)上進(jìn)行選擇,最后將最準(zhǔn)確的答案返回給用戶。在這個(gè)過(guò)程中,答案抽取一般會(huì)通過(guò)基于表層特征的答案提取方法,選擇出現(xiàn)頻率最高的信息作為最終答案,或者采用關(guān)系抽取答案、模式匹配抽取答案和統(tǒng)計(jì)模型抽取答案等方法。
3 問(wèn)答系統(tǒng)發(fā)展趨勢(shì)
問(wèn)答系統(tǒng)作為人工智能技術(shù)的有效評(píng)價(jià)手段,目前已有60年的研究歷史。多年來(lái),基于Wikipedia等高質(zhì)量且會(huì)動(dòng)態(tài)更新的開(kāi)發(fā)資源建立起來(lái)的知識(shí)資源庫(kù)日趨成熟,包含的知識(shí)也越來(lái)越多,再加上基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的自然語(yǔ)言處理技術(shù)和知識(shí)推理技術(shù)有了極大的發(fā)展,這兩方面的進(jìn)步分別為智能問(wèn)答系統(tǒng)的發(fā)展奠定了資源基礎(chǔ)和技術(shù)基礎(chǔ)。問(wèn)答技術(shù)的發(fā)展從限定領(lǐng)域向開(kāi)放領(lǐng)域,從單輪問(wèn)答向多輪對(duì)話,從單個(gè)數(shù)據(jù)向多個(gè)數(shù)據(jù),從淺層語(yǔ)義分析向深度邏輯推理不斷推進(jìn)[ 5 ]。
但是問(wèn)答系統(tǒng)仍然存在一些急需解決的問(wèn)題,主要有知識(shí)庫(kù)的融合、目前存在信息孤島的問(wèn)題;自然理解能力偏弱,還需要進(jìn)一步提高等。為解決這些問(wèn)題,問(wèn)答系統(tǒng)將會(huì)有以下發(fā)展趨勢(shì)。
1)網(wǎng)絡(luò)中充滿著大量為特定領(lǐng)域建立的知識(shí)資源庫(kù),這些資源庫(kù)在各自領(lǐng)域發(fā)揮了很好的作用。未來(lái)的趨勢(shì)是開(kāi)放領(lǐng)域的多領(lǐng)域覆蓋智能問(wèn)答系統(tǒng),所以要把全部異構(gòu)的知識(shí)源統(tǒng)一起來(lái),滿足用戶的統(tǒng)一查詢需求。
2)我們目前建立的知識(shí)資源庫(kù)中的知識(shí)大多是事實(shí)性知識(shí),缺乏常識(shí)性知識(shí)。常識(shí)性知識(shí)在人的推理中具有及其重要的作用,人們正在研究如何將常識(shí)性知識(shí)融入到智能問(wèn)答系統(tǒng)中來(lái)。
3)隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)在各個(gè)領(lǐng)域的成功應(yīng)用,人們希望深度神經(jīng)網(wǎng)絡(luò)算法能夠在問(wèn)答系統(tǒng)領(lǐng)域代替?zhèn)鹘y(tǒng)的方法。隨著深度學(xué)習(xí)技術(shù)的逐步發(fā)展和計(jì)算機(jī)硬件性能的進(jìn)一步提升,能夠?qū)W習(xí)數(shù)據(jù)深層特征的深度神經(jīng)網(wǎng)絡(luò)技術(shù)將成為未來(lái)智能問(wèn)答系統(tǒng)的絕對(duì)主流技術(shù)。
隨著相關(guān)技術(shù)的飛速發(fā)展,自動(dòng)問(wèn)答系統(tǒng)在未來(lái)將會(huì)有越來(lái)越多的應(yīng)用實(shí)例,其效果也會(huì)得到突破。伴隨著IBM Watson、Apple Siri等實(shí)際應(yīng)用的落地,我們更有信心看到這一技術(shù)在不遠(yuǎn)的未來(lái)得到更廣泛的應(yīng)用。
4 結(jié)論
本文主要對(duì)問(wèn)答系統(tǒng)的發(fā)展歷史、關(guān)鍵技術(shù)及發(fā)展趨勢(shì)3個(gè)方面進(jìn)行了闡述。就目前而言,問(wèn)答系統(tǒng)暫時(shí)還未達(dá)到我們預(yù)期的目標(biāo),問(wèn)答技術(shù)也只是在起步階段,并且問(wèn)答系統(tǒng)準(zhǔn)確率也有待提高,相信在不久的將來(lái),問(wèn)答系統(tǒng)將會(huì)取得重大的突破,為人們的工作和生活提供更多的便利。
參考文獻(xiàn)
[1]李舟軍,李水華.基于Web的問(wèn)答系統(tǒng)綜述[J].計(jì)算機(jī)科學(xué),2017(6):1-7.
[2]鄭實(shí)福,劉挺,秦兵,等.自動(dòng)問(wèn)答綜述[J].中文信息學(xué)報(bào),2002(6):46-52.
[3]毛先領(lǐng),李曉明.問(wèn)答系統(tǒng)研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2012,6(3):193-207.
[4]宋萬(wàn)里,卜磊.智能答疑系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2017,13(36):163-165.
[5]馮升.聊天機(jī)器人問(wèn)答系統(tǒng)現(xiàn)狀與發(fā)展[J].機(jī)器人技術(shù)與應(yīng)用,2016(4):34-36.