摘 要:我國是語言文字資源大國,為了增加各民族人民特別是青少年對黨和國家民族語言文字政策的了解,提出構(gòu)建中國少數(shù)民族語文百科知識問答系統(tǒng)。該系統(tǒng)采用基于FAQ( Frequently Asked Questions)庫的問答系統(tǒng),主要通過“問題答案”成對的形式將常見問題及其對應(yīng)答案組合在一起作為問答系統(tǒng)的知識庫。通過中國少數(shù)民族語文百科知識問答系統(tǒng),可以宣傳黨和國家民族政策,增進(jìn)各民族之間的相互認(rèn)識和理解,為促進(jìn)各民族交往交流交融奠定知識基礎(chǔ)。
關(guān)鍵詞:中國少數(shù)民族語言文字;百科知識;問答系統(tǒng)
DOI: 10. 11907/rjdk.191292
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP319
文獻(xiàn)標(biāo)識碼:A
文章編號:1672-7800(2020)001-0200-03
0 引言
中國互聯(lián)網(wǎng)絡(luò)信息中心公布的《第43次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》…顯示,截至2018年12月底,中國網(wǎng)民規(guī)模達(dá)8.29億人,互聯(lián)網(wǎng)普及率為59.6%。這表明,互聯(lián)網(wǎng)已成為人們獲取信息的主要渠道和現(xiàn)代社會交流的重要工具。目前,大部分網(wǎng)站只是發(fā)布信息,幾乎不涉及人機(jī)交互,這種類型的網(wǎng)站被稱為信息展示類網(wǎng)站。隨著網(wǎng)站內(nèi)容的不斷增多,網(wǎng)站信息量也越來越大,當(dāng)人們想要去尋找某條歷史信息時,需要按關(guān)鍵詞搜索后順序瀏覽整個搜索結(jié)果目錄,大部分情況下,要打開頁面瀏覽后才能找到信息,這種檢索方式極大降低了信息查詢效率。同時由于網(wǎng)站頁面布局設(shè)計,總會有處于頁面邊角的信息不容易被人們發(fā)現(xiàn),瀏覽信息時會產(chǎn)生遺漏。尤其是對于一個初次接觸該網(wǎng)站的人而言,其并不熟悉網(wǎng)站整體布局,想要尋找一條有用信息,往往事倍功半。針對這種情況,目前大型綜合網(wǎng)站都提供了搜索功能,利用全文索引技術(shù)對站點(diǎn)內(nèi)容進(jìn)行處理,通過關(guān)鍵詞匹配信息。這樣存在兩個問題:一是檢索關(guān)鍵詞必須準(zhǔn)確,當(dāng)用戶輸入一個不準(zhǔn)確的關(guān)鍵詞時,可能得到的搜索結(jié)果與理想結(jié)果差別很大;另一個問題是檢索返回的結(jié)果是一個網(wǎng)頁鏈接,用戶仍然需要打開每一條鏈接,瀏覽每一個網(wǎng)頁尋找所需信息。
針對以上問題,問答系統(tǒng)( Question Answering System,QAS)應(yīng)運(yùn)而生,其最大優(yōu)點(diǎn)在于回答問題的準(zhǔn)確度更高,人們能夠更快更精準(zhǔn)地獲取信息。
1 國內(nèi)外研究評述
1.1 問答系統(tǒng)構(gòu)建現(xiàn)狀
OAS是信息檢索系統(tǒng)中不同于傳統(tǒng)搜索引擎的一種高級形式,它直接用簡潔.準(zhǔn)確的自然語言回答用戶用自然語言提出的問題。國外已開發(fā)出許多較為成熟的問答系統(tǒng)。Start問答系統(tǒng)由麻省理工學(xué)院開發(fā),是全世界第一個面向網(wǎng)絡(luò)的問答系統(tǒng),該系統(tǒng)僅支持英文提問,只能回答某些特定知識領(lǐng)域的簡單問題[2]。Answer Bus問答系統(tǒng)由密歇根大學(xué)開發(fā),該系統(tǒng)可以使用多種語言進(jìn)行提問,內(nèi)容涉及多個知識領(lǐng)域[3]。Watson問答系統(tǒng)由IBM實(shí)驗室開發(fā),該系統(tǒng)以非結(jié)構(gòu)化或半結(jié)構(gòu)化的自由文本作為答案的抽取對象,可梳理人類語言并在文本消息之間進(jìn)行推斷,具有與人類相似的準(zhǔn)確性,但檢索速度更快速[4]。國外問答系統(tǒng)還有蘋果公司開發(fā)的Siri[5]、微軟公司開發(fā)的Cor-tana[6]和亞馬遜公司開發(fā)的Alexa[7]。中文問答系統(tǒng)及其相關(guān)技術(shù)的研究時間相對較短,目前國內(nèi)較成功的在線問答系統(tǒng)是知乎社區(qū)[8],還有百度公司研制的小度[9]。由于中文的特殊性,國外針對英文的自然語言處理技術(shù)無法直接借鑒,中文自然處理技術(shù)目前還有待改進(jìn),同時還缺少一個相對成熟統(tǒng)一的中文問答系統(tǒng)評估標(biāo)準(zhǔn)。
1.2 中國民族語言文字?jǐn)?shù)據(jù)庫構(gòu)建現(xiàn)狀
中央民族大學(xué)劉巖[10]詳細(xì)介紹了語音語料庫的特點(diǎn)和作用、工作步驟及建庫過程中遇到的難點(diǎn);中國社會科學(xué)院民族學(xué)與人類學(xué)研究所呼和等[11]探討了語音聲學(xué)參數(shù)數(shù)據(jù)庫編制方法中的語料、功能字段和聲學(xué)參數(shù)的設(shè)計等問題;云南民族大學(xué)陳錫周[12]、云南大學(xué)陳雁婕等[13]介紹了云南少數(shù)民族語言文字文獻(xiàn)數(shù)據(jù)庫;新疆師范大學(xué)齊向偉等[14]開發(fā)出維吾爾語有聲數(shù)據(jù)庫資源管理平臺;西藏民族大學(xué)陳小瑩[15]設(shè)計了藏文百科知識自動問答系統(tǒng);西北民族大學(xué)孫浩蒸等[16]構(gòu)建了基于FAO庫的藏文問答系統(tǒng);青海民族大學(xué)群毛措、安見才讓[17]提出了藏文問答系統(tǒng)中答案抽取的算法,采用基于相同詞匯的句子相似度算法和基于關(guān)鍵詞的相似度算法相結(jié)合的算法抽取最佳答案;青海師范大學(xué)柔特[18]提出了基于藏文疑問虛詞的問句分類方法。2008年國家語言文字工作委員會啟動了中國語言資源有聲數(shù)據(jù)庫建設(shè),在國家層面,按照統(tǒng)一方法調(diào)查、采集、整理、加工、保存漢語及少數(shù)民族語言資源[19]。總體而言,我國現(xiàn)有少數(shù)民族語言數(shù)據(jù)庫專業(yè)性強(qiáng),多數(shù)是語言學(xué)研究中某一個科研方向的專項數(shù)據(jù)庫,或者是某一特定區(qū)域的語言數(shù)據(jù)庫,服務(wù)對象是科研人員,并只針對建庫者及相關(guān)科研人員開放。
2 系統(tǒng)構(gòu)建現(xiàn)實(shí)意義
民族平等和語言平等是新中國民族政策的根本出發(fā)點(diǎn),民族語言文字是各民族的重要標(biāo)志和文化特征。通過該問答系統(tǒng),可以使各民族人民特別是青少年增加對黨和國家民族語言文字政策的了解,展示我國多民族融合發(fā)展的歷史,宣傳黨和國家民族政策,增進(jìn)各民族之間的相互認(rèn)識和理解,為促進(jìn)各民族的交往交流交融奠定知識基礎(chǔ)。
長期以來,少數(shù)民族語言文字的信息化水平遠(yuǎn)低于漢語言文字,科學(xué)研究成果社會普及度不高,缺乏有新意和創(chuàng)新手段的科普成果。該問答系統(tǒng)對促進(jìn)民族語言文字的科學(xué)普及具有重要社會價值。
信息化和數(shù)字化是當(dāng)今社會發(fā)展的必然趨勢,語言是信息天然的載體和工具,人類在社會交往中主要是通過語言文字進(jìn)行,語言文字信息化是整個社會信息化的基礎(chǔ)。該問答系統(tǒng)順應(yīng)互聯(lián)網(wǎng)時代發(fā)展需求,創(chuàng)新傳播和應(yīng)用方式,在已有調(diào)研成果的基礎(chǔ)上,建立聲、文、圖、像一體化的中國民族語言文字?jǐn)?shù)據(jù)庫,以新型科研成果形式豐富民族語言文化等方面的研究成果,將研究成果進(jìn)行可視化方式展示,向國內(nèi)外對中國民族語言文字感興趣的人們?nèi)嫦到y(tǒng)地傳播中國少數(shù)民族語言文字相關(guān)知識。
該問答系統(tǒng)便于動態(tài)更新民族語言文字知識,及時修正數(shù)據(jù)庫中的數(shù)據(jù),使用者也可以方便、快捷地進(jìn)行中國民族語言文字資料的查詢、檢索。
3 系統(tǒng)架構(gòu)設(shè)計
知識庫( Knowledge Base)是一種匯集知識的智能系統(tǒng),它利用計算機(jī)存儲和管理某一類特定領(lǐng)域的知識,并利用知識解決該領(lǐng)域出現(xiàn)的問題。知識庫也可說是知識的集合.而知識通常包括知識概念、事實(shí)與規(guī)則。知識庫與數(shù)據(jù)庫既有差異又相互聯(lián)系,兩者可統(tǒng)稱為信息庫。知識庫的發(fā)展前景是廣闊的,新的課題不斷涌現(xiàn),例如,多級知識庫及綜合知識庫、黑板結(jié)構(gòu)、分布式知識庫系統(tǒng)和多智能體協(xié)同工作系統(tǒng)研究等[20]。
中國少數(shù)民族語文百科知識問答系統(tǒng)采用基于FAO( Frequently Asked Questions)知識庫的問答系統(tǒng),主要通過“問題答案”成對的形式將常見問題及其對應(yīng)答案組合在一起作為問答系統(tǒng)的知識庫。當(dāng)用戶提問時,系統(tǒng)可以通過關(guān)鍵詞匹配的方式在FAO知識庫中快速找到與用戶問題相似的問句,將對應(yīng)答案反饋給用戶,這樣就不需要再經(jīng)過信息檢索、答案抽取等許多復(fù)雜的處理過程,是一種便捷、準(zhǔn)確的問答途徑。FAO知識庫的問答系統(tǒng)處理問題過程簡單,實(shí)現(xiàn)起來相對容易,搜索結(jié)果比較合理,系統(tǒng)響應(yīng)時間相對較短。
問答系統(tǒng)包括4個模塊,各模塊功能如下:
(1)問題處理模塊。該模塊處理流程主要包括中文分詞、用戶關(guān)鍵詞提取、用戶關(guān)鍵詞標(biāo)準(zhǔn)化和用戶詞匯詞義擴(kuò)展等,將用戶問題轉(zhuǎn)化成關(guān)鍵詞列表。問題處理模塊還需要依賴于一些知識庫,如中文分詞詞典、同義詞詞典、語言學(xué)文字學(xué)專業(yè)術(shù)語詞表等。
(2)問題檢索模塊。該模塊主要任務(wù)是計算用戶問題與問題庫中問句的相似度值。該模塊使用的語句相似度算法是系統(tǒng)的核心算法。
(3)答案抽取模塊。該模塊主要任務(wù)就是將候選問題集中問句按它與用戶問句的相似度值從大到小的順序進(jìn)行排序,同時判斷問題庫中的問題是否是用戶要問的問題(通常根據(jù)一個預(yù)先定義的相似度閾值進(jìn)行判斷),如果是,則直接返回問題對應(yīng)的答案;如果不是,則返回與用戶問題相似度值較高的問題答案,再讓用戶進(jìn)一步自行判斷選擇最優(yōu)答案。
(4)FAQ知識庫模塊。FAO知識庫是問答系統(tǒng)中重要的基礎(chǔ)知識庫。FAO知識庫實(shí)際上就是一個“問題答案”對集合。由于FAO知識庫模塊是整個問答系統(tǒng)的核心模塊,知識庫的構(gòu)建應(yīng)盡可能全面,列舉出的問題答案對越多,問答系統(tǒng)的準(zhǔn)確度就越高。
4 系統(tǒng)功能設(shè)計
本文主要利用信息抽取、信息檢索和自然語言處理等相關(guān)技術(shù)構(gòu)建基于中國民族語言文字百科知識庫的答問系統(tǒng)。具體包括以下3個方面:
(1)收集中國民族語言文字基本知識,創(chuàng)建FAQ知識庫。FAO知識庫包含3個子知識庫,分別是中國民族語言文字政策知識庫、中國民族語言基本知識庫、中國民族文字基本知識庫。知識庫的數(shù)據(jù)存儲形式分為文本、圖片.音頻和視頻4種。中國民族語言文字政策FAO知識庫包含建國以來的國家民族語言文字法律法規(guī)和各地區(qū)民族語言文字法律法規(guī),提供原文鏈接。中國民族語言FAO知識庫包含中國境內(nèi)的民族語言種類、民族語言基本分布、使用人口、使用狀況、語言的簡要研究情況,并提供分布地圖展示、常用句的音頻及歌曲視頻。中國民族文字FAO知識庫包含中國境內(nèi)的民族文字種類、各民族文字的基本使用狀況、文字的簡要研究情況,并提供文字樣例、文獻(xiàn)圖片。
(2)利用信息檢索技術(shù)完成針對中國民族語言文字基本知識庫問答條目的搜索引擎,提供基于關(guān)鍵字的基本查詢功能。根據(jù)用戶提問,答案首先以文本形式出現(xiàn),然后根據(jù)檢索內(nèi)容有多種表現(xiàn)形式。比如用戶搜索某一民族語言,首先出現(xiàn)的是針對民族語言的文本簡介,點(diǎn)擊語音標(biāo)記,即可播出與之相對應(yīng)的語言發(fā)音。如果用戶搜索某一民族文字,首先出現(xiàn)的是該民族文字的文本簡介,點(diǎn)擊圖片標(biāo)記,即可彈出與之相對應(yīng)的民族文字圖片。
(3)基于模式匹配和相似度計算方法設(shè)計一個中國民族語言文字百科知識網(wǎng)絡(luò)問答系統(tǒng)?,F(xiàn)階段,中文自然語言處理技術(shù)和語義理解技術(shù)都不夠成熟,重難點(diǎn)主要集中在中文自然語言辨析理解、語句語義相似度算法優(yōu)化、答案存儲與分析等方面。尤其是語句語義相似度算法是一個亟待解決的問題,該算法設(shè)計的優(yōu)劣直接決定著問答系統(tǒng)查詢的召回率和準(zhǔn)確率。
5 結(jié)語
本文研究并設(shè)計了中國少數(shù)民族語文百科知識問答系統(tǒng),給出了系統(tǒng)框架設(shè)計思路及流程。其難點(diǎn)是FAQ知識庫構(gòu)建,主要依靠人工手動搜集整理問題答案對,對于小型知識庫而言效果較好,但是對于信息量多、規(guī)模較大的知識庫,則耗時費(fèi)力,構(gòu)建FAO知識庫存在一定困難。中國少數(shù)民族語文百科知識問答系統(tǒng)是一個綜合處理系統(tǒng),還涉及許多信息處理相關(guān)技術(shù),這有待后續(xù)全面深入研究。
參考文獻(xiàn):
[1] CNNIC.第43次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].2019.
[2]MIT Info Lab. The START natural language question answering system[ EB/OL]. http: //start.csail.mit.edu/index.php.
[3] 密歇根大學(xué).Answer Bus官方網(wǎng)站[EB/OL].http://www.answerbus. com/.
[4] IBM實(shí)驗室.IBM Watson官方網(wǎng)站[EB/OL].https://www.ibm.com/developerworks/cn/cloudlibrary/cl-watson-films-hluemix-app/.
[5] 蘋果公司(中國).Siri官方網(wǎng)站[EB/OL].https://www.apple.com/cn/ siri/.
[6] 微軟公司(中國).Cortana官方網(wǎng)站[EB/OL].https://www.microsoft.com/zh-cn/windows/Cortana.
[7] 亞馬遜公司.Alexa官方網(wǎng)站[EB/OL].https://www.alexa.com/.
[8] 北京智者天下科技有限公司.知乎社區(qū)官方網(wǎng)站[EB/OL].https:,,www.zhihu.com/.
[9] 百度公司.小度官方網(wǎng)站[EB/OL].https://xiaodu.haidu.com/saiya/xiaodu-home/index.html#/.
[10]劉巖.關(guān)于中國少數(shù)民族瀕危語言語音語料庫的設(shè)計[J].中央民族大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2006( 4):133-136.
[11]呼和,哈斯其木格,周學(xué)文,等.中國少數(shù)民族語音聲學(xué)參數(shù)數(shù)據(jù)庫的研制方法[J].全國人機(jī)語音通訊學(xué)術(shù)會議,2009.
[12] 陳錫周.云南少數(shù)民族語言數(shù)據(jù)庫[J].云南民族學(xué)院學(xué)報:哲學(xué)社會科學(xué)版,2003,20(1):112-114.
[13] 陳雁婕,閔紅云,袁帆.論云南地方少數(shù)民族文字文獻(xiàn)數(shù)據(jù)庫構(gòu)建[J].云南民族大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2005,22(1):148-151.
[14] 齊向偉,玉素甫·艾白都拉,艾孜爾古麗.基于語言資源理念的維吾爾語有聲數(shù)據(jù)庫構(gòu)建研究[J].數(shù)字技術(shù)與應(yīng)用,2011(7): 48-49.
[15] 陳小瑩.藏文百科知識問答系統(tǒng)的設(shè)計與研究[J].智能計算機(jī)與應(yīng)用,2017,7(4):48-50.
[16]孫浩蒸,于洪志,蘇敏.基于知識庫的藏文問答系統(tǒng)研究[J].西北民族大學(xué)學(xué)報:自然科學(xué)版,2015,36(2):45-50.
[17] 群毛措,安見才讓.藏文問答系統(tǒng)中答案抽取算法的研究[J].電子技術(shù)與軟件工程,2016(6):158.
[18]柔特.藏文問答系統(tǒng)中問句的分類方法研究[J].計算機(jī)工程與科學(xué),2015 .37(7):1393-1398.
[19]李宇明.論中國語言資源有聲數(shù)據(jù)庫的建設(shè)[J].中國語文,2010(4):356-384.
[20]何守才.數(shù)據(jù)庫百科全書[M].上海:上海交通大學(xué)出版社,2009.
(責(zé)任編輯:孫娟)
作者簡介:韋韌(1982-),博士,中國社會科學(xué)院民族學(xué)與人類學(xué)研究所助理研究員,研究方向為民族語文信息化。