亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于知識(shí)庫(kù)的藏文問(wèn)答系統(tǒng)研究

2015-06-23 16:28:43孫浩蒸于洪志

西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2015年2期

關(guān)鍵詞：藏文分詞知識(shí)庫(kù)

孫浩蒸，于洪志，蘇敏

( 西北民族大學(xué)，中國(guó)民族信息技術(shù)研究院，甘肅蘭州730030)

基于知識(shí)庫(kù)的藏文問(wèn)答系統(tǒng)研究

孫浩蒸，于洪志，蘇敏

( 西北民族大學(xué)，中國(guó)民族信息技術(shù)研究院，甘肅蘭州730030)

隨著數(shù)據(jù)信息的海量增長(zhǎng)，人們迫切需要在海量的數(shù)據(jù)中精準(zhǔn)獲取有用信息，為了解決這個(gè)問(wèn)題,問(wèn)答系統(tǒng)應(yīng)運(yùn)而生.現(xiàn)今，英文問(wèn)答系統(tǒng)及中文問(wèn)答系統(tǒng)取得了顯著成績(jī)，但藏文問(wèn)答系統(tǒng)卻鮮有人問(wèn)津.作為一個(gè)多民族的國(guó)家，伴隨信息化的高速前行，藏文問(wèn)答系統(tǒng)的研究勢(shì)在必行.文章通過(guò)對(duì)現(xiàn)有藏文分詞、信息檢索等技術(shù)分析，借用中英文問(wèn)答系統(tǒng)成熟的模式，結(jié)合藏語(yǔ)語(yǔ)法的特殊性質(zhì)，對(duì)基于FAQ庫(kù)的藏文問(wèn)答系統(tǒng)的構(gòu)建進(jìn)行分析研究.

問(wèn)答系統(tǒng)；藏文問(wèn)答系統(tǒng)；藏文分詞；信息檢索；FAQ

0 引言

進(jìn)入21世紀(jì),數(shù)據(jù)信息已經(jīng)呈海量態(tài)勢(shì)發(fā)展,人們對(duì)于信息的獲取需要更加精準(zhǔn)的方式.問(wèn)答系統(tǒng)能夠有效地緩解數(shù)據(jù)驟增帶來(lái)的獲取信息效率低下問(wèn)題.以英文為首的各語(yǔ)言問(wèn)答系統(tǒng)不斷更新發(fā)展.現(xiàn)今，英文、中文等語(yǔ)言的問(wèn)答系統(tǒng)已經(jīng)取得了顯著的成績(jī)，并且在實(shí)際的生活中得到了廣泛的應(yīng)用.但是對(duì)于藏文等民族語(yǔ)的問(wèn)答系統(tǒng)卻少有人問(wèn)津，這與民族語(yǔ)言的特殊性有一定的關(guān)系.

近些年，隨著計(jì)算機(jī)的普及，相關(guān)的藏文數(shù)據(jù)信息不斷增加，藏族人民對(duì)信息獲取的需要不斷的增強(qiáng)，針對(duì)藏族語(yǔ)言的問(wèn)答系統(tǒng)建設(shè)勢(shì)在必行.本文在英文及中文問(wèn)答系統(tǒng)的基礎(chǔ)上，結(jié)合傳統(tǒng)的藏文分詞等技術(shù)，根據(jù)藏文特有的語(yǔ)法特征進(jìn)行研究.

1 相關(guān)研究

英文問(wèn)答系統(tǒng)出現(xiàn)時(shí)間較早，就在上世紀(jì)60年代人工智能研究初期，人們就提出利用自然語(yǔ)言來(lái)回答問(wèn)題的設(shè)想，那便是問(wèn)答系統(tǒng)的雛形.問(wèn)答系統(tǒng)的快速發(fā)展主要取決于面對(duì)海量的數(shù)據(jù)信息，人們需要快速、準(zhǔn)確獲取信息.

中文問(wèn)答系統(tǒng)較英文等問(wèn)答系統(tǒng)發(fā)展較晚[1].相比而言，國(guó)內(nèi)問(wèn)答系統(tǒng)的研究無(wú)論是在技術(shù)水平上還是應(yīng)用規(guī)模上都有不小的差距[2].但在國(guó)內(nèi)，許多科研機(jī)構(gòu)和單位都投入了相當(dāng)大的精力，也開(kāi)發(fā)出了一批成熟的中文問(wèn)答系統(tǒng).藏文問(wèn)答系統(tǒng)的建立是文化發(fā)展的需要，是大數(shù)據(jù)信息時(shí)代發(fā)展的趨勢(shì)，會(huì)成為藏族人民生活中重要的工具.由于藏文存在語(yǔ)法特殊性，藏文問(wèn)答系統(tǒng)的研究將會(huì)是一個(gè)長(zhǎng)期的過(guò)程，藏文問(wèn)答系統(tǒng)作為民族語(yǔ)言處理領(lǐng)域中重要的一項(xiàng)技術(shù)，倍受關(guān)注并且有巨大的發(fā)展前景.

2 系統(tǒng)構(gòu)建

現(xiàn)有的問(wèn)答系統(tǒng)可以從形式上分為以下幾類[3]：聊天機(jī)器人、問(wèn)答式檢索系統(tǒng)、基于自由文本的問(wèn)答系統(tǒng)和基于知識(shí)庫(kù)的問(wèn)答系統(tǒng).

聊天機(jī)器人能夠讓交互交流變得更加方便和人性化.但是聊天機(jī)器人基于設(shè)定好的程序，在交互過(guò)程中，完全依賴于簡(jiǎn)單的模式匹配、談話技巧和聊天技巧進(jìn)行交流[4].

問(wèn)答檢索系統(tǒng)[5]依據(jù)用戶輸入的問(wèn)題，對(duì)文檔或網(wǎng)頁(yè)進(jìn)行檢索，把檢索出的文檔或網(wǎng)頁(yè)返回.這類問(wèn)答系統(tǒng)主要稱作智能搜索引擎，不能稱為嚴(yán)格意義上的問(wèn)答系統(tǒng).

基于自由文本的問(wèn)答系統(tǒng)現(xiàn)已經(jīng)在各語(yǔ)言的問(wèn)答系統(tǒng)中得到廣泛的應(yīng)用，但對(duì)于藏文而言，現(xiàn)有的藏文文檔集和藏文網(wǎng)站還相當(dāng)有限，還不能完全為問(wèn)答系統(tǒng)提供強(qiáng)大的數(shù)據(jù)支持.

基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)通過(guò)一個(gè)或多個(gè)知識(shí)庫(kù)提供數(shù)據(jù)源，知識(shí)庫(kù)的建設(shè)可以面向受限領(lǐng)域.對(duì)于知識(shí)庫(kù)范圍內(nèi)的問(wèn)題，系統(tǒng)回答的準(zhǔn)確率非常高.本文主要研究以知識(shí)庫(kù)為基礎(chǔ)的藏文問(wèn)答系統(tǒng).

圖1 問(wèn)答系統(tǒng)體系結(jié)構(gòu)

藏文問(wèn)答系統(tǒng)可以借鑒英漢問(wèn)答系統(tǒng)模式，分為三個(gè)核心部分，即藏文問(wèn)題理解、藏文信息檢索、藏文答案抽取.

圖2 問(wèn)答系統(tǒng)核心模塊

在系統(tǒng)構(gòu)建過(guò)程中本文根據(jù)以上三個(gè)核心模塊對(duì)系統(tǒng)進(jìn)行建設(shè).提供數(shù)據(jù)支持的知識(shí)庫(kù)設(shè)定為受限領(lǐng)域的常用問(wèn)題集.

2.1 問(wèn)題理解

2.1.1 藏文分詞

藏文是一種拼音文字，有30個(gè)輔音字母和4個(gè)元音字母組成音節(jié)，由音節(jié)構(gòu)成詞.藏文同中文同屬漢藏語(yǔ)系，藏文分詞同中文分詞在自然語(yǔ)言處理領(lǐng)域具有相同的地位，他們?cè)谡Z(yǔ)句構(gòu)成上并沒(méi)有像英文那樣以空格來(lái)切分詞語(yǔ).因此，中文和藏文的處理，首先要進(jìn)行分詞.藏文詞匯存在口語(yǔ)話等特征也會(huì)對(duì)分詞產(chǎn)生影響，這些因素決定了藏文分詞的特殊性.本文采用西北民族大學(xué)祁坤鈺教授研究的藏文分詞法進(jìn)行分詞[6].

2.1.2 去停用詞

藏文和中文一樣，在自然語(yǔ)句中不乏大量的無(wú)實(shí)際意義的詞或符號(hào)以及虛詞、助詞等.在成熟的中文問(wèn)答系統(tǒng)中對(duì)停用詞處理的方法一般基于停用詞表進(jìn)行去停用詞.停用詞表包含部分藏語(yǔ)停用詞和借用中文的標(biāo)點(diǎn)符號(hào)(如：. ！？《》)以及部分虛詞[7]、助詞.通過(guò)對(duì)用戶問(wèn)句分詞后查詢停用詞表，判斷分詞是否在停用詞表中，進(jìn)而決定分詞的保留或丟棄.停用詞在系統(tǒng)中也起到相當(dāng)重要的作用，停用詞的處理可以提升系統(tǒng)檢索效率，提高系統(tǒng)返回的準(zhǔn)確度.

圖3 系統(tǒng)框架圖

2.1.3 同義詞擴(kuò)展

藻飾詞是一種藏文詞匯的特殊的語(yǔ)言表達(dá)形式[8],有好幾個(gè)詞可選擇用于表達(dá)一個(gè)概念,這就有可能把思想感情表達(dá)得更加確切、細(xì)致,并可避免用詞重復(fù)[9]，類似中文中的同義詞.在中文問(wèn)答系統(tǒng)中涉及到同義詞的擴(kuò)展,例如(計(jì)算機(jī)和電腦同義)，藏文問(wèn)答系統(tǒng)可以借鑒西北民族大學(xué)研究生扎西草[10]研究的藏語(yǔ)藻飾詞信息庫(kù)構(gòu)建方法進(jìn)行同義詞庫(kù)的建設(shè).同義詞的擴(kuò)展有助于系統(tǒng)對(duì)信息的識(shí)別和提取.構(gòu)造的同義詞詞庫(kù)等輔助詞庫(kù)，或者是從語(yǔ)料庫(kù)中提取的同義詞，系統(tǒng)在檢索時(shí)通過(guò)對(duì)同義或者意思相近的詞處理，從而提高系統(tǒng)檢索準(zhǔn)確度和整體性能[11].

表1 停用詞表

2.1.4 問(wèn)句類型分析

表2 擴(kuò)展詞示例

表3 常用疑問(wèn)詞

2.2 信息檢索

對(duì)于信息檢索部分, 最簡(jiǎn)單的方法是去掉問(wèn)題中的停用詞和問(wèn)句相關(guān)的詞(如疑問(wèn)詞)生成查詢,然后利用已有的檢索模型進(jìn)行檢索, 把返回的結(jié)果作為答案提取部分的輸入[14].

信息檢索主要基于檢索模型，常用的信息檢索模型一般分為四類：布爾模型、模糊邏輯模型、向量模型及概率模型.實(shí)驗(yàn)發(fā)現(xiàn)在文檔檢索中, 簡(jiǎn)單的布爾模型、概率模型與改進(jìn)的向量空間模型的效果相當(dāng)[12～13].

本文將采用向量模型[14]對(duì)藏文問(wèn)答系統(tǒng)進(jìn)行研究.

向量空間模型的基本思想是以詞為特征項(xiàng)，用向量來(lái)代表文本.如果庫(kù)中句子包含所有的詞為w1,w2,…wn，則庫(kù)中每一個(gè)句子都可用一個(gè)n維向量T=來(lái)表示，其中Ti(1≤i≤n)的計(jì)算方法為：設(shè)n為wi在句子中出現(xiàn)的個(gè)數(shù)，m為庫(kù)中含有wi的問(wèn)句的個(gè)數(shù)，M為庫(kù)中問(wèn)句的總數(shù)，其中,Ti=n×log(M/m).而且，我們可以計(jì)算目標(biāo)問(wèn)句的n維向量T＇=.T和T＇對(duì)應(yīng)的兩個(gè)句子之間的相似度就可以利用T和T＇這兩個(gè)向量之間夾角的余弦值來(lái)表示，公式表示為：

(公式1)

公式所求相似度為兩個(gè)問(wèn)句向量的余弦?jiàn)A角.本方法只要考慮詞語(yǔ)在問(wèn)句中出現(xiàn)的次數(shù)，不需要對(duì)文本內(nèi)容做深層理解.

2.3 答案抽取

在選取候選答案中挑選出與目標(biāo)最相似的問(wèn)句返回給用戶.候選答案相似度的計(jì)算基于語(yǔ)義框架匹配，詞匯語(yǔ)義相似度計(jì)算采用計(jì)算語(yǔ)義相似度的計(jì)算方法[15],對(duì)于兩個(gè)詞U、V，如果U有a個(gè)詞義U1…Ua,V有b個(gè)詞義V1…Vb.U和V的相似度是每個(gè)詞義之間相似度的最大值：

(公式2)

通過(guò)計(jì)算得到相似度值最大的候選答案，把此答案作為最優(yōu)答案返回給用戶.

2.4 數(shù)據(jù)庫(kù)建設(shè)

本文系統(tǒng)的設(shè)計(jì)是基于受限領(lǐng)域知識(shí)庫(kù)的問(wèn)答系統(tǒng)，所以檢索和抽取都依賴于知識(shí)庫(kù)來(lái)完成.構(gòu)建過(guò)程中數(shù)據(jù)的提供通常有多個(gè)數(shù)據(jù)庫(kù)完成，如：歷史問(wèn)題庫(kù)、常用詞庫(kù)、領(lǐng)域知識(shí)庫(kù).

表4 藏文問(wèn)答系統(tǒng)中數(shù)據(jù)庫(kù)分類

歷史問(wèn)題庫(kù)的建立是為了避免同樣的問(wèn)題進(jìn)行重復(fù)的問(wèn)答檢索，對(duì)已經(jīng)問(wèn)過(guò)的問(wèn)題放入歷史問(wèn)題庫(kù).用戶進(jìn)行問(wèn)題輸入后，首先會(huì)在歷史問(wèn)題庫(kù)中進(jìn)行模糊匹配，如果有相符記錄則返回答案，如果沒(méi)有相符記錄則進(jìn)行知識(shí)庫(kù)檢索.

常用詞庫(kù)分別存放藏文停用詞表、擴(kuò)展詞表、常用疑問(wèn)詞表.在問(wèn)題理解模塊對(duì)通用庫(kù)進(jìn)行調(diào)用.

知識(shí)庫(kù)建立過(guò)程中，主要內(nèi)容是面向受限領(lǐng)域的問(wèn)題集.領(lǐng)域知識(shí)庫(kù)的建立好壞直接影響系統(tǒng)性能的好壞.所以在知識(shí)庫(kù)構(gòu)建時(shí)要做到分類清晰、層次分明.

3 評(píng)價(jià)指標(biāo)

通常問(wèn)答系統(tǒng)需要一個(gè)評(píng)價(jià)機(jī)制來(lái)衡量它的性能，目前國(guó)際上對(duì)英文問(wèn)答系統(tǒng)已有統(tǒng)一的評(píng)測(cè)機(jī)制，中文問(wèn)答系統(tǒng)還沒(méi)有既定的標(biāo)準(zhǔn)，民族語(yǔ)問(wèn)答系統(tǒng)在這方面更是欠缺.為了準(zhǔn)確地評(píng)價(jià)系統(tǒng)的性能，本文采用召回率(R)、準(zhǔn)確率(P)、F1值三個(gè)參數(shù)進(jìn)行性能評(píng)測(cè)，評(píng)測(cè)結(jié)果F1值越大代表系統(tǒng)性能越好.公式如下：

(公式3)

(公式4)

(公式5)

4 結(jié)論

目前，藏文問(wèn)答系統(tǒng)研究還處于初級(jí)階段，沒(méi)有成熟的民族語(yǔ)問(wèn)答系統(tǒng)模式可以借鑒，只能借鑒成熟的中英文等問(wèn)答系統(tǒng)模式.由于藏文本身所具有的特殊性，在藏文問(wèn)答系統(tǒng)的構(gòu)建不能完全地搬用成熟的中英文自然語(yǔ)言處理模式，所以對(duì)藏文問(wèn)答系統(tǒng)的研究將會(huì)是一個(gè)長(zhǎng)期的過(guò)程.

藏文信息處理過(guò)程中缺乏語(yǔ)言處理資源，知識(shí)庫(kù)的構(gòu)建將會(huì)是一個(gè)重要的工作.由于現(xiàn)在還沒(méi)有成熟的知識(shí)庫(kù)可以借用，知識(shí)庫(kù)的搭建是一個(gè)長(zhǎng)期的過(guò)程.本文主要是從基于FAQ庫(kù)的藏文問(wèn)答系統(tǒng)的框架構(gòu)建方式進(jìn)行分析，下一步將會(huì)對(duì)相應(yīng)的知識(shí)庫(kù)進(jìn)行構(gòu)建，并通過(guò)數(shù)據(jù)分析對(duì)系統(tǒng)構(gòu)建方案進(jìn)行評(píng)估.

問(wèn)答系統(tǒng)作為目前最熱門(mén)的研究之一，眾多的企業(yè)和科研機(jī)構(gòu)加入了研究的行列，在社會(huì)生活中也得到了一定的應(yīng)用.伴隨信息化浪潮的推進(jìn)，問(wèn)答系統(tǒng)將會(huì)有更廣闊的前景.藏文問(wèn)答系統(tǒng)雖然起步較晚，但是藏文問(wèn)答系統(tǒng)有很多值得研究的地方，也將會(huì)有很好的前景.

[1] 張丹.受限領(lǐng)域問(wèn)答系統(tǒng)的研究與設(shè)計(jì)[D].內(nèi)蒙古大學(xué),2012.

[2] 吳友政,趙軍, 段湘煜, 等. 問(wèn)答式檢索技術(shù)及評(píng)測(cè)研究綜述 [J]. 中文信息學(xué)報(bào), 2005, 19(3): 1-13.

[3] 楊建武.智能問(wèn)答(QA)技術(shù)[R].北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所，2007,8-13.

[4] Quarteroni, S. and S. Manandhar. A Chatbot-Based Interactive Question Answering System[J].In DECALOG'07, 2007.

[5] 王樹(shù)西.問(wèn)答系統(tǒng)：核心技術(shù)、發(fā)展趨勢(shì)[J].計(jì)算機(jī)工程與應(yīng)用，2005，41(18).

[6] 祁坤鈺.信息處理用藏文自動(dòng)分詞研究[J].西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2006,(4):92-97.

[7] 才讓三智.藏語(yǔ)虛詞知識(shí)庫(kù)構(gòu)建研究[D].西北民族大學(xué)碩士研究生學(xué)位論文，2012.

[8] 張同玲,多杰卓瑪.藻飾詞語(yǔ)義網(wǎng)絡(luò)的構(gòu)建研究[J]. 電腦開(kāi)發(fā)與應(yīng)用，2011,(24):25-27.

[9] 高丙辰.藏文藻飾詞淺說(shuō)[J].民族語(yǔ)文,1980,44-52.

[10] 扎西草.藏文藻飾詞信息庫(kù)構(gòu)建研究[D].西北民族大學(xué),2014.

[11] 張興華. 智能搜索引擎的機(jī)理,實(shí)現(xiàn)技術(shù)及發(fā)展趨勢(shì)[J].現(xiàn)代情報(bào), 2003,12,66-67.

[12] Moldovan D, Pasca M, Harabagiu S, et al. Performance issues and error analysis in an open-domain question an-swering system[J].ACM Transactions on Information Systems, 2003, 21(2): 133-154.

[13] Tellex S, Katz B, Lin J, et al. Quantitative evaluation of passage retrieval algorithms for question answering[C]//Proceedings of the 26th Annual International ACM SIGIRConference on Research and Development in InformationRetrieval (SIGIR ’03). New York, NY, USA: ACM, 2003,41-47.

[14] XinLi, Dan Roth. The Role of Semantic Information in Learning Question Classifiers. In First International Conference on Natural Language Processing[J].Sanyacity,Hainan Island,China,2004,451-458.

[15] 蔡剛山,葉俊,周曼麗.基于多級(jí)檢索的自動(dòng)問(wèn)答系統(tǒng)研究[J].科學(xué)技術(shù)與工程,2007,7(4):501-505.

2015-05-20

西北民族大學(xué)研究生科研創(chuàng)新項(xiàng)目(Yxm2014040).

孫浩蒸(1986—)，男，山東棗莊人，碩士研究生，主要從事自然語(yǔ)言處理方面的研究.

TP391.1

1009-2102(2015)02-0045-06