亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

VSM在旅游自動(dòng)問答系統(tǒng)中的應(yīng)用研究

2019-09-10 21:13:51歐陽林艷

山西能源學(xué)院學(xué)報(bào) 2019年2期

歐陽林艷

向量空間模型VSM是一種文本相似度比較算法，在自然語言處理領(lǐng)域有著十分重要的作用。自動(dòng)問答系統(tǒng)作為自然語言處理的一個(gè)應(yīng)用領(lǐng)域，可以根據(jù)用戶問題，將用戶問題與問答庫中的問題進(jìn)行相似度比較，找出相似度最高的問題，檢索出其對應(yīng)的答案，作為對用戶的回答。采用向量空間模型VSM算法來進(jìn)行相似度計(jì)算，能較好地解決這一類型的問題。

1 自動(dòng)問答系統(tǒng)

自動(dòng)問答系統(tǒng)（Question Answering System，QAS）是自然語言處理的一個(gè)重要應(yīng)用領(lǐng)域，成為當(dāng)前信息處理中的一個(gè)十分熱門的話題。所謂問答（Question Answering ，QA），是指針對用戶以自然語言方式提出的問題（Q），從文檔集合DS={d1，d2，…dn}中，找出簡短精確的答案（A）的過程。自動(dòng)問答系統(tǒng)能夠根據(jù)用戶的自然語言提問，從知識(shí)庫中抽取一個(gè)比較符合用戶所提問題的答案，從而很好地回答用戶問題，而不再像傳統(tǒng)的信息檢索只提供與關(guān)鍵詞相關(guān)的信息列表。大規(guī)模文本處理技術(shù)的日趨成熟也成為推動(dòng)問答系統(tǒng)實(shí)現(xiàn)的強(qiáng)大力量。

自動(dòng)問答系統(tǒng)的處理步驟：

（1）輸入問題;

（2）通過計(jì)算從數(shù)據(jù)庫中找出與用戶問題相近的問題;

（3）根據(jù)數(shù)據(jù)庫中的“問答對”找出與之匹配的答案;

（4）將該答案反饋給用戶，作為其需要的答案。

而其中，如何找出與用戶問題最相近的數(shù)據(jù)庫中的問題則成為了一個(gè)核心的問題，要進(jìn)行相近問題的尋找，就必須采用合適的相似度計(jì)算方法進(jìn)行計(jì)算。

2向量空間模型VSM

向量空間模型（VSM）是20世紀(jì)60年代末由Gerard Salton等人提出的，在Smart檢索系統(tǒng)中有進(jìn)行應(yīng)用。該模型的設(shè)計(jì)思想是：將要比較的文檔看成是空間中的兩個(gè)向量，要判斷兩個(gè)文檔的相似程度，則只要計(jì)算這兩個(gè)“向量”之間的內(nèi)積，內(nèi)積越小，說明兩個(gè)文檔的相似程度越低;反之亦然。兩個(gè)文檔D1與D2之間的相關(guān)程度（Degree of Relevance）常常用它們之間的相似度Sim（D1，D2）來度量。

其中W表示的是每篇文檔中每個(gè)項(xiàng)對應(yīng)的權(quán)值。權(quán)值主要指的是在整個(gè)文檔中，該項(xiàng)所攜帶的信息量的多少。在VSM算法中，定義每個(gè)項(xiàng)的權(quán)值則成為了一個(gè)重要問題。

3 TF-IDF算法

TF-IDF（Term Frequency–Inverse Document Frequency）算法是一種比較實(shí)用的權(quán)值定義算法，它是利用統(tǒng)計(jì)學(xué)原理，來評價(jià)一個(gè)字或者是詞語對于文檔集中某個(gè)文檔的重要性。在TF-IDF算法中，權(quán)值可以表示為如公式2所示：

tfik表示項(xiàng)Tk在文檔Di中的文檔內(nèi)頻數(shù)，idfk表示項(xiàng)Tk的反比文檔頻數(shù)，其中idfk的計(jì)算一般采用idfk=log（N/nk）。N表示文檔集中文檔數(shù)量，nk表示項(xiàng)Tk的文檔頻數(shù)。

如果包含項(xiàng)Tk的文檔越多，也就是nk越大，idfk越小，則說明項(xiàng)Tk類別區(qū)分能力不強(qiáng)，反之，則說明項(xiàng)Tk具有很好的區(qū)分能力。除此之外，文檔的長度也是必須考慮的因素，因?yàn)樵谖覀冞@種計(jì)算的情況下，如果某個(gè)文檔越長，那么它被檢索到的可能性也就越大。因此，通過對上式進(jìn)行歸一化處理，得到如公式3所示：

4 VSM在自動(dòng)問答系統(tǒng)中的應(yīng)用

根據(jù)VSM相似度計(jì)算方法，以及自動(dòng)問答系統(tǒng)本身的特點(diǎn)，設(shè)計(jì)的自動(dòng)問答系統(tǒng)架構(gòu)體系如圖1，其核心主要包含預(yù)處理、問題檢索以及答案抽取。

4.1問題預(yù)處理

4.1.1詞的切分

利用中科院分詞系統(tǒng)ICTCLAS將用戶輸入的問句以及問答庫中的問題進(jìn)行分詞。對問句進(jìn)行關(guān)鍵詞語的提取，這樣的好處是區(qū)分用戶問句所關(guān)心的主題是什么，實(shí)際上也是提取主題關(guān)鍵詞。關(guān)鍵詞詞典是一個(gè)有著相同或相似意義的詞的聚類，可降低模板的復(fù)雜度，提高了詞的重用性。同時(shí)在旅游問答庫進(jìn)行分類預(yù)處理，把相同類的問題放在一起，這樣在把用戶問句與知識(shí)庫中問題進(jìn)行比較的時(shí)候就避免了盲目比較和多余計(jì)算。

4.1.2 TF、IDF與權(quán)值的計(jì)算

按照TF、IDF的計(jì)算方法，將分詞后每個(gè)問題的每個(gè)詞語其TF、IDF計(jì)算出來，如“西安/有/哪些/景點(diǎn)”，則該問題中每個(gè)詞語的TF均為1/4，每個(gè)IDF的值取決于兩個(gè)因素：整個(gè)問題集的個(gè)數(shù)，以及該詞語在整個(gè)問題集中出現(xiàn)的次數(shù)。從而根據(jù)這兩個(gè)數(shù)據(jù)計(jì)算出初步的N/nk，假設(shè)“西安”只出現(xiàn)3次，則nk為3，而整個(gè)問題集為300個(gè)，則其N/nk的值為100。從而將每個(gè)問題的TF、IDF計(jì)算出來，并計(jì)算出每個(gè)詞語的權(quán)值w，保存在數(shù)據(jù)庫中。

當(dāng)問答庫中的問題有更新時(shí)，再重新計(jì)算TF、IDF以及w，保證每次后續(xù)計(jì)算相似度時(shí)都是最新狀態(tài)的數(shù)據(jù)。

4.2問題相似度計(jì)算

當(dāng)在用戶界面輸入用戶問題時(shí)，系統(tǒng)將用戶問句與知識(shí)庫中的問題進(jìn)行相似度比較，采用VSM算法進(jìn)行文本相似度計(jì)算以及文本特征的提取。具體計(jì)算步驟如圖2。

在這個(gè)算法計(jì)算過程中，文檔中的項(xiàng)的順序沒有進(jìn)行考慮，僅僅考慮的是文檔的各項(xiàng)的權(quán)值。對數(shù)據(jù)值進(jìn)行分析可知，一個(gè)詞語在一個(gè)文檔中不出現(xiàn)，或者在文檔集每一個(gè)文檔中都出現(xiàn)，其對于文本區(qū)分的貢獻(xiàn)都為0。

4.3答案抽取

答案抽取是問答系統(tǒng)的最后階段，這一階段主要利用相似度值進(jìn)行。

（1）按相似度值高低進(jìn)行庫中相關(guān)問題排序，將與用戶問題相似度最高的問答表中的問題排在最前面。如用戶問題：“什么時(shí)候去太白山比較適合”，算得與其相似度最高的值對應(yīng)的問題是：“太白山適合什么時(shí)候去”，則將這個(gè)問題排在最前面。

（2）選出相似度值最高的問題，這個(gè)問題對應(yīng)的答案也就是最貼近用戶問題的答案。在數(shù)據(jù)庫中“太白山適合什么時(shí)候去”對應(yīng)的答案是“5月到10月”那么這個(gè)答案也就是回答用戶問題“什么時(shí)候去太白山比較適合”的最佳答案。

5實(shí)驗(yàn)評測與分析

目前，對于一個(gè)問答系統(tǒng)的答案抽取效果評測有兩個(gè)指標(biāo)：準(zhǔn)確率（Precision）與召回率（Recall）。對于這兩個(gè)評測指標(biāo)來說，不是所有的用戶需要兩個(gè)指數(shù)都要高，或者說在一般情況下，準(zhǔn)確率和召回率雙高并不是一件容易之事。對于需要結(jié)果集較小的用戶來說，比較偏向于高準(zhǔn)確率，而對于需要較大結(jié)果集的用戶來說，則偏向于高召回率。

本自動(dòng)問答系統(tǒng)通過實(shí)驗(yàn)評測，每類采用100個(gè)問題進(jìn)行測試，通過測試，本系統(tǒng)的準(zhǔn)確率結(jié)果見表1。

從上表結(jié)果來看，VSM算法能檢索出較為準(zhǔn)確的答案，定義型的準(zhǔn)確率要高于其他幾種類型，這是因?yàn)槎x型的問題比較簡單，并且在最初用關(guān)鍵詞對問題進(jìn)行分類，而只在特定的范圍來進(jìn)行抽取，這樣防止了其他問題干擾，因而提高了準(zhǔn)確率。同時(shí)，采用了同義詞表，這也是提高準(zhǔn)確率的原因之一。而關(guān)系型相對準(zhǔn)確率較低，這個(gè)主要因素是問答庫中數(shù)據(jù)不夠全面引起，問題中各要素之間的關(guān)系也較為復(fù)雜，因而要不斷擴(kuò)充和完善問答庫，將問題進(jìn)行結(jié)構(gòu)化處理，來提高回答問題的準(zhǔn)確度。

6結(jié)束語

向量空間模型VSM的優(yōu)點(diǎn)在于它把文檔內(nèi)容進(jìn)行了一定的簡化，將其表示為一些特征項(xiàng)的形式及其權(quán)值的向量，把對文檔內(nèi)容的處理轉(zhuǎn)化為向量空間中的向量運(yùn)算，從而很大程度上降低了問題的復(fù)雜度。但是，在有的情況下，簡化過多通常會(huì)影響對于文檔內(nèi)容的理解，而丟失在自然語言理解中十分重要的信息。在文本相似度計(jì)算的過程中，由于考慮的僅是項(xiàng)的一些統(tǒng)計(jì)信息，未必能很客觀地反應(yīng)項(xiàng)的重要性，故在分析過程中有時(shí)會(huì)存在一定的偏差。因此除了計(jì)算方法上的應(yīng)用以外，將問答庫中數(shù)據(jù)進(jìn)行分類，設(shè)計(jì)知識(shí)庫中近義詞庫，進(jìn)行必要的轉(zhuǎn)換，并進(jìn)行問題的結(jié)構(gòu)化處理，也是提高系統(tǒng)效率和準(zhǔn)確率的方法之一。

【參考文獻(xiàn)】

[1]文勖.中文問答系統(tǒng)中問題分類及答案候選句抽取的研究[D].哈爾濱：哈爾濱工業(yè)大學(xué)，2006.

[2]黃新，徐小娟.基于ontology的智能答疑系統(tǒng)的研究[J].科學(xué)技術(shù)與工程，2007，7（12）：3001-3003.

[3]張江濤，杜永萍.基于語義鏈的檢索在QA系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)科學(xué)，2013，40（2）：257-260，300

[4]張華平，劉群.基于N-最短路徑方法的中文詞語粗分模型[J].中文信息學(xué)報(bào)，2002，16（5）：1-7.

[5]苗奪謙，衛(wèi)志華.中文文本信息處理的原理與應(yīng)用[M].北京：清華大學(xué)出版社，2007.

[6]G.Salton，M.E.Lesk.Computer Evaluation of Indexing and Text Processing[J].Journal of the ACM，1968，15（1）：8-36.

[7]劉亮亮，林樂宇.基于查詢模板的特定領(lǐng)域中文問答系統(tǒng)的研究與實(shí)現(xiàn)[J].江蘇科技大學(xué)學(xué)報(bào)（自然科學(xué)版），2011，25（2）：163-168.