亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語語句相似度算法在問答系統(tǒng)中的應(yīng)用研究

        2013-05-11 08:55:10
        關(guān)鍵詞:用戶系統(tǒng)

        (黔南民族師范學(xué)院 計科系,貴州 都勻558000)

        一、中文問答系統(tǒng)的理論基礎(chǔ)

        1.知網(wǎng)的結(jié)構(gòu)

        首先分別介紹一下知網(wǎng)在工作中的兩個概念:其中一個是由詞表示的描述詞匯語義用的“概念”;另外一個則是描述概念需要用到最基本的最小意義單位“義原”。

        2.中文問答系統(tǒng)的分類

        (1)根據(jù)涉及的領(lǐng)域和主題的內(nèi)容可以將中文問答系統(tǒng)分為面向開放領(lǐng)域的問答系統(tǒng)和專業(yè)領(lǐng)域的問答系統(tǒng),這種分類方式叫領(lǐng)域分類。

        (2)用TREC 會議評測的標(biāo)準作為參考,根據(jù)問題的類型將問答系統(tǒng)分為三種:定義性問題問答系統(tǒng)、羅列性問題問答系統(tǒng)、事實性問題問答系統(tǒng),這是特性分類方式[1]。

        3.處理中文信息的特點

        中文信息處理具有不同于英文信息處理的特點:

        (1)處理中文信息的基礎(chǔ)是對中文詞語的連續(xù)書寫和分詞,中文問答系統(tǒng)先將整段句子分成單個詞語,然后再對問句和答案進行分析。

        (2)英文有形態(tài)的變化而中文沒有。

        (3)中文句子具有非常靈活的語法,句子中的各成分有復(fù)雜的關(guān)系,句子沒有規(guī)律可循。

        (4)沒有完整的語料庫支持信息處理[2]。

        4.問句特征向量的提取

        提取問句特征向量是指對句子進行分詞并對分出的詞進行詞性標(biāo)注后,去掉句子中的虛詞(擬聲詞、介詞、連詞等)和一些對句子意思影響不大的低頻詞和高頻詞,最后得到的詞語序列。

        二、中文問答系統(tǒng)的模型

        1.中文問答系統(tǒng)的框架

        中文問答系統(tǒng)是一種較高級的信息檢索技術(shù)。它的目的是讓用戶能夠用日常生活中自然的語言進行提問,然后得到一個自然的回答,模擬出與人交流的情形。簡單地說中文問答系統(tǒng)就是通過分析用自然語言提出的問題并理解問題內(nèi)容,然后采用固定的策略在數(shù)據(jù)庫或者網(wǎng)頁中搜索相應(yīng)的答案,將答案提取回復(fù)給用戶。

        從上圖可以知道中文問答系統(tǒng)的組成有三部分內(nèi)容:第一部分是問句預(yù)處理,這部分包括的內(nèi)容有語句分詞、標(biāo)注詞性、提取和擴展關(guān)鍵字以及分析問句類型。第二部分是語句的相似度計算,這部分的內(nèi)容主要是詞語相似度計算、詞序相似度計算、語句相似度計算、詞形相似度計算、句長相似度計算、語義相似度計算以及結(jié)構(gòu)相似度計算。第三部分是抽取答案進行回答,這部分的內(nèi)容主要是進行關(guān)鍵詞篩選、相似度排序、輸出答案并反饋到用戶結(jié)果顯示。

        2.問句預(yù)處理

        處理中文信息的基礎(chǔ)是對語句的分詞,因為中文語句是由分詞連寫的,要理解問句的意思,不僅要對語句進行分詞處理,還要對分詞處理后的關(guān)鍵字標(biāo)注其詞性。

        3.關(guān)鍵詞抽取

        任何句子都是由關(guān)鍵成分(主、謂、賓等等)和改造成分(定、狀、補等)構(gòu)成的。句子的重要組成部分發(fā)揮著重要的作用,然而修飾成分在句子中起次要作用。句子相似度計算,需要考慮這句話的重要組成部分。因此,當(dāng)不能確定句子的內(nèi)部組件時,句子的相似度計算只考慮這些關(guān)鍵字。

        4.多特征加權(quán)的語句相似度計算

        (1)詞語相似度計算是以知網(wǎng)為語義知識庫進行義原相似度計算、詞語相似度計算、實詞概念相似度計算以及虛詞概念相似度計算。

        (2)詞形相似度是比較兩個句子中相同詞語形態(tài)和數(shù)量的相似程度確定的。

        (3)對句子A 和B的詞序相似度進行分析。

        (4)結(jié)構(gòu)相似度,有兩個方面能夠表現(xiàn)兩個句子在結(jié)構(gòu)上的相似度,這個方法進行標(biāo)注兩個漢語句子的詞性以及分詞,得到各異的序列,結(jié)合不同詞類的權(quán)重,自動對詞語的序列進行配對,檢索出最好的結(jié)果。

        (5)句子在長度上的相似度由句長相似程度表現(xiàn)。

        5.FAQ庫的更新

        利用上述介紹的方法計算出用戶所輸入的目標(biāo)問句和候選問題集中每個問句的相似度,如果所有這些計算出來的相似度的最大值大于或等于一定的閾值m(m=0.65),那么就認為最大的相似度所對應(yīng)的問句和用戶的目標(biāo)問句問的是同一個問題??梢灾苯訉⑦@個問句對應(yīng)的答案輸出給用戶。如果最大相似度的值小于閾值m(m=0.65),就可以認為FAQ庫中沒有用戶所問的問題,那么必須利用其他的方法(如信息檢索,答案抽取等)來找出答案。如果能找到答案,就可以將用戶所問的問題和對應(yīng)的答案加入FAQ庫。

        三、中文問答系統(tǒng)的實現(xiàn)

        1.設(shè)計數(shù)據(jù)結(jié)構(gòu)

        以語句相似度作為中文問答系統(tǒng)運行的基礎(chǔ),與知識庫的相關(guān)信息是不可分割的存在,這么多的數(shù)據(jù),建立一個數(shù)據(jù)庫來儲存管理,使用Access2003 來管理儲存后臺數(shù)據(jù),因為這個軟件使用簡便、易于上手。

        (1)分析表示問題庫,需要建立以常見問題集為基礎(chǔ)的問答系統(tǒng),系統(tǒng)的基礎(chǔ)就是一個常見問題庫,并且要想到一個問題有不同的回答的情況[3]。

        (2)知網(wǎng)的分析與表示。我們用知識和語言來描述表達知網(wǎng)的構(gòu)成,用樹狀圖來解釋義原關(guān)系。用Java 來構(gòu)成中文問答系統(tǒng),當(dāng)開始運行程序時就將所有的詞典內(nèi)容保存到內(nèi)存之中,可以使得系統(tǒng)的運行效率顯著提升。

        2.問答系統(tǒng)的實現(xiàn)

        在已有的問題數(shù)據(jù)庫之中找出能夠解答用戶所提的問題的句子的,以常見問題集為基礎(chǔ)的中文問答系統(tǒng),這個問題的答案都在答案庫之中,找出答案之后再返回給用戶。成立候選問題集、檢測語句的相似程度、更新FAQ庫這三個過程是系統(tǒng)做出解答的步驟。

        3.結(jié)果及分析實驗

        所謂的信息檢索系統(tǒng),就是假設(shè)存在用戶的查詢與一個文檔集有關(guān)聯(lián),反而以常見問題集為基礎(chǔ)的中文問答系統(tǒng),通常假設(shè)存在有正確的答案常見問題。

        (1)評測標(biāo)準和測試集。大學(xué)校長信箱之中的問題與答案是經(jīng)過手工整理實用的測試集,由304個句子組成的常見問題庫。為了評測系統(tǒng)的總體性能,于是建立兩組測試集。在第一組,從常見問題庫取出124條問句;而第二組,則直接從FAQ庫中手工選擇60條具代表性的問句。在評測時,方便程序的統(tǒng)計以及核對工作的展開,采用的S@n(Success at n)方法與TREC 十分相似,就是說在答案之前的N個答案中的比例,考慮問句之中的正確答案會被拿來評判正誤,假如系統(tǒng)判斷是正確的,那么認定為發(fā)生錯誤;假如系統(tǒng)之中無相應(yīng)的匹配問句,則不放在考察范圍之內(nèi),取值為S@1。

        (2)實驗結(jié)果和對結(jié)果的分析。實驗采用基于語句相似度計算的問句和向量空間模型匹配的方法來測試,下表顯示了評測的結(jié)果。

        測試結(jié)果

        仔細分析上表可以得到以下結(jié)論:比較兩組數(shù)據(jù),第一組數(shù)據(jù)的S@1值較低,分析之后發(fā)現(xiàn)了錯誤的原因,即存在一些相對隨便的問題,沒有多少有用的訊息:以“不公平”問句為例的問句包含比較隨意的訊息;而有一些沒有答案的問題,例如:校長是哪個專業(yè)畢業(yè)的?”第二組從候選問題庫中選取問句的S@1值相對較好,但是答案的錯誤率還是在30%左右。仔細剖析錯誤的原因,首先是由于無法分辨問句的種類,其次是答案之中存在否定詞語,使得問句無法正確配對。比較兩種相似度的方法,在相似度計算方法方面,兩組測試集的差別很大:從語句表面來分析的VSM方法,由于本文的問句匹配方法以語句相似度為基礎(chǔ),其中有語義知識庫的參與,對傳統(tǒng)語句進行了深層次剖析,使得句子匹配的精度大大提高,傳統(tǒng)的VSM方法得到了改進與提升[4]。

        [1]張仰森,郭江.四種統(tǒng)計詞義消歧模型的分析與比較[J].北京信息科技大學(xué)學(xué)報:自然科學(xué)版,2011,(2).

        [2]楊松,樓新遠.基于向量空間模型附加詞義特征的句子相似度研究[J].成都信息工程學(xué)院學(xué)報,2012,(3).

        [3]靳偉,張月清,王芳.基于本體的分類檢索系統(tǒng)的設(shè)計與實現(xiàn)[J].河北農(nóng)業(yè)大學(xué)學(xué)報,2010,(2).

        [4]李東園,白宇,蔡東風(fēng).面向中文問答的信息檢索系統(tǒng)及評測[J].沈陽航空工業(yè)學(xué)院學(xué)報,2009,(3).

        猜你喜歡
        用戶系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Camera360:拍出5億用戶
        中文字幕有码一区二区三区| 日韩av无码中文无码电影| 毛片a级毛片免费观看| 正在播放一区| 日韩精品一区二区亚洲av性色| 国产精品一区二区三区在线观看| 亚洲人成电影网站色| 18禁高潮出水呻吟娇喘蜜芽| 久久天堂av色综合| 日韩亚洲一区二区三区在线 | 日韩视频在线观看| 毛片在线播放a| 欧美日本视频一区| 亚洲一区二区精品在线| 中文无码成人免费视频在线观看| 天天躁日日躁狠狠躁人妻| 无码91 亚洲| 日本va中文字幕亚洲久伊人| aⅴ精品无码无卡在线观看| 国产一起色一起爱| 亚洲伊人免费综合网站| 日本免费一区二区在线视频播放| 丰满少妇被粗大的猛烈进出视频| 好吊妞人成免费视频观看| 亚洲国产成人av第一二三区| 91九色成人蝌蚪首页| 国产97色在线 | 日韩| 99热国产在线| 精品视频手机在线免费观看| 97人伦影院a级毛片| 亚洲成成品网站源码中国有限公司| 久久久久国产精品四虎| 日本少妇一区二区三区四区 | 亚洲精品无码久久久久sm| 四虎成人精品国产永久免费| 日韩精品在线观看在线| 无码少妇精品一区二区免费动态| 精品午夜久久网成年网| 中文字幕日本五十路熟女| 日本边添边摸边做边爱喷水| 精品性高朝久久久久久久|