亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        綜合多特征值相似度在參考咨詢問答系統(tǒng)中的應(yīng)用

        2014-04-29 00:00:00申安來宋欣
        山東工業(yè)技術(shù) 2014年4期

        【摘 要】自動問答系統(tǒng)給某個提問提供簡單而精確回答,與信息檢索任務(wù)和與信息提取任務(wù)極為不同。在自動問答系統(tǒng)中存在多個難點,其中,相似度是眾多學者關(guān)注的一個領(lǐng)域,本文是對句子相似度計算研究的一個探索,主要從漢語句子中涉及到的詞語、句法結(jié)構(gòu)和語義分析三個不同層次對句子的相似度計算進行了研究,提出了一種綜合多特征的句子相似度計算方法。

        【關(guān)鍵詞】自動問答;相似度;匹配;權(quán)重

        0 引言

        自動問答系統(tǒng)(Automatic Question and Answering System),是自然語言處理領(lǐng)域一個熱點問題,與傳統(tǒng)的搜索引擎相比,自動問答系統(tǒng)能夠更好地滿足人們的檢索需求,目前國內(nèi)外已有許多不同專業(yè)領(lǐng)域或開放域的自動問答系統(tǒng),大致可以分為以下幾種[1]:

        (1)聊天機器人:采用自然語言的方式回答用戶提問的問題。原理是在對話庫中搜集各種句型和模板,然后提取用戶的問題中的關(guān)鍵詞,然后檢索對話庫,主要通過模式匹配的技術(shù)來檢索問題最佳答案。

        (2)基于知識庫的自動問答系統(tǒng):采用自然語言理解技術(shù)對用戶提問的問題在知識庫進行檢索問題的答案。由于此類型的問答系統(tǒng)利用了自然理解技術(shù),并且是基于知識庫的檢索,因此它在一定程度上能夠?qū)崿F(xiàn)智能回答。但是,由于該類型的自動問答系統(tǒng)依賴于知識庫,所提問的問題必須限定在知識庫的范圍內(nèi),一旦在知識庫的范圍外,系統(tǒng)的答疑性能就會很低,甚至為0,此類自動問答系統(tǒng)經(jīng)常會出現(xiàn)知識庫瓶頸的情況。

        (3)問答式檢索系統(tǒng):用戶采用自然語言的方式提交問題進行檢索查詢,此類系統(tǒng)是從系統(tǒng)的文檔集合或者互聯(lián)網(wǎng)中檢索出相關(guān)的文本或者相關(guān)的網(wǎng)頁,并將這些文本或者網(wǎng)頁返回給用戶。目前典型的問答式檢索系統(tǒng)有麻省理工學院開發(fā)的Start 問答系統(tǒng)、密歇根大學開發(fā)的 AnswerBus 問答系統(tǒng)、美國 Askjeeves公司的 Askjeeves檢索系統(tǒng)等等,此類系統(tǒng)雖然允許用戶以自然語言的方式進行提問,但是返回的結(jié)果只是相關(guān)的網(wǎng)頁,并沒有以自然語言方式把答案返回給用戶。

        1 問答系統(tǒng)多種算法的特點

        傳統(tǒng)搜索引擎中用戶提交查詢關(guān)鍵字以后,搜索引擎返回一系列與關(guān)鍵字相關(guān)的網(wǎng)頁HTML文檔,之后用戶需要從大量文檔資料中白己搜尋合適的信息;自動問答系統(tǒng)根據(jù)用戶提交的查詢問題進行處理,直接以簡單的文本語句為答案進行返回,用戶可以以最直接的方式獲得問題的結(jié)果。返回結(jié)果的準確性以及簡單化使得自動問答系統(tǒng)具有更好的用戶體驗。自動問答系統(tǒng)傳統(tǒng)的處理方式為:首先,對用戶提交的問句進行分析,主要進行漢語分詞、句法分析等基礎(chǔ)工作:然后使用分析后的問句在給定的文檔集中進行檢索,返回初始的結(jié)果集合;最后處理返回結(jié)果集,主要是采用信息抽取技術(shù),挖掘出結(jié)果集合中與問題相關(guān)的結(jié)果。這種方式雖然能夠返回用戶滿意的結(jié)果,但是卻存在一定的問題,主要表現(xiàn)在有較大的查詢延遲。在自動問答系統(tǒng)中加入常問問題集,能夠有效的改善這種狀態(tài)。問題集中包含了用戶提問頻率較高的問題以及其對應(yīng)的答案,當用戶提出問題后,系統(tǒng)首先查找FAQ問題庫集,如果庫中存在問題,則直接返回問題答案,這樣可以大大縮減用戶查詢的延遲,給用戶提供了一個方便、快捷地解答疑問的途徑,具有較強的實用價值。句子相似度計算在自動問答系統(tǒng)中的應(yīng)用主要體現(xiàn)在用戶問句與常問問題庫中問句的匹配,指用戶的問句與常問問題庫中的問句進行相似度計算,如果相似度計算的結(jié)果滿足一定的值則說明了兩個問句表達了類似的含義,是同一問題的不同描述,它們共享同一答案,可以直接將問題庫中答案返回給用戶。

        經(jīng)過多位學者多年的研究,我們可以發(fā)現(xiàn)當前的問答系統(tǒng)主要有以下幾點欠缺[2]:(1)在分詞方面采用基于詞典的分詞算法,或者借助于現(xiàn)有的分詞工具如中科院的 ICTCLAS,前者是能夠準確劃分專業(yè)詞匯以及組合詞匯,但是經(jīng)常會出現(xiàn)某些詞在詞典中沒有找到,有的學者把這種詞叫做未登錄詞,導致不能正確的分詞,而后者即借助于現(xiàn)有的分詞工具不能準確劃分專業(yè)詞匯以及組合詞匯;(2)在計算詞語相似度方面采用基于《知網(wǎng)》的語義相似度,或者采用基于領(lǐng)域本體的概念相似度,而這兩種計算詞語相似度方法各有優(yōu)缺點,前者對于專業(yè)詞匯之間的語義相似度,特別是專業(yè)組合詞匯的語義相似度不能準確的計算,因為《知網(wǎng)》沒有搜集專業(yè)組合詞匯;同樣后者對于常用詞匯的相似度的計算也有不足。

        2 句子相似度算法

        句子相似度計算是中文信息處理中的一項基本而核心的工作。它的研究受到人們的廣泛關(guān)注。由于其基礎(chǔ)工作的地位,決定了句子相似度計算的重要性,它被廣泛應(yīng)用于中文信息處理的各個方面,它的研究工作的開展狀況對其他一些相關(guān)領(lǐng)域的工作起著決定性的作用。有的學者將句子相似度計算應(yīng)用于機器翻譯中,用以找出類似的譯文;還有的算法將句子相似度計算用于常問問題庫的問答系統(tǒng)中,通過相似度計算找到目標問句的答案;同時還用于信息檢索領(lǐng)域,用來查找與目標檢索相似的句子等。

        傳統(tǒng)的句子相似度計算方法主要有三種[3],這三種方法都或多或少存在一些不夠完美的地方:一種是基于關(guān)鍵詞信息的方法,具有代表性的是基于向量空間模型的TF一IDF方法,這種方法是將文檔映射為向量空間中的一點,這個點的坐標由文檔中相互獨立的詞條組構(gòu)成,坐標的值為文檔中的每一詞條,依據(jù)它在文檔中的重要程度被賦予的權(quán)值W,即(Wl,W2,…,Wn)為坐標值。這樣就構(gòu)成詞條矢量,從而把向量空間中的矢量匹配問題用來解決文檔信息中的問句匹配問題。句子的相似度與向量空間的夾角成反比,即向量間的夾角越大,句子相似度越低,夾角越小,句子相似度就越高。向量空間模型的TF一IDF方法是對關(guān)鍵詞詞頻進行統(tǒng)計的方法,要使統(tǒng)計效果很好地表現(xiàn)出來,句子中包含的詞語數(shù)量需要足夠得多,相關(guān)的詞語才會重復(fù)出現(xiàn),因此這種方法是以大規(guī)模語料做為基礎(chǔ)的。另外,TF一IDF方法對于同義詞以及一詞多義情況計算效果不太好,因為這種方法只考慮了詞語在上下文中的統(tǒng)計信息,而沒有考慮詞語蘊含的語義信息。

        基于語義信息的句子相似度計算方法是通過計算句子的詞語相似度從而得到句子的相似度[4]。句子詞語的相似度通過計算詞語對應(yīng)的概念在概念層次體系結(jié)構(gòu)中的距離得到的,概念間的距離又由概念的上下位、同義和反義關(guān)系得到。因此使用這種方法計算句子相似度時兩個句子中的詞語間需要具有一定的語義相關(guān)性,這種相關(guān)性建立在它們在概念間的層次網(wǎng)絡(luò)中存在一條通路這樣的假設(shè)基礎(chǔ)上?;谡Z義信息的方法需要依賴于比較完備的大型語義詞典,這些詞典是按照概念間層次關(guān)系組織的。在英文方面,常用的具有代表性的語義詞典有wordNet等;漢語方面有《知網(wǎng)》(HowNet)《同義詞詞林》等?;谡Z義信息的句子相似度計算方法會因為語義詞典的不全面和未登錄詞語義代碼的缺失而給計算結(jié)果帶來一定的誤差。另外,基于語義信息的句子相似度計算方法在計算句子相似度時,沒有考慮句子的結(jié)構(gòu)信息,計算過程中采用了一種最大匹配法,準確率還沒有達到使人滿意的程度。三是基于句法結(jié)構(gòu)信息的句子相似度計算方法,基于句法結(jié)構(gòu)信息的句子相似度計算方法又可分為結(jié)合詞序的方法和基于句法結(jié)構(gòu)分析的方法。結(jié)合詞序的方法具有代表性的是基于編輯距離的句子相似度計算方法。基于句法結(jié)構(gòu)分析的方法典型的是基于語義依存的句子相似地方計算方法。這種基于句法結(jié)構(gòu)信息的句子相似度計算方法在計算句子相似度時把句法結(jié)構(gòu)信息納入相似度計算中,對句子理解更為充分,理論上是一種較為理想的的計算方法。這種方法的缺陷主要在于算法的正確性與句法分析技術(shù)的正確率禍合性太強,而現(xiàn)在句法分析的技術(shù)還有待完善,從而導致該種方法的準確率難以提高,使得方法實用性不強。因此,針對現(xiàn)有句子相似度計算方法考慮不全面的問題,本文提出了一種改進的句子相似度計算方法,即綜合多特征的句子相似度計算方法,這種方法在計算句子相似度時綜合考慮句子所包含的詞語信息、詞語的語義信息和句法結(jié)構(gòu)信息,利用句子的深層信息和表層信息,加權(quán)整合特征權(quán)值,對目前句子相似度計算會起到一定的促進作用。

        綜合多特征的句子相似度計算方法,在計算句子相似度時綜合考慮了句子的詞形信息、詞語語義信息和句子的句法結(jié)構(gòu)信息這三個層面的信息,這種方法在理論上是可行的:首先,計算句子相似度時可以分別根據(jù)句子的任一方面信息進行計算,并且國內(nèi)外學者對這方面研究也比較成熟。也可以將句子的某些方面的信息綜合到一起來計算句子相似度,利用編輯距離和依存文法結(jié)合來計算句子相似度。由此可見,綜合多特征是可行的。其次,綜合多特征是合理的。因為采用某一方面的信息計算句子相似度,其結(jié)果是有一定的使用范圍和局限性的;而采用多特征綜合的方法可以在某些場合彌補這種不足。最后,綜合多特征有時是必要的。在計算句子相似度的過程中,應(yīng)該針對不同的語料特征,利用不同的句子信息來計算句子相似度,而不應(yīng)該一層不變。比如:在有的領(lǐng)域,語義信息有很大的作用,基于語義信息的句子相似度方法正好可以解決這種問題;而在另外的領(lǐng)域,詞形信息有很大的作用,基于關(guān)鍵詞信息的方法效果不錯。因此,針對不同性質(zhì)的語料中,各信息側(cè)重不同的特點,有必要把多元信息綜合起來,在實際運用過程中可以通過調(diào)整權(quán)重來處理更為廣泛的語料[5]。

        3 結(jié)語

        本文提出了一種綜合多特征的句子相似度計算方法。綜合多特征的句子相似度計算方法在計算句子相似度時綜合考慮了組成句子的詞形信息、詞語語義信息和句法結(jié)構(gòu)信息,利用句子的深層信息和表層信息,通過加權(quán)整合特征權(quán)值的方式,以期達到提高句子相似度計算準確率的目的。為此,在計算兩個句子的句法結(jié)構(gòu)相似度時,將綜合多特征的句相似度計算方法應(yīng)用于計算機領(lǐng)域問答系統(tǒng)的FAQ問句匹配中,從而驗證算法的有效性。

        【參考文獻】

        [1]卜文娟.基于概念圖的中文問答系統(tǒng)的研究與實現(xiàn)[D].西北大學,2010.

        [2]夏天,樊孝忠,駱正華,等.改進編輯距離算法與漢語句子相似度計算[C]//中國科協(xié)第2屆優(yōu)秀博十生學術(shù)年會.蘇州:2004,444-449.

        [3]胡國全,陳家駿,戴新宇,等.一種基于實例的漢英機器翻譯策略[J].計算機工程與設(shè)計,2005(4):900-903.

        [4]楊思春,陳家駿.中文自動問答中句子相似度計算研究[J].情報學報,2008,27(1):35-41.

        [5]王永智.限定域中文問答系統(tǒng)關(guān)鍵技術(shù)的研究[D].東南大學,2009.

        [責任編輯:周娜]

        亚洲伊人伊成久久人综合| 中文字幕av日韩精品一区二区| 亚洲男人的天堂在线播放| 久久久久麻豆v国产精华液好用吗| 成人片黄网站色大片免费观看app| 久久精品国产只有精品96 | 极品av在线播放| 成人全视频在线观看免费播放 | 阿v视频在线| 手机av在线观看视频| 亚洲国产一区二区三区| 欧美成人午夜免费影院手机在线看 | 可以免费看亚洲av的网站| 奶头又大又白喷奶水av| 欧美黑人群一交| 97超在线视频免费| 日本午夜福利| 中国免费av网| 亚洲一区二区三区天堂av| 野花视频在线观看免费| 久久久久久久久毛片精品| 亚洲精品午夜无码电影网 | 国产精品天干天干在线观蜜臀| 日韩精品一区二区三区视频| 久久精品国产亚洲av精东| 国产二级一片内射视频播放| 亚洲男人的天堂网站| 久久精品爱国产免费久久| 亚洲熟女天堂av一区二区三区| 丰满少妇人妻久久精品| 色偷偷噜噜噜亚洲男人| 天堂sv在线最新版在线| 国产乱人伦真实精品视频| 小黄片免费在线播放观看| 国产人妻熟女高跟丝袜| 亚洲乱亚洲乱妇| 老男人久久青草AV高清| AV在线毛片| av手机在线观看不卡| 亚洲欧美中文字幕5发布| 国产天堂网站麻豆|