亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        應用于問答系統(tǒng)的Lucene相似度檢索算法改進

        2017-11-20 11:12:01何聚厚
        計算機技術與發(fā)展 2017年11期
        關鍵詞:詞項文檔檢索

        白 菊,何聚厚

        (1.現(xiàn)代教學技術教育部重點實驗室,陜西 西安 710062;2.陜西師范大學 計算機科學學院,陜西 西安 710119)

        應用于問答系統(tǒng)的Lucene相似度檢索算法改進

        白 菊1,何聚厚2

        (1.現(xiàn)代教學技術教育部重點實驗室,陜西 西安 710062;2.陜西師范大學 計算機科學學院,陜西 西安 710119)

        Lucene在文本檢索和搜索領域有著廣泛的應用,相似度評分算法是其搜索引擎的核心部分之一。而在問答系統(tǒng)中,也要用到檢索功能,相似度評分算法也是其核心部分之一。那么能否對Lucene的相似度評分算法進行改進,使其在問答系統(tǒng)的領域也能得到很好的應用。針對上述提出的問題,結合問答系統(tǒng)中問句簡短、包含信息量少的特點,引入外部詞典對查找的關鍵詞進行擴展,分析檢索詞項的語義相似度以及將詞項位置關系的特征應用到Lucene中。在Lucene的基礎上,對其語義相似度算法進行改進,提出了一種新的語義相似度評分算法。該算法考慮了詞項位置關系和語義理解,能夠更好地應用于問答系統(tǒng)。實驗結果表面,提出的相似度算法能有效地提高自動問答系統(tǒng)的回答準確率。

        Lucene;相似度;問答系統(tǒng);語義

        0 引 言

        Lucene是用Java語言實現(xiàn)的開放源代碼的全文檢索引擎工具包,是Apache軟件基金會Jakarta項目組下的一個子項目。Lucene以其索引結構優(yōu)異、開源特性、高性能、易使用等特點,廣泛應用于Web、文本檢索等領域,以及各種軟件系統(tǒng)中,如開源軟件Eclipse的搜索功能等[1]。雖然Lucene有著廣泛的應用,但也存在不足之處。例如,Lucene內(nèi)部默認的是基于詞頻的分析檢索函數(shù)來考察檢索文本之間的相似性[2],很少有考慮詞項語義的相似度,也沒有考慮到詞語位置之間的關系對搜索準確的影響。而且Lucene是一個開源的檢索框架,并不是一個完整的搜索引擎,它只是一個工具包[3]。因此,如果能對Lucene的檢索函數(shù)加以改進,并結合問答領域的特點,則其在問答領域也能有很好的應用。

        根據(jù)以上問題,將檢索詞項語義的相關應用考慮到該檢索函數(shù)中。該函數(shù)改進了Lucene忽略語義信息而只考慮基于詞頻的檢索方法所引起的檢索不精確的問題[4]。在將詞擴展應用到該函數(shù)中的同時,也將詞項位置關系特征考慮到該檢索函數(shù)中。這樣不但實現(xiàn)了Lucene的相似度算法的改進,也使其能更好地適應問答領域中問句短、信息量少的特點。

        1 Lucene的相似度評分算法分析

        Lucene的核心部分之一就是相似度評分算法,是用來衡量查詢串和檢索文檔相似程度的一種算法。Lucene使用一種基于向量空間模型(SVN)的TF-IDF方法來計算文檔的相似度。TF-IDF方法基于詞頻分析來考慮檢索文檔的相似度,它綜合考慮的是這個詞對不同文檔的分辨能力和不同的詞在所有文檔中的出現(xiàn)頻率[5]。

        Lucene內(nèi)部的相似度評分算法如式(1)所示:

        coord(q,d)×queryNorm(q)

        (1)

        其中,idf(t)2表示根據(jù)詞項t在倒排索引中出現(xiàn)的頻率;tf(tind)表示文檔d中詞項t出現(xiàn)的頻率;boost(t.field ind)表示詞項t所在的域的加權因子;lengthNorm(t.field ind)是在索引過程中計算出來并存儲在索引中的,表示域的標準化值,表示在某個域中詞項的個數(shù);coord(q,d)是一個協(xié)調(diào)因子,其取值大小由問答中包含的查詢詞項的多少決定。包含的查詢詞項越多,該值就越大;queryNorm(q)表示每個查詢詞項的標準值,即每個查詢詞項權重的平方和。

        從式(1)可以看出Lucene內(nèi)部的相似度評分算法的特點:

        (1)一個文檔中包含該查詢詞項的頻率越高,該文檔的得分就越高;

        (2)查詢詞項在文檔中的位置并不重要;

        (3)在一個命中文檔中,如果除了該查詢詞之外,其他的詞越多,該文檔得分越少[6-7]。

        但在多數(shù)情況下,文檔與詞項的相似程度不但與詞項出現(xiàn)的頻率有關,還與詞項的位置關系特征以及詞義有關。例如,不同文檔中有下面兩句話:

        S:mooc發(fā)展的主要問題是市場環(huán)境和體制問題。

        R:這種病的主要根源是生活的環(huán)境問題造成的。

        對于查詢“環(huán)境問題”,在文檔R中的查找是完全匹配的,因此,R文檔的得分應該比S文檔高,也更符合查詢者的要求。但是由于這兩句話中包含的詞項“問題”在文檔R中只出現(xiàn)一次,而在文檔S中出現(xiàn)兩次,所以由Lucene檢索得出的結果反而是S文檔的得分高于R文檔的得分[8-9]。

        2 算法的改進

        Lucene內(nèi)部缺省實現(xiàn)的相似度檢索函數(shù)不考慮詞項的含義,也不考慮詞項出現(xiàn)的順序,而是將文本看作一個容納詞項的袋子。文本特征向量由文本中出現(xiàn)的詞項在文本中的頻率以及該詞項在整個文本集中出現(xiàn)的頻率表示。每一篇文本建模為由文中出現(xiàn)的n個加權詞項組成的向量。該方法基于以下兩點[10]:

        (1)詞頻(Term Frequency):某個詞項在文本中出現(xiàn)的頻率越高,則它和該文本的相關度越高;但在很多特定的語言環(huán)境下,有許多特定的詞不具備這種特性,從而應將其排除,如英文的“she”和“he”,中文的“的”和“得”。

        (2)逆文本詞項頻率(Inverse Document Frequency):某個詞項在文本集合的多篇文本中出現(xiàn)的頻率越高,則該詞項的區(qū)分度越差。例如,在包含1 500個文本集的集合中,某個詞項S在300篇文章中都有出現(xiàn),而另一個詞項R只在30篇文章中出現(xiàn),則詞項R比S有更好的區(qū)分度。通過對文本集中的每一個詞項都進行上述分析,然后得到每一篇文章中每一個詞項的TF-IDF值[11]。再利用這些TF-IDF值為每一篇文章建立一個空間向量模型,通過計算Jaccard系數(shù)或向量間的余弦相似度來表示檢索與文本之間的相似性。最終根據(jù)檢索文檔與用戶查詢之間的相似度值的高低排序,將檢索結果返回給用戶[12]。

        2.1語義改進

        盡管上述Lucene內(nèi)部相似度評分算法在實踐應用中效果較好,但未能捕捉到文本的語義信息。而在自動應答系統(tǒng)中,用戶提出的問句本來就比較短,能捕捉到的信息也比較少,如果不考慮語義信息,則給用戶返回的回答的準確率可想而知[13]。例如,用戶提問有關電腦的問題,而電腦也稱計算機,如果僅用Lucene中只考慮詞頻而不考慮語義的方法,只能搜到有“電腦”這個詞的回答,而在只有“計算機”這個詞的答案是找不到的[14]。如果考慮檢索詞項的語義信息,則能更準確地獲取用戶的檢索信息[15]。

        對以上提出的問題,對式(1)的相似度算法進行改進,改進后的相似度算法函數(shù)如下所示:

        lengthNorm(t.field ind)×

        coord(q,d)×queryNorm(q)

        (2)

        其中,Sim[tf(tind)]表示在進行查詢之前,先對詞項t進行擴展,將與詞項t相似的詞項加到查詢詞項中之后再進行查詢。在對詞項t進行擴展時,引入外部詞典WordNet對詞項進行相似度查詢。

        2.2詞項位置改進

        詞項的位置關系在問答系統(tǒng)中也占有非常重要的位置,對于本來信息量就比較少的問句,詞項的位置關系特征對回答準確率的影響可能就至關重要。而詞項的位置關系特征不僅與詞項出現(xiàn)的頻率有關,還與詞語位置的關系特征有關[15]。文中將詞項位置的關系特征分為三種:當距離為1時,這兩個詞是直接相鄰的;當距離大于0小于1時,該詞是去掉停用詞后相鄰的;當距離等于0時,這兩個詞是不相鄰的。因此,詞項的位置關系特征可進一步表示為詞項間的距離關系。為了更好地體現(xiàn)這一關系,引入“詞項位置相鄰相似度”來反映查詢詞項與檢索文檔中的詞項在相鄰性關系上的相似程度。

        在對Lucene的評分機制函數(shù)進行改進前,首先對分詞處理后此項之間的相鄰程度進行標注。若兩個詞在分詞前后都是相鄰的(即中間沒有去掉的字或詞),則兩個詞之間的距離等于1;如果在分詞后中間有停用詞或字,去掉停用詞或字后是相鄰的,則兩詞之間的距離等于0.7;否則兩詞之間的距離等于0。詞項距離得分如下所示:

        (2)設計要求及專業(yè)工程特點。主要介紹該人防工程設計方面的情況和相關要求,如建筑面積、層數(shù)、層高、樁基情況、高程情況、底板類型、厚度;防水等級;結構方面如混凝土、鋼筋、磚、砂漿的強度等級等;人防工程的防護單元等級、功能、主次出入口及防護設施情況;設計方交待的難點和重點。

        (3)

        根據(jù)以上分析,對Lucene相似度評分函數(shù)進行改進,如下所示:

        NewScore(d)=α×SimScore(d)+β×

        OrdScore(d)

        (4)

        其中,SimScore(d)是加入外部字典后計算的相似度得分;OrdScore(d)是考慮了詞位置后計算的相似度得分;α+β=1,經(jīng)過實驗,當α=0.6,β=0.4時,搜索結果最為有效。

        3 實驗結果與分析

        3.1引入外部詞典

        (1)在數(shù)據(jù)庫里面同時有“mooc”和“慕課”兩個詞語,但沒有引入同義詞詞典時的搜索結果如圖1所示。

        從圖1可以看出,沒有加查詢擴展之前,電腦無法識別出“慕課”和“mooc”是同一個意思,所以在查找時輸入“mooc”就不會出現(xiàn)“慕課”的相關回答。

        圖1 未引入同義詞字典的搜索結果

        圖2 引入外部詞典的搜索結果

        從圖2可以看出,在引入外部詞典進行查詢擴展之后,輸入“mooc”后,和“慕課”相關的答案也會得出。這樣的查詢結果更符合用戶的需求。

        3.2考慮詞位置關系

        (1)沒有考慮詞位置關系前的搜索結果如圖3所示。

        圖3 未考慮詞位置關系的搜索結果

        (2)考慮詞位置后的搜索結果如圖4所示。

        圖4 考慮詞位置關系的搜索結果

        從上面的搜索結果可以看出,在沒有考慮詞位置前,“環(huán)境問題”被分成“環(huán)境”和“問題”兩個沒有任何位置關系的詞分別進行查找,查找結果只要有“環(huán)境”或“問題”的相關答案都會出來。加上詞位置關系后,當查找到“環(huán)境”和“問題”兩個詞語位置相鄰的相關答案時,得分會更高,會顯示在更前面,這樣查找的準確率明顯高于前面查找的準確率,更符合用戶的查找要求。

        3.3綜合結果比較

        任選七個問句,出現(xiàn)相關的前3個答案時所包含的答案條數(shù)如表1所示。

        表1 算法比較

        折線圖如圖5所示。

        圖5 相似度改進前后結果對比

        從圖5中可以看出,在對Lucene的相似度算法改進后,搜索的答案明顯優(yōu)于未改進前。

        4 結束語

        在自動應答系統(tǒng)領域,語義相似度計算是一個極其重要的問題。文中對Lucene內(nèi)部的相似度評分算法進行了闡述,并在此基礎上對其進行改進。引入詞項位置關系特征和語義相似度信息來提高檢索的準確率。檢索結果表明,提出的方法可行、有效。雖然該算法有了一定的改進,但依然存在不足;在該算法中,引入的外部詞典都需要提前將近義詞等組織好,比較麻煩。需要尋找更簡單有效的方法,使自動應答系統(tǒng)能自動識別近義詞,而無需外部引入,這將是下一階段研究要考慮的問題。

        [1] 李永春,丁華福.Lucene的全文檢索的研究與應用[J].計算機技術與發(fā)展,2010,20(2):12-15.

        [2] 吳代文,楊方琦.Lucene在數(shù)據(jù)庫全文檢索中的性能研究[J].微計算機應用,2011,32(6):53-59.

        [3] 張 俊,李魯群,周 熔.基于Lucene的搜索引擎的研究與應用[J].計算機技術與發(fā)展,2013,23(6):230-232.

        [4] 楊 彬.基于Lucene.NET的局域網(wǎng)全文搜索引擎的設計與實現(xiàn)[D].四川:電子科技大學,2014.

        [5] Pirro G,Talia D.An approach to ontology mapping based on the Lucene search engine library[C]//18th international workshop on database and expert systems applications.[s.l.]:IEEE,2007:407-411.

        [6] 余正濤,樊孝忠,宋麗哲.基于問句語料庫的受限領域自動應答系統(tǒng)[J].計算機工程與應用,2003,39(36):28-30.

        [7] 張 宏.基于本體的農(nóng)業(yè)自動應答系統(tǒng)關鍵技術研究[D].保定:河北農(nóng)業(yè)大學,2007.

        [8] 王澤賢.基于Lucene的書目搜索相似度評分算法改進研究[J].圖書情報工作,2014,58(4):94-98.

        [9] 丁兆貴,金 敏.基于Lucene的個性化搜索引擎研究與實現(xiàn)[J].計算機技術與發(fā)展,2011,21(2):105-108.

        [10] 袁亞靜.基于查詢擴展的微博客服自動應答系統(tǒng)[D].北京:北京郵電大學,2015.

        [11] 索紅光,孫 鑫.針對中文檢索的Lucene改進策略[J].計算機應用與軟件,2009,26(6):175-177.

        [12] 任樹懷.LUCENE搜索算法剖析及優(yōu)化研究[J].圖書館雜志,2014,33(12):17-23.

        [13] 王 歡,孫瑞志.基于領域本體和Lucene的語義檢索系統(tǒng)研究[J].計算機應用,2010,30(6):1655-1657.

        [14] 白培發(fā),王成良,徐 玲.一種融合詞語位置特征的Lucene相似度評分算法[J].計算機工程與與應用,2014,50(2):129-132.

        [15] 宋 佳,諸云強,劉潤達.一種基于Lucene改進的全文檢索工具包[J].計算機工程與應用,2008,44(4):172-175.

        ImprovementofLuceneSimilaritySearchAlgorithmAppliedinQuestionAnsweringSystem

        BAI Ju1,HE Ju-hou2

        (1.Key Laboratory of Modern Teaching Technology of Ministry of Education,Shaanxi Normal University,Xi’an 710062,China;2.School of Computer Science,Shaanxi Normal University,Xi’an 710119,China)

        Lucene has a wide range of applications in the field of text retrieval and search,and the similarity score algorithm is one of the key parts of its search engine.And in the question answering system,the search function is also used,and the similarity score algorithm is also one of the key parts of its search engine.It is possible to improve the similarity score algorithm of the Lucene so that it can be widely used in the field of question answering system.In view of this problem,combined with the question answering system in the characteristic of brief question and small amount of information,the external dictionary is introduced to expand the searched key words,analysis and retrieval of semantic similarity of words,application of lexical position relationship feature in Lucene.On the basis of Lucene,its semantic similarity algorithm is improved,and a new one is proposed which can be better applied in question answering system in consideration of lexical position relationship and semantic understanding.Experimental results show that the proposed algorithm can effectively improve the accuracy of the question answering system.

        Lucene;similarity;question answering system;semantics

        2016-11-16

        2017-03-30 < class="emphasis_bold">網(wǎng)絡出版時間

        時間:2017-08-01

        教育部-中國移動科研基金項目(MCM20150604)

        白 菊(1990-),女,碩士研究生,研究方向為知識工程與智能教學系統(tǒng);何聚厚,博士,副教授,研究方向為知識工程與智能系統(tǒng)。

        http://kns.cnki.net/kcms/detail/61.1450.TP.20170801.1551.034.html

        TP301.6

        A

        1673-629X(2017)11-0079-04

        10.3969/j.issn.1673-629X.2017.11.017

        猜你喜歡
        詞項文檔檢索
        有人一聲不吭向你扔了個文檔
        2019年第4-6期便捷檢索目錄
        自然種類詞項二難、卡茨解決與二維框架
        哲學評論(2018年1期)2018-09-14 02:34:18
        基于RI碼計算的Word復制文檔鑒別
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        英語詞項搭配范圍及可預見度
        依據(jù)語篇中多層次信息的句法分析方法
        大家(2011年9期)2011-08-15 00:45:37
        國際標準檢索
        国产精品日本一区二区三区在线 | 欧美日韩免费一区中文字幕| 国产乱老熟视频乱老熟女1| 亚洲免费女女在线视频网站| 丰满的人妻hd高清日本| 亚洲 欧美 激情 小说 另类| 2020久久精品亚洲热综合一本| 丰满人妻被公侵犯的视频| 亚洲a无码综合a国产av中文| 白天躁晚上躁麻豆视频| 亚洲中文av一区二区三区| 国内偷拍视频一区二区| av中文字幕一区不卡| 玩弄放荡人妻少妇系列视频| 亚洲欧洲国产日产国码无码| 久久熟女精品—区二区蜜臀| 粗大猛烈进出高潮视频大全| av无码天堂一区二区三区| 久久久久亚洲AV成人网毛片| 自拍av免费在线观看| 日本韩国男男作爱gaywww| 国产午夜精品久久久久免费视| 亚洲一区二区高清精品| 午夜精品男人天堂av| 无码人妻一区二区三区免费视频| 丝袜足控一区二区三区| 亚洲日本精品一区久久精品| 风韵人妻丰满熟妇老熟女视频| 日韩av东京社区男人的天堂| 欧美老熟妇又粗又大| 久久五月精品中文字幕| 无码人妻久久一区二区三区免费丨| 精品人妻伦九区久久aaa片69| www.久久av.com| 蜜桃精品视频一二三区| 国产综合在线观看| 精品一级毛片| 美女把内衣内裤脱了给男人舔| 久久不见久久见免费视频6 | 国产美女爽到喷出水来视频| 免费人成视频在线观看视频|