亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本體的局部文檔分析查詢擴(kuò)展方法研究

        2011-09-23 03:43:32周劍烽
        科技傳播 2011年3期
        關(guān)鍵詞:查全率本體文檔

        周劍烽

        中國人民銀行杭州中心支行,浙江杭州 310001

        基于本體的局部文檔分析查詢擴(kuò)展方法研究

        周劍烽

        中國人民銀行杭州中心支行,浙江杭州 310001

        檢索技術(shù)已經(jīng)成為信息領(lǐng)域的重要技術(shù)之一,查詢擴(kuò)展技術(shù)是信息檢索技術(shù)的一個關(guān)鍵技術(shù),對提高檢索結(jié)果的準(zhǔn)確性和完整性有重要作用。為提高檢索的查全率,本文在分析了傳統(tǒng)查詢擴(kuò)展方法的基礎(chǔ)上,結(jié)合語義檢索技術(shù)的發(fā)展趨勢,將語義模型中的本體概念融合到查詢擴(kuò)展技術(shù)中,提出了基于本體的局部文檔分析查詢擴(kuò)展方法。實驗結(jié)果顯示,該方法的檢索結(jié)果與人們的認(rèn)識比較接近,達(dá)到了較好的語義檢索效果。

        本體 語義檢索 查詢擴(kuò)展 局部文檔分析

        0 引言

        目前的信息檢索系統(tǒng)以關(guān)鍵詞匹配為技術(shù)基礎(chǔ),檢索結(jié)果的優(yōu)劣依賴于用戶給出的檢索關(guān)鍵詞。Furnas第一個發(fā)現(xiàn)了“詞典問題”(dictionary problem)[1],即兩個人使用同樣關(guān)鍵詞描述同一事物的幾率小于20%。同時Xu Jx和Croft WB等人發(fā)現(xiàn),49%的用戶僅用一個關(guān)鍵詞表達(dá)自己的查詢請求,33%的用戶使用兩個單詞進(jìn)行查詢,用戶平均只使用1.4個單詞描述他們的查詢[2]。使用的查詢詞越少,結(jié)果命中率就越低,查詢擴(kuò)展技術(shù)由此產(chǎn)生,逐漸發(fā)展成了信息檢索領(lǐng)域的一個重要研究方向,并已經(jīng)向語義擴(kuò)展方向發(fā)展。

        本文將語義本體技術(shù)融合到基于局部文檔分析的查詢擴(kuò)展方法中,得到了一種改進(jìn)的基于本體的局部文檔分析查詢擴(kuò)展方法,從語義角度擴(kuò)展關(guān)鍵詞,從而提高檢索的質(zhì)量。

        1 相關(guān)理論

        1.1 查詢擴(kuò)展定義

        查詢擴(kuò)展就是指利用計算機(jī)語言學(xué)、信息學(xué)等多種技術(shù),把與初始查詢相關(guān)的詞或概念以邏輯“或”的方式添加到初始查詢中,得到比初始查詢更長的新查詢,然后再次檢索文檔,以改善信息檢索的查全率和查準(zhǔn)率,從而解決 “詞不匹配”問題[3]。查詢擴(kuò)展技術(shù)大致可以分為3類:1)基于用戶相關(guān)反饋的方法[4];2)基于全局文檔集分析的方法[5];3)基于局部文檔集分析的方法[3]。

        1.2 基于局部文檔集分析的方法

        基于局部文檔集分析的方法是在基于全局文檔集分析的方法基礎(chǔ)上提出來的,克服了全局分析方法構(gòu)建全局?jǐn)⒃~表計算量大的問題,同時也解決了基于用戶相關(guān)反饋方法需要用戶干預(yù)查詢擴(kuò)展的不足。但是該方法的效率取決于參與分析的文檔數(shù)及文檔的大?。ㄔ~量),文檔量大、文檔體積大仍然會給局部文檔分析帶來巨大的計算量。同時由于難以保證待分析文檔的相關(guān)性,造成擴(kuò)展后查詢表達(dá)式相關(guān)性的不確定,影響檢索結(jié)果質(zhì)量。

        1.3 本體

        本體是共享概念模型的明確的形式化規(guī)范說明[6]。從知識共享的角度來說,本體是通用意義上的概念定義集合,以分層次的形式化模式定義領(lǐng)域內(nèi)術(shù)語間的相互關(guān)系,提供對這個領(lǐng)域知識的共同理解。實質(zhì)上本體是一個領(lǐng)域的抽象知識化表示形式,具有良好的層次結(jié)構(gòu),以概念、實例以及各種關(guān)系表示領(lǐng)域中的信息。通過對本體中的關(guān)系進(jìn)行推理,可以發(fā)掘隱含信息,實現(xiàn)語義上的關(guān)聯(lián)。

        2 基于本體的局部文檔分析查詢擴(kuò)展方法

        為了更好的發(fā)揮基于局部文檔分析的方法優(yōu)勢,同時實現(xiàn)語義支持,本文將本體技術(shù)應(yīng)用到基于局部文檔分析的方法中,提出了基于本體的局部文檔分析查詢擴(kuò)展方法。改進(jìn)后的方法充分利用了本體的優(yōu)良特性,以本體指導(dǎo)整個查詢擴(kuò)展過程,實現(xiàn)了對語義的支持,基本原理為:1)初始查詢請求提交;2)本體化初始查詢請求的關(guān)鍵詞,并利用本體對關(guān)鍵詞進(jìn)行同義、近義擴(kuò)展;3)進(jìn)行一次檢索;4)從檢索結(jié)果中取N(N取值可以節(jié))個文檔進(jìn)行分析,利用文檔矢量(由文檔特征詞權(quán)重構(gòu)成,特征詞權(quán)重根據(jù)出現(xiàn)頻率計算得到)提取文檔中的特征詞。文檔矢量在對文檔進(jìn)行預(yù)處理時形成,重復(fù)使用;5)一次擴(kuò)展后的關(guān)鍵詞集通過本體進(jìn)行二次語義擴(kuò)展。通過本體對關(guān)鍵詞逐個進(jìn)行相似度值查詢,根據(jù)相似度值的高低來決定新擴(kuò)展詞的取舍。向一次擴(kuò)展關(guān)鍵詞集合中添加語義相關(guān)的概念、實例,提高了檢索詞的語義完備性;6)對步驟4)和5)得到的關(guān)鍵詞集合進(jìn)行交運(yùn)算,得到最終的擴(kuò)展結(jié)果。這一步操作得到的關(guān)鍵詞,既滿足了傳統(tǒng)方法的共現(xiàn)頻率統(tǒng)計,也滿足了語義相關(guān)性的描述,丟棄了兩種方法產(chǎn)生的不一致的詞,保證了語義相關(guān)性。

        圖1 基于本體的局部文檔分析查詢擴(kuò)展方法

        擴(kuò)展過程由兩條路,一條為本體擴(kuò)展過程,即步驟5);一條是傳統(tǒng)的文檔分析過程,即步驟3)和4)。最終通過步驟6)合為一條路,產(chǎn)生最終的檢索詞集合。本體技術(shù)的使用,實現(xiàn)了對語義的支持,使擴(kuò)展結(jié)果語義上更加明確,避免二義性。

        3 實驗及結(jié)果分析

        本文以田徑項目作為領(lǐng)域,構(gòu)建了一個簡單的實驗本體。概念:田徑項目,跳躍,徑賽,投擲,接力,公路賽,障礙賽,短跑,長跑;實例:競走,馬拉松,女子100m欄,男子110m欄, 5000m,10 000m ,4×100m,4×400m,100m,400m,200m,標(biāo)槍,鐵餅,鉛球,鏈球,跳高,跳遠(yuǎn),三級跳遠(yuǎn),撐桿跳高。

        本文從網(wǎng)絡(luò)上摘取了60個與田徑項目相關(guān)的新聞作為實驗文檔,采用分層向量空間模型[7]進(jìn)行文檔的矢量化,得到對應(yīng)的文檔矢量。

        以檢索 “短跑”為例,使用傳統(tǒng)方法和本文方法進(jìn)行對比實驗,使用查全率和查準(zhǔn)率兩個指標(biāo)來衡量檢索質(zhì)量。60個樣本文檔中與“短跑”相關(guān)的文檔總共是16個。

        1)使用本文基于本體的局部文檔分析查詢擴(kuò)展方法,最終檢索結(jié)果如表1所示。

        表1 檢索文檔相似度值(其余文檔為零)

        根據(jù)文檔相似度值對結(jié)果進(jìn)行相關(guān)性排序,以一定的閾值獲取最終結(jié)果返回給用戶。相似度閾值分別取0.3,0.4,0.5時,對應(yīng)的查全率分別為:100%,87.5%,25%,查準(zhǔn)率相同為:100%。

        2)使用傳統(tǒng)局部文檔分析查詢擴(kuò)展方法,最終檢索結(jié)果如表2所示。取同樣的閾值0.3,0.4,0.5,對應(yīng)的查全率分別為:62.5%,37.5%,37.5%,查準(zhǔn)率相同為100%。

        表2 檢索文檔相似度值(其余文檔為零)

        圖2 本文方法與傳統(tǒng)方法檢索查全率對比

        兩種方法的查全率對比如圖2所示。對文檔相似度的要求也提高,符合的文檔數(shù)量減少,查全率自然降低,閾值為0.3、0.4的時候,本文的方法對用戶檢索詞的擴(kuò)展效果更好,相關(guān)性更大,查全率高于原方法。為了使最終結(jié)果文檔數(shù)在一個合適的范圍內(nèi),需要在查全率和查準(zhǔn)率之間選擇一個平衡點,也就是選擇一個合適的閾值來進(jìn)行控制,實驗中閾值取0.3和0.4都可以,在這個前提下,本文提出的方法能保證檢索詞的有效性和相關(guān)性,大大提高查全率,并保證查準(zhǔn)率。

        4 結(jié)論

        對比結(jié)果,兩種方法查準(zhǔn)率一樣,但查全率差別較大。閾值為0.3、0.4時,本文方法的查全率遠(yuǎn)高于原方法;閾值為0.5時,兩種方法查全率差不多,但都比較低。原因為:隨著閾值的提高,

        本文針對基于局部分析的查詢擴(kuò)展不支持語義的弱點,通過融合本體技術(shù)于其中,得到了一個改進(jìn)的方法。通過實驗結(jié)果數(shù)據(jù)的對比分析,驗證了本文提出的方法的有效性。

        [1]Furnas GW,Landauer TK,Gomez LM,Dumais ST. The vocabulary problem in human-system communication. Communication of ACM,1987,30(11):964-971.

        [2]崔航,文繼榮,李敏.基于用戶日志的查詢擴(kuò)展統(tǒng)計模型[J].軟件學(xué)報,2003,14(9):1593-1599.

        [3]黃名選,嚴(yán)小衛(wèi),張師超.查詢擴(kuò)展技術(shù)進(jìn)展與展望[J].計算機(jī)應(yīng)用與軟件,2007,24(11):1-4.

        [4]宋玲麗,成穎,單啟成.信息檢索系統(tǒng)中的相關(guān)反饋技術(shù)[J].情報學(xué)報,2005,24(1):34-41.

        [5]TA Runkler, JC Bezdek. Automatic keyword extraction with relational clustering and Levenshtein distances,9th IEEE International Conference on Fuzzy Systems,IEEE,2000:636-640.

        [6]陳泳,林世平.基于本體的語義檢索技術(shù)[J].計算機(jī)工程與應(yīng)用,2006(S1):78-80.

        [7]高珊.信息檢索中的查詢擴(kuò)展及相關(guān)技術(shù)研究[D].湖北:華中師范大學(xué),2008:20-21.

        G252.7

        A

        1674-6708(2011)36-0054-02

        猜你喜歡
        查全率本體文檔
        Abstracts and Key Words
        有人一聲不吭向你扔了個文檔
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        海量圖書館檔案信息的快速檢索方法
        基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
        基于RI碼計算的Word復(fù)制文檔鑒別
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
        538在线啪在线观看| 久久精品国产字幕高潮| 少妇仑乱a毛片| 中文字幕在线免费| 国产精品女同一区二区久| 黄色国产一区二区99| 国产永久免费高清在线| 老熟女毛茸茸浓毛| 久草视频华人在线观看| 亚洲中文字幕九色日本| 北条麻妃国产九九九精品视频| 亚洲欧美国产日韩制服bt | 人妻色中文字幕免费视频| 亚洲av毛片在线免费观看| 亚洲国产成人片在线观看无码| 亚洲欧美日韩综合中文字幕| 中文字幕国产精品专区| 亚洲av成人一区二区三区本码| 国产97色在线 | 亚洲| 久久婷婷色香五月综合激情| 青青草手机在线免费视频| 久久天天躁夜夜躁狠狠| 美丽人妻被按摩中出中文字幕| 精品系列无码一区二区三区| 中文字幕高清不卡视频二区| 成人aaa片一区国产精品| 日日人人爽人人爽人人片av| 日本人妖一区二区三区| 边添小泬边狠狠躁视频| 亚洲美免无码中文字幕在线| 天堂av无码大芭蕉伊人av孕妇黑人| 国产一区二区av免费观看| 日韩中文字幕免费视频| 久久国产亚洲精品超碰热| 成人亚洲av网站在线看| 国模冰莲极品自慰人体| 偷窥村妇洗澡毛毛多| 国产精品一区二区三区黄片视频 | 精品无码av一区二区三区不卡| 日本丰满人妻xxxxxhd| av无码电影一区二区三区|