亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向藏文檢索結(jié)果的聚類研究

        2014-12-31 00:00:00蔚承剛韓爭(zhēng)艷戴玉剛
        數(shù)字化用戶 2014年21期

        【摘 要】隨著信息的迅猛發(fā)展,針對(duì)檢索系統(tǒng)的改進(jìn)已逐漸成為研究的熱點(diǎn)。通過對(duì)檢索結(jié)果的進(jìn)一步處理已成為研究的熱點(diǎn)領(lǐng)域。采取聚類算法的研究是一種有效的改進(jìn)策略,通過對(duì)檢索結(jié)果進(jìn)行聚類,將檢索結(jié)果進(jìn)行分類,這方便用戶快速找到自己所需信息。本文是將傳統(tǒng)的聚類算法運(yùn)用到信息檢索系統(tǒng)中,對(duì)檢索得到的結(jié)果進(jìn)行聚類,達(dá)到對(duì)結(jié)果分類區(qū)分。

        【關(guān)鍵詞】信息檢索;藏文;聚類

        一、引言

        隨著IT技術(shù)的發(fā)展,我們處于一個(gè)信息爆炸的時(shí)代。目前人們對(duì)信息索取的需要也變得越來越嚴(yán)格,如何從海量數(shù)據(jù)中高效、準(zhǔn)確地獲得自己所需的信息,是目前國內(nèi)外專家學(xué)者亟需研究的熱點(diǎn)。信息檢索是指從信息資源的集合中查找所需文獻(xiàn)或查找所需文獻(xiàn)中包含的信息內(nèi)容的過程。藏文信息檢索技術(shù)對(duì)于促進(jìn)藏文信息處理技術(shù)的發(fā)展及廣大藏語區(qū)的信息化程度的發(fā)展意義重大。藏文信息檢索技術(shù)近年來在各個(gè)方面也取得了一些進(jìn)展,目前已完成了基本的搜索功能,包括分詞、去停用詞、編碼轉(zhuǎn)換、建立索引、以及查詢等關(guān)鍵技術(shù)[1]。為使用戶能夠從大量的檢索信息中快速地找到自己感興趣的內(nèi)容,可以將聚類技術(shù)應(yīng)用于搜索引擎中,通過對(duì)檢索返回的信息進(jìn)行聚類,可以使用戶快速地定位到自己感興趣的信息所在的類別,方便用戶的查詢。

        二、藏文檢索關(guān)鍵技術(shù)

        藏文信息處理中的非常重要的工作就是藏文分詞,目前很多專家對(duì)藏文分詞作了研究并開發(fā)了相關(guān)分詞系統(tǒng),如何切分緊緊相連的字符又能最大程度保持原意,目前對(duì)于藏文的切分主要是BCCF(基于格助詞和接續(xù)特征的分詞)法[2]。

        Lucene是一個(gè)用Java寫的全文檢索引擎工具包,可以方便地嵌入到實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引檢索功能。源碼中核心類包主要有3個(gè): analysis、index、search。其中, analysis主要用于切分詞,切分詞的工作由Analyzer的擴(kuò)展類來實(shí)現(xiàn)。由于Lucene默認(rèn)不支持藏文分詞,因此需要擴(kuò)展接口以實(shí)現(xiàn)藏文分詞。利用擴(kuò)展藏文分詞是實(shí)現(xiàn)基于Lucene的藏文信息檢索的重要一步

        支持藏文分詞以后,基于Lucene的藏文信息檢索以后的工作與漢語中的操作一致,還要對(duì)文檔建立倒排索引表、相似度計(jì)算等。

        三、檢索結(jié)果聚類算法研究

        聚類是在未知數(shù)據(jù)情況下尋找自然分組的過程,可以提高結(jié)果相關(guān)度,增加搜索結(jié)果針對(duì)性。對(duì)本文,聚類是針對(duì)檢索結(jié)果形成不同分類,縮小用戶搜索范圍,只要用戶選定某一話題就可針對(duì)該話題搜索,給用戶一個(gè)選擇范圍彌補(bǔ)搜索的不相關(guān)性。聚類結(jié)果會(huì)以層次.關(guān)系形成導(dǎo)航欄,用戶根據(jù)自己需求來選擇要瀏覽的類別或下面的子類。目前,對(duì)檢索結(jié)果進(jìn)行聚類的算法主要有兩大類。第一類是對(duì)現(xiàn)有的傳統(tǒng)聚類算法進(jìn)行使用或者改進(jìn),以適應(yīng)信息檢索結(jié)果的聚類,現(xiàn)有聚類算法主要以k均值為主;第二類是對(duì)檢索信息的聚類技術(shù)是主題分析方法,首先獲得結(jié)果集包含的多類信息,并抽取相應(yīng)的特征,然后合并相關(guān)文檔以形成一個(gè)類別,此方法描述每個(gè)類別所反映的主題[4]。由于傳統(tǒng)聚類算法實(shí)現(xiàn)起來簡(jiǎn)單,本文擬采用傳統(tǒng)的聚類算法對(duì)信息檢索結(jié)果的聚類。

        傳統(tǒng)聚類算法有劃分法、層次法等,目前最常用的是劃分法中的k均值算法,由于此算法具有速度快等優(yōu)點(diǎn),本文擬采用此算法。在檢索的過程中,將所有包括查詢項(xiàng)的文檔進(jìn)行建模,然后執(zhí)行k均值算法對(duì)檢索結(jié)果分類。

        k均值算法的基本過程為:(1) 從 n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類中心;(2) 根據(jù)每個(gè)聚類對(duì)象的均值,計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象劃分;(3) 重新計(jì)算每個(gè)聚類的均值;(4)計(jì)算標(biāo)準(zhǔn)測(cè)度函數(shù),當(dāng)滿足一定條件,如函數(shù)收斂時(shí),則算法終止;如果條件不滿足則回到步驟(2)。

        聚類過程中,對(duì)每個(gè)文檔利用向量空間模型建模,從而將每一個(gè)文檔表示成一個(gè)向量模型,向量上的每一個(gè)值對(duì)應(yīng)的都是一個(gè)詞在某一個(gè)文檔中的文檔頻率-逆文檔頻率值。Tf值,公式如下:

        四、總結(jié)

        本文在基于藏文信息檢索的上對(duì)結(jié)果進(jìn)行聚類,以提高檢索效率,將最終結(jié)果展現(xiàn)為目錄分類形式。由于傳統(tǒng)的聚類算法原理簡(jiǎn)單,實(shí)現(xiàn)起來高效快速,故本文選擇了傳統(tǒng)的聚類算法k均值算法進(jìn)行聚類。本文目前的研究還很有限,算法的效率有待提高,或者使用更高效的算法以達(dá)到提高聚類效率以及準(zhǔn)確率的目的。藏文信息檢索技術(shù)將是未來藏文信息化處理的重要方向,具有很大價(jià)值,對(duì)于檢索結(jié)果的聚類研究將是未來的熱點(diǎn)研究領(lǐng)域。

        參考文獻(xiàn):

        [1]蘇譚英,等.一種基于 LUCENE 的中文全文檢索系統(tǒng)[J].計(jì)算機(jī)工程,2007.

        [2]陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[J].語言文字應(yīng)用,2003,1:75-82.

        [3]萬德穩(wěn). 藏文搜索和搜索結(jié)果聚類研究及系統(tǒng)實(shí)現(xiàn)[D].西南交通大學(xué),2013.

        [4]劉銘,劉秉權(quán),劉遠(yuǎn)超. 面向信息檢索的快速聚類算法[J]. 計(jì)算機(jī)研究與發(fā)展,2013,07:1452-1463.

        作者簡(jiǎn)介:蔚承剛,男,碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)與應(yīng)用;韓爭(zhēng)艷,女,碩士研究生,研究方向?yàn)樵朴?jì)算;戴玉剛,男,教授,方向?yàn)樽匀徽Z言處理;

        項(xiàng)目名稱:西北民族大學(xué)中央專項(xiàng)資金資助研究生項(xiàng)目(項(xiàng)目號(hào):ycx14031)

        99在线视频这里只有精品伊人| 亚洲成a∨人片在线观看无码| 杨幂国产精品一区二区| 亚洲熟少妇一区二区三区| 欧美嫩交一区二区三区| 四川老熟女下面又黑又肥 | 中文字幕乱码无码人妻系列蜜桃| 久久99精品国产99久久| 亚洲免费毛片网| 亚洲国产国语对白在线观看| 国产精品无码av无码| 狠狠躁夜夜躁人人爽天天不卡软件| 9丨精品国产高清自在线看| 久久九九精品国产不卡一区| 少妇被爽到高潮喷水久久欧美精品| 国产无遮挡又黄又爽又色| 国产96在线 | 免费| 日本乱熟人妻中文字幕乱码69| 欧美大片aaaaa免费观看| 精品欧美一区二区在线观看 | 国产成人激情视频在线观看| 国产天堂av在线一二三四| 久久久久亚洲av无码专区首jn| 久久噜噜噜| 少妇人妻在线伊人春色| 亚洲va久久久噜噜噜久久天堂| 国产无遮挡又黄又爽在线视频| 韩日无码不卡| 日本加勒比精品一区二区视频 | 国产少妇高潮在线视频| 人成午夜免费视频无码| 亚洲国产精品久久久久久久| av黄片免费在线观看| 国产日产韩国av在线| 亚洲av无码av男人的天堂| 91精品国产免费青青碰在线观看| 国产成人综合久久大片| 亚洲av综合av成人小说| 亚洲免费黄色| 国产av一区二区三区狼人香蕉| 欧美成人秋霞久久aa片|