亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于語(yǔ)義擴(kuò)展的跨語(yǔ)言自動(dòng)檢索方法的設(shè)計(jì)

        2015-01-09 10:03:58寧琳
        現(xiàn)代情報(bào) 2014年1期
        關(guān)鍵詞:查全率信息檢索詞典

        寧琳

        〔摘 要〕跨語(yǔ)言檢

        索是一種重要的信息檢索手段之一?為了提高跨語(yǔ)言檢索效率,采用語(yǔ)義擴(kuò)展的方法,通過(guò)

        分析其設(shè)計(jì)思想和工作流程,構(gòu)建出一種基于語(yǔ)義擴(kuò)展的跨語(yǔ)言自動(dòng)檢索模型,重點(diǎn)對(duì)其語(yǔ)

        義擴(kuò)展?知識(shí)庫(kù)和結(jié)果聚類等設(shè)計(jì)進(jìn)行了闡述,提出了語(yǔ)義理解切分法的分詞方法,采用了

        Single-Pass算法進(jìn)行聚類,實(shí)驗(yàn)結(jié)果表明,該模型能有效提高跨語(yǔ)言檢索的查全率和查準(zhǔn)

        率?

        〔關(guān)鍵詞〕跨語(yǔ)言信息檢索;語(yǔ)義

        擴(kuò)展;分詞

        DOI:10.3969/j

        .issn.1008-0821.2014.01.033

        〔中圖分類號(hào)〕G252.7 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)

        〕1008-0821(2014)01-0155-04

        A Kind of Design of the Cross-La

        nguage Information

        Retrieval on the Basis of the Semantic Extension

        Ning Lin

        (Library,Chongqing Jiaotong University,Chongqing 400074,China)HT〗

        〔Abstract〕”BZ〗The Cross-language retrieval is an important method of information retri

        eval.In order to improve the cross-language retrieval efficiency,it adapts the m

        ethod of semantic extension.By analyzing the design idea and workflow,it builds

        a kind of cross-language automatic retrieval model based on semantic extension.F

        ocusing on its semantic extension,knowledge base and expounding the result clust

        ering design,the semantic understanding segmentation method of word segmentation

        method is proposedand adapts the Single-Pass clustering algorithm.The experimen

        tal results show that this model can effectively improve the cross-language retr

        ieval recall and precision.

        〔Key words〕CLIR(Cross-Lang

        uage Information Retrieval);semantic extension;segmentation

        隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,信息檢索已成為我們利用網(wǎng)絡(luò)獲取信息的必備工具?但是,

        通常的信息檢索技術(shù)只對(duì)自然語(yǔ)言作處理,而自然語(yǔ)言之間在語(yǔ)義和語(yǔ)言結(jié)構(gòu)上差異很大,

        這給人們進(jìn)行檢索時(shí)帶來(lái)很大語(yǔ)言障礙?跨語(yǔ)言信息檢索(CLIR)技術(shù)的出現(xiàn),為網(wǎng)絡(luò)信息

        搜集提供了新的方式,用戶只需輸入一種語(yǔ)言的查詢,就能檢索出其他多種語(yǔ)言的文檔,實(shí)

        現(xiàn)信息獲取的目的?目前,跨語(yǔ)言信息檢索的實(shí)現(xiàn)策略很多,但普遍存在查全率和查準(zhǔn)率較

        低的情況,采用語(yǔ)義擴(kuò)展的跨語(yǔ)言檢索方式,通過(guò)對(duì)用戶輸入的原始搜索指令進(jìn)行跨語(yǔ)言的

        語(yǔ)義擴(kuò)展,擴(kuò)展出查詢?cè)~的潛在語(yǔ)義相關(guān)詞,并對(duì)擴(kuò)展后的內(nèi)容進(jìn)行自動(dòng)聚類分析處理,可

        以實(shí)現(xiàn)多語(yǔ)言的同步搜索并提高跨語(yǔ)言檢索的查全率和查準(zhǔn)率,為解決網(wǎng)絡(luò)上語(yǔ)言差異的問(wèn)

        題提出很好的思路?

        1 跨語(yǔ)言信息檢索及其主要方法跨語(yǔ)言信息檢索是指用戶以一種語(yǔ)言提問(wèn),檢出另一種語(yǔ)言或多種語(yǔ)言描述的相關(guān)信息?在

        跨語(yǔ)言檢索中,不同語(yǔ)言之間的“翻譯”是跨語(yǔ)言信息檢索的核心問(wèn)題,也是跨語(yǔ)言信息檢

        索的研究熱點(diǎn)與難點(diǎn)?目前,有3種公認(rèn)的主要翻譯方法:機(jī)器翻譯技術(shù)?基于詞典的方法

        ?基于語(yǔ)料庫(kù)的方法[1]?

        1.1 機(jī)器翻譯技術(shù)

        機(jī)器翻譯是將跨語(yǔ)言檢索系統(tǒng)直接應(yīng)用于檢索過(guò)程中?主要有兩種方法:一是將用戶的查詢

        翻譯為與文檔相同的語(yǔ)種;另一種是將文檔翻譯為與查詢相同的語(yǔ)種,然后再用單語(yǔ)種的信

        息檢索系統(tǒng)進(jìn)行檢索[6]?但是,由于機(jī)器翻譯技術(shù)通常是基于整句翻譯的,不能

        進(jìn)行語(yǔ)境信息和領(lǐng)域知識(shí)的處理,很難消除翻譯歧義,在實(shí)際檢索過(guò)程中會(huì)產(chǎn)生大量冗余文

        檔,結(jié)果不夠精確?

        1.2 基于詞典的策略

        其基本思路在于,利用一部雙語(yǔ)詞典,將用戶提出的查詢檢索詞交換為目標(biāo)語(yǔ)言的檢索詞,

        然后再在文檔集中查詢相關(guān)信息?這種方法缺點(diǎn)在于翻譯時(shí)是以詞為單位,而在各種語(yǔ)言中

        普遍存在的一詞多義現(xiàn)象,導(dǎo)致大大增加了翻譯的復(fù)雜性?

        1.3 基于語(yǔ)料庫(kù)的策略

        基于語(yǔ)料庫(kù)的方法從大規(guī)模的語(yǔ)料入手,從中抽取所需的信息,自動(dòng)構(gòu)建與應(yīng)用有關(guān)的翻譯endprint

        技術(shù)?語(yǔ)料庫(kù)分為兩種:比較語(yǔ)料庫(kù)和平行語(yǔ)料庫(kù)?比較語(yǔ)料庫(kù)內(nèi)每種語(yǔ)言文獻(xiàn)集內(nèi)的文獻(xiàn)

        并非一一對(duì)應(yīng),而僅僅是討論相同主題而已?平行語(yǔ)料庫(kù)強(qiáng)調(diào)兩種語(yǔ)言文獻(xiàn)的一一對(duì)應(yīng),而

        這種相互對(duì)譯的雙語(yǔ)語(yǔ)料庫(kù)并不容易實(shí)現(xiàn)?

        目前,跨語(yǔ)言信息檢索最常用的是基于詞典的策略和基于語(yǔ)料庫(kù)的策略?在基于詞典的跨語(yǔ)

        言信息檢索中,未知詞的處理一直困擾著人們,對(duì)于不在詞典中的詞就無(wú)法翻譯?語(yǔ)料庫(kù)建

        設(shè)難度較大,規(guī)模通常也較有限?因此利用查詢擴(kuò)展技術(shù)將兩種方法進(jìn)行整合是解決翻譯問(wèn)

        題的一種有效方法,即利用語(yǔ)義詞典對(duì)查詢語(yǔ)句進(jìn)行語(yǔ)義擴(kuò)展,再將擴(kuò)展詞匯與語(yǔ)料庫(kù)對(duì)比

        分析,分析該語(yǔ)義段落中的潛在目標(biāo)對(duì)象和查詢請(qǐng)求的語(yǔ)義相關(guān)性,從而決定是否將其作為

        結(jié)果返回,查詢擴(kuò)展可分別在查詢翻譯前或查詢后進(jìn)行,也可以同時(shí)在查詢翻譯前?后進(jìn)行

        ,這種方法可以減少與詞典翻譯有關(guān)的錯(cuò)誤,部分地解決詞匯問(wèn)題中“多詞同義或近義”的

        問(wèn)題?

        2.2.1 知識(shí)庫(kù)模塊

        該模塊主要是對(duì)輸入的原始搜索指令進(jìn)行分析,利用知識(shí)庫(kù)和通用語(yǔ)義詞典,對(duì)搜索指令進(jìn)

        行跨語(yǔ)言擴(kuò)展,語(yǔ)義詞典為知識(shí)庫(kù)信息搜索提供了語(yǔ)義擴(kuò)展的基本素材,由于語(yǔ)義詞典與具

        體應(yīng)用無(wú)關(guān),因此存在專用術(shù)語(yǔ)不全?領(lǐng)域語(yǔ)義模糊?新詞匯和特殊的詞匯沒(méi)有收錄等問(wèn)題

        ,因此,有必要設(shè)計(jì)針對(duì)用戶需求的專業(yè)知識(shí)庫(kù),該庫(kù)收錄的內(nèi)容包括:專業(yè)信息搜集中常

        用詞的中英文同義詞,地名?機(jī)構(gòu)名?術(shù)語(yǔ)的全稱?簡(jiǎn)稱?縮寫(xiě)等中英文的表述,網(wǎng)絡(luò)中新

        出現(xiàn)的詞匯的中英文表述,人名的中英文各種譯法等?

        2.2.2 搜索指令的跨語(yǔ)言語(yǔ)義擴(kuò)展模塊

        該模塊是實(shí)現(xiàn)跨語(yǔ)言擴(kuò)展的核心部分,它主要包括數(shù)據(jù)預(yù)處理?特征提取?特征權(quán)重的計(jì)算

        和查詢擴(kuò)展等部分?

        (1)數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理是對(duì)搜索的原始數(shù)據(jù)進(jìn)行提取?分解?合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)

        據(jù)格式?它包括兩個(gè)解析過(guò)程:一是將包含標(biāo)記符號(hào)的Web文檔解析成只含有用信息的文本

        文檔,利用抓取工具把檢索的結(jié)果抓取到數(shù)據(jù)庫(kù),然后利用HTML解析工具對(duì)Web文本進(jìn)行分

        析,進(jìn)行去HTML標(biāo)記的處理?二是對(duì)文本文檔進(jìn)行分詞處理?分詞就是將中文或其它語(yǔ)言的

        詞句按照一定序列切分成有意義的詞[5],目前,分詞的方法有很多,如機(jī)械匹配

        法?特征詞庫(kù)法?約束矩陣法等,在這里,我主要提出了一種具有“理解”功能的切分法—

        —語(yǔ)義理解切分法,其基本思想是:先建立一個(gè)詞庫(kù),其中包含所有可能出現(xiàn)的詞和它們的

        各種語(yǔ)義信息,對(duì)給定的待分詞的詞句S,按照某種確定的原則切取S的子串,若該子串與詞

        庫(kù)中的某詞條相匹配,則從詞庫(kù)中取出該詞的所有語(yǔ)義信息,然后調(diào)用語(yǔ)義分析程序進(jìn)行語(yǔ)

        義分析(包括形成理解結(jié)果和檢索約束條件)?若分析正確,則該子串是詞,記下理解結(jié)果

        作為后繼切分的基礎(chǔ),繼續(xù)分割余下部分,直到余下部分為空?否則該子串不是詞,轉(zhuǎn)上重

        新切取S的子串進(jìn)行匹配?理解切分法的優(yōu)點(diǎn)在于它的最終結(jié)果包括理解結(jié)果的內(nèi)部表示,

        為后繼的處理提供很大的幫助?

        對(duì)數(shù)據(jù)預(yù)處理后的信息提供兩種聚類對(duì)象集,當(dāng)用戶想要快速地進(jìn)行檢索時(shí),可以選擇標(biāo)題

        和摘要作為對(duì)象集的處理結(jié)果,當(dāng)用戶想要得到更加準(zhǔn)確的結(jié)果,可以選擇原始網(wǎng)頁(yè)作為對(duì)

        象集?

        (2)特征提取

        在提取文本特征時(shí),剔除對(duì)文本分類沒(méi)有用處的虛詞,而在實(shí)詞中,主要提取類別特性的表

        現(xiàn)力最強(qiáng)的名詞和動(dòng)詞作為文本的特征詞?

        對(duì)于同義詞,首先是對(duì)文本進(jìn)行部分語(yǔ)義分析,利用語(yǔ)義詞典獲取詞匯的語(yǔ)義信息,將語(yǔ)義

        相同的詞匯映射到同一概念,進(jìn)行概念聚類,并將概念相同的詞合并成同一詞?用聚類得到

        的詞作為文檔向量的特征項(xiàng),能夠比普通詞匯更加準(zhǔn)確地表達(dá)文檔內(nèi)容,減少特征之間的相

        關(guān)性和同義現(xiàn)象,這樣可以有效降低文檔向量的維數(shù),減少文檔處理計(jì)算量,提高特征提取

        的精度和效率?

        (3)特征權(quán)重的計(jì)算

        利用分詞工具對(duì)中英文的文檔進(jìn)行分詞處理并進(jìn)行詞性標(biāo)注,標(biāo)注主要用于特征提取?而特

        征詞在不同的標(biāo)記符中對(duì)內(nèi)容的反映程度不同,其權(quán)重的計(jì)算方法也不同,本文采用的是常

        用的TFIDF(詞頻——逆文檔頻度)加權(quán)法?

        通常來(lái)說(shuō),對(duì)區(qū)別文檔最有意義的詞應(yīng)是在文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文

        檔中出現(xiàn)頻率少的詞,因此采用TF詞頻作為測(cè)度來(lái)體現(xiàn)同類文本的特點(diǎn)?另外,TFIDF法認(rèn)

        為一個(gè)單詞出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類別文本的能力就越大,因此采用逆文本頻度

        IDF,以TF和IDF的乘積作為特征空間的取值測(cè)度,并用它完成對(duì)權(quán)值TF的調(diào)整,從而實(shí)現(xiàn)突

        出重要單詞的目的?其過(guò)程如下:

        (4)查詢擴(kuò)展

        查詢擴(kuò)展技術(shù)是語(yǔ)義檢索的一個(gè)重要方面?查詢擴(kuò)展把與原查詢相關(guān)的詞語(yǔ)或者語(yǔ)言查詢語(yǔ)

        義相關(guān)的概念添加到原查詢,得到比原查詢更長(zhǎng)的新查詢,然后檢索文檔,以提高信息檢索

        的查全率和查準(zhǔn)率[4]?

        ①手工查詢擴(kuò)展:人工挑選與查詢?cè)~相關(guān)的其它特征詞,將其加入到原始查詢中構(gòu)成新的查endprint

        詢?

        ②自動(dòng)查詢擴(kuò)展:使用語(yǔ)法分析?統(tǒng)計(jì)等技術(shù)從文檔集合中自動(dòng)學(xué)習(xí),獲得詞與詞間的相關(guān)

        信息[3]?

        本模塊采用自動(dòng)查詢擴(kuò)展和手工查詢擴(kuò)展相結(jié)合的方法,即將經(jīng)過(guò)語(yǔ)義詞典擴(kuò)展的詞以選擇

        項(xiàng)的方式提供給用戶,供用戶進(jìn)行選擇,從而解決同義詞擴(kuò)展過(guò)多,詞語(yǔ)相似度低的問(wèn)題?

        對(duì)于新出現(xiàn)的詞匯?地名?機(jī)構(gòu)名,通過(guò)定期更新知識(shí)庫(kù)記錄的方法加以解決?專業(yè)術(shù)語(yǔ)通

        常采用與專業(yè)詞典相結(jié)合的辦法,首先在通用語(yǔ)義詞典中查找詞意,當(dāng)其無(wú)法滿足要求時(shí),

        再轉(zhuǎn)向?qū)I(yè)詞典進(jìn)行查找?

        2.2.3 跨語(yǔ)言文本自動(dòng)聚類模塊分析

        搜索引擎是以關(guān)鍵字匹配的檢索方式,導(dǎo)致搜索引擎返回的結(jié)果中有許多是與用戶的查詢不

        相關(guān)的文檔,因此需要對(duì)返回的結(jié)果進(jìn)行篩選?通過(guò)對(duì)檢索結(jié)果的上下文進(jìn)行分析,以文檔

        的相似度為基礎(chǔ),對(duì)結(jié)果進(jìn)行聚類,能自動(dòng)地對(duì)檢索結(jié)果進(jìn)行篩選,從而解決查詢文檔過(guò)多

        的問(wèn)題?本模塊在對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類處理時(shí),通過(guò)計(jì)算結(jié)果文檔與設(shè)定模板的

        相似度,根據(jù)相似度閾值,分批對(duì)結(jié)果進(jìn)行聚類,大于閾值的文檔則搜集進(jìn)信息資料數(shù)據(jù)庫(kù)

        ,小于閾值的文檔則直接舍棄,當(dāng)滿足一定的條件時(shí),停止聚類,完成篩選?

        (1)文本聚類

        按照數(shù)據(jù)的相似性和差異性,將數(shù)據(jù)劃分為若干簇,同簇的盡量相似,不同簇的盡量相異,

        這種對(duì)數(shù)據(jù)進(jìn)行自動(dòng)組織的方法稱為聚類[2]?聚類通過(guò)比較數(shù)據(jù)的相似性和差異

        性,能發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在特征及分布規(guī)律,從而獲得對(duì)數(shù)據(jù)更深刻的理解和認(rèn)識(shí)?

        聚類分為兩種:檢索前聚類和檢索后聚類?檢索前聚類是在檢索之前對(duì)全部文檔進(jìn)行聚類,

        使相關(guān)的文檔在同一類中,在檢索過(guò)程中,每個(gè)文檔類以一個(gè)向量來(lái)表示,查詢向量先與各

        個(gè)類向量逐一進(jìn)行比較,最后得到相關(guān)度較高的類?檢索后聚類是在檢索之后對(duì)查詢相關(guān)的

        文檔進(jìn)行聚類?與檢索前聚類相比,檢索后聚類能夠分析相關(guān)文檔集合的特征,提高檢索效

        果?

        (2)聚類的過(guò)程

        該設(shè)計(jì)的聚類主要采用了Single-Pass啟發(fā)式聚類算法,首先,按照一定的次序,將第

        一篇文檔作為聚類依據(jù),將其余文檔按次序依次對(duì)其進(jìn)行相似性比較,如相似性達(dá)到系統(tǒng)設(shè)

        定的要求,即將其歸入該類,并重新計(jì)算其類心,作為其他文檔的匹配依據(jù),如未達(dá)到系統(tǒng)

        要求的閾值,則直接將該文檔作為新類的聚類依據(jù),所有文檔均依次按這一方式聚類?除此

        之外,為了提高聚類的效率,減少對(duì)原始網(wǎng)頁(yè)的處理時(shí)間,該聚類還對(duì)搜索引擎返回的結(jié)果

        進(jìn)行分批次聚類處理,每次聚類的過(guò)程相同,前一批次的聚類結(jié)果作為后一批次的聚類模板

        ?

        具體過(guò)程:設(shè)每一批次處理的文檔數(shù)量為N,在算法中,設(shè)計(jì)了一個(gè)計(jì)數(shù)器K,用于計(jì)算每一

        批處理的文檔中歸入類中的數(shù)量,如果K=0,表示在這一批次中符合要求的文檔數(shù)為0,則停

        止聚類,算法中模板的向量用模板集中向量的平均值來(lái)表示,平均值的計(jì)算公式為:

        mi=∑ni=1xi/n

        xi為模板集中的隨機(jī)向量,n為模板集中對(duì)象的個(gè)數(shù)?文檔與模板間的相似度用余弦公式

        來(lái)定義?

        在聚類中閾值的設(shè)定很關(guān)鍵,閾值設(shè)定過(guò)大,導(dǎo)致查全率的降低,閾值設(shè)定過(guò)小,則導(dǎo)致查

        準(zhǔn)率的降低?

        3 跨語(yǔ)言語(yǔ)義擴(kuò)展檢索結(jié)果分析TBZ〗

        本文實(shí)驗(yàn)設(shè)計(jì)了10組中英文查詢進(jìn)行檢索,利用百度?中搜?Google搜索引擎進(jìn)行原始指令

        搜索和擴(kuò)展后的指令搜索,并對(duì)前100個(gè)檢索結(jié)果采用查全率和查準(zhǔn)率進(jìn)行統(tǒng)計(jì),將統(tǒng)計(jì)結(jié)

        果進(jìn)行平均,然后得到評(píng)估結(jié)果(表1):

        表1 原始檢索和語(yǔ)義擴(kuò)展檢索結(jié)果評(píng)估

        實(shí)驗(yàn)結(jié)果表明,3個(gè)普通搜索引擎采用原始檢索的查全率和查準(zhǔn)率平均值分別為0.18和

        0.34,而采用語(yǔ)義擴(kuò)展檢索的查全率和查準(zhǔn)率平均值分別為0.35和0.53,通過(guò)語(yǔ)義擴(kuò)展

        對(duì)普通搜索引擎進(jìn)行跨語(yǔ)言語(yǔ)義擴(kuò)展的二次優(yōu)化,可以有效地提高跨語(yǔ)言檢索的查全率和查

        準(zhǔn)率,提高了網(wǎng)絡(luò)信息搜集的效率?

        4 結(jié)束語(yǔ)

        解決網(wǎng)絡(luò)語(yǔ)言差異的障礙,采用語(yǔ)義擴(kuò)展的跨語(yǔ)言檢索是一種較好的方法?該方法通過(guò)構(gòu)建

        跨語(yǔ)言語(yǔ)義擴(kuò)展檢索模型,對(duì)原始搜索指令進(jìn)行跨語(yǔ)言的語(yǔ)義擴(kuò)展,將傳統(tǒng)搜索進(jìn)行二次優(yōu)

        化,實(shí)現(xiàn)多語(yǔ)言的同步搜索,然后,利用Single-Pass聚類算法對(duì)返回的結(jié)果進(jìn)行聚類分析

        ,實(shí)現(xiàn)搜索結(jié)果的自動(dòng)取舍,為用戶進(jìn)行信息檢索提供有力幫助?該設(shè)計(jì)下一步研究:一是

        提取更準(zhǔn)確的文本特征,整理出更完善的語(yǔ)義資源庫(kù)?二是嘗試對(duì)文本以外的多媒體資料進(jìn)

        行自動(dòng)分析,擴(kuò)大語(yǔ)義檢索的范圍?

        參考文獻(xiàn)

        [1]楊麗.國(guó)外跨語(yǔ)言信息檢索的技術(shù)研究綜述[J].情報(bào)雜志,2008,

        (7):38.

        [2]鄒良群.互聯(lián)網(wǎng)公開(kāi)情報(bào)跨語(yǔ)言搜集自動(dòng)化處理研究[C].國(guó)際關(guān)系學(xué)院論文集,

        2009.

        [3]郭文.跨語(yǔ)言信息檢索中的查詢擴(kuò)展[J].心智與計(jì)算,2009,(1):1-8.

        [4]李莉,高慶獅.一種基于語(yǔ)義單元的查詢擴(kuò)展方法[J].計(jì)算機(jī)科學(xué),2008,35(

        2):201-204.

        [5]Metzler D,Croft W B.Latent Concept Expansion Using Markov Random Fields[

        C].Proceedings of the 30th annual international ACM SIGIR conference on Resea

        rch and developm ent in information retrieval.New York:ACM Press,2007:311-314.

        [6]Gey F C,Jiang H,Chen A.Manual Queries and Machine Translation in Cross

        —Language Retrieval and Interactive Retrieval With Cheshire 2 atTREC—7[M].

        InProc.ofthe 7thTextRetrievalE.valuation Conf,2005.

        (本文責(zé)任編輯:孫國(guó)雷)endprint

        詢?

        ②自動(dòng)查詢擴(kuò)展:使用語(yǔ)法分析?統(tǒng)計(jì)等技術(shù)從文檔集合中自動(dòng)學(xué)習(xí),獲得詞與詞間的相關(guān)

        信息[3]?

        本模塊采用自動(dòng)查詢擴(kuò)展和手工查詢擴(kuò)展相結(jié)合的方法,即將經(jīng)過(guò)語(yǔ)義詞典擴(kuò)展的詞以選擇

        項(xiàng)的方式提供給用戶,供用戶進(jìn)行選擇,從而解決同義詞擴(kuò)展過(guò)多,詞語(yǔ)相似度低的問(wèn)題?

        對(duì)于新出現(xiàn)的詞匯?地名?機(jī)構(gòu)名,通過(guò)定期更新知識(shí)庫(kù)記錄的方法加以解決?專業(yè)術(shù)語(yǔ)通

        常采用與專業(yè)詞典相結(jié)合的辦法,首先在通用語(yǔ)義詞典中查找詞意,當(dāng)其無(wú)法滿足要求時(shí),

        再轉(zhuǎn)向?qū)I(yè)詞典進(jìn)行查找?

        2.2.3 跨語(yǔ)言文本自動(dòng)聚類模塊分析

        搜索引擎是以關(guān)鍵字匹配的檢索方式,導(dǎo)致搜索引擎返回的結(jié)果中有許多是與用戶的查詢不

        相關(guān)的文檔,因此需要對(duì)返回的結(jié)果進(jìn)行篩選?通過(guò)對(duì)檢索結(jié)果的上下文進(jìn)行分析,以文檔

        的相似度為基礎(chǔ),對(duì)結(jié)果進(jìn)行聚類,能自動(dòng)地對(duì)檢索結(jié)果進(jìn)行篩選,從而解決查詢文檔過(guò)多

        的問(wèn)題?本模塊在對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類處理時(shí),通過(guò)計(jì)算結(jié)果文檔與設(shè)定模板的

        相似度,根據(jù)相似度閾值,分批對(duì)結(jié)果進(jìn)行聚類,大于閾值的文檔則搜集進(jìn)信息資料數(shù)據(jù)庫(kù)

        ,小于閾值的文檔則直接舍棄,當(dāng)滿足一定的條件時(shí),停止聚類,完成篩選?

        (1)文本聚類

        按照數(shù)據(jù)的相似性和差異性,將數(shù)據(jù)劃分為若干簇,同簇的盡量相似,不同簇的盡量相異,

        這種對(duì)數(shù)據(jù)進(jìn)行自動(dòng)組織的方法稱為聚類[2]?聚類通過(guò)比較數(shù)據(jù)的相似性和差異

        性,能發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在特征及分布規(guī)律,從而獲得對(duì)數(shù)據(jù)更深刻的理解和認(rèn)識(shí)?

        聚類分為兩種:檢索前聚類和檢索后聚類?檢索前聚類是在檢索之前對(duì)全部文檔進(jìn)行聚類,

        使相關(guān)的文檔在同一類中,在檢索過(guò)程中,每個(gè)文檔類以一個(gè)向量來(lái)表示,查詢向量先與各

        個(gè)類向量逐一進(jìn)行比較,最后得到相關(guān)度較高的類?檢索后聚類是在檢索之后對(duì)查詢相關(guān)的

        文檔進(jìn)行聚類?與檢索前聚類相比,檢索后聚類能夠分析相關(guān)文檔集合的特征,提高檢索效

        果?

        (2)聚類的過(guò)程

        該設(shè)計(jì)的聚類主要采用了Single-Pass啟發(fā)式聚類算法,首先,按照一定的次序,將第

        一篇文檔作為聚類依據(jù),將其余文檔按次序依次對(duì)其進(jìn)行相似性比較,如相似性達(dá)到系統(tǒng)設(shè)

        定的要求,即將其歸入該類,并重新計(jì)算其類心,作為其他文檔的匹配依據(jù),如未達(dá)到系統(tǒng)

        要求的閾值,則直接將該文檔作為新類的聚類依據(jù),所有文檔均依次按這一方式聚類?除此

        之外,為了提高聚類的效率,減少對(duì)原始網(wǎng)頁(yè)的處理時(shí)間,該聚類還對(duì)搜索引擎返回的結(jié)果

        進(jìn)行分批次聚類處理,每次聚類的過(guò)程相同,前一批次的聚類結(jié)果作為后一批次的聚類模板

        ?

        具體過(guò)程:設(shè)每一批次處理的文檔數(shù)量為N,在算法中,設(shè)計(jì)了一個(gè)計(jì)數(shù)器K,用于計(jì)算每一

        批處理的文檔中歸入類中的數(shù)量,如果K=0,表示在這一批次中符合要求的文檔數(shù)為0,則停

        止聚類,算法中模板的向量用模板集中向量的平均值來(lái)表示,平均值的計(jì)算公式為:

        mi=∑ni=1xi/n

        xi為模板集中的隨機(jī)向量,n為模板集中對(duì)象的個(gè)數(shù)?文檔與模板間的相似度用余弦公式

        來(lái)定義?

        在聚類中閾值的設(shè)定很關(guān)鍵,閾值設(shè)定過(guò)大,導(dǎo)致查全率的降低,閾值設(shè)定過(guò)小,則導(dǎo)致查

        準(zhǔn)率的降低?

        3 跨語(yǔ)言語(yǔ)義擴(kuò)展檢索結(jié)果分析TBZ〗

        本文實(shí)驗(yàn)設(shè)計(jì)了10組中英文查詢進(jìn)行檢索,利用百度?中搜?Google搜索引擎進(jìn)行原始指令

        搜索和擴(kuò)展后的指令搜索,并對(duì)前100個(gè)檢索結(jié)果采用查全率和查準(zhǔn)率進(jìn)行統(tǒng)計(jì),將統(tǒng)計(jì)結(jié)

        果進(jìn)行平均,然后得到評(píng)估結(jié)果(表1):

        表1 原始檢索和語(yǔ)義擴(kuò)展檢索結(jié)果評(píng)估

        實(shí)驗(yàn)結(jié)果表明,3個(gè)普通搜索引擎采用原始檢索的查全率和查準(zhǔn)率平均值分別為0.18和

        0.34,而采用語(yǔ)義擴(kuò)展檢索的查全率和查準(zhǔn)率平均值分別為0.35和0.53,通過(guò)語(yǔ)義擴(kuò)展

        對(duì)普通搜索引擎進(jìn)行跨語(yǔ)言語(yǔ)義擴(kuò)展的二次優(yōu)化,可以有效地提高跨語(yǔ)言檢索的查全率和查

        準(zhǔn)率,提高了網(wǎng)絡(luò)信息搜集的效率?

        4 結(jié)束語(yǔ)

        解決網(wǎng)絡(luò)語(yǔ)言差異的障礙,采用語(yǔ)義擴(kuò)展的跨語(yǔ)言檢索是一種較好的方法?該方法通過(guò)構(gòu)建

        跨語(yǔ)言語(yǔ)義擴(kuò)展檢索模型,對(duì)原始搜索指令進(jìn)行跨語(yǔ)言的語(yǔ)義擴(kuò)展,將傳統(tǒng)搜索進(jìn)行二次優(yōu)

        化,實(shí)現(xiàn)多語(yǔ)言的同步搜索,然后,利用Single-Pass聚類算法對(duì)返回的結(jié)果進(jìn)行聚類分析

        ,實(shí)現(xiàn)搜索結(jié)果的自動(dòng)取舍,為用戶進(jìn)行信息檢索提供有力幫助?該設(shè)計(jì)下一步研究:一是

        提取更準(zhǔn)確的文本特征,整理出更完善的語(yǔ)義資源庫(kù)?二是嘗試對(duì)文本以外的多媒體資料進(jìn)

        行自動(dòng)分析,擴(kuò)大語(yǔ)義檢索的范圍?

        參考文獻(xiàn)

        [1]楊麗.國(guó)外跨語(yǔ)言信息檢索的技術(shù)研究綜述[J].情報(bào)雜志,2008,

        (7):38.

        [2]鄒良群.互聯(lián)網(wǎng)公開(kāi)情報(bào)跨語(yǔ)言搜集自動(dòng)化處理研究[C].國(guó)際關(guān)系學(xué)院論文集,

        2009.

        [3]郭文.跨語(yǔ)言信息檢索中的查詢擴(kuò)展[J].心智與計(jì)算,2009,(1):1-8.

        [4]李莉,高慶獅.一種基于語(yǔ)義單元的查詢擴(kuò)展方法[J].計(jì)算機(jī)科學(xué),2008,35(

        2):201-204.

        [5]Metzler D,Croft W B.Latent Concept Expansion Using Markov Random Fields[

        C].Proceedings of the 30th annual international ACM SIGIR conference on Resea

        rch and developm ent in information retrieval.New York:ACM Press,2007:311-314.

        [6]Gey F C,Jiang H,Chen A.Manual Queries and Machine Translation in Cross

        —Language Retrieval and Interactive Retrieval With Cheshire 2 atTREC—7[M].

        InProc.ofthe 7thTextRetrievalE.valuation Conf,2005.

        (本文責(zé)任編輯:孫國(guó)雷)endprint

        詢?

        ②自動(dòng)查詢擴(kuò)展:使用語(yǔ)法分析?統(tǒng)計(jì)等技術(shù)從文檔集合中自動(dòng)學(xué)習(xí),獲得詞與詞間的相關(guān)

        信息[3]?

        本模塊采用自動(dòng)查詢擴(kuò)展和手工查詢擴(kuò)展相結(jié)合的方法,即將經(jīng)過(guò)語(yǔ)義詞典擴(kuò)展的詞以選擇

        項(xiàng)的方式提供給用戶,供用戶進(jìn)行選擇,從而解決同義詞擴(kuò)展過(guò)多,詞語(yǔ)相似度低的問(wèn)題?

        對(duì)于新出現(xiàn)的詞匯?地名?機(jī)構(gòu)名,通過(guò)定期更新知識(shí)庫(kù)記錄的方法加以解決?專業(yè)術(shù)語(yǔ)通

        常采用與專業(yè)詞典相結(jié)合的辦法,首先在通用語(yǔ)義詞典中查找詞意,當(dāng)其無(wú)法滿足要求時(shí),

        再轉(zhuǎn)向?qū)I(yè)詞典進(jìn)行查找?

        2.2.3 跨語(yǔ)言文本自動(dòng)聚類模塊分析

        搜索引擎是以關(guān)鍵字匹配的檢索方式,導(dǎo)致搜索引擎返回的結(jié)果中有許多是與用戶的查詢不

        相關(guān)的文檔,因此需要對(duì)返回的結(jié)果進(jìn)行篩選?通過(guò)對(duì)檢索結(jié)果的上下文進(jìn)行分析,以文檔

        的相似度為基礎(chǔ),對(duì)結(jié)果進(jìn)行聚類,能自動(dòng)地對(duì)檢索結(jié)果進(jìn)行篩選,從而解決查詢文檔過(guò)多

        的問(wèn)題?本模塊在對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類處理時(shí),通過(guò)計(jì)算結(jié)果文檔與設(shè)定模板的

        相似度,根據(jù)相似度閾值,分批對(duì)結(jié)果進(jìn)行聚類,大于閾值的文檔則搜集進(jìn)信息資料數(shù)據(jù)庫(kù)

        ,小于閾值的文檔則直接舍棄,當(dāng)滿足一定的條件時(shí),停止聚類,完成篩選?

        (1)文本聚類

        按照數(shù)據(jù)的相似性和差異性,將數(shù)據(jù)劃分為若干簇,同簇的盡量相似,不同簇的盡量相異,

        這種對(duì)數(shù)據(jù)進(jìn)行自動(dòng)組織的方法稱為聚類[2]?聚類通過(guò)比較數(shù)據(jù)的相似性和差異

        性,能發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在特征及分布規(guī)律,從而獲得對(duì)數(shù)據(jù)更深刻的理解和認(rèn)識(shí)?

        聚類分為兩種:檢索前聚類和檢索后聚類?檢索前聚類是在檢索之前對(duì)全部文檔進(jìn)行聚類,

        使相關(guān)的文檔在同一類中,在檢索過(guò)程中,每個(gè)文檔類以一個(gè)向量來(lái)表示,查詢向量先與各

        個(gè)類向量逐一進(jìn)行比較,最后得到相關(guān)度較高的類?檢索后聚類是在檢索之后對(duì)查詢相關(guān)的

        文檔進(jìn)行聚類?與檢索前聚類相比,檢索后聚類能夠分析相關(guān)文檔集合的特征,提高檢索效

        果?

        (2)聚類的過(guò)程

        該設(shè)計(jì)的聚類主要采用了Single-Pass啟發(fā)式聚類算法,首先,按照一定的次序,將第

        一篇文檔作為聚類依據(jù),將其余文檔按次序依次對(duì)其進(jìn)行相似性比較,如相似性達(dá)到系統(tǒng)設(shè)

        定的要求,即將其歸入該類,并重新計(jì)算其類心,作為其他文檔的匹配依據(jù),如未達(dá)到系統(tǒng)

        要求的閾值,則直接將該文檔作為新類的聚類依據(jù),所有文檔均依次按這一方式聚類?除此

        之外,為了提高聚類的效率,減少對(duì)原始網(wǎng)頁(yè)的處理時(shí)間,該聚類還對(duì)搜索引擎返回的結(jié)果

        進(jìn)行分批次聚類處理,每次聚類的過(guò)程相同,前一批次的聚類結(jié)果作為后一批次的聚類模板

        ?

        具體過(guò)程:設(shè)每一批次處理的文檔數(shù)量為N,在算法中,設(shè)計(jì)了一個(gè)計(jì)數(shù)器K,用于計(jì)算每一

        批處理的文檔中歸入類中的數(shù)量,如果K=0,表示在這一批次中符合要求的文檔數(shù)為0,則停

        止聚類,算法中模板的向量用模板集中向量的平均值來(lái)表示,平均值的計(jì)算公式為:

        mi=∑ni=1xi/n

        xi為模板集中的隨機(jī)向量,n為模板集中對(duì)象的個(gè)數(shù)?文檔與模板間的相似度用余弦公式

        來(lái)定義?

        在聚類中閾值的設(shè)定很關(guān)鍵,閾值設(shè)定過(guò)大,導(dǎo)致查全率的降低,閾值設(shè)定過(guò)小,則導(dǎo)致查

        準(zhǔn)率的降低?

        3 跨語(yǔ)言語(yǔ)義擴(kuò)展檢索結(jié)果分析TBZ〗

        本文實(shí)驗(yàn)設(shè)計(jì)了10組中英文查詢進(jìn)行檢索,利用百度?中搜?Google搜索引擎進(jìn)行原始指令

        搜索和擴(kuò)展后的指令搜索,并對(duì)前100個(gè)檢索結(jié)果采用查全率和查準(zhǔn)率進(jìn)行統(tǒng)計(jì),將統(tǒng)計(jì)結(jié)

        果進(jìn)行平均,然后得到評(píng)估結(jié)果(表1):

        表1 原始檢索和語(yǔ)義擴(kuò)展檢索結(jié)果評(píng)估

        實(shí)驗(yàn)結(jié)果表明,3個(gè)普通搜索引擎采用原始檢索的查全率和查準(zhǔn)率平均值分別為0.18和

        0.34,而采用語(yǔ)義擴(kuò)展檢索的查全率和查準(zhǔn)率平均值分別為0.35和0.53,通過(guò)語(yǔ)義擴(kuò)展

        對(duì)普通搜索引擎進(jìn)行跨語(yǔ)言語(yǔ)義擴(kuò)展的二次優(yōu)化,可以有效地提高跨語(yǔ)言檢索的查全率和查

        準(zhǔn)率,提高了網(wǎng)絡(luò)信息搜集的效率?

        4 結(jié)束語(yǔ)

        解決網(wǎng)絡(luò)語(yǔ)言差異的障礙,采用語(yǔ)義擴(kuò)展的跨語(yǔ)言檢索是一種較好的方法?該方法通過(guò)構(gòu)建

        跨語(yǔ)言語(yǔ)義擴(kuò)展檢索模型,對(duì)原始搜索指令進(jìn)行跨語(yǔ)言的語(yǔ)義擴(kuò)展,將傳統(tǒng)搜索進(jìn)行二次優(yōu)

        化,實(shí)現(xiàn)多語(yǔ)言的同步搜索,然后,利用Single-Pass聚類算法對(duì)返回的結(jié)果進(jìn)行聚類分析

        ,實(shí)現(xiàn)搜索結(jié)果的自動(dòng)取舍,為用戶進(jìn)行信息檢索提供有力幫助?該設(shè)計(jì)下一步研究:一是

        提取更準(zhǔn)確的文本特征,整理出更完善的語(yǔ)義資源庫(kù)?二是嘗試對(duì)文本以外的多媒體資料進(jìn)

        行自動(dòng)分析,擴(kuò)大語(yǔ)義檢索的范圍?

        參考文獻(xiàn)

        [1]楊麗.國(guó)外跨語(yǔ)言信息檢索的技術(shù)研究綜述[J].情報(bào)雜志,2008,

        (7):38.

        [2]鄒良群.互聯(lián)網(wǎng)公開(kāi)情報(bào)跨語(yǔ)言搜集自動(dòng)化處理研究[C].國(guó)際關(guān)系學(xué)院論文集,

        2009.

        [3]郭文.跨語(yǔ)言信息檢索中的查詢擴(kuò)展[J].心智與計(jì)算,2009,(1):1-8.

        [4]李莉,高慶獅.一種基于語(yǔ)義單元的查詢擴(kuò)展方法[J].計(jì)算機(jī)科學(xué),2008,35(

        2):201-204.

        [5]Metzler D,Croft W B.Latent Concept Expansion Using Markov Random Fields[

        C].Proceedings of the 30th annual international ACM SIGIR conference on Resea

        rch and developm ent in information retrieval.New York:ACM Press,2007:311-314.

        [6]Gey F C,Jiang H,Chen A.Manual Queries and Machine Translation in Cross

        —Language Retrieval and Interactive Retrieval With Cheshire 2 atTREC—7[M].

        InProc.ofthe 7thTextRetrievalE.valuation Conf,2005.

        (本文責(zé)任編輯:孫國(guó)雷)endprint

        猜你喜歡
        查全率信息檢索詞典
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        海量圖書(shū)館檔案信息的快速檢索方法
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        基于詞嵌入語(yǔ)義的精準(zhǔn)檢索式構(gòu)建方法
        詞典例證翻譯標(biāo)準(zhǔn)探索
        醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
        教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
        河南科技(2014年11期)2014-02-27 14:10:19
        中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
        公共圖書(shū)館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書(shū)館為例
        性色av无码一区二区三区人妻| 蜜桃久久综合一区二区| 一本久久精品久久综合| 欧美巨鞭大战丰满少妇| 巨茎中出肉欲人妻在线视频| 亚洲av无码一区二区三区性色 | 亚洲s色大片在线观看| 精品无码人妻一区二区三区不卡| 美女高潮无遮挡免费视频| 无码av永久免费大全| 极品精品视频在线观看| 国产精品久久久三级18| 国产精品18久久久| 亚洲av乱码中文一区二区三区 | 日韩一区二区,亚洲一区二区视频| 国产精品一区二区三区在线观看| 日韩欧美在线综合网另类| 欧美日韩色另类综合| 亚洲熟妇乱子伦在线| 国产av区亚洲av毛片| 美女扒开腿露内裤免费看| 不卡av电影在线| 色一情一区二| 亚洲最大av免费观看| 人妻蜜桃日产一本久道综合在线| 欲求不満の人妻松下纱荣子 | 国产成人av 综合 亚洲| 男人深夜影院无码观看| 99久久精品人妻一区二区三区| 无套内谢孕妇毛片免费看| 国产成熟人妻换╳╳╳╳| 国产成人免费一区二区三区| 中文亚洲第一av一区二区| 国产精品第一二三区久久| 久久久久亚洲av成人网人人网站| 激情综合五月| 午夜福利院电影| 国产精品网站夜色| 美女人妻中文字幕av| 亚洲最大免费福利视频网| 国产精品亚洲欧美大片在线看|