亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        信息管理中的中文信息檢索

        2008-12-31 00:00:00蔣運(yùn)韞
        商場(chǎng)現(xiàn)代化 2008年12期

        [摘要] 本文首先從起源,概念,影響范圍,中西文信息檢索之比較及檢索模型幾個(gè)方面總體介紹了信息檢索。繼而引入基于向量模型的信息檢索方法,從它的相關(guān)概念包括向量、權(quán)值、相似度等到它的實(shí)現(xiàn)方法。在此基礎(chǔ)上以經(jīng)濟(jì)類(lèi)文檔信息檢索為例詳細(xì)解釋了向量空間模型的實(shí)際應(yīng)用。最后總結(jié)此算法的不足之處及其對(duì)傳統(tǒng)檢索方法的改良。

        [關(guān)鍵詞] 向量空間 中文 信息檢索 經(jīng)濟(jì)

        信息檢索( Information Retrieval) 是一個(gè)古老而又全新的話(huà)題。說(shuō)它古老,因?yàn)樽詮挠辛宋墨I(xiàn)便有了信息檢索。當(dāng)人們從中查找所需信息時(shí),信息檢索也就應(yīng)運(yùn)而生。只不過(guò)那時(shí)可檢索的對(duì)象較少,因而檢索是一個(gè)不自覺(jué)的過(guò)程。早期的信息檢索主要是手工檢索,人們通過(guò)“心想——手翻——眼看”的方式進(jìn)行。隨著社會(huì)的發(fā)展和信息量的增加,人們逐漸認(rèn)識(shí)到信息檢索的必要性與重要性,信息檢索逐漸作為一門(mén)新興的學(xué)科發(fā)展起來(lái)。現(xiàn)代信息檢索是以計(jì)算機(jī)科學(xué)與技術(shù)、網(wǎng)絡(luò)技術(shù)、光盤(pán)技術(shù)、通信技術(shù)等現(xiàn)代信息技術(shù)在信息存儲(chǔ)與檢索中的應(yīng)用為基礎(chǔ)發(fā)展起來(lái)的。

        一、信息檢索簡(jiǎn)介

        1.概念

        廣義的信息檢索范圍很大,可以說(shuō)從書(shū)本、報(bào)紙以及其他的各種媒體中查找人們需要的信息都可以稱(chēng)為信息檢索。

        狹義的信息檢索是特指利用計(jì)算機(jī)這個(gè)高效的工具對(duì)各種信息進(jìn)行檢索的技術(shù)。信息檢索的內(nèi)容包括文本、圖像、視頻和音頻等多種,但本文只討論文本信息的檢索技術(shù),特別是中文信息的檢索技術(shù)。

        信息檢索是一門(mén)研究從一定規(guī)模的文檔庫(kù)(Document Collection)中找出滿(mǎn)足用戶(hù)提出的信息需求(User Information Need)的技術(shù)。

        2.Web信息檢索

        Web的出現(xiàn)大大地促進(jìn)了信息檢索技術(shù)的發(fā)展。Web上有異常豐富但又十分混亂的信息資源,其中絕大部分有用的信息還沒(méi)有挖掘出來(lái)。這是因?yàn)槟壳斑€沒(méi)有特別好的信息處理和檢索工具。這一領(lǐng)域的開(kāi)發(fā)仍然處于初級(jí)階段。

        3.中西文信息檢索比較

        在文本信息檢索領(lǐng)域,西文信息檢索的發(fā)展較為迅速。西文信息檢索系統(tǒng)可以利用向量空間表示檢索信息內(nèi)容,并將自然語(yǔ)言處理應(yīng)用于信息檢索,大大提高了信息檢索的準(zhǔn)確性。中文信息的檢索和英文信息的檢索在很多地方是一致的,但也有一些不同。比如中文詞語(yǔ)之間沒(méi)有空格,因此在索引前需要進(jìn)行詞語(yǔ)切分。此外,與英文相比,漢語(yǔ)句法分析和語(yǔ)義理解更為困難。

        4.信息檢索的模型

        一般有兩種信息檢索模型:基于統(tǒng)計(jì)的模型和基于語(yǔ)義的模型?;诮y(tǒng)計(jì)的模型是應(yīng)用某些統(tǒng)計(jì)的手段從被檢索文檔和高標(biāo)注等級(jí)文檔中查詢(xún)與用戶(hù)需求匹配程度最好的文檔;而基于語(yǔ)義的模型則嘗試對(duì)需求實(shí)現(xiàn)一定程度語(yǔ)法語(yǔ)義分析,即對(duì)自然語(yǔ)言文本進(jìn)行一定程度的理解并重新生成查詢(xún)。

        基于統(tǒng)計(jì)的模型主要有:布爾模型(Boolean Model)、擴(kuò)展布爾模型(Extended Boolean Model)、向量空間模型(Vector Space Model)以及概率模型(Probabilistic Model)等。

        二、向量模型

        向量模型是重要的檢索模型,其主要優(yōu)點(diǎn)在于:a、通過(guò)對(duì)特征項(xiàng)的加權(quán)改進(jìn)了模型的檢索效果;b.模型的部分匹配策略允許檢索出與查詢(xún)條件相接近的文獻(xiàn);c.相似度的引進(jìn)使得能夠?qū)Σ樵?xún)結(jié)果進(jìn)行排序,以倒排文檔方式提交結(jié)果。

        1.文檔和項(xiàng)的向量空間表示

        首先把一個(gè)文檔進(jìn)行分詞處理,并去除那些停用詞,如“我”、“的”、“人們”等。然后對(duì)剩余的詞進(jìn)行合并處理。

        在一個(gè)給定的集合中先對(duì)每個(gè)文檔進(jìn)行以上的操作,獲得每個(gè)文檔索引項(xiàng)的集合。再把所有文檔的索引項(xiàng)進(jìn)行合并,形成了一個(gè)代表整個(gè)文檔集合的索引項(xiàng)集合,整個(gè)索引項(xiàng)集合表示了一個(gè)“空間”。在一個(gè)文檔空間中,可以給每個(gè)索引項(xiàng)賦一個(gè)權(quán)值,代表這個(gè)索引項(xiàng)在這個(gè)文檔中的地位。如表1所示,文檔1的向量空間是(3,4,5),文檔2的向量空間是(2,3,3)。

        與文檔空間相對(duì)應(yīng)的一個(gè)概念是“項(xiàng)空間”,它是指一個(gè)索引項(xiàng)在文檔集合中的各個(gè)文檔權(quán)值的集合。如表1所示,索引項(xiàng)“經(jīng)濟(jì)”的向量空間是(4,3,0,0),索引項(xiàng)“金融”的向量空間是(5,3,0,5)。

        于是文獻(xiàn)和查詢(xún)均可用由項(xiàng)構(gòu)成的向量來(lái)表示:d=(t1,t2, ……,tn) 。項(xiàng)的權(quán)重(term weight) :對(duì)于有n 個(gè)不同的項(xiàng)的系統(tǒng),文獻(xiàn)D=(t1,t2,……,tn)。

        2.項(xiàng)權(quán)值

        項(xiàng)t k(1≤k≤n)常常被賦予一個(gè)數(shù)值Wk,表示它在文獻(xiàn)中的重要程度,稱(chēng)為項(xiàng)t k 的權(quán)重。因此,我們一般用D=(w1,w2,…,wn)的形式表示文獻(xiàn)。特征項(xiàng)的權(quán)重計(jì)算,是人為賦予的,因此主觀性較強(qiáng),但比較權(quán)威的確定權(quán)重的方法是運(yùn)用TF - IDF 公式,即Wik = tfik/dfk=tfik ×idfk,其中tfik為特征項(xiàng)Tk在文檔Di中的出現(xiàn)頻率,稱(chēng)為項(xiàng)頻率(term frequency);dfk則是文檔集D中出現(xiàn)特征項(xiàng)Tk的文檔的數(shù)量,稱(chēng)為文檔頻率;idfk為dfk的倒數(shù),稱(chēng)為反轉(zhuǎn)文檔頻率(inverteddocument frequency)。另外,還應(yīng)考慮到文檔的長(zhǎng)度,否則長(zhǎng)文檔易被檢出,而短文檔會(huì)被漏檢,所以通常還要對(duì)上面公式進(jìn)行標(biāo)準(zhǔn)化處理。

        假設(shè)有三個(gè)項(xiàng):“經(jīng)濟(jì)”、“金融”和“計(jì)算機(jī)”,它們?cè)诓煌臋n中的權(quán)值如表1所示。

        根據(jù)這個(gè)表,可以畫(huà)出權(quán)值和文檔的三維向量空間。

        3.計(jì)算向量之間的相似程度

        相似度S(Similarity):指兩個(gè)文檔內(nèi)容相關(guān)程度的大小,當(dāng)文檔以向量來(lái)表示時(shí),可以使用向量文檔向量間的距離來(lái)衡量,一般使用內(nèi)積或夾角θ的余弦來(lái)計(jì)算,兩者夾角越小說(shuō)明相似度越高。由于查詢(xún)也可以在同一空間里表示為一個(gè)查詢(xún)向量(見(jiàn)圖1),可以通過(guò)相似度計(jì)算公式計(jì)算出每個(gè)文檔向量與查詢(xún)向量的相似度,排序這個(gè)結(jié)果后與設(shè)立的閾值進(jìn)行比較。如果大于閾值則頁(yè)面與查詢(xún)相關(guān),保留該頁(yè)面查詢(xún)結(jié)果;如果小于則不相關(guān),過(guò)濾此頁(yè)。這樣就可以控制查詢(xún)結(jié)果的數(shù)量,加快查詢(xún)速度。

        三、以經(jīng)濟(jì)信息檢索為例的實(shí)例分析

        經(jīng)濟(jì)發(fā)展依賴(lài)于自然資源的開(kāi)發(fā)與利用,也離不開(kāi)經(jīng)濟(jì)信息資源的開(kāi)發(fā)和利用。開(kāi)發(fā)經(jīng)濟(jì)信息資源,實(shí)際上是對(duì)人類(lèi)智力的開(kāi)發(fā),是一種知識(shí)和科學(xué)技術(shù)的開(kāi)發(fā),一種生產(chǎn)技能和管理技能的開(kāi)發(fā)?,F(xiàn)在,經(jīng)濟(jì)信息已經(jīng)滲透到現(xiàn)代生活的各個(gè)領(lǐng)域,有效地地開(kāi)發(fā)和利用經(jīng)濟(jì)信息,提高經(jīng)濟(jì)信息的傳播速度已經(jīng)成為現(xiàn)代經(jīng)濟(jì)發(fā)展的一種推動(dòng)力,能夠大大提高勞動(dòng)者的智力水平,從而促進(jìn)經(jīng)濟(jì)的發(fā)展。因此,在以經(jīng)濟(jì)建設(shè)為中心、大力發(fā)展社會(huì)主義經(jīng)濟(jì)的過(guò)程中,必須不斷地開(kāi)發(fā)和利用經(jīng)濟(jì)信息資源。

        經(jīng)濟(jì)信息是一種社會(huì)資源,作用于經(jīng)濟(jì)活動(dòng)過(guò)程,已經(jīng)成為現(xiàn)代社會(huì)經(jīng)濟(jì)發(fā)展的一個(gè)先決條件?,F(xiàn)代經(jīng)濟(jì)建設(shè)是一個(gè)龐大而復(fù)雜的系統(tǒng),需要依據(jù)大量的經(jīng)濟(jì)信息去控制、指揮、協(xié)調(diào)和組織系統(tǒng)的內(nèi)部關(guān)系,系統(tǒng)和系統(tǒng)之間也需要靠經(jīng)濟(jì)信息去聯(lián)系,才能使經(jīng)濟(jì)活動(dòng)達(dá)到人們預(yù)期的目標(biāo)。在科學(xué)技術(shù)迅猛發(fā)展的社會(huì)里,經(jīng)濟(jì)信息資源顯得更加重要。

        假設(shè)現(xiàn)有一個(gè)包含4篇經(jīng)濟(jì)金融類(lèi)相關(guān)信息文檔的集合,這4篇文檔如下:

        D1:金融投資的對(duì)象是金融資產(chǎn)……

        D2:金融資產(chǎn)是獲得投資收益的資產(chǎn)……

        D3:證券投資、基金投資和期權(quán)投資組成金融投資……

        D4:獲得投資收益是證券性金融投資的主要目的……

        檢索表達(dá)式Q為:金融投資的資產(chǎn)收益。

        首先,需要對(duì)文檔和檢索表達(dá)式進(jìn)行分詞處理,其結(jié)果如下:

        D1:金融/投資/的/對(duì)象/是/金融/資產(chǎn)/……

        D2:金融/資產(chǎn)/是/獲得/投資/收益/的/資產(chǎn)/……

        D3:證券/投資/、/基金/投資/和/期權(quán)/投資/組成/金融/投資/……

        D4:獲得/投資/收益/是/證券/性/金融/投資/的/主要/目的/……

        Q:金融/投資/的/資產(chǎn)/收益/。

        然后除去停用詞,去除后的文檔如下:

        D1:金融/投資/對(duì)象/金融/資產(chǎn)/……

        D2:金融/資產(chǎn)/獲得/投資/收益/資產(chǎn)/……

        D3:證券/投資/基金/投資/期權(quán)/投資/組成/金融/投資/……

        D4:獲得/投資/收益/證券/金融/投資/主要/目的/……

        Q:金融/投資/資產(chǎn)/收益/。

        計(jì)算項(xiàng)的權(quán)值根據(jù)公式

        各個(gè)索引項(xiàng)的df和idf值如表2所示

        各個(gè)索引項(xiàng)在文檔中的頻度如表3所示

        則各個(gè)索引項(xiàng)在文檔中的權(quán)值如表4所示

        檢索表達(dá)式的權(quán)值很簡(jiǎn)單,如表5所示

        采用內(nèi)積法計(jì)算向量的相似度,則可以看出,文檔D3與檢索表達(dá)式的相似度最高,D1、D2、D4相同且低于D3。

        四、算法分析總結(jié)

        算法的計(jì)算復(fù)雜程度還需要進(jìn)一步探討,目前這些研究都還不夠深入,許多問(wèn)題還有待于進(jìn)一步探討;同時(shí)由于自然語(yǔ)言的復(fù)雜性,新查詢(xún)向量的查全率和查準(zhǔn)率雖然有所提高向量模型是以假設(shè)向量空間的各維之間相互正交(即各關(guān)鍵字之間相互獨(dú)立) 為前提的,因而不可避免地存在由此帶來(lái)的損失關(guān)鍵字間的相關(guān)性的缺點(diǎn),可它把對(duì)文檔內(nèi)容和查詢(xún)要求的處理簡(jiǎn)化為向量空間中向量的運(yùn)算,克服了布爾模型的二值評(píng)價(jià)的缺點(diǎn),可以計(jì)算出文檔與查詢(xún)式的相關(guān)程度,因而可以很容易地進(jìn)行輸出結(jié)果的排序,用戶(hù)相關(guān)性反饋機(jī)制也很容易實(shí)現(xiàn),尤其是具有對(duì)處理海量數(shù)據(jù)的適應(yīng)性等種種優(yōu)點(diǎn)使得它自誕生以來(lái),至今都有很強(qiáng)的生命力。

        參考文獻(xiàn):

        [1]雷景生林冬雪符淺淺:基于改進(jìn)向量空間模型的Web信息檢索技術(shù)研究[J].計(jì)算機(jī)工程, 2005, 1: 14~16

        [2]王曉黎王文杰:基于向量空間模型的文本檢索系統(tǒng) [J].微電子學(xué)與計(jì)算機(jī), 2006, 23: 188~190

        [3]包金龍:基于向量空間模型的信息檢索系統(tǒng)的設(shè)計(jì) [J].情報(bào)檢索, 2005, 7:44~45

        [4]安茹娜:淺析經(jīng)濟(jì)文獻(xiàn)信息的開(kāi)發(fā)和利用[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2007,12:54~55

        [5]劉海峰王元元:基于向量模型的文本檢索若干問(wèn)題研究 [J].情報(bào)雜志,2006,10:57~59

        [6]齊繼國(guó)高埃汪東升:基于多用戶(hù)協(xié)同反饋的信息檢索模型[J].小型微型計(jì)算機(jī)系統(tǒng),2003,7:1152~1155

        在线免费黄网| 午夜性刺激免费看视频| 精品国产青草久久久久福利| 婷婷丁香五月中文字幕| 亚洲成在人线电影天堂色| 在线亚洲精品一区二区三区| 老熟女的中文字幕欲望| 无码人妻一区二区三区在线视频| 百合av一区二区三区| 久久婷婷夜色精品国产 | 无码日韩精品一区二区三区免费| 國产AV天堂| 久久蜜臀av一区三区| 亚洲天堂一区av在线| 国产成人一区二区三区影院动漫| 人妻久久999精品1024| 午夜一区二区三区在线观看| 国产激情久久久久久熟女老人| 少妇被猛男粗大的猛进出| 免费无码中文字幕A级毛片| 在线视频免费自拍亚洲| 精品久久久久久无码专区| 精品人妻系列无码人妻免费视频| 亚洲精品国产二区三区在线| 精品国产一区二区三区a| 亚洲日韩av无码一区二区三区人| 狠狠色狠狠色综合久久第一次| 国产精品性一区二区三区| 国产一区二区三区亚洲avv| av无码人妻中文字幕| 国产短视频精品区第一页| 国产亚洲日本精品二区| 97人伦影院a级毛片| 亚洲黄色电影| 亚洲视频一区二区久久久| 华人免费网站在线观看| 男男受被攻做哭娇喘声视频| 中出高潮了中文字幕| 亚洲在线精品一区二区三区| 少妇下面好紧好多水真爽播放| 97色偷偷色噜噜狠狠爱网站97|