亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        潛在語義索引理論及其應(yīng)用

        2015-07-10 19:01:19劉健
        卷宗 2015年1期
        關(guān)鍵詞:文檔檢索語義

        劉健

        摘 要:潛在語義索引(LSI)是一種信息檢索代數(shù)模型,它使用統(tǒng)計計算的方法對大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語義結(jié)構(gòu),并用這種潛在的語義結(jié)構(gòu)來表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡化文本向量實現(xiàn)降維的目的。文章分析了潛在語義索引的理論基礎(chǔ):向量空間模型和奇異值分解;闡述了潛在語義空間構(gòu)成的具體步驟;并探討了潛在語義索引在文本檢索和圖像檢索等方面的應(yīng)用。

        關(guān)鍵字:潛在語義索引;VSM;SVD;信息檢索

        1 引言

        在現(xiàn)代信息檢索系統(tǒng)中,通過關(guān)鍵詞進(jìn)行檢索是最為常見的做法。大量研究表明,基于關(guān)鍵詞的檢索系統(tǒng)存在所謂“同義詞”和“反義詞”的固有缺陷:前者是指表達(dá)同一概念的詞語可以有多個,因此,用戶查詢中所用的詞語很可能在相關(guān)文檔中不存在,從而造成檢出率下降;后者是指同一個詞語可以表達(dá)多個概念,造成檢出的文檔中雖然包含該詞語,但在上下文語境中的意思卻非用戶所期望,從而導(dǎo)致準(zhǔn)確率下降。潛在語義索引方法正是為了解決上述問題而提出的。

        2 潛在語義索引概述

        潛在語義索引,也稱隱性語義索引或隱含語義索引,用于知識獲取和展示的計算理論和方法,它使用統(tǒng)計計算的方法對大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語義結(jié)構(gòu),并用這種潛在的語義結(jié)構(gòu)來表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡化文本向量實現(xiàn)降維的目的。

        3 潛在語義索引的理論基礎(chǔ)

        3.1 向量空間模型

        向量空間模型的基本思想是以向量來表示文本,它的優(yōu)點在于處理逆輯簡單、快捷,它將非結(jié)構(gòu)化的文本表示為向量形式,使得各種數(shù)學(xué)處理成為可能。例如:2008年原媛等發(fā)表的《基于向量空間的信息檢索模型的改進(jìn)》中,因詞語的同義和多義,不能滿足文檔向量相互獨立方面,提出潛在語義索引模型[1]。

        3.2 矩陣分解方式

        早先信息檢索利用正交分解方法,但這種方法已經(jīng)被奇異值分解取代。

        對詞匯一文本矩陣A的奇異值分解可以用以下公式表示:

        (1)

        其中U是t×t的正交矩陣,它的每一列是A的左奇異向量,V是d×d正交矩陣,它的每一列是A的右奇異向量, Σ是t×d對角矩陣,對角線元素是A的奇異值,按大小順序排列,即λ1≥λ2≥……≥λmin(t,d)。A的k秩近似Ak是讓A的除了前k個最大奇異值以外的奇異值都置為零。得到以下公式:

        (2)

        其中Uk是U的前k列形成的t×k矩陣,Vk是V的前k列形成的d×k矩陣,Σk是

        A的k個雖大奇異值形成的k×k對角矩陣。

        4 潛在語義空間構(gòu)成的具體步驟

        4.1 “詞匯-文檔”矩陣的形成

        在潛在語義索引中,則需要首先構(gòu)建一個詞匯-文檔矩陣X。由各索引詞在每篇文本中的出現(xiàn)頻率生成詞匯-文檔矩陣X,該矩陣中,第i行第j列的元素數(shù)值Xij表示第i個索引詞在第j篇文本中出現(xiàn)的頻率。

        4.2 奇異值分解

        對X進(jìn)行奇異值分解后,得T、S、D三個矩陣,S為r階對角矩陣,對角線元素為奇異值,T為t×r陣,D為r×d陣。每一詞匯、每篇文本都能根據(jù)分解結(jié)果,在一個幾何空間內(nèi),找到其相應(yīng)的固定點,然后,可以依據(jù)其相互間距離之遠(yuǎn)近來判斷其相關(guān)程度之高低,詞匯的空間位置由t×r陣T而定,文本則由r×d陣D而定,該空間就被稱為r維潛在語義空間。

        4.3 提問式的幾何表示

        詞匯和文本在空間內(nèi)定下坐標(biāo)后,還必須為提問式找到其幾何表示方法使它能在同一個k維語義空間里表示,然后與空間里的文本進(jìn)行比較。由于提問式和文本相似,通常也由多個詞匯構(gòu)成,因此可以將它稱為“偽文本”,記作q。

        將提問式看作為普通文本,效仿“詞匯-文檔”矩陣的建構(gòu)方法,根據(jù)索引詞在提問式中出現(xiàn)的頻次,也能得到一列向量,記作Xq,用下式對q進(jìn)行處理:

        (3)

        Dq即為提問式的向量表示,即得k維語義空間中提問式的坐標(biāo)。

        詞匯、文本、提問式三者的坐標(biāo)向量,構(gòu)成了我們所需的潛在語義空間。

        5 潛在語義索引的應(yīng)用

        5.1 文本檢索

        5.1.1 跨語言檢索

        近幾年對于基于潛在語義索引的跨語言檢索有了快速發(fā)展,比如2010年寧健等發(fā)表的《基于改進(jìn)潛在語義分析的跨語言檢索》采用基于奇異值矩陣分解的改進(jìn)潛在語義分析的方法為生物醫(yī)學(xué)文獻(xiàn)雙語摘要進(jìn)行建模 [2]。

        5.1.2 信息過濾

        信息過濾技術(shù)結(jié)合了現(xiàn)有的信息檢索方法,對解決網(wǎng)絡(luò)信息的個性化、動態(tài)化以及提高被查詢信息對用戶的可用度有很大作用。2008年張虹等發(fā)表的《基于隱式反饋的LSI個性化信息過濾方法的研究》提出利用隱式反饋技術(shù)來解決如何提供給不同用戶以不同信息結(jié)果這一問題[3]。

        5.1.3 文本聚類

        潛在語義索引可用于文本聚類中,提高文本聚類的準(zhǔn)確率。比如2011年鐘將等發(fā)表的《基于成對約束的主動半監(jiān)督文本聚類》提出一種基于成對約束的主動半監(jiān)督文本聚類方法 [4]。

        5.2 圖像檢索

        直觀地看,圖像可以表示為像素矩陣,但是單個像素并不具備語義,所以必須尋找能反映圖像語義內(nèi)容的矩陣。2009年龔主杰發(fā)表的《潛在語義索引在圖像檢索中的應(yīng)用》中提出了將數(shù)學(xué)上的凸點從圖像中提取出來后,用局部特征描述符來描述它們并可以構(gòu)建一個“可視詞匯—圖像矩陣” [5]。

        5.3 認(rèn)知科學(xué)

        在認(rèn)知心理學(xué)中,LSI是一種語言學(xué)習(xí)模型。LSI的學(xué)習(xí)同孩子的學(xué)習(xí)過程類似,這兩者的學(xué)習(xí)效率相差也不大。Landauer和Dumais教授等,通過文本理解、托福測驗、學(xué)校兒童對詞匯的學(xué)習(xí)等等方面,應(yīng)用LSI與人類行為相對照,得出了LSI可以獲取、歸納和表述知識的結(jié)論。

        5.4 潛在語義索引的其他應(yīng)用

        目前,除上述幾種常見的潛在語義索引應(yīng)用之外,許多學(xué)者還提出了許多潛在語義索引的應(yīng)用領(lǐng)域,拓展了潛在語義索引的應(yīng)用范圍。比如2008年米曉芳等發(fā)表的《基于潛在語義差異的醫(yī)學(xué)網(wǎng)頁聚類》提出一種新的潛在語義差異模型,利用 FCM 算法進(jìn)行聚類并計算類間包含度 [6]。

        6 結(jié)束語

        潛在語義索引通過奇異值分解,將文檔在高維向量空間模型中的表示,投影到低維的潛在語義空間中,有效地縮小了問題的規(guī)模。它生成的高維向量矩陣適于對象間的匹配比較;它不僅是知識表述的工具,而且也是機器學(xué)習(xí)的一種模型。隨著不斷擴充新的方法來完善LSI,以及進(jìn)一步研究如何將LSI基本思想方法和圖像等具體處理技術(shù)相結(jié)合,使其在更為廣闊的領(lǐng)域中得到有效的利用。

        參考文獻(xiàn)

        [1]原媛,彭建華,張汝云.基于向量空間的信息檢索模型的改進(jìn)[J].計算機工程與設(shè)計,2008,29(23):6012-6015.

        [2]寧健,林鴻飛. 基于改進(jìn)潛在語義分析的跨語言檢索[J]. 中文信息學(xué)報,2010,24(3):105-111.

        [3]張虹,徐群益,蘇晨. 基于隱式反饋的 LSI個性化信息過濾方法的研究[J]. 電腦知識與技術(shù),2008,(12):506-508.

        [4]鐘將,劉龍海,梁傳偉. 基于成對約束的主動半監(jiān)督文本聚類[J].計算機工程,2011,37(13):183-186.

        [5]龔主杰. 潛在語義索引在圖像檢索中的應(yīng)用[J]. 圖書館學(xué)刊,2009,(5):91-93.

        [6]米曉芳,秦洋,王立宏,宋宜斌. 基于潛在語義差異的醫(yī)學(xué)網(wǎng)頁聚類[J]. 計算機工程,2008,34(19):64-66.

        猜你喜歡
        文檔檢索語義
        有人一聲不吭向你扔了個文檔
        語言與語義
        2019年第4-6期便捷檢索目錄
        基于RI碼計算的Word復(fù)制文檔鑒別
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        認(rèn)知范疇模糊與語義模糊
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        語義分析與漢俄副名組合
        一进一出一爽又粗又大| 午夜麻豆视频在线观看| 刚出嫁新婚少妇很紧很爽| 亚洲国产成人精品无码区在线秒播 | 国产福利一区二区三区在线观看| 久久久精品人妻一区二区三区四区| 无码任你躁久久久久久久| 国产欧美精品在线一区二区三区 | 久久精品一区二区熟女| 老色鬼在线精品视频| 国产人妻无码一区二区三区免费| 丰满少妇又紧又爽视频| 99久久久69精品一区二区三区| 日本污ww视频网站| 亚洲综合色自拍一区| 手机色在线| 女同av一区二区三区| 国产七十六+老熟妇| 激情内射亚洲一区二区三区爱妻| 久久精品国产成人午夜福利| 最近更新中文字幕一区二区| 亚洲图片日本视频免费| 伊人久久大香线蕉免费视频| 久久精品国产亚洲av成人无人区 | 亚洲国产中文字幕无线乱码 | 亚洲 欧美 激情 小说 另类| 久久午夜无码鲁丝片直播午夜精品| 国产一区二区在线免费视频观看| 久久精品国产色蜜蜜麻豆国语版| 九九热线有精品视频86| 久久精品视频在线看99| 亚洲成A人A∨久在线观看| 日本亚洲中文字幕一区| 美女把尿囗扒开让男人添| 在线视频 亚洲精品| 精品国产一区二区三区九一色| 国产午夜av秒播在线观看| 国产乱理伦片在线观看| 国产男女做爰猛烈视频网站| 偷拍一区二区三区四区| 亚洲日本中文字幕天天更新|