亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于奇異值分解的藏文Web不良信息檢索算法研究

        2015-02-21 04:06:26普措才仁蔡光波
        關(guān)鍵詞:傾向性藏文文檔

        普措才仁,蔡光波

        (西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅蘭州730030)

        基于奇異值分解的藏文Web不良信息檢索算法研究

        普措才仁,蔡光波

        (西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,甘肅蘭州730030)

        闡述了藏文Web不良信息的特點(diǎn)、類型、危害性,設(shè)計(jì)了傾向性藏文Web不良文本過濾系統(tǒng)結(jié)構(gòu).提出一種藏文Web不良文本檢索算法.該算法從不良文本中提取傾向性關(guān)鍵詞項(xiàng),根據(jù)矩陣奇異值分解方法中的轉(zhuǎn)移概率構(gòu)造出傾向性關(guān)鍵詞項(xiàng)的狀態(tài)矩陣,提取平面坐標(biāo)空間第一像限的奇異值向量作為復(fù)特征向量,利用向量間的余弦相似度作為文本檢索的相似度度量.實(shí)驗(yàn)結(jié)果表明,該算法在檢索準(zhǔn)確率和運(yùn)算效率上都優(yōu)于傳統(tǒng)的 LSA 算法.

        不良信息;轉(zhuǎn)移概率;奇異值分解;狀態(tài)矩陣

        藏文網(wǎng)絡(luò)不良信息是指互聯(lián)網(wǎng)上出現(xiàn)的違背社會(huì)主義精神文明建設(shè)要求,違背中華民族優(yōu)良文化傳統(tǒng)與習(xí)慣,以及其他違背社會(huì)公德的各類信息,包括文字、圖片、音視頻等形式.從其危害性來說,藏文網(wǎng)絡(luò)不良信息是指互聯(lián)網(wǎng)上對人的身體造成損害,給人的精神帶來污染,使人的思想產(chǎn)生混亂,讓人的心理變得異常的垃圾信息,它們包括危害國家安全與穩(wěn)定的信息、色情信息、暴力信息、迷信信息等.那么如何從藏文網(wǎng)絡(luò)的信息資源中檢索出滿足用戶需求的不良信息子集,涉及到信息的獲取、表示、組織、存儲(chǔ)及訪問等問題.藏文網(wǎng)絡(luò)不良信息檢索的任務(wù)主要是研究如何從給定的無結(jié)構(gòu)或半結(jié)構(gòu)化文檔集中找出與用戶相關(guān)的文檔子集,并依據(jù)相關(guān)度排序把檢索結(jié)果返回給用戶.由于目前網(wǎng)上信息的表現(xiàn)形式大多為文本,因此我們認(rèn)為,文本過濾主要是興趣過濾,即根據(jù)用戶模型(如用戶背景、興趣、行為、風(fēng)格等)對文本進(jìn)行搜集整理,將用戶感興趣的文本提交給用戶,這更多是從文本的主題方面考慮的,譬如,用戶只對體育類的內(nèi)容感興趣,或者更進(jìn)一步分,只對足球的內(nèi)容感興趣,“體育”和“足球”都是描述文本主題的詞.然而,網(wǎng)上還有很多評論性的文章,這些文章往往代表作者對某一個(gè)主題的看法和立場,用戶自然會(huì)有這樣的需求:我只需要得到對這一主題的某種立場的文檔.為此,作者提出了傾向性文本過濾的概念.文本信息分為三種:與主題完全無關(guān)的稱為無關(guān)文本,對主題持有積極態(tài)度的稱為正面文本,對主題持有消極態(tài)度的稱為負(fù)面文本.在對文本進(jìn)行分析的時(shí)候,不僅分析其包含的主題內(nèi)容,還判斷它的態(tài)度和立場,即傾向性.文本過濾的條件不是僅僅涉及的主題內(nèi)容,而是帶有傾向性的主題信息.直接的例子就是不良文本的過濾,即根據(jù)領(lǐng)域模型(如領(lǐng)域知識(shí)、文本處理和領(lǐng)域組織結(jié)構(gòu))對文本進(jìn)行攔截,使用戶無法接觸到不良文本.網(wǎng)絡(luò)上的不良文本包括色情、暴力、邪教、賭博等違反國家政策的內(nèi)容,其中有些文本可以分析其主題從而實(shí)施過濾,比如色情、暴力等;但有些文本表現(xiàn)的是對某種問題如政治問題的立場和傾向,如批判和宣揚(yáng)邪教的,這時(shí)不僅得分析出它的主題,還要判斷其傾向以確定過濾與否.文中針對這種傾向性文本過濾,作者提出了基于奇異值分解的傾向性藏文文本檢索算法.該算法利用字母統(tǒng)計(jì)的轉(zhuǎn)移概率矩陣建立關(guān)鍵詞的狀態(tài)矩陣,并進(jìn)行奇異值分解提取復(fù)特征向量.

        1 基于奇異值分解的藏文不良文本檢索算法

        圖1設(shè)計(jì)了傾向性文本過濾系統(tǒng)結(jié)構(gòu)流程.

        1.1 構(gòu)造頻率矩陣、轉(zhuǎn)移概率矩陣和狀態(tài)矩陣

        對于藏文Web上提取的一篇藏文文本Γ,去掉其非字母的字符如空格、標(biāo)點(diǎn)、數(shù)字等,得到一個(gè)用藏文字母組成的有序字符串Γ.設(shè)T是藏文30個(gè)字母集合,N是自然數(shù)集合,描述如下:

        N{1,2,3,4,…,…,…,…,…,…,25,26,27,29,30}

        我們設(shè)計(jì)了藏文字母集T和自然數(shù)集N的一一對應(yīng)的有序集,設(shè)T與N的對應(yīng)關(guān)系F為F:T→N,比如F∶→10.這樣就可對字符串Γ進(jìn)行統(tǒng)計(jì)了.

        設(shè)第i個(gè)字母后是第j個(gè)字母的次數(shù)為aij,則得到頻率矩陣A=(aij)30×30.顯然,頻率矩陣A=(aij)30×30滿足[3]:

        對藏文文本T,先提取t個(gè)傾向性關(guān)鍵詞項(xiàng){T1,T2,…,Tt}.它是指出現(xiàn)在文檔T中且能夠代表該文檔內(nèi)容的基本語言單位, 主要是由單詞或短語構(gòu)成.傾向性關(guān)鍵詞提取過程主要涉及 2 個(gè)環(huán)節(jié):

        1) 去除停用詞.將在文本中共有的出現(xiàn)頻率過高而失去檢索意義的單詞剔除,主要選取能表達(dá)文本內(nèi)容的實(shí)詞作為關(guān)鍵詞,這樣可以提高檢索性能并降低索引向量維度.

        2) 抽取詞干,確定基詞.這是一種語法層次的處理措施,通過移除前后綴消除詞形、時(shí)態(tài)變化對檢索性能的影響并降低索引向量的維度[2][3].

        作為關(guān)鍵詞項(xiàng)的藏文單詞可看成一字母串:

        Ti=ti,1ti,2ti,3…ti,t,i=1,2,3,…,t

        其中,tik為第i個(gè)關(guān)鍵詞的第k個(gè)字母.為方便描述,設(shè)字母ti,k對應(yīng)藏文字母表

        即有如下概率關(guān)系:

        P{Γ中出現(xiàn)單詞Ti}

        =P{字母ti,1之后是ti,2}×P{字母ti,2之后是ti,3}×…×P{字母ti,s(i)-1之后是ti,s(i)}.

        有條件概率公式可得:

        可見,文本Γ中出現(xiàn)單詞的Ti概率由轉(zhuǎn)移概率azi.1,zi.2,azi.2,zi.3,…,azi.s(i)-1,zi.s(i)決定.由此,可對關(guān)鍵詞項(xiàng){T1,T2,…,Tr}建立如下r階狀態(tài)矩陣:

        X=(azi.s(i)-1,zi.s(i)Xi)r×r

        1.2 基于奇異值分解的特征提取

        由矩陣的奇異值分解理論知,矩陣X1近似保留了矩陣X的大部分相關(guān)信息.

        1.3 關(guān)鍵詞項(xiàng)和統(tǒng)計(jì)次數(shù)

        表1 關(guān)鍵詞項(xiàng)和統(tǒng)計(jì)次數(shù)

        另一方面,各關(guān)鍵詞Tk在u1、υ1平面的位置關(guān)系也反映了關(guān)鍵詞在文本空間中的結(jié)構(gòu)特征,既使2篇文本關(guān)鍵詞出現(xiàn)的頻率近似相同.由于各字母間的轉(zhuǎn)移概率不同,關(guān)鍵詞在u1、v1平面旳具體位置也不相同.因而復(fù)數(shù)uk,1+ivk,1的輻角也可以做為藏文文本分類和檢索的重要依據(jù).

        這樣θk被限制在第一象限內(nèi),得到復(fù)數(shù)zk=rkeiek,從而得到文本T的復(fù)特征向量Z=(z1,z1,…,zk).

        1.4 領(lǐng)域知識(shí)庫(詞典)分析模塊,過濾模塊[5]

        1)對象詞典:包含有語義模式識(shí)別的對象,主要有個(gè)體和行為知識(shí),用于分析文本中可能的語義模式.

        2)模式詞典:存儲(chǔ)代表對當(dāng)前主題的傾向性的語義模式及其權(quán)重.

        3)分析模塊:基于對象庫,將文本中可能的語義模式識(shí)別出來.

        4)過濾模塊:基于模式庫,將識(shí)別出的語義模式與模式庫對照,計(jì)算權(quán)重與文本長度的比率,將超過閾值的文本攔截.

        1.5 相似度計(jì)算

        通過考察兩個(gè)藏文Web文檔間意義相同或相近詞出現(xiàn)的分布情況,以此來判斷兩個(gè)藏文Web文檔間是否相似.計(jì)算兩個(gè)藏文Web文檔間相似度方法如下:向量空間模型常將余弦相似度作為兩個(gè)各相似向量的度量.設(shè)每一檢索目標(biāo)文本T所抽取的復(fù)特征向量分別為c1,c2對應(yīng)的向量為(x1,x2,…,xm)和(y1,y2,…,ym),則c1與c2的相似度[6]:

        其數(shù)值在[0,1]之間.

        計(jì)算完目標(biāo)文本和所有待檢測文本的相似度后,可根據(jù)預(yù)先設(shè)定的檢索閾值得出檢索結(jié)果并將檢索結(jié)果排序.

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        本文所用測試數(shù)據(jù)來自西北民族大學(xué)藏漢雙語信息處理技術(shù)數(shù)據(jù)語料庫中的藏文文本.在整個(gè)數(shù)據(jù)集中有21 578個(gè)文檔,本文從包含文檔較多的6個(gè)類中隨機(jī)選取40 000篇藏文文本及其段落作為仿真實(shí)驗(yàn)的測試語料.每一類中分別選取5篇作為檢索目標(biāo)文本,然后將所得結(jié)果取平均值作為實(shí)驗(yàn)結(jié)果.

        2.2 評估指標(biāo)

        文本檢索式從大量的文本集合中找到相關(guān)的文本,檢索性能指標(biāo)主要有檢索準(zhǔn)確率和召回率,準(zhǔn)確率是返回正確的文本數(shù)與返回文本數(shù)的比率.準(zhǔn)確率和召回率反映了文本檢索質(zhì)量的2個(gè)不同方面,需要同時(shí)考慮.綜合考慮時(shí)可以使用下面的F指標(biāo),計(jì)算公式:

        其中,Pre表示準(zhǔn)確率;R表示召回率.

        2.3 實(shí)驗(yàn)結(jié)果

        為了使實(shí)驗(yàn)結(jié)果具有可比性,在實(shí)驗(yàn)數(shù)據(jù)和相關(guān)參數(shù)相同的前提條件下,將本文算法的實(shí)驗(yàn)結(jié)果和基于詞的LSA算法[7]做了比對,結(jié)果見表2.

        表2 檢索性能比較(%)

        對比試驗(yàn)結(jié)果表明,本文提出的基于奇異值分解的藏文文本檢索算法優(yōu)于傳統(tǒng)的LSA算法.由于本文算法不僅考慮了文本中關(guān)鍵詞的統(tǒng)計(jì)頻率,而且融洽了關(guān)鍵詞在文本空間中的結(jié)構(gòu)特征和詞與詞之間潛在的語義聯(lián)系,通過奇異值分解,原始狀態(tài)矩陣中能反映關(guān)鍵詞主要內(nèi)容的信息被抽取出來,將更多實(shí)際意義或不代表對應(yīng)文本的詞匯作為噪聲過濾掉.同時(shí),奇異值分解對原始數(shù)據(jù)進(jìn)行了降維處理,避免了LSA算法中對高維詞匯——文本稀疏矩陣的處理,從而增強(qiáng)了文本表示的準(zhǔn)確性,進(jìn)而提高了檢索精度和檢索效率.

        3 結(jié)束語

        本文提供了一種藏文文本檢索算法,該算法通過對狀態(tài)矩陣的奇異值分解提取既反應(yīng)關(guān)鍵詞在文本空間中結(jié)構(gòu)特征的復(fù)特征向量,從而建立了藏文文本檢索系統(tǒng).本文算法是藏文文本檢索研究中的一次有益嘗試,并取得較好的實(shí)驗(yàn)效果,但由于沒有考慮藏文詞匯可能出現(xiàn)的一次多義、一義多詞,以及共同發(fā)生詞匯和特殊的英文語法,因而還無法精確刻畫文檔的詞義關(guān)系,這將是下一步的工作目標(biāo).

        [1] Deerwester S, Dumais S T , Furnas G W, et al. Indexing by Latent Semantic Analysis[J].Journal of the American Society of Information Science,1990,41(6).

        [2] 衛(wèi)威,王建民.一種大規(guī)模數(shù)據(jù)的快速潛在語義索引[J].計(jì)算機(jī)工程,2009,35(15).

        [3] 吳昌愨,魏洪增.矩陣?yán)碚撆c方法[M].北京:電子工業(yè)出版社,2013.

        [4] Salton G, Wong A, Yang Chung-Shu. A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613-620.

        [5] Kalt T.A New Probabilistic Model of Text Classification and Retrieval[R].Amherst, USA: Center for Intelligent Information Retrieval, University of Massachusetts Amherst, Technical Report IR-78,1996.

        [6] Lewis D D. Naive(Bayes)at Forty: The Independence Assumption in Information Retrieval[C]//Proc, of EMCL’98.Berlin,Germany: Springer,1996.

        [7] Landauer T K.A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of the Acquisition, Induction, and Representation of Knowledge [J].Psychological Review,1997,104(2).

        2015-11-10

        西北民族大學(xué)研究生教育教學(xué)改革研究項(xiàng)目(編號(hào):1671280504).

        普措才仁(1966—),男(藏族),青海玉樹人,教授,碩士生導(dǎo)師,主要從事智能信息處理技術(shù)和數(shù)據(jù)挖掘方面的研究.

        TP393

        A

        1009-2102(2015)04-0023-05

        猜你喜歡
        傾向性藏文文檔
        基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
        有人一聲不吭向你扔了個(gè)文檔
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        現(xiàn)代語境下的藏文報(bào)刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        “沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
        語言與翻譯(2015年4期)2015-07-18 11:07:43
        免费一级毛片在线播放不收费| 国产激情视频免费在线观看| 色婷婷综合久久久中文字幕| 99精品热这里只有精品| 成年女人A级毛片免| 亚洲av日韩一区二三四五六七| 精品人妻一区二区三区视频| 久久久久人妻一区精品| 亚洲a∨无码一区二区| 亚洲精品动漫免费二区| 91乱码亚洲精品中文字幕| 亚洲综合欧美色五月俺也去| 性生交大全免费看| 中文AV怡红院| 97女厕偷拍一区二区三区 | 精品一二三四区中文字幕| 东北妇女xx做爰视频| 无码日韩人妻AV一区免费| 高清亚洲精品一区二区三区| 精品日韩一级免费视频| 国产激情久久久久影院老熟女免费 | 亚洲av一二三又爽又爽又色| 蜜桃视频国产一区二区| 亚洲日产精品一二三四区| 国产精品亚洲专区无码web| 亚洲精品色播一区二区| 性人久久久久| 中文字幕无码不卡一区二区三区| 韩国女主播一区二区在线观看| 国产黄色一级大片一区二区| 国产又大又硬又粗| 久久99精品久久久久久| 免费在线观看亚洲视频| 日本一区二区在线高清观看| 国产精品无码久久久久| 亚洲精品aⅴ无码精品丝袜足 | 亚洲无AV码一区二区三区| 国产午夜精品视频在线观看| 欧美人与禽zozzo性伦交| 国产精品露脸张开双腿| 色se在线中文字幕视频|