亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)的Simhash算法在文本查重中的研究及應(yīng)用

        2020-02-19 17:55:08宇,張倩,韓凱,肖
        數(shù)字通信世界 2020年1期
        關(guān)鍵詞:查重漢明特征詞

        龐 宇,張 倩,韓 凱,肖 彬

        (北方工業(yè)大學(xué)信息學(xué)院,北京 100144)

        隨著數(shù)據(jù)爆發(fā)時(shí)代的到來,復(fù)雜度高、冗余度高的數(shù)字化信息逐漸在各行各業(yè)帶來了問題。例如網(wǎng)頁上大量的相似性文檔使用戶無法精確獲取想查詢的信息,所需的巨大存儲(chǔ)空間也會(huì)影響文件處理效率并導(dǎo)致成本急劇增加。

        在文本相似度計(jì)算方面,Simhash算法是目前比較準(zhǔn)確且高效的方法之一。其主要思想是降維,將高維的特征向量映射為一個(gè)F位的指紋,通過比較兩篇文本指紋的漢明距離來確定其相似度。文中就Simhash算法進(jìn)行研究和改進(jìn),以期在保證Simhash算法本身高效性的前提下,優(yōu)化其效率和準(zhǔn)確率,并設(shè)計(jì)系統(tǒng)實(shí)現(xiàn)文本查重。

        1 傳統(tǒng)Simhash算法分析

        Simhash算法中,定義一個(gè)N維空間,在其中定義每個(gè)特征向量,然后結(jié)合向量本身的權(quán)值進(jìn)行加權(quán)、求和等過程,得出一個(gè)和向量作為結(jié)果,最后對(duì)其進(jìn)行降維處理,形成最終的F位二進(jìn)制簽名。其具體步驟如下:

        (1)分詞及預(yù)處理:將文本分詞且去掉停用詞,形成單詞序列,并為每個(gè)詞加上權(quán)值(weight)。

        (2)生成hash值:通過hash算法把每個(gè)詞變成hash值,此為降維過程。

        (3)加權(quán):根據(jù)hash值,按照單詞的權(quán)值形成加權(quán)數(shù)字串,1為weight,0為-weight。

        (4)合并:將各單詞計(jì)算出的序列值累加,形成一個(gè)序列串。

        (5)降維:將上述序列串轉(zhuǎn)換為01串,大于0記為1,小于0記為0。

        算法流程如圖1所示。

        圖1 Simhash指紋生成

        在信息論中,漢明距離指的是,在一個(gè)碼組集合內(nèi),兩個(gè)碼字對(duì)應(yīng)位碼元取值不同的位數(shù)。即d(x,y)=∑x[i]⊕y[i]。在本例中,兩個(gè)文本的Simhash指紋a,b,其漢明距離通過a XOR b運(yùn)算得出。

        傳統(tǒng)Simhash算法通常將特征詞出現(xiàn)的次數(shù)設(shè)為其權(quán)值,這就易于造成信息丟失,降低最終指紋的準(zhǔn)確性。同時(shí),它不表現(xiàn)出詞匯分布信息,關(guān)鍵特征詞順序變化后,指紋不受影響。

        2 改進(jìn)的Simhash算法

        為解決上述問題,本文使用TF-IDF算法計(jì)算權(quán)值。TF-IDF是一種統(tǒng)計(jì)學(xué)算法,其主要思想是:特征詞的權(quán)重與其在文件中出現(xiàn)的次數(shù)成正比,與其在語料庫中出現(xiàn)的頻率成反比。

        特征詞tj在文本dk中的TF-IDF值記為tfidf(tj,dk),用tf(tj,dk)表示tj在文本dk中出現(xiàn)的頻率,記為

        式中,分子表示特征詞tj在文本dk中出現(xiàn)的次數(shù);分母表示文檔dk中所有特征詞的個(gè)數(shù)。

        用idf(tj,dk)表示逆向文件頻率,記為

        式中,分子表示文本庫中總文檔數(shù);分母表示其中包含特征詞tj的所有文檔。

        特 征 詞 的 權(quán) 值tfidf(tj,dk) = tf(tj,dk) * idf(tj)。因 此,TF-IDF算法可以有效過濾常見詞,保留重要詞。

        3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        本實(shí)驗(yàn)采用Django搭建web項(xiàng)目實(shí)現(xiàn)文本查重系統(tǒng)。系統(tǒng)劃分為3個(gè)功能模塊:文件格式轉(zhuǎn)換、文本相似比對(duì)、檢測(cè)結(jié)果查看。工作流描述如下:

        (1)用戶上傳本地txt、word或pdf等文件格式的文本。

        (2)服務(wù)器接收文件后統(tǒng)一轉(zhuǎn)換格式為txt。

        (3)服務(wù)器將形成的txt文件輸入到模型中進(jìn)行查重。

        (4)模型輸出分析結(jié)果返回給服務(wù)器。

        (5)通過用戶設(shè)定的閾值顯示檢測(cè)報(bào)告。

        在文件格式轉(zhuǎn)換模塊,需要將pdf、word格式的文本轉(zhuǎn)換為txt格式,利于文本查重時(shí)對(duì)文件的打開、讀取等操作。

        文本比對(duì)模塊是本系統(tǒng)的核心功能。目標(biāo)文檔輸入后端已經(jīng)建立好的模型后,以自然段落為執(zhí)行單位,經(jīng)過預(yù)處理形成詞組,根據(jù)TF-IDF算法計(jì)算各詞的權(quán)值,再依次經(jīng)過Simhash算法中生成hash值、加權(quán)、合并、降維等過程,最終形成目標(biāo)文檔的Simhash指紋。經(jīng)過與已經(jīng)形成的庫文檔各指紋的對(duì)比,查找到與目標(biāo)文檔漢明距離最小的某庫文檔中的某段落,將其文本內(nèi)容添加到結(jié)果數(shù)組中,最后由服務(wù)器返回至瀏覽器,用戶此時(shí)可以查看生成的檢測(cè)報(bào)告。

        猜你喜歡
        查重漢明特征詞
        學(xué)位論文查重亂象引關(guān)注
        論文查重雜談
        學(xué)術(shù)論文該“查”什么?
        雜文月刊(2018年20期)2018-11-14 21:28:46
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        學(xué)術(shù)論文該“查”什么?
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        媳婦管錢
        中年研究
        面向文本分類的特征詞選取方法研究與改進(jìn)
        漢明距離矩陣的研究
        亚洲码无人客一区二区三区| 亚洲精品国产第一区二区尤物| 日韩国产一区| 国产精品国产三级国av在线观看| 亚洲熟女少妇一区二区三区青久久 | 给我看免费播放的视频在线观看| 国产午夜福利久久精品| 中国极品少妇videossexhd| 无码国产精品一区二区免费式芒果| 成人高清在线播放视频| 国产美女精品视频线免费播放软件| 丰满女人又爽又紧又丰满| 亚洲AV无码成人精品区日韩密殿| 91九色极品探花内射| 午夜免费视频| 漂亮人妻被黑人久久精品| 久久成人黄色免费网站| 蜜桃a人妻精品一区二区三区| 国产精品99久久久久久猫咪| 国产啪精品视频网给免丝袜| 加勒比一本大道大香蕉| а天堂中文地址在线| 内谢少妇xxxxx8老少交| 一区二区三区福利在线视频| 中文字幕乱码人妻在线| 男人和女人做爽爽视频| 欧美成人形色生活片| 中文字幕无线精品亚洲乱码一区| 亚洲处破女av日韩精品中出| 边啃奶头边躁狠狠躁| 精品亚洲少妇一区二区三区 | 午夜影院91| 国产色av一区二区三区| 成人午夜特黄aaaaa片男男| 1769国产精品短视频| av手机天堂在线观看| 日韩 无码 偷拍 中文字幕| 成熟人妻av无码专区| AV无码人妻一区二区三区牛牛| 久久夜色国产精品噜噜亚洲av| 无码人妻久久一区二区三区app|