亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于相似度估計(jì)文檔重復(fù)率檢測(cè)算法研究

        2021-08-18 08:33:48王鈺寧劉曉霞周紹軍
        電子測(cè)試 2021年14期
        關(guān)鍵詞:文本檢測(cè)方法

        王鈺寧,劉曉霞,周紹軍

        (四川水利職業(yè)技術(shù)學(xué)院信息工程系,四川崇州,611231)

        關(guān)鍵字:重復(fù)率;相似度;估計(jì);檢測(cè)算法

        1 當(dāng)前現(xiàn)狀

        Web 信息正經(jīng)歷著爆炸性增長(zhǎng),海量文檔中存在大量的相似信息,斯坦福大學(xué)研究成果表明:近似的網(wǎng)頁(yè)數(shù)量占總網(wǎng)頁(yè)數(shù)量的比例為29%,而完全相同的網(wǎng)頁(yè)數(shù)量大約占總的網(wǎng)頁(yè)數(shù)目的22%。這些重復(fù)網(wǎng)頁(yè)大多只在內(nèi)容上略微修改,有的甚至只是格式不同。這些相似性文檔一方面消耗了高額的檢索資源,另一方面影響了用戶(hù)的使用。文檔的數(shù)字化和易獲性在提供了更方便的交流學(xué)習(xí)環(huán)境的同時(shí),也使得非法復(fù)制、剽竊等行為越來(lái)越容易。

        文檔的相似性檢測(cè)技術(shù)從文檔內(nèi)容的相似程度上判斷文檔是否為有抄襲剽竊的嫌疑。所謂文檔相似性檢測(cè),就是判斷一個(gè)文件的內(nèi)容與另外一個(gè)或者多個(gè)文件的相似程度,以檢測(cè)抄襲剽竊。而剽竊不僅僅意味著對(duì)原作原封不動(dòng)地照抄,還包括對(duì)原作的移位變換、同義詞替換以及改變說(shuō)法重述等方式。文檔相似性檢測(cè)技術(shù)可以應(yīng)用在數(shù)字化圖書(shū)館、搜索引擎、論文查重、基金申請(qǐng)、獎(jiǎng)勵(lì)評(píng)審等很多領(lǐng)域,為用戶(hù)減小信息的存儲(chǔ)空間,高速搜索信息,防止論文、基金申請(qǐng)書(shū)、項(xiàng)目報(bào)獎(jiǎng)、專(zhuān)利剽竊和網(wǎng)頁(yè)去重提供了很好的解決方案。

        文檔相似性檢測(cè)的核心內(nèi)容就是判斷兩篇文本內(nèi)容是否存在重復(fù)成分,并給出一個(gè)相似度數(shù)值評(píng)估。兩篇文檔A 和B的相似度R(A,B),是一個(gè)介于0 和1 之間的數(shù)。相似度越大,文本重復(fù)成分越多。計(jì)算文檔相似度,首先需要把文檔用數(shù)據(jù)模型表示。目前,根據(jù)不同的文檔表示方式,可以把目前的主要的文檔相似性檢測(cè)方法分為三類(lèi):基于詞頻統(tǒng)計(jì)的方法[3,4]、基于近似指紋的字符串匹配的算法和基于相似度估計(jì)的算法?;谠~頻統(tǒng)計(jì)的文檔相似性的檢測(cè)方法主要檢測(cè)的就是文檔詞頻的相似性?;谧址葘?duì)的文檔相似性檢測(cè)方法主要檢測(cè)的就是文檔經(jīng)過(guò)分詞處理后的字符串集合的交集大小?;谙嗨贫裙烙?jì)的算法既有檢測(cè)文檔詞頻相似性的方法,例如隨機(jī)投影。也有檢測(cè)字符串集合交集為目標(biāo)的minwise 相似度估計(jì)方法。

        基于詞頻統(tǒng)計(jì)的方法存在著檢測(cè)結(jié)果準(zhǔn)確率低、誤判率大的缺點(diǎn)。文檔中一些常用詞匯頻率較高,易出現(xiàn)誤差帶來(lái)噪聲。并且該方法的向量空間模型的列的維度很大,實(shí)際比對(duì)時(shí)所花費(fèi)的時(shí)間多?;谧址葘?duì)的方法使用簡(jiǎn)單,但只能進(jìn)行簡(jiǎn)單的字符串匹配,無(wú)法發(fā)現(xiàn)復(fù)雜的相似性方式的重復(fù)文本,比如同義詞替換、改變說(shuō)法等。同時(shí)對(duì)于海量數(shù)據(jù),該方法需要兩兩文檔的比對(duì),這種方法實(shí)際上是不可行的。

        2 檢測(cè)算法

        基于相似度估計(jì)的算法一般采用降維的方式,將文檔向量或者字符串集合轉(zhuǎn)化為k 個(gè)指紋的集合,指紋即為固定長(zhǎng)度的較短的文檔的字符串,這k 個(gè)指紋集合用來(lái)表征一篇文檔,從而當(dāng)求解相似度時(shí),直接比對(duì)指紋集合的相似度即可得文檔的相似度。

        shingle 算法是最常見(jiàn)的文檔相似性檢測(cè)算法。將一個(gè)文檔分解成由w 個(gè)短字符構(gòu)成的字符串集合后,一個(gè)連續(xù)的的子字符串被稱(chēng)為一個(gè)shingle。得到字符串集合后就可以通過(guò)Jaccard 相似度等簡(jiǎn)單的度量標(biāo)準(zhǔn)進(jìn)行相似度檢測(cè)了。比如,一個(gè)文檔

        其中S(A)表示集合A的大小。整個(gè)抽取過(guò)程如圖1所示:

        圖1 shingle 算法流程圖

        如果是低維的小數(shù)據(jù)集,我們通過(guò)線(xiàn)性查找就可以容易解決,比如使用shingle 算法,但如果是對(duì)一個(gè)海量的高維數(shù)據(jù)集采用線(xiàn)性查找匹配的話(huà),會(huì)非常耗時(shí)。研究者想通過(guò)建立Hash Table 的方式我們能夠得到O(1)的查找時(shí)間性能,其中關(guān)鍵在于選取一個(gè)比較好的散列函數(shù),一般的,在對(duì)數(shù)據(jù)集進(jìn)行hash 的過(guò)程中,會(huì)發(fā)生不同的數(shù)據(jù)被映射到了同一個(gè)桶中(即發(fā)生了沖突collision),這一般通過(guò)再次哈希將數(shù)據(jù)映射到其他空桶內(nèi)來(lái)解決。在文本檢測(cè)時(shí),相似的內(nèi)容轉(zhuǎn)化為數(shù)據(jù)時(shí)會(huì)被轉(zhuǎn)化為相鄰的數(shù)據(jù)點(diǎn),但研究者希望原先相鄰的數(shù)據(jù)點(diǎn)能被映射到同一個(gè)桶中,因此需要一個(gè)比較好的散列函數(shù)。

        在shingle 算法的基礎(chǔ)上提出的minwise 哈希方法可以解決該問(wèn)題。minwise 哈希算法將字符集合的求交集問(wèn)題轉(zhuǎn)化為某一事件發(fā)生的概率問(wèn)題。在算法中,不是簡(jiǎn)單的對(duì)shingle 集合進(jìn)行計(jì)算量較大的比對(duì),而是對(duì)每個(gè)文檔的shingle 集合進(jìn)行minwise 散列函數(shù)處理,進(jìn)行降維,然后再計(jì)算相似程度。minwise 哈希函數(shù)是一類(lèi)局部敏感散列。

        局部敏感散列的基本思想是:將原始數(shù)據(jù)空間中的兩個(gè)相鄰數(shù)據(jù)點(diǎn)通過(guò)相同的映射或投影變換(projection)后,這兩個(gè)數(shù)據(jù)點(diǎn)在新的數(shù)據(jù)空間中仍然相鄰的概率很大,而不相鄰的數(shù)據(jù)點(diǎn)被映射到同一個(gè)桶的概率很小。如圖2,球q 和球p 相近,被分到一個(gè)桶內(nèi),它們與粉球和藍(lán)球相距較遠(yuǎn),所以沒(méi)有被分到一個(gè)桶里。

        圖2 局部敏感散列示意圖

        如果我們能夠找到這樣一些哈希函數(shù),使得經(jīng)過(guò)它們的哈希映射變換后,原始空間中相鄰的數(shù)據(jù)落入相同的桶內(nèi)的話(huà),那么我們?cè)谠摂?shù)據(jù)集合中進(jìn)行近鄰查找就變得容易了,將原始數(shù)據(jù)集合分成了多個(gè)子集合,而每個(gè)子集合中的數(shù)據(jù)間是相鄰的,且該子集合中的元素個(gè)數(shù)較小,因此將一個(gè)在超大集合內(nèi)查找相鄰元素的問(wèn)題轉(zhuǎn)化為了在一個(gè)很小的集合內(nèi)查找相鄰元素的問(wèn)題,顯然計(jì)算量下降了很多。實(shí)際上,查找近鄰就是在查找文本檢測(cè)時(shí)的相似內(nèi)容,因?yàn)?,在轉(zhuǎn)化時(shí),相似的內(nèi)容會(huì)被轉(zhuǎn)化為相鄰的數(shù)據(jù)點(diǎn)。

        minwise 哈希算法采用局部敏感散列的思想,首先通過(guò)minwise 哈希函數(shù)將相似數(shù)據(jù)映射到一個(gè)子集合中,運(yùn)用蒙特卡羅思想,將集合的求交集問(wèn)題轉(zhuǎn)換為待查文本內(nèi)容的數(shù)據(jù)點(diǎn)被映射到相應(yīng)集合中的概率問(wèn)題。通過(guò)一定的實(shí)驗(yàn)次數(shù)k 來(lái)估計(jì)事件的發(fā)生概率,從而估計(jì)兩篇文檔的相似度。同時(shí),將對(duì)文檔進(jìn)行釆樣的實(shí)驗(yàn)中生成的minvalue 存儲(chǔ)下來(lái),作為文檔的特征值向量,以便之后的其他文檔與此文檔的相似度比對(duì)。

        后來(lái),在minwise 哈希算法的基礎(chǔ)上,有人提出了simhash 算法。simhash 算法的核心思想是用一個(gè)b 位的值來(lái)表示文檔的特征值,然后使用simhash 之間的海明距離來(lái)衡量相似性。海明距離的定義為兩個(gè)二進(jìn)制序列中對(duì)應(yīng)位不同的個(gè)數(shù)。與傳統(tǒng)hash 函數(shù)相比,simhash 函數(shù)也是一種局部敏感散列LSH。因此,函數(shù)具有一個(gè)特征,即越相似的文檔具有越相似的simhash 值,也就是說(shuō)海明距離越小。顯而易見(jiàn),僅使用b 位的值來(lái)表示文件的特征,節(jié)省了大量的存儲(chǔ)開(kāi)銷(xiāo);海明距離計(jì)算簡(jiǎn)單高效,simhash 使用海明距離來(lái)衡量相似性,計(jì)算復(fù)雜性也得到大大降低。簡(jiǎn)而言之,simhash 算法將minvalue 值從髙位降低到位,然而,simhash 算法的精確度也會(huì)有所損耗,并且與simhash 的位數(shù)b 有關(guān),b 越大精確度越高。

        3 問(wèn)題探討

        目前的文檔相似性檢測(cè)技術(shù)還在一些方面存在著一定的問(wèn)題,同時(shí)這些問(wèn)題也即是該技術(shù)在未來(lái)的研究方向。

        3.1 海量性文檔的相似性檢測(cè)

        海量數(shù)據(jù)的相似性檢測(cè)一直是文檔相似性檢測(cè)的難點(diǎn)。隨著信息爆炸時(shí)代的到來(lái),各個(gè)系統(tǒng)中的數(shù)據(jù)都是億萬(wàn)級(jí)別的,數(shù)據(jù)特征的存儲(chǔ)空間和相似性的檢測(cè)時(shí)間都有了更高的要求。b 位minwise 哈希算法中 b 越大精度越高,但是相應(yīng)的存儲(chǔ)空間和計(jì)算時(shí)間也變得巨大。所以需要一種比較好的方法去解決這個(gè)問(wèn)題。

        3.2 語(yǔ)義級(jí)文檔相似性檢查

        中文信息處理技術(shù)目前還不成熟,分詞、詞義標(biāo)注和句法分析的處理效率還不是非常理想,此外,漢語(yǔ)是一種意合語(yǔ)言,其語(yǔ)言現(xiàn)象非常復(fù)雜。目前包括minwise 在內(nèi)的文檔相似性檢測(cè)方法只能發(fā)現(xiàn)一部分的文本復(fù)制方式,例如同義詞替換、斷句等等,但是對(duì)于句子結(jié)構(gòu)發(fā)生變化的一些復(fù)雜文本復(fù)制方式,還沒(méi)有找到理想的解決方法。需要考慮將語(yǔ)義分析作為重要突破點(diǎn),才能從語(yǔ)義層面最終完全解決自然語(yǔ)言的相似性檢測(cè)。

        3.3 跨語(yǔ)言相似性檢查

        目前,很多相似性的文檔并不只存在于同一語(yǔ)言之中,直接抄襲同一語(yǔ)言的著作較為容易被檢査到,但若拿一篇文檔通過(guò)翻譯或摘譯后則很難發(fā)現(xiàn)。在未來(lái)的工作中,可以考慮不同語(yǔ)言的因素,綜合各類(lèi)語(yǔ)言的句法結(jié)構(gòu)和語(yǔ)義兩方面的信息來(lái)生成相似的指紋信息,從而度量不同語(yǔ)言的文檔間的相似性。

        3.4 分布式數(shù)據(jù)相似性檢測(cè)

        現(xiàn)今大量的文檔以分布式的形式散列在各地,這些大規(guī)模的數(shù)據(jù)相似性的文檔相當(dāng)多,而目前的文檔相似性檢測(cè)系統(tǒng)大多只能針對(duì)系統(tǒng)內(nèi)部的文檔進(jìn)行檢測(cè),而進(jìn)行分布式數(shù)據(jù)相似性檢測(cè)是未來(lái)檢測(cè)的發(fā)展方向。

        4 總結(jié)

        文檔相似性檢測(cè)技術(shù)的廣泛應(yīng)用推動(dòng)了信息時(shí)代的發(fā)展,有效的保護(hù)了原創(chuàng)的信息內(nèi)容。針對(duì)海量數(shù)據(jù)下的相似性檢測(cè),基于相似度估計(jì)的檢測(cè)方法保持高效的性能的同時(shí),大大降低了時(shí)間復(fù)雜度和空間內(nèi)存消耗。本文對(duì)基于相似度估計(jì)的shingle 算法和minwise 算法進(jìn)行了一定分析。特別地,minwise 哈希算法采用局部敏感序列的思想,降低了在海量數(shù)據(jù)下的檢測(cè)相似性的部署難度。同時(shí),文檔相似性檢測(cè)技術(shù)的還存在著一定不足,本文總結(jié)了該技術(shù)目前存在的一些問(wèn)題和未來(lái)的研究方向。

        猜你喜歡
        文本檢測(cè)方法
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對(duì)
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀(guān)天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        自拍偷自拍亚洲一区二区| 拍摄av现场失控高潮数次| 精品香蕉久久久爽爽| 日韩中文网| 久久精品韩国日本国产| 日韩av一区二区在线观看| 国产白色视频在线观看| 精品国产sm最大网站| 好吊妞无缓冲视频观看| 无码精品日韩中文字幕| 免费一级特黄欧美大片久久网 | 日韩免费一区二区三区在线| 2017天天爽夜夜爽精品视频| 久久精品亚洲国产成人av| 精品亚洲av乱码一区二区三区| 国产av在线观看久久| 亚洲av无码成人网站在线观看| 亚洲人成绝费网站色www| 人妻在线中文字幕| 亚洲av性色精品国产| 中文资源在线一区二区三区av| 国产免费一区二区在线视频| 人人妻人人澡人人爽人人精品av| 中文字幕人妻无码一夲道| 国产又黄又大又粗视频| 色欧美与xxxxx| 日本在线一区二区免费| 久久精品中文字幕女同免费| 欧美人与禽zozzo性伦交| 欧美人妻精品一区二区三区| 国产内射XXXXX在线| 毛片av中文字幕一区二区| 国产精品亚洲综合久久系列| 欧美性猛交99久久久久99按摩 | 国产毛片av最新视频| 天天爽夜夜爽人人爽一区二区| 亚洲经典三级| bbbbbxxxxx欧美性| 久久久精品亚洲一区二区国产av| 精品国产青草久久久久福利| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交|