亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向數(shù)據(jù)集制作的圖像重復(fù)性檢測方法

        2023-10-20 15:51:36崔溜洋張文哲
        現(xiàn)代計算機(jī) 2023年15期
        關(guān)鍵詞:哈希聚類人工

        李 玲,崔溜洋,張文哲

        (大連理工大學(xué)城市學(xué)院,大連 116600)

        0 引言

        圖像處理算法的研究離不開數(shù)據(jù)集的支撐,而算法的效果和性能與訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量密切相關(guān),因此數(shù)據(jù)集的制作工作也尤為重要。圖像數(shù)據(jù)來源的多樣性在提升數(shù)據(jù)的規(guī)模和豐富性的同時也增加了數(shù)據(jù)篩選的難度。以往的人工處理流程繁瑣復(fù)雜、效率低下,尤其是在大規(guī)模數(shù)據(jù)集的制作中,為保證準(zhǔn)確度只能投入大量的作業(yè)時間。雖然也有部分工作會借助算法進(jìn)行,但功能分散,自動化程度低,還有很大的提升空間。

        基于以上背景,本文提出一種面向數(shù)據(jù)集制作的圖像相似性檢測方法,先對原始數(shù)據(jù)進(jìn)行個性化的預(yù)處理,初步篩除不合格數(shù)據(jù),然后使用感知哈希算法[1-2]結(jié)合k-means[3-4]聚類,對圖像特征進(jìn)行散列化,計算數(shù)據(jù)簽名間的距離,過濾掉相似度高的重復(fù)圖像,圖像篩選的嚴(yán)格程度具有可調(diào)節(jié)性。經(jīng)過本方法處理后的數(shù)據(jù)經(jīng)由簡單復(fù)檢后,即可用于后續(xù)使用,大大提高數(shù)據(jù)的篩選效率和準(zhǔn)確率。

        1 相關(guān)工作

        相似度檢測是圖像處理中的基礎(chǔ)應(yīng)用[5-7],目前主流的方法是哈希算法。圖像哈希算法的中心思想都是將圖像進(jìn)行散列化,作用在于生成圖像的指紋信息,可通過比較兩圖像指紋信息的間距來判斷圖像的相似性,在圖像處理領(lǐng)域有著廣泛應(yīng)用。例如,Randhir等[8]使用pHash算法計算平臺上傳內(nèi)容的相似度,解決多媒體的版權(quán)侵權(quán)問題。Biswas等[9]對感知哈希算法進(jìn)行改進(jìn),更好地提取人臉圖像的特征,應(yīng)用于人臉分類任務(wù)。Verlekar等[10]通過計算用戶腿部區(qū)域上的感知散列并將其與針對訓(xùn)練序列獲得的pHash 值進(jìn)行比較來識別行走方向。Liu 等[11]提出深度哈希方法用于遙感圖像的分類和檢索。雖然感知哈希的處理時間最長,但由于其對于圖像細(xì)微變化的低敏感性,尤其是在角度旋轉(zhuǎn)情況下表現(xiàn)出的強(qiáng)魯棒性而備受青睞。

        在數(shù)據(jù)集的制作中,也有團(tuán)隊會使用相關(guān)算法對數(shù)據(jù)進(jìn)行篩選。例如,鄧慶昌等[12]在做目標(biāo)檢測數(shù)據(jù)集的過程中,采用直方圖法進(jìn)行圖片去重?;髦榈龋?3]使用感知哈希算法對通過爬蟲技術(shù)在網(wǎng)絡(luò)中搜集大量珊瑚圖片形成的初始數(shù)據(jù)集中的圖像進(jìn)行去重處理。但是這些方法功能單一,只完成了數(shù)據(jù)篩選的小部分工作,而且對于大規(guī)模數(shù)據(jù)的篩選速度和精度無法保證。

        因此本文基于敏感哈希算法,提出針對數(shù)據(jù)集制作的綜合篩選方法,同時為了彌補(bǔ)時間缺陷,借鑒k-means 思想,先經(jīng)過聚類后再計算指紋序列間的距離,以降低執(zhí)行大規(guī)模數(shù)據(jù)過濾工作的時間復(fù)雜度。

        2 算法實(shí)現(xiàn)

        本文提出的圖像重復(fù)性檢測方法旨在實(shí)現(xiàn)圖像數(shù)據(jù)集制作過程中圖像篩選部分的自動化處理,代替人工篩選,降低圖像過濾的時間成本,提高過濾質(zhì)量。算法流程如圖1所示。

        圖1 算法流程

        算法整體分為三大部分:數(shù)據(jù)清洗、哈希計算和距離計算。首先將通過爬蟲等方式采集到的原始數(shù)據(jù)集作為算法的輸入,根據(jù)個性化要求進(jìn)行數(shù)據(jù)清洗,初步篩除不符合要求的數(shù)據(jù);其次使用pHash算法[14-15]對每張圖像進(jìn)行簽名計算,得到代表圖像的散列化數(shù)據(jù);最后對所有圖像的哈希值進(jìn)行k-means聚類,在同一簇中兩兩計算漢明距離,過濾超過閾值的相似圖像。

        2.1 數(shù)據(jù)清洗

        數(shù)據(jù)清洗主要包括三部分內(nèi)容:尺寸檢查、通道數(shù)檢查和圖像格式檢查。圖像數(shù)據(jù)的尺寸限制參數(shù)和格式限制參數(shù)可在配置文件中進(jìn)行個性化設(shè)定,根據(jù)配置內(nèi)容將范圍外的圖像數(shù)據(jù)“淘汰”。通道數(shù)檢查主要為了刪除灰度圖像,因?yàn)樵诤芏鄨D像處理算法中,是無法對灰度圖像進(jìn)行處理的。本算法刪除的數(shù)據(jù)不會直接刪除,而是會被收集至單獨(dú)的文件夾中,目的是保留原始數(shù)據(jù),以供人工復(fù)檢比對或其他處理使用。

        2.2 感知哈希算法

        感知哈希的核心思想是無損DCT(離散余弦變換)。DCT 變換最早由Ahmed 等[16]于1974 年提出,其基本原理是對圖像進(jìn)行壓縮,將空域信號轉(zhuǎn)到頻域,獲取更有效的表達(dá)。因計算開銷低,處理效率高,適應(yīng)性強(qiáng)等優(yōu)點(diǎn)在圖像處理中具有重要應(yīng)用。二維DCT變換的公式為

        其中:x、y為空間采樣值;u、v為頻率采樣值;f(x,y)為原始二維信號。

        感知哈希的處理流程如圖2所示。先將圖像統(tǒng)一縮放至32 × 32 px,再轉(zhuǎn)換為單通道灰度圖,目的是為了進(jìn)一步減小計算量,簡化DCT變換。經(jīng)DCT 變換后的圖像信息主要集中在左上角,取8 × 8 的矩陣即可呈現(xiàn)圖片的低頻信息。計算矩陣中所有元素的均值,再依次將矩陣中的元素與均值進(jìn)行比對,根據(jù)比對結(jié)果賦1或0,從而生成64 bit的指紋信息,即哈希值。

        圖2 感知哈希算法示意圖

        2.3 距離計算

        當(dāng)數(shù)據(jù)規(guī)模很龐大時,對指紋信息兩兩比較并計算距離是十分耗時的過程。為解決該問題,本文引入了聚類思想。聚類是一種無監(jiān)督學(xué)習(xí)方法,無需準(zhǔn)備數(shù)據(jù)集,將一個龐雜數(shù)據(jù)集中具有相似特征的數(shù)據(jù)自動歸類到一起,稱為一個簇,簇內(nèi)的對象越相似,聚類的效果越好[17]。

        使用k-means 算法將所有圖像數(shù)據(jù)的哈希值先聚成k簇,此時相似的圖像在很大概率下會被聚在同一簇中,然后在同一簇中兩兩計算距離,大大減少計算量。k-means聚類具有隨機(jī)性,可能收斂到局部最小值,手動設(shè)定的k值也會影響最終的聚類效果。在配置文件中提供了設(shè)定k值的接口,可根據(jù)數(shù)據(jù)的實(shí)際情況進(jìn)行設(shè)定,從而提高方法的泛化性能。另外,對于最佳k值,在3.2節(jié)中進(jìn)行了對比實(shí)驗(yàn)。

        距離計算選用漢明距離[18],對圖像的哈希值進(jìn)行異或運(yùn)算,統(tǒng)計結(jié)果為1 的個數(shù)。其公式為

        其中:xn、yn表示兩個N位的字符串,⊕符號表示進(jìn)行XOR運(yùn)算。

        3 實(shí)驗(yàn)結(jié)果

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        為了有效地對算法進(jìn)行定量評價和對比實(shí)驗(yàn),本文構(gòu)建了一個具有已知不合格圖像和相似圖像數(shù)量的實(shí)驗(yàn)數(shù)據(jù)集。通過網(wǎng)絡(luò)爬蟲的方式,采集了約20000張圖像作為原始數(shù)據(jù)。人工挑選了5000 張合格圖像作為基礎(chǔ)樣本(命名為DATA-BASE)。通過對DATA-BASE 中的圖像進(jìn)行加噪、尺寸變更、圖像旋轉(zhuǎn)、灰度轉(zhuǎn)化、格式變換等處理進(jìn)行數(shù)據(jù)集的擴(kuò)展,具體的處理數(shù)量和參數(shù)見表1。

        表1 實(shí)驗(yàn)數(shù)據(jù)處理

        從DATA-BASE 中隨機(jī)選取數(shù)量列對應(yīng)數(shù)量的圖像,按照對應(yīng)的處理方法和參數(shù)進(jìn)行處理,最終得到共13000 萬張圖像的擴(kuò)展數(shù)據(jù)集(命名為DATA-L)。再從DATA-L 中隨機(jī)選取2000 張圖像構(gòu)成DATA-S,均作為對比實(shí)驗(yàn)的數(shù)據(jù)支撐。以一張圖像為例,進(jìn)行處理后的效果說明,如圖3所示。

        圖3 擴(kuò)展數(shù)據(jù)集處理示例

        3.2 k-means聚類

        在本節(jié)中將進(jìn)行兩組對比實(shí)驗(yàn),第一組是驗(yàn)證選取的最佳k值,第二組是驗(yàn)證對于不同數(shù)據(jù)規(guī)模,進(jìn)行聚類后再計算圖像間的距離和直接計算距離的時間優(yōu)化結(jié)果。

        選取合適的聚類中心,不僅能減少聚類的時間,還能提高聚類的準(zhǔn)確度。一般的聚類中心數(shù)在3~10之間,對于數(shù)據(jù)篩選來說,聚類的目的是使類似的圖像被聚到同一簇中,過多的聚類中心更易使數(shù)據(jù)分散,達(dá)不到良好的聚類效果。因此,在本組實(shí)驗(yàn)中選取的聚類中心數(shù)的范圍為2~8。使用DATA-L 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),聚類結(jié)果的分析方法使用經(jīng)典的“手肘法”,即通過計算不同簇數(shù)下的聚類誤差平方和(SSE)來確定最佳k值。實(shí)驗(yàn)結(jié)果如圖4 所示,可以看出k=4時是拐點(diǎn)位置,因此最佳k值取4。

        圖4 最佳k值實(shí)驗(yàn)結(jié)果

        選用k-means 的目的是為了減少圖像簽名比對的計算時間,尤其是在數(shù)據(jù)規(guī)模龐大的情況下。為了驗(yàn)證該方法的有效性,進(jìn)行了時間對比實(shí)驗(yàn)。分別計算在兩種數(shù)據(jù)規(guī)模下,不使用k-means 直接進(jìn)行漢明距離計算、進(jìn)行聚類后再進(jìn)行距離計算所需要的時間,聚類中心數(shù)均設(shè)置為4,本實(shí)驗(yàn)的結(jié)果見表2。

        表2 時間對比實(shí)驗(yàn)結(jié)果

        從表2可以看出,在所有數(shù)據(jù)規(guī)模下,進(jìn)行聚類的時間均比不進(jìn)行聚類的時間短,且數(shù)據(jù)規(guī)模越大,效果越明顯,這充分表明了融合聚類能夠減少哈希簽名比對的時間。

        3.3 算法評價

        本節(jié)實(shí)驗(yàn),我們將通過人工方式篩選的結(jié)果和通過本文方法的篩選結(jié)果進(jìn)行比較。為了使實(shí)驗(yàn)數(shù)據(jù)更具說服力,人工過濾流程與算法過濾流程保持一致,圖像清洗部分需要人工調(diào)用多個程序進(jìn)行,過濾標(biāo)準(zhǔn)與配置文件中設(shè)置的條件一致。圖像相似度檢測的方法,通過人工進(jìn)行肉眼比對,根據(jù)人的主觀判斷進(jìn)行相似數(shù)據(jù)的篩除。

        評價從時間和準(zhǔn)確率兩方面進(jìn)行,準(zhǔn)確率采用以下兩個評價指標(biāo)進(jìn)行計算:

        其中:ri代表被正確保留的數(shù)據(jù)數(shù)量,rall表示應(yīng)該被保留的數(shù)據(jù)總數(shù),ei表示被正確篩除的數(shù)據(jù)數(shù)量,eall表示應(yīng)該被篩除的數(shù)據(jù)總量。該部分的實(shí)驗(yàn)結(jié)果見表3。

        表3 算法評價實(shí)驗(yàn)結(jié)果

        根據(jù)以上實(shí)驗(yàn)結(jié)果,人工篩選2000 張圖像的時間就已經(jīng)達(dá)到了約6小時,隨著數(shù)據(jù)規(guī)模的增大,對于人工篩選的挑戰(zhàn)性更高,人工篩選的效率更低,準(zhǔn)確率也會隨之降低。而使用本文提出的方法,僅需不到3 分鐘即可完成13000張圖像的過濾工作,且過濾效果較好,能夠滿足數(shù)據(jù)集制作的篩選需求。

        4 結(jié)語

        本文針對數(shù)據(jù)集制作的特定場景,提出了圖像重復(fù)性檢測方法,實(shí)現(xiàn)數(shù)據(jù)篩選的“一站式”服務(wù),解決了數(shù)據(jù)篩選效率低下、準(zhǔn)確率不佳等問題,具有實(shí)際應(yīng)用價值。通過實(shí)驗(yàn)驗(yàn)證了算法在處理時間和篩選精度上的表現(xiàn),與傳統(tǒng)人工處理流程的時間和性能進(jìn)行比較,證明了算法的有效性和優(yōu)越性。

        圖像處理技術(shù)將繼續(xù)發(fā)展,數(shù)據(jù)集的制作也會趨向自動化。數(shù)據(jù)集的制作還包括標(biāo)注、分類等部分,在后續(xù)的工作中,我們也將探討和研究其余部分的自動化處理方法,考慮采用深度學(xué)習(xí)方法,盡可能降低數(shù)據(jù)集制作的人工成本,這也對圖像處理技術(shù)的發(fā)展有著至關(guān)重要的影響。

        猜你喜歡
        哈希聚類人工
        人工3D脊髓能幫助癱瘓者重新行走?
        軍事文摘(2022年8期)2022-11-03 14:22:01
        人工,天然,合成
        人工“美顏”
        哈哈畫報(2021年11期)2021-02-28 07:28:45
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        新型多孔鉭人工種植牙
        基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
        基于改進(jìn)的遺傳算法的模糊聚類算法
        基于維度分解的哈希多維快速流分類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
        亚洲一区二区三区av资源| 亚洲中文av一区二区三区| 久久久久久AV无码成人| 国产人妖av在线观看| 亚洲狠狠婷婷综合久久久久| 男女啪啪无遮挡免费网站| 99精品成人片免费毛片无码| 免费人成黄页网站在线观看国产 | 国产又a又黄又潮娇喘视频 | 青春草在线视频精品| 女同舌吻互慰一区二区| 国产97色在线 | 国产| 国产又色又爽无遮挡免费| 久久久精品免费国产四虎| 国产亚洲专区一区二区| 无码熟妇人妻av在线影片最多| 精品久久久久久777米琪桃花 | 亚洲精品99久91在线| 男女视频在线观看一区| 国产精品无码久久久久| 欧美一区二区午夜福利在线yw| 国产成人自拍视频视频| 国产人妻高清国产拍精品| 亚洲18色成人网站www| 国内精品久久久久国产盗摄 | 无遮挡很爽很污很黄的女同 | 996久久国产精品线观看| 国产人成在线成免费视频| 精品女同一区二区三区| 男人靠女人免费视频网站| 国产精品玖玖玖在线资源| 亚洲中文字幕第一页免费| 美女内射毛片在线看免费人动物 | 九九九影院| 国产午夜福利在线观看中文字幕| 日韩网红少妇无码视频香港| 国产精品麻豆aⅴ人妻| 国产一区二区三区亚洲天堂| 日本区一区二区三视频| 亚洲一区二区三区中文字幂| 禁止免费无码网站|