亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模式識別算法的網(wǎng)頁重復(fù)信息抽取仿真

        2022-04-19 00:47:08李玉琦
        計算機仿真 2022年3期
        關(guān)鍵詞:模式識別信息方法

        李玉琦,李 龍

        (1. 北京郵電大學(xué),北京 100876;2. 中國科學(xué)技術(shù)大學(xué),安徽 合肥 230026)

        1 引言

        數(shù)據(jù)清洗是為了消除網(wǎng)頁或數(shù)據(jù)集中存在的臟數(shù)據(jù)或錯誤數(shù)據(jù),采用某種技術(shù)對其進行剔除或改正[1]。數(shù)據(jù)清洗通常包括重復(fù)數(shù)據(jù)歸并處理、數(shù)據(jù)標準化處理、數(shù)據(jù)增強處理和數(shù)據(jù)解析等。在表達方式和數(shù)據(jù)格式方面對數(shù)據(jù)進行標準化處理是數(shù)據(jù)標準化處理的實質(zhì);拆分、合并處理數(shù)據(jù)是數(shù)據(jù)解析中的重要步驟;數(shù)據(jù)清洗處理的主要目的是為了提高數(shù)據(jù)的完整性,填補處理缺失的數(shù)據(jù),消除文本中存在的相似數(shù)據(jù)。數(shù)據(jù)清洗技術(shù)被廣泛地應(yīng)用在各種工程數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)挖掘中[2]。網(wǎng)絡(luò)中存在的重復(fù)數(shù)據(jù)會對數(shù)據(jù)的檢索和判斷產(chǎn)生影響,同時也會浪費存儲空間,因此需要進一步深入研究網(wǎng)頁重復(fù)信息抽取方法。

        時珉等人[3]提出基于滑動標準差計算的網(wǎng)頁重復(fù)信息抽取方法,該方法首先分析網(wǎng)頁信息的來源和信息在網(wǎng)頁中分布的特性,計算網(wǎng)頁信息的滑動標準差,根據(jù)計算結(jié)果構(gòu)建標準差曲線,通過曲線上翹特性判斷網(wǎng)頁中存在的重復(fù)信息,實現(xiàn)網(wǎng)頁重復(fù)信息的抽取。但是,該方法沒有對網(wǎng)頁信息分類,導(dǎo)致方法的全面率較低。何俊等人[4]提出基于Petri網(wǎng)的網(wǎng)頁重復(fù)信息抽取方法。該方法在Petri網(wǎng)的基礎(chǔ)上建立RCCM模型,利用RCCM模型生成規(guī)則鏈,利用規(guī)則鏈對網(wǎng)絡(luò)中存在的重復(fù)信息進行檢測,實現(xiàn)網(wǎng)頁重復(fù)信息的抽取,該方法無法區(qū)分網(wǎng)頁信息的類別,導(dǎo)致方法存在重復(fù)信息比例高的問題。徐搏超[5]提出基于參數(shù)關(guān)聯(lián)性的網(wǎng)頁重復(fù)信息抽取方法。該方法利用關(guān)聯(lián)規(guī)則對網(wǎng)頁信息之間存在的關(guān)聯(lián)性進行分析,獲得關(guān)聯(lián)性較強的網(wǎng)頁信息,并通過空間數(shù)據(jù)聚類算法對網(wǎng)頁信息進行初步檢測,采用高斯核相關(guān)向量機對網(wǎng)頁重復(fù)信息進行抽取。但是該方法沒有對網(wǎng)頁信息的類別進行劃分,重復(fù)信息抽取結(jié)果受網(wǎng)頁信息類別的影響較大,方法的整體性能較差。

        為解決上述方法存在的問題,提出新的基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法。

        2 網(wǎng)頁信息特征提取

        若網(wǎng)頁信息詞頻的貢獻率較低,在實際情況中容易成為噪聲特征[6]?;谀J阶R別算法的網(wǎng)頁重復(fù)信息抽取方法通過特征詞集中存在的因子ai描述不同類中特征詞的集中程度,ai可通過下式計算得到

        (1)

        式中,在類別i中網(wǎng)頁信息特征詞w出現(xiàn)的次數(shù)為dfi(w),tf(w)為在類別i中網(wǎng)頁信息特征詞w對應(yīng)的詞頻數(shù);ci為屬于類別i的文檔數(shù)。

        在互信息中引入詞頻信息MI(w,ci),其表達式如下

        (2)

        式中,P(w)為樣本中存在特征詞w的概率;P(w|ci)表示類別ci中存在特征詞w的概率。

        當網(wǎng)頁中存在特征詞時,用類間因子βi描述其集中程度,特征詞的重要程度受類間均勻度的影響。

        特征詞w在類別ci網(wǎng)頁中出現(xiàn)的數(shù)量為衡量類間均衡性的標準,基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法通過差異因子βi描述網(wǎng)頁中特征詞的分布特征,通過下式計算因子βi

        (3)

        (4)

        若網(wǎng)頁中存在的信息對應(yīng)的特征值較低,通常會被刪掉[7]。但網(wǎng)頁中通常存在大量的低信息量特征,僅僅加權(quán)處理累加分布和詞頻不能獲得高精度的網(wǎng)頁特征。

        為解決上述問題,所提方法在關(guān)聯(lián)規(guī)則的基礎(chǔ)上獲取網(wǎng)頁中不同信息的利用率,計算過濾特征與上述提取特征之間存在的關(guān)聯(lián)性。

        設(shè)置特征詞集Hw,網(wǎng)頁信息特征均存在于該詞集中,根據(jù)網(wǎng)頁信息的特征值對網(wǎng)頁信息進行過濾處理,并選取其中一部分信息構(gòu)建特征詞集Lw。

        計算特征詞集Hw與Lw對應(yīng)的頻繁2項集合,并對候選集C2過濾處理,消除頻繁出現(xiàn)的前項,獲得后項規(guī)則L2={(w11→w21,cv1),…(w1k→w2k,cvk)},其存在最大的特征值。

        若特征詞規(guī)則w1g滿足w1g→w2g,則特征詞w1g根據(jù)規(guī)則置信度cvg對應(yīng)的概率轉(zhuǎn)變?yōu)閣2g。

        根據(jù)特征集Hw向量化處理重新映射后獲得的語料庫,獲得可入模數(shù)據(jù)txt={t1,t2,…,tn},其中ti即為網(wǎng)頁信息特征。

        3 網(wǎng)頁重復(fù)信息抽取

        3.1 網(wǎng)頁信息分類

        選擇模式識別中的支持向量機根據(jù)提取的網(wǎng)頁信息特征對網(wǎng)頁信息進行分類。

        基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法為了建立軟間隔分類器,在支持向量機中引入松弛因子。

        通過下式描述線性分類器f(x)=w·x的目標函數(shù),其表達式如下

        (5)

        式中,l代表松弛因子;R(w·x,yi)代表損失函數(shù),網(wǎng)頁信息訓(xùn)練集產(chǎn)生的損失可以通過該函數(shù)進行描述;參數(shù)λ在上式中的主要目的是保證訓(xùn)練集中的網(wǎng)頁信息可以實現(xiàn)正確的分類;w·w代表采用支持向量機對網(wǎng)頁信息進行分類時對應(yīng)的間隔。

        網(wǎng)頁之間存在的鏈接關(guān)系可以有助于網(wǎng)頁信息的分類[8]。有向圖的邊通常情況下可以描述網(wǎng)頁之間存在的鏈接,并通過邊集合E存儲網(wǎng)頁中存在的所有鏈接結(jié)構(gòu)。在此基礎(chǔ)上可以將正則化因子γ引入目標函數(shù)中

        (6)

        式中的第三項代表正則化因子;αij代表網(wǎng)頁j與網(wǎng)頁i之間存在的鏈接對應(yīng)的權(quán)重;φ(w·xi,w·xj)代表懲罰函數(shù)。

        分類器受特征空間豐富度的影響,兩者之間呈線性關(guān)系[9],引入變量zi將其作為松弛因子提高分類器的靈活性,針對網(wǎng)頁中存在的所有結(jié)點i,都構(gòu)建對應(yīng)的分類器,目標函數(shù)此時可以轉(zhuǎn)變?yōu)橄率?/p>

        (7)

        式中,參數(shù)w、z的值可以通過正則化因子λ1、λ2實現(xiàn)控制。

        目標函數(shù)屬于凸函數(shù),需要對其進行優(yōu)化,即在約束條件下最小化參數(shù)w、z[10],基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法通過運行回歸算法對參數(shù)w進行最小化處理。

        所提方法對網(wǎng)頁結(jié)點i和j分類之前,需要計算網(wǎng)頁的置信度,根據(jù)計算結(jié)果獲得正則化因子,設(shè)fi、fj分別代表網(wǎng)頁i、j對應(yīng)的可信度,基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法根據(jù)可信度重新定義懲罰函數(shù)

        (8)

        為提高懲罰函數(shù)的靈活性,在上式的基礎(chǔ)上加入調(diào)整因子α

        (9)

        獲得軟間隔分類器

        (10)

        利用上式的軟間隔分類器對網(wǎng)頁信息完成分類處理。

        3.2 重復(fù)信息抽取

        基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法在不同類別中對網(wǎng)絡(luò)信息的語義相似度進行計算,根據(jù)計算結(jié)果實現(xiàn)網(wǎng)頁重復(fù)信息的抽取。

        1)語義相似度

        設(shè)asim(A,B)代表網(wǎng)頁信息A和網(wǎng)頁信息B之間的語義相似度,其計算公式如下

        (11)

        2)結(jié)構(gòu)相似度

        語義要素受網(wǎng)頁結(jié)構(gòu)要素的影響可以通過結(jié)構(gòu)相似度進行衡量[11],因此計算結(jié)構(gòu)相似度時需要引入權(quán)重要素,設(shè)csim(A,B)代表網(wǎng)頁信息A和網(wǎng)頁信息B之間存在的結(jié)構(gòu)相似度,其計算公式如下

        csim(A,B)=μδ×

        (12)

        3)相似度

        綜合考慮語義相似度asim(A,B)和結(jié)構(gòu)相似度csim(A,B),計算網(wǎng)頁信息A與網(wǎng)頁信息B之間存在的相似度sim(A,B)

        sim(A,B)=αasim(A,B)+βcsim(A,B)

        (13)

        式中,α代表在網(wǎng)頁中相同元素對應(yīng)的語義影響因子;β代表在網(wǎng)頁中相同元素對應(yīng)的結(jié)構(gòu)影響因子。語義影響因子α和結(jié)構(gòu)影響因子β之間滿足下式

        (14)

        根據(jù)上式可知語義影響因子α通常情況下大于結(jié)構(gòu)影響因子β,因此對網(wǎng)頁信息相似度進行計算時,需重點考慮語義影響因子α[12]。

        當相似度sim(A,B)大于等于閾值δ時,表明信息重復(fù),完成網(wǎng)頁重復(fù)信息的抽取。

        4 實驗與分析

        為驗證基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法的整體有效性,需要對基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法進行測試。分別采用基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法(方法1)、基于滑動標準差計算的網(wǎng)頁重復(fù)信息抽取方法(方法2)、基于Petri網(wǎng)的網(wǎng)頁重復(fù)信息抽取方法(方法3)和基于參數(shù)關(guān)聯(lián)性的網(wǎng)頁重復(fù)信息抽取方法(方法4)進行對比測試。

        設(shè)q代表全面率,代表網(wǎng)頁重復(fù)信息Nt與網(wǎng)頁信息N之間的比值,其計算公式如下

        (15)

        方法1、方法2、方法3和方法4的全面率測試結(jié)果如圖1所示。

        圖1 不同方方法的全面率測試結(jié)果

        分析圖1中的數(shù)據(jù)可知,采用方法1對網(wǎng)頁重復(fù)信息抽取時,獲得的全面率均高于80%,采用方法2對網(wǎng)頁重復(fù)信息抽取時,獲得的全面率均在40%-60%內(nèi)波動;采用方法3對網(wǎng)頁重復(fù)信息抽取時,獲得的全面率均在30%-50%內(nèi)波動;采用方法4對網(wǎng)頁重復(fù)信息抽取時,獲得的全面率均在60%附近波動,通過上述分析可知,所提方法的全面率最高,表明方法1可有效地實現(xiàn)網(wǎng)頁重復(fù)信息的抽取,這是因為該方法根據(jù)提取的網(wǎng)頁信息特征對網(wǎng)頁信息進行分類處理,對不同類別中存在的重復(fù)信息進行抽取,提高了方法1的全面率。

        基于以上實驗結(jié)果,下面將重復(fù)信息所占比例作為測試指標,對方法1、方法2、方法3和方法4進行測試,結(jié)果如表1所示。

        表1 不同方法的重復(fù)信息比例

        根據(jù)表1數(shù)據(jù)可知,方法2、方法3和方法4的重復(fù)信息比例較高,表明采用上述方法對網(wǎng)頁重復(fù)信息抽取后,網(wǎng)頁中還存在大量的重復(fù)信息,表明方法的有效性較差。方法1在測試過程中獲得的重復(fù)信息比例較低,表明采用方法1對網(wǎng)頁重復(fù)信息進行抽取后,網(wǎng)頁中的重復(fù)信息量明顯下降,原因是方法1對網(wǎng)頁信息進行分類處理時,引入了松弛因子,提高了分類器的靈活性,可有效的提取出網(wǎng)頁中存在的重復(fù)信息,降低了重復(fù)信息比例。

        采用綜合指標F-Measure對方法1、方法2、方法3和方法4的整體有效性進行測試,F(xiàn)-Measure的計算公式如下

        (16)

        其中,Recall代表查全率;Precision代表查準率。

        圖2 整體性能測試結(jié)果

        根據(jù)圖2中的數(shù)據(jù)可知,方法1的綜合指標值遠遠高于方法2、方法3和方法4的綜合指標值,表明方法1進行網(wǎng)頁重復(fù)信息抽取時的整體性能優(yōu)于方法2、方法3和方法4的整體性能,原因為方法1對網(wǎng)頁信息進行分類處理時,利用調(diào)節(jié)因子對懲罰函數(shù)進行調(diào)整,分類器分類性能得以提高,進而優(yōu)化了方法1的整體性能。

        5 結(jié)束語

        目前網(wǎng)頁重復(fù)信息抽取方法存在全面率低、重復(fù)信息比例高和整體性能差的問題,提出基于模式識別算法的網(wǎng)頁重復(fù)信息抽取方法,根據(jù)網(wǎng)頁信息的特征對網(wǎng)頁信息進行分類,計算不同類別網(wǎng)頁信息的相似度,以此完成網(wǎng)頁重復(fù)信息的抽取,解決了目前方法中存在的問題,為網(wǎng)頁信息資源的利用創(chuàng)造了條件。

        猜你喜歡
        模式識別信息方法
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        淺談模式識別在圖像識別中的應(yīng)用
        電子測試(2017年23期)2017-04-04 05:06:50
        第四屆亞洲模式識別會議
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        第3屆亞洲模式識別會議
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        電氣設(shè)備的故障診斷與模式識別
        河南科技(2014年5期)2014-02-27 14:08:35
        精品国产a毛片久久久av| 狠干狠爱无码区| 国产精品一区2区三区| 羞涩色进入亚洲一区二区av| 亚洲国产av自拍一区| 国产精品亚洲一区二区在线观看| 亚洲综合中文字幕乱码在线| 视频精品亚洲一区二区| av黄色在线免费观看| 少妇厨房愉情理伦bd在线观看| 亚洲AV成人无码久久精品老人| 性色av成人精品久久| 亚洲一区二区三区久久蜜桃| 日韩伦理av一区二区三区| 一区二区三区中文字幕p站| 大陆极品少妇内射aaaaaa| 大陆一级毛片免费播放| 亚洲免费av第一区第二区| 国产乱人伦av在线麻豆a| 亚洲精品92内射| 日本在线观看不卡| av国产免费在线播放| 风流老太婆大bbwbbwhd视频| 日韩人妻精品无码一区二区三区| 啊v在线视频| 日韩女同在线免费观看| 色翁荡息又大又硬又粗视频| 精产国品一二三产品蜜桃| 亚洲av鲁丝一区二区三区| 亚洲AV无码日韩一区二区乱| 男女射精视频在线观看网站| 精品无码国产自产拍在线观看蜜| 免费无码又爽又刺激网站| 久久久久久岛国免费网站| 国产一级一区二区三区在线播放| 日本无码欧美一区精品久久| 国产精在线| 久久精品国产亚洲av成人无人区 | 亚洲日韩成人无码| 亚洲熟妇丰满大屁股熟妇| 国产裸体AV久无码无遮挡|