亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義相關(guān)度主題爬蟲的語料采集方法①

        2019-07-26 03:16:58于碧輝
        關(guān)鍵詞:爬蟲主題詞語料

        周 昆,王 釗,于碧輝

        1(中國科學(xué)院大學(xué),北京 100049)

        2(中國科學(xué)院 沈陽計(jì)算技術(shù)研究所,沈陽 110168)

        3(沈陽市國家稅務(wù)局 信息中心,遼寧 沈陽 110013)

        1 引言

        在專業(yè)領(lǐng)域進(jìn)行基于自然語言處理技術(shù)的信息處理應(yīng)用研究時(shí),無論采用有監(jiān)督方法、半監(jiān)督方法,都需要收集大量領(lǐng)域語料進(jìn)行模型訓(xùn)練,所以高效準(zhǔn)確的采集專業(yè)領(lǐng)域信息,并構(gòu)建生語料庫是進(jìn)行相關(guān)工作的基礎(chǔ).主題爬蟲能收集與主題相關(guān)的網(wǎng)頁數(shù)據(jù)信息,提高數(shù)據(jù)相關(guān)性,降低后續(xù)處理的復(fù)雜程度.不同專業(yè)領(lǐng)域的網(wǎng)站結(jié)構(gòu)以及其所含的領(lǐng)域內(nèi)容一般不具有良好相似性,所以主題爬蟲很難直接有效的在不同領(lǐng)域間遷移.將自然語言處理技術(shù)應(yīng)用于特定領(lǐng)域時(shí),由于通用語料無法滿足任務(wù)需要,因此需要采集特定領(lǐng)域語料.特定領(lǐng)域信息通常具有時(shí)效性強(qiáng)的特點(diǎn),經(jīng)常出現(xiàn)新詞匯,僅基于詞典匹配的方式采集生語料會(huì)導(dǎo)致采集系統(tǒng)的泛化能力不強(qiáng),忽略語義上相關(guān)卻未出現(xiàn)在詞典中的內(nèi)容.此外,主流網(wǎng)站通常將內(nèi)容相關(guān)的頁面存放于相同路徑下,同一網(wǎng)站下鏈指特定領(lǐng)域頁面的URL 結(jié)構(gòu)上具有相似性.URL的結(jié)構(gòu)信息可以啟發(fā)特定領(lǐng)域語料采集過程.

        本文針對(duì)特定領(lǐng)域語料采集任務(wù),設(shè)計(jì)了基于語義相關(guān)度主題爬蟲的語料采集方法,根據(jù)選定的主題詞,利用頁面描述信息,基于維基百科中文語料訓(xùn)練出的詞分布式表示綜合HowNet 計(jì)算頁面信息相關(guān)度,結(jié)合URL的結(jié)構(gòu)信息預(yù)測(cè)未訪問URL 鏈指的頁面與特定領(lǐng)域的相關(guān)程度,可以采集特定領(lǐng)域生語料.

        2 相關(guān)工作

        針對(duì)可用于垂直領(lǐng)域語料采集系統(tǒng)的主題爬蟲,文獻(xiàn)[1]提出了Shark-Search 方法,利用頁面相關(guān)信息啟發(fā)式的判斷待下載頁面.文獻(xiàn)[2]在Shark-Search 方法基礎(chǔ)上將超鏈接按區(qū)域聚類,但由于導(dǎo)航欄中包含的導(dǎo)航條目較多,該方法可能會(huì)導(dǎo)致導(dǎo)航欄中的主題相關(guān)鏈接被忽略.文獻(xiàn)[3]利用主題分類樹結(jié)合網(wǎng)頁分塊與改進(jìn)的HITS 算法,在主題爬蟲的準(zhǔn)確率上取得了一定的提升,但主題分類樹對(duì)于專業(yè)垂直領(lǐng)域存在覆蓋度不足的問題.文獻(xiàn)[4]設(shè)計(jì)了基于分類詞關(guān)鍵詞詞頻模型的主題爬蟲,應(yīng)用于地緣政治這一垂直領(lǐng)域的內(nèi)容采集,由于主題相關(guān)頁面中仍可能包含主題無關(guān)鏈接,該方法可能導(dǎo)致不必要的頁面訪問.文獻(xiàn)[5]將文本內(nèi)容與鏈接結(jié)合用作數(shù)據(jù)采集的判斷,應(yīng)用于垂直搜索引擎,但計(jì)算復(fù)雜度略高.文獻(xiàn)[6]提出了一種利用語義信息預(yù)測(cè)待爬取頁面相關(guān)性的主題爬蟲模型,其利用WordNet 計(jì)算語義相關(guān)性,只針對(duì)于英文領(lǐng)域.文獻(xiàn)[7]提出“鄰居特征”概念,利用相同路徑下鏈接內(nèi)容相似的特點(diǎn)爬取主題相關(guān)頁面,但在頁面內(nèi)容的計(jì)算上沒有充分考慮語義信息.

        3 基于語義相關(guān)度主題爬蟲的語料采集方法

        本文提出的方法共包括爬取模塊、存儲(chǔ)模塊、后處理模塊三個(gè)部分.爬取模塊實(shí)現(xiàn)了語義相關(guān)度主題爬蟲,對(duì)給定網(wǎng)站中特定領(lǐng)域內(nèi)容進(jìn)行采集與初步過濾,并將初步結(jié)果提交至存儲(chǔ)模塊進(jìn)行持久化,后處理模塊對(duì)其進(jìn)行清洗,去除頁面版權(quán)聲明等噪聲后,得到特定領(lǐng)域生語料.

        3.1 爬取模塊

        爬取模塊首先將種子URL 添加至任務(wù)數(shù)據(jù)庫并由任務(wù)生成器提取至任務(wù)隊(duì)列.對(duì)于隊(duì)列中未訪問的URL,首先計(jì)算其鏈指頁面的描述信息頁面信息相關(guān)度,若描述信息不相關(guān),則認(rèn)為頁面內(nèi)容屬于特定領(lǐng)域的可能性較小,僅對(duì)其進(jìn)行簡單的主題詞匹配;否則,解析該URL 鏈指的頁面正文,并對(duì)其中每個(gè)未訪問URL,計(jì)算其錨文本的頁面信息相關(guān)度、URL 結(jié)構(gòu)相關(guān)度并綜合得到未訪問URL的優(yōu)先級(jí)并據(jù)此決定是否丟棄該URL.為解決爬取規(guī)模較大時(shí)計(jì)算URL 結(jié)構(gòu)信息耗時(shí)較長的問題,對(duì)保存于存儲(chǔ)模塊的歷史URL 采取抽樣方式作為近似估計(jì),以加快計(jì)算速度.爬取模塊的工作流程如圖1.

        圖1 爬取模塊工作流程

        3.2 存儲(chǔ)模塊

        存儲(chǔ)模塊包括內(nèi)存存儲(chǔ)、數(shù)據(jù)庫存儲(chǔ)、文件存儲(chǔ)三個(gè)部分.爬取過程的中間結(jié)果保存于內(nèi)存.爬取模塊需要加載的部分?jǐn)?shù)據(jù)保存于文件.為解決計(jì)算頁面信息相關(guān)度耗時(shí)較長的問題,存儲(chǔ)模塊對(duì)語義相關(guān)度主題爬蟲所使用的數(shù)據(jù)構(gòu)建倒排索引,同時(shí)將常用數(shù)據(jù)添加至緩存,加快爬取模塊執(zhí)行速度.來自爬取模塊的初步結(jié)果和來自后處理模塊的特定領(lǐng)域生語料,均由存儲(chǔ)模塊持久化到數(shù)據(jù)庫.

        3.3 后處理模塊

        后處理模塊主要負(fù)責(zé)清洗掉噪聲數(shù)據(jù),由于部分頁面含有大量URL,導(dǎo)致正文內(nèi)容占頁面總體內(nèi)容比例較低,解析正文時(shí)會(huì)受到影響,可能導(dǎo)致得到的正文部分僅包括網(wǎng)站的版權(quán)聲明等模板信息,所以需要后處理模塊進(jìn)行清洗.初步結(jié)果經(jīng)后處理模塊清洗后得到特定領(lǐng)域生語料.

        3.4 特點(diǎn)

        本文提出的基于語義相關(guān)度主題爬蟲的語料采集方法具有以下特點(diǎn):

        (1)在基于少量規(guī)則的頁面分析基礎(chǔ)上,采用語義相關(guān)度主題爬蟲技術(shù),有效提高了特定領(lǐng)域相關(guān)頁面的識(shí)別能力,降低了人工分析網(wǎng)頁結(jié)構(gòu)并制定規(guī)則的工作量.

        (2)利用網(wǎng)站結(jié)構(gòu)中存在按分類進(jìn)行頁面存儲(chǔ)的特點(diǎn),基于URL 結(jié)構(gòu)相關(guān)度對(duì)候選頁面進(jìn)行處理,有效提高了頁面采集的準(zhǔn)確度.

        4 關(guān)鍵技術(shù)

        本章詳細(xì)介紹詞語相似度計(jì)算,以及語義相關(guān)度主題爬蟲兩種關(guān)鍵技術(shù).詞語相似度用以衡量待匹配詞與主題詞之間的相似性,語義相關(guān)度主題爬蟲用以預(yù)測(cè)未訪問URL 鏈指的頁面是否主題相關(guān).其中,待匹配詞指描述信息和錨文本中的文本經(jīng)分詞、詞性標(biāo)注、依據(jù)詞性過濾操作后得到的詞語,包含了文本的語法及語義層面特征,可以有效表達(dá)頁面內(nèi)容.

        4.1 詞語相似度計(jì)算

        詞語相似度來度量待匹配詞與主題詞之間的相似程度,借鑒文獻(xiàn)[8]的定義,詞語相似度定義為:描述詞語與詞語之間相似程度的一個(gè)數(shù)值,取值范圍在[0,1]之間.一個(gè)詞語與其自身的相似度為1.若兩個(gè)詞語在任何語境下都不可互換,其相似度為0.

        本文利用HowNet[9]結(jié)合詞分布式表示計(jì)算詞語間語義上的相似度.HowNet 是一部人工編纂的語義知識(shí)詞典,利用人工覆蓋大多數(shù)常用詞語,準(zhǔn)確性較好,但由于專業(yè)特定領(lǐng)域通常具有時(shí)效性強(qiáng)的特點(diǎn),詞語更新速度快,HowNet 不能完全覆蓋,而詞的分布式表示可以由實(shí)時(shí)語料訓(xùn)練,時(shí)效性較好.因此,本系統(tǒng)提出結(jié)合詞分布式表示緩解HowNet 覆蓋度低的問題.詞語相似度計(jì)算步驟如下:

        (1)抽取HowNet 包含的詞語,根據(jù)文獻(xiàn)[8]提出的方法,計(jì)算所有HowNet 包含詞與HowNet 覆蓋的主題詞之間語義相似性SimH.

        (2)對(duì)中文文本語料進(jìn)行預(yù)處理,包括語料抽取、繁簡轉(zhuǎn)換、分詞、去除停用詞等.

        (3)利用預(yù)處理后的語料訓(xùn)練詞分布式表示.

        (4)根據(jù)式(1),計(jì)算H o w N e t 包含的詞與HowNet 未覆蓋的主題詞之間、HowNet 未包含詞與所有主題詞之間的詞分布式表示相似性SimD.

        其中,S imD(d,t)表示待匹配詞與主題詞之間的分布式表示相似性,d與t分別表示待匹配詞向量、主題詞向量wdi、wti分別表示待匹配詞d、主題詞t的分布式表示中維度i的大小,n表示詞分布式表示的向量長度.

        (5)根據(jù)算法1,最終得到所有詞與主題詞的相似度Sim.

        算法1.計(jì)算待匹配詞與主題詞之間語義相似度輸入:S imD(d,t)1.待匹配詞d 與主題詞t 之間的分布式表示相似性;S imH(d,t)2.待匹配詞d 與主題詞t 之間依據(jù)HowNet 計(jì)算出的語義相似性;α、β0≤α≤1 0≤β≤1 3.參數(shù),其中,閾值Th1,Th2.S im(d,t)輸出:待匹配詞d 與主題詞t 之間的語義相似性.操作步驟:1)If SimD(d,t)<0,then Sim(d,t)=0,return Sim(d,t).2)If SimD(d,t)<Th1,then SimD(d,t)=0.3)If SimH(d,t)<Th2,then SimH(d,t)=0.4)If SimH(d,t)=0,then Sim(d,t)=αSimD(d,t),else Sim(d,t)=βSimH(d,t)+(1-β)SimD(d,t).5)If Sim(d,t)<Th1,then Sim(d,t)=0.6)Return Sim(d,t).

        4.2 語義相關(guān)度主題爬蟲

        特定領(lǐng)域語料采集的基礎(chǔ)是語義相關(guān)度主題爬蟲.語義相關(guān)度主題爬蟲使用未訪問URL 優(yōu)先級(jí)(簡稱優(yōu)先級(jí))來預(yù)測(cè)未訪問URL 鏈指的頁面與主題的相關(guān)程度.計(jì)算優(yōu)先級(jí)時(shí)使用頁面信息相關(guān)度來度量頁面描述信息、錨文本與主題的相關(guān)程度,同時(shí)使用URL 結(jié)構(gòu)相關(guān)度來度量未訪問URL 與歷史URL的相關(guān)程度,綜合兩種相關(guān)程度得到未訪問URL的優(yōu)先級(jí).

        4.3 頁面信息相關(guān)度

        本文使用頁面信息相關(guān)度來度量頁面描述信息、錨文本與主題在語義上的相關(guān)程度.在計(jì)算頁面信息相關(guān)度時(shí),使用詞語權(quán)重來度量每個(gè)詞的重要程度,本文定義詞語權(quán)重如式(2):

        其中,wi表示詞語i的權(quán)重,詞語包括待匹配詞與主題詞.t fi、id fi分別表示詞語i在文檔d中的詞頻與逆文檔頻率,fi表示詞語i在文檔d中出現(xiàn)的頻數(shù),N表示文檔數(shù)目,Ni表示包含詞語i的文檔數(shù)目.

        主題詞集合用于描述特定主題,待匹配詞集用于表示未訪問頁面的特征,其定義如下:

        定義1.選取的主題詞集合定義為TS et,包含所有的主題詞wordt.

        定義2.待匹配詞集定義為WS et由待匹配詞組成.

        由算法1 與式(2)得到詞語相似性和詞語權(quán)重后,就可以計(jì)算頁面信息相關(guān)度,計(jì)算如式(3)所示.

        其中,Rel(TS et,WS et)表示主題詞集和待匹配詞集之間的頁面信息相關(guān)度,wd表示待匹配詞wordd的權(quán)重,wt表示主題詞wordt的權(quán)重,二者均由式(2)得到,wordd∈WS et,wordt∈TS et,M表示待匹配詞集的大小,N表示主題詞集的大小,即M=|WS et|,N=|TS et|,S im(wordd,wordt)表示wordd與wordt之間的詞語相似度,由算法1 得到.

        4.4 URL 結(jié)構(gòu)相關(guān)度

        本文使用結(jié)構(gòu)相關(guān)度度量未訪問的URL 與已訪問的歷史URL 結(jié)構(gòu)上的相似程度,如果未訪問的URL 與歷史URL 結(jié)構(gòu)相似,則該URL 很可能也需要爬取.結(jié)構(gòu)相關(guān)度的計(jì)算利用式(4)、算法2、算法3 完成.

        Jaccard 系數(shù)定義為:

        其中,A、B表示兩個(gè)集合.

        算法2.計(jì)算URL 之間的結(jié)構(gòu)相似性輸入:1.URL1,URL2 α β 2.權(quán)重參數(shù) 、threshold 3.閾值參數(shù)輸出:是否結(jié)構(gòu)相似 isHrefStructSame

        操作步驟:(1)將URL1、URL2 分別分割成主機(jī)名部分Host1、Host2,路徑名部分Path1、Path2.(2)如果URL1的主機(jī)名與URL2的主機(jī)名之間存在包含關(guān)系,則返回isHrefStructSame=true.1/dd(3)將Host1、Host2 按‘.'分割,各劃分成若干個(gè)部分,對(duì)二者對(duì)應(yīng)部分按照式(4)計(jì)算Jaccard 系數(shù),得到各個(gè)部分的計(jì)算結(jié)果J1,J2,…,Jn.如果二者的對(duì)應(yīng)部分均包含“www”(即兩個(gè)URL均以www 開頭),則此對(duì)應(yīng)部分Jaccard 系數(shù)為計(jì)算結(jié)果的,為常數(shù).hostS im=∑ni=1 wiJi wiw1=a′ wi+1=wi-b,i>0 a,bJi(4)主機(jī)部分相似性:,其中n 取Host1、Host2 分割后的最小數(shù)目,表示第i 部分的權(quán)重,且,,均為常數(shù),由上一步得到.(5)將Path1、Path2 按‘/'分割,各劃分成若干個(gè)部分,對(duì)二者對(duì)應(yīng)部分按照式(4)計(jì)算Jaccard 系數(shù),得到各個(gè)部分結(jié)果Jp1,Jp2,…,Jpm.pathS im=∑mj=1 w j?Jp j w jw1=a′,w j+1=w j/2,j>0 a′Jp j(6)路徑部分相似性,其中m 取Path1、Path2 分割后的最小數(shù)目,表示第j 部分的權(quán)重,且,為常數(shù),由上一步得到.αhostS im+βpathS imthreshold (7)判斷:是否大于,若是返回isHrefStructSame=true;否則返回isHrefStructSame=false.

        算法3 利用URL 結(jié)構(gòu)信息判斷待爬取鏈接是否需要爬取輸入:1.未訪問的URL 2.歷史URL 3.采樣數(shù)目n輸出:URL 結(jié)構(gòu)相關(guān)度struct操作步驟:1)從歷史URL中隨機(jī)抽取n個(gè)URL 作為抽樣樣本.2)計(jì)算未訪問URL 與每個(gè)抽樣樣本間的結(jié)構(gòu)相似性,利用算法2.3)如果未訪問URL 與過半樣本結(jié)構(gòu)相似,返回struct=1.否則返回struct=0.

        4.5 未訪問URL 優(yōu)先級(jí)

        是否爬取一個(gè)未訪問的URL 最終由未訪問URL 優(yōu)先級(jí)(簡稱優(yōu)先級(jí))決定,若優(yōu)先級(jí)大于閾值,則認(rèn)為該URL 需要爬取.優(yōu)先級(jí)由未訪問URL所在頁面的描述信息、URL所在錨文本、URL 結(jié)構(gòu)三個(gè)因素共同決定.優(yōu)先級(jí)計(jì)算公式如式(5).

        其中,p(url)表示優(yōu)先級(jí),Rel(finfo,TS et)表示主題詞集TS et與未訪問URL所在頁面的描述信息finfo之間的頁面信息相關(guān)度,Rel(aurl,TS et)表示未訪問URL所在錨文本aurl與主題詞集TS et之間的頁面信息相關(guān)度,二者由公式(3)計(jì)算,struct(url)表示未訪問URL的結(jié)構(gòu)相關(guān)度,其計(jì)算過程如算法3,取值{0,1},α、β 、λ 是平衡參數(shù),0 ≤α ≤1,0 ≤β ≤1,λ >0 .考慮頁面的實(shí)際構(gòu)成情況,借助層次分析法,確定平衡參數(shù)取值.

        最終,語義相關(guān)度主題爬蟲對(duì)未訪問URL的爬取策略為:如果未訪問URL 優(yōu)先級(jí)大于閾值,則爬取該鏈接鏈指的頁面,否則不爬取.

        5 實(shí)驗(yàn)結(jié)果與分析

        本文選取黨建領(lǐng)域作為特定領(lǐng)域,選用維基百科中文數(shù)據(jù)庫全庫數(shù)據(jù)、某黨建網(wǎng)站黨建專題下2017年9月至2018年2月約1 萬篇黨建新聞數(shù)據(jù)、搜狗文本分類語料庫部分?jǐn)?shù)據(jù)來訓(xùn)練詞分布式表示.維基百科中文數(shù)據(jù)庫信息量大、內(nèi)容范圍廣,黨建專題數(shù)據(jù)包含有大量主題相關(guān)的內(nèi)容,內(nèi)容專業(yè)性強(qiáng),搜狗文本分類語料庫包含多種類別,對(duì)應(yīng)采集過程中遇到的各種類別.語料詳細(xì)信息見表1.

        表1 訓(xùn)練分布式表示所使用的語料

        為確保主題詞的專業(yè)性與準(zhǔn)確性,大部分主題詞選自中共中央黨校出版社出版的《黨的建設(shè)詞典》,為保證時(shí)效性,同時(shí)選取了百度百科黨務(wù)知識(shí)類別下的部分詞條,共選出1552個(gè)詞作為候選主題詞,涵蓋時(shí)政、理論、作風(fēng)等方面.為了保證系統(tǒng)的執(zhí)行速度,結(jié)合黨建語料的統(tǒng)計(jì)信息,從候選主題詞中精煉出429個(gè)主題詞作為最終的主題詞.部分主題詞及其權(quán)重如表2.

        表2 部分主題詞

        詞語權(quán)重基于黨建專題數(shù)據(jù)、依據(jù)式(2)計(jì)算.對(duì)于未在訓(xùn)練語料中出現(xiàn)的詞語,賦予平均值作為其權(quán)重.由于少數(shù)權(quán)重較高的詞語出現(xiàn)在非黨建領(lǐng)域頁面時(shí)會(huì)對(duì)采集造成影響,所以對(duì)其權(quán)重進(jìn)行人工調(diào)整.例如,“弘揚(yáng)中國共產(chǎn)黨人歷史擔(dān)當(dāng)精神”(黨建新聞)與“與中國爭奪影響力?俄媒論莫迪與普京私聊弦外之音”(國際新聞)中均包含“中國”一詞,若“中國”的權(quán)重過大可能導(dǎo)致不屬于黨建語料的國際新聞被采集.詞語權(quán)重共覆蓋88 820個(gè)詞,其中人工調(diào)整權(quán)重的詞語共38個(gè),部分被人工調(diào)整的詞語如表3所示,部分詞語權(quán)重如表4所示.

        表3 部分人工調(diào)整的詞語

        表4 部分詞語權(quán)重

        對(duì)于算法1中閾值選取,以同義詞組間、非同義詞組間的語義相似性判斷準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn),選取420 組詞語進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5.最終根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行閾值選取.

        表5 算法1的閾值選取

        對(duì)于算法2中閾值選取,以結(jié)構(gòu)相似性判斷準(zhǔn)確率作為標(biāo)準(zhǔn),選取某網(wǎng)站相同板塊以及不同板塊下共100 對(duì)URL 進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6,最終算法2的閾值根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行選取.

        表6 算法2的閾值選取

        對(duì)于未訪問URL 鏈指頁面閾值的選取,即公式5 閾值選取,基于表5、表6的實(shí)驗(yàn)結(jié)果,利用層次分析法選取αβγ,并對(duì)不同的閾值進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如圖2.閾值越大時(shí),主題相關(guān)限制越嚴(yán)格,因此采集準(zhǔn)確率越高.當(dāng)閾值達(dá)到0.2 后,準(zhǔn)確率達(dá)到穩(wěn)定.此外,當(dāng)?shù)烷撝禃r(shí),由于主題相關(guān)限制不嚴(yán)格,大量主題無關(guān)頁面被訪問,大量時(shí)間耗費(fèi)在無關(guān)頁面的訪問與判斷上,考慮時(shí)間因素下的采集量不高;隨著閾值升高,主題限制嚴(yán)格,無關(guān)頁面被過濾,無關(guān)頁面訪問耗時(shí)較少,考慮時(shí)間因素下的采集量上升;當(dāng)閾值進(jìn)一步升高時(shí),部分主題相關(guān)頁面也會(huì)被過濾,導(dǎo)致采集量級(jí)反而下降.

        最后本文針對(duì)黨建領(lǐng)域,對(duì)多個(gè)網(wǎng)站進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)網(wǎng)站列表如表7所示。網(wǎng)站分為兩大類,前4個(gè)網(wǎng)站為主流的門戶網(wǎng)站,包含體育、經(jīng)濟(jì)、娛樂、汽車等大量無關(guān)領(lǐng)域信息,后4個(gè)網(wǎng)站屬于黨建領(lǐng)域網(wǎng)站,其所含內(nèi)容屬于黨建領(lǐng)域信息。

        圖2 URL 最終閾值選取

        表7 實(shí)驗(yàn)網(wǎng)站

        本文采用準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn),準(zhǔn)確率即精度,如式(6)所示:

        其中,relevantResult表示系統(tǒng)采集的語料中屬于黨建領(lǐng)域的數(shù)量,Allresult表示系統(tǒng)采集到的所有語料數(shù)目.系統(tǒng)準(zhǔn)確率結(jié)果如表8所示.系統(tǒng)在黨建領(lǐng)域網(wǎng)站,其平均準(zhǔn)確率在94.87%;在門戶網(wǎng)站上,其平均準(zhǔn)確率為64.20%.

        在黨建領(lǐng)域網(wǎng)站上采集準(zhǔn)確率較高,原因是其內(nèi)容屬于黨建領(lǐng)域信息,噪聲較小,頁面內(nèi)容較為規(guī)整,形式較為統(tǒng)一,因此準(zhǔn)確率較高.而門戶網(wǎng)站的采集準(zhǔn)確率均較黨建領(lǐng)域網(wǎng)站準(zhǔn)確率低,其主要原因如下:

        (1)門戶網(wǎng)站包括大量無關(guān)主題,噪聲較大.

        (2)門戶網(wǎng)站頁面結(jié)構(gòu)較為復(fù)雜,對(duì)主題識(shí)別影響較大.

        (3)部分時(shí)政新聞?wù)奈谋据^短,導(dǎo)致正文解析器解析結(jié)果較差.

        (4)部分URL 鏈接到視頻、圖片等非文本頁面,經(jīng)初步過濾后只保留下網(wǎng)站版權(quán)等噪聲信息,降低了準(zhǔn)確率.

        6 結(jié)論與展望

        本文針對(duì)語料采集任務(wù),設(shè)計(jì)了基于語義相關(guān)度主題爬蟲的語料采集方法.根據(jù)選定的主題詞,利用頁面描述信息,基于維基百科中文語料訓(xùn)練出的詞分布式表示綜合HowNet 計(jì)算頁面信息相關(guān)度,結(jié)合URL的結(jié)構(gòu)信息預(yù)測(cè)未訪問URL 鏈指的頁面內(nèi)容與主題的相關(guān)程度.實(shí)驗(yàn)表明,基于語義相關(guān)度主題爬蟲的語料采集系統(tǒng)能夠有效的采集互聯(lián)網(wǎng)中的黨建領(lǐng)域頁面內(nèi)容作為黨建領(lǐng)域生語料,具有較高的準(zhǔn)確率.針對(duì)正文提取器提取短文本時(shí)質(zhì)量較差的問題,下一步工作將對(duì)其進(jìn)行改進(jìn),以進(jìn)一步提高系統(tǒng)采集門戶網(wǎng)站時(shí)的準(zhǔn)確率.

        猜你喜歡
        爬蟲主題詞語料
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
        我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        《苗防備覽》中的湘西語料
        亚洲熟妇丰满大屁股熟妇| 精品久久综合日本久久综合网| 精品人妻伦一二三区久久| 国产精品51麻豆cm传媒| 久久国产精品不只是精品 | 蜜桃av一区二区三区| 性色视频加勒比在线观看| 果冻传媒2021精品一区| 欧美视频久久久| 中文字幕精品亚洲一区二区三区| 国产精品高潮呻吟av久久黄| 一区二区三区乱码在线 | 欧洲 | 在线观看日本一区二区| 国产亚洲精品免费专线视频| 久久国产成人精品av| 成人白浆超碰人人人人| 日韩精品成人无码AV片| 国产我不卡在线观看免费| 国产熟妇疯狂4p交在线播放| 久久午夜伦鲁片免费无码| 国产一精品一aⅴ一免费| 日本老熟妇五十路一区二区三区| 蜜臀亚洲av无码精品国产午夜.| 国产午夜福利短视频| 亚洲精品乱码久久久久久按摩高清| 精品极品视频在线观看| 无码人妻一区二区三区免费视频| 人妻去按摩店被黑人按中出| 亚洲精品一品二品av| 亚洲国产精品一区二区毛片| 樱桃视频影视在线观看免费| 91精品全国免费观看青青| 亚州中文字幕乱码中文字幕| 人人妻人人澡人人爽超污| 麻豆国产成人av高清在线观看 | 网址视频在线成人亚洲| 狂野欧美性猛xxxx乱大交| 日产精品久久久久久久| 亚洲天堂色婷婷一区二区| 最新国产精品拍自在线观看| 韩国精品一区二区三区无码视频|