亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx

        基于支持向量機的網(wǎng)頁正文內(nèi)容提取方法

        2018-09-17 07:51:16楊永全魏志強
        計算機與現(xiàn)代化 2018年9期
        關(guān)鍵詞:詞匯文本信息

        梁 東,楊永全,魏志強

        (中國海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100)

        0 引 言

        Web信息抽取最早在2001年提出,目的是將網(wǎng)頁中有價值的文本信息提取出來。網(wǎng)頁正文是獲取Web信息的重要來源,但網(wǎng)頁中也經(jīng)常摻雜著與正文無關(guān)的導(dǎo)航、推廣、版權(quán)等噪音信息。正文信息抽取對后續(xù)的文本分類、分詞、語義分析等工作具有重要意義。本文首先通過分析網(wǎng)頁結(jié)構(gòu)的規(guī)律,采用一定的規(guī)則遍歷DOM樹,定位到一個同時包含正文信息和噪音信息的HTML標簽;然后通過提取含噪音信息的HTML標簽的5個重要特征,采用SVM訓(xùn)練樣本數(shù)據(jù),將訓(xùn)練后得出的數(shù)據(jù)模型用于降噪處理。

        1 研究現(xiàn)狀

        現(xiàn)階段流行的正文抽取方法主要有3類:基于統(tǒng)計學(xué)的正文信息提取方法、基于正文特征和網(wǎng)頁結(jié)構(gòu)的信息提取方法、基于機器學(xué)習的正文提取方法。

        文獻[1]提出了一種基于中文標點特征的正文抽取方法。該方法指出正文信息和噪音信息的中文標點具有不同特征,結(jié)合網(wǎng)頁結(jié)構(gòu)的規(guī)律實現(xiàn)正文信息抽取。該方法不針對單一類型的網(wǎng)站,實現(xiàn)相對簡單。但由于段落的小標題與噪聲信息的標點特征類似,所以該方法易遺漏文章中的短文本。

        文獻[2-4]通過分析正文信息DOM樹節(jié)點路徑的規(guī)律提出了相應(yīng)的正文信息提取方法。在此基礎(chǔ)上,研究者發(fā)現(xiàn)正文文本密度和噪音信息的文本密度具有不同特征,文獻[5]融合了文本密度和標簽路徑覆蓋率2種特征實現(xiàn)了正文信息抽取。該方法融合了多種屬性,不易遺漏正文中的短文本。

        文獻[6]提出一種基于貝葉斯的Web新聞網(wǎng)頁正文抽取方法,該方法利用機器學(xué)習中的樸素貝葉斯分類方法,將正文信息抽取看作一個二分類問題,即正文信息和噪音信息。該方法首先篩選出正文中出現(xiàn)的高頻詞匯,根據(jù)高頻詞匯用貝葉斯定理計算文本判斷為正文的概率。最后設(shè)定一定的閾值,篩選正文。

        文獻[7-8]是一種基于統(tǒng)計學(xué)的信息提取方法,通過分析正文信息在HTML源文件的位置規(guī)律,從而實現(xiàn)正文信息提取。文獻[9]提出了一種基于標記窗的網(wǎng)頁正文信息提取方法,通過分析標題詞序列與正文字符串詞序列的距離規(guī)律實現(xiàn)了正文信息抽取。

        本文中抽取正文信息的方法采取“寬進嚴出”的策略,總體分2個步驟:

        1)遍歷網(wǎng)頁的DOM樹,采用一定的規(guī)則準確地定位到一個同時包含正文信息和噪音信息的HTML標簽。

        2)參照文獻[10-13]中,SVM在垃圾郵件過濾和其他領(lǐng)域中優(yōu)秀的分類效果,本文方法選取噪音信息詞匯特征、噪音信息標點特征、HTML標簽文本長度、HTML標簽位置、HTML標簽文本長度的比值作為5個重要特征,采用SVM訓(xùn)練樣本,使用訓(xùn)練得出的數(shù)據(jù)模型進行降噪。

        本文方法的優(yōu)勢主要如下:

        1)不單純依賴一種特征進行識別,融合多種噪音信息特征共同識別,適用于多種風格的網(wǎng)站,提高了降噪準確率,減少誤刪正文的情況。

        2)SVM訓(xùn)練的模型精度一定程度上依賴于訓(xùn)練數(shù)據(jù),隨著時代變化,網(wǎng)頁數(shù)據(jù)也會隨之發(fā)生變化,所以該方法適用于當今數(shù)據(jù)爆炸式增長的互聯(lián)網(wǎng)環(huán)境。

        2 正文信息定位方法

        網(wǎng)頁中的正文信息大量存在于p標簽中,同時還有部分正文信息存在于嵌套在p標簽中的a標簽。例如:,由于a標簽中往往包含噪音信息,所以當p標簽嵌套a標簽時,需要進行判斷。

        當出現(xiàn)上述情況時,記p標簽的文本長度為Lp,記a標簽的文本長度為La,采用公式(1)計算比值r。

        (1)

        經(jīng)過大量統(tǒng)計,發(fā)現(xiàn)當r越接近0時,即a標簽的文本長度所占比例越小時,a標簽中的文本是正文的概率越大。例如:

        但玩家的人均擁有游戲數(shù)量僅為11.78款

        此時r等于0.28,a標簽中的文本為正文。

        反之當r越接近1時,a標簽文本是噪音信息的概率較大。

        同時人們發(fā)現(xiàn)通常所有的正文內(nèi)容都被一個div標簽包含,所以只需找到包含所有正文內(nèi)容的那個div標簽,就能定位到正文位置。定位方法是從網(wǎng)頁的HTML源碼中找出具有最大文本長度的div標簽。下面介紹定位方法的具體步驟,見圖1。具體步驟如下:

        1)遍歷所有的div標簽。

        2)采用深度優(yōu)先的方式遍歷每個div標簽中的全部p標簽,目的是計算出每個div標簽包含的文本長度。

        3)遇到p標簽嵌套a標簽時,計算比值r,若r≤閾值θ,則保留p標簽。

        4)遍歷標簽時,遇到div標簽中嵌套的div標簽則直接過濾掉,以避免重復(fù)計算。

        5)計算每個div標簽包含的p標簽的文本長度。

        6)篩選出具有最大文本長度的div標簽。

        圖1 正文定位流程圖

        定位到全部正文信息的成功率與選取的閾值θ有關(guān),實驗選擇1000個網(wǎng)頁作為測試網(wǎng)頁,測試θ取不同值時定位到全部正文的成功率。需要注意的是該div標簽中還同時混雜著噪音信息,本文將在后續(xù)工作中采用SVM訓(xùn)練的數(shù)據(jù)模型進行降噪。測試的結(jié)果見圖2。

        圖2 正文定位成功率與閾值θ的關(guān)系圖

        3 支持向量機

        本文將降噪看成一個二分類問題,即正文信息和噪音信息。實驗中使用SVM解決一個二分類問題。假設(shè)有一個定義在n維空間上的訓(xùn)練集。正類代表正文信息,負類代表噪音信息。通過引入映射,將在低維空間線性不可分的訓(xùn)練集映射到高維空間變成線性可分。SVM中常用的核函數(shù)主要有以下3種:

        1)線性核函數(shù):

        K(xi,xj)=xi·xj

        2)多項式核函數(shù):

        K(xi,xj)=(xi. xj+1)d

        3)徑向基核函數(shù):

        其中d和σ均為核函數(shù)的參數(shù),需要人工調(diào)整。

        在實驗中,本文選擇能夠區(qū)分正文信息與噪音信息的5個重要特征屬性,即最后的訓(xùn)練矩陣為5維。第4章將逐一介紹這5個屬性。

        4 選擇噪音信息標簽的特征屬性

        現(xiàn)在已經(jīng)找到一個同時包含正文信息與噪音信息的div標簽。降噪的過程是采用深度優(yōu)先的方式,遍歷當前div標簽包含的每個HTML標簽,采用SVM生成的模型進行識別。由于絕大多數(shù)正文存在于a標簽和p標簽中,所以實驗設(shè)計的SVM數(shù)據(jù)模型只用于識別p標簽和a標簽。選擇特征屬性之前首先要采集訓(xùn)練樣本數(shù)據(jù)。

        4.1 采集訓(xùn)練數(shù)據(jù)

        首先從互聯(lián)網(wǎng)上最流行的5大網(wǎng)站:百度、網(wǎng)易、新浪、騰訊、鳳凰網(wǎng)上共隨機選取3572個網(wǎng)頁,使用第2章介紹的正文定位方法找到包含正文和噪音信息的div標簽,將上述div標簽中的全部HTML標簽進行二分類,分為只含正文信息的標簽和只含噪音信息的標簽,依次視為正類樣本和負類樣本。

        其中只含噪音信息的標簽數(shù)量為2500個,相比只含噪音信息的標簽數(shù)量,只含正文內(nèi)容的標簽數(shù)量明顯偏多。由于正負類樣本數(shù)量相差過多會降低SVM模型的識別精度,本文從數(shù)量偏多的正類樣本中隨機選出2500個標簽,使正類樣本和負類樣本的數(shù)量保持1:1,從而提高模型識別噪音信息的精確性。下面選取含噪音信息標簽的5個重要特征:

        1)噪音詞匯指數(shù)T。

        2)特殊標點指數(shù)S。

        3)標簽文本長度L。

        4)標簽位置P。

        5)a標簽與p標簽的文本長度的比值R。

        記最后訓(xùn)練樣本的5維特征向量為(T,S,L,P,R)。下面對這5個特征(噪音詞匯指數(shù),特殊標點指數(shù),標簽文本長度,標簽的位置,a標簽與p標簽的文本長度比值)依次作出說明。

        4.2 噪音詞匯指數(shù)

        通過觀察,發(fā)現(xiàn)一些詞匯在噪音信息中經(jīng)常出現(xiàn),而在正文信息中極少出現(xiàn)。例如:“鏈接”“掃一掃”“聲明”等。本文把這些詞匯稱為噪音詞匯。噪音詞匯是判斷標簽內(nèi)容是否為噪音信息的重要依據(jù)。為了計算噪音詞匯指數(shù),首先要判別哪些詞匯是噪音詞匯,為此需要建立一個噪音詞匯庫。

        4.2.1 建立噪音詞匯庫

        首先對實驗中選出的2500個只含噪音信息標簽的文本內(nèi)容進行中文分詞操作,目的是從這些詞匯中挑選出用于識別噪音信息的詞匯。本文中,中文分詞并不是主要的研究對象,由于篇幅有限,中文分詞的內(nèi)容不在這里展開討論。

        實驗中采用開源的中文分詞工具ICTCLAS。ICTCLAS是一種基于多層隱馬爾科夫模型的漢語詞法分析系統(tǒng),主要功能包括中文分詞、詞性標注等功能,是一種分詞精度極高的分詞工具。

        首先對2500條噪音信息進行分詞處理,得到t1, t2, t3, …, tn。然后依次計算出現(xiàn)詞匯ti時,判斷為噪音信息的概率pi,見公式(2)。其中ni為詞匯ti在噪音信息樣本中出現(xiàn)的次數(shù),hi為ti在正文信息樣本中出現(xiàn)的次數(shù),公式中的比值越接近1,說明該詞匯越頻繁地出現(xiàn)在噪音信息中,而極少出現(xiàn)在正文信息中。

        (2)

        設(shè)定閾值為α,當pi≥α時,將該詞收錄進噪音詞匯庫。此外當標簽中含有郵箱地址、網(wǎng)址、電話號碼時,標簽內(nèi)容是噪音信息的概率也會增大。把郵箱地址、網(wǎng)址、電話號碼作為額外的3個特殊噪音詞匯。

        4.2.2 計算標簽的噪音詞匯指數(shù)

        現(xiàn)在已經(jīng)有了噪音詞匯庫。假設(shè)要識別的HTML標簽中出現(xiàn)了噪音詞匯ti,采用公式(3)計算ti的權(quán)重值。Wi為詞匯ti的權(quán)重值,fi為詞匯ti在該標簽中出現(xiàn)的次數(shù)。例如將要識別的標簽為:

        更多信息請查看下方鏈接

        假設(shè)噪音詞匯ti為“鏈接”,fi即為“鏈接”在該p標簽中出現(xiàn)的次數(shù),在這個標簽中“鏈接”出現(xiàn)的次數(shù)為1,所以此時fi等于1。

        ni為詞匯ti在噪音信息樣本中出現(xiàn)的次數(shù),hi為詞匯ti在正文信息樣本出現(xiàn)的次數(shù)。比值ni/hi越大說明這個詞匯在噪音信息中出現(xiàn)的次數(shù)越多,在正文中出現(xiàn)的次數(shù)越少,說明用該詞識別噪音信息的準確率越高。

        (3)

        假設(shè)要識別的HTML標簽中共出現(xiàn)了a個噪音詞匯t1, t2, …, ta。采用公式(4)計算噪音詞匯指數(shù)T,即對該標簽中出現(xiàn)的每個噪音詞匯的權(quán)重值求和。其中T為指數(shù)值,Wi為噪音詞匯ti的權(quán)重值。

        (4)

        4.3 特殊標點指數(shù)

        特殊標點指在正文信息中出現(xiàn)頻率低,但在噪音信息中出現(xiàn)頻率高的標點符號,例如標點<、>、/、【、[、{、|、(、(、、_、:、:等,記為s1, s2, …, sn。同時由于噪音文本的結(jié)尾常常不帶句號,所以當標簽的文本結(jié)尾不是句號時,本文將該情況視為出現(xiàn)了額外的一個特殊標點。

        假設(shè)要識別的標簽中出現(xiàn)了特殊標點si,仍然采用公式(3)計算標點si的權(quán)重值。其中Wi為標點si的權(quán)重值,fi為標點si在標簽中出現(xiàn)的次數(shù),ni為標點si在噪音信息樣本中出現(xiàn)的次數(shù),hi為標點si在正文信息樣本中出現(xiàn)的次數(shù)。比值ni/hi越大說明用該標點識別噪音信息的準確率越高。

        假設(shè)要識別的HTML標簽中共出現(xiàn)了a個特殊標點s1, s2, …, sa。采用公式(5)計算該標簽的特殊標點指數(shù)S,即對該標簽中出現(xiàn)的每個特殊標點權(quán)重值求和。其中S為指數(shù)值,Wi為si的權(quán)重值。

        (5)

        4.4 標簽文本長度

        觀察大量的網(wǎng)頁,發(fā)現(xiàn)HTML標簽中文本長度越小,標簽內(nèi)容是噪音信息的概率越大;文本長度越大,標簽內(nèi)容是正文信息的概率越大,因此把文本長度作為第3個識別噪音信息的特征。當識別一個HTML標簽時,記標簽的文本長度為L。

        4.5 標簽的位置

        通過大量觀察,發(fā)現(xiàn)極短文本也常作為段落的小標題存在于正文中;而短文本作為噪音信息時,通常出現(xiàn)在文章的尾部,由此可見標簽的位置也是識別噪音信息的重要特征。采用公式(6)計算標簽的相對位置P,需要注意的是這時已經(jīng)定位到全部正文在某個確定的div標簽里,將div標簽包含的全部標簽按順序排序,n為該div標簽包含的HTML標簽總數(shù),m為當前要識別HTML標簽的序號。

        (6)

        4.6 a標簽與p標簽的文本長度比值

        當p標簽嵌套a標簽時,計算a標簽與p標簽的文本長度比值。通過大量統(tǒng)計,比值越接近1時,p標簽中的內(nèi)容是噪音信息的概率越大。當p標簽沒有嵌套a標簽時,默認該比值為0。當識別一個a標簽或其他HTML標簽時,默認該比值為1。

        5 使用SVM生成數(shù)據(jù)模型

        1)數(shù)據(jù)歸一化。對輸入SVM的訓(xùn)練樣本矩陣進行數(shù)據(jù)歸一化處理,映射到[0,1]的范圍里。數(shù)據(jù)歸一化可以使最優(yōu)解的尋優(yōu)過程變得更平緩,更容易正確地收斂到最優(yōu)解。

        2)確定訓(xùn)練矩陣。將上述5種重要的特征作為輸入向量,從而形成訓(xùn)練數(shù)據(jù)的訓(xùn)練矩陣。

        3)確定核函數(shù)。實驗中分別將線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)3種不同的核函數(shù)應(yīng)用于模型進行對比實驗。實驗結(jié)果表明徑向基核函數(shù)在實驗中的效果較好,因為實驗中訓(xùn)練樣本的特征數(shù)量較少,徑向基核函數(shù)將樣本映射到一個更高維的空間,可以處理當類標簽和特征之間的關(guān)系是非線性時的樣例。

        4)確定參數(shù)。對于徑向基核函數(shù),其參數(shù)的選取直接影響著SVM分類器的性能。選擇采用10折交叉驗證法。將數(shù)據(jù)集分成10份,輪流將其中1份作為測試數(shù)據(jù),另外9份作為訓(xùn)練數(shù)據(jù),進行實驗,以得到最優(yōu)參數(shù)。

        6 利用數(shù)據(jù)模型進行降噪

        6.1 噪聲過濾器的實現(xiàn)

        通過大量觀察,當噪音信息出現(xiàn)在一個文本長度較長的標簽時,正文與噪音信息通常摻雜在一個標簽中。而當標簽的文本長度較短時,通常不會出現(xiàn)上述情況,標簽內(nèi)容或者全部為正文,或者全部為噪音信息。所以降噪時,需要根據(jù)標簽文本長度分2種情況處理。本文設(shè)計了一個噪聲過濾器,當標簽文本長度大于閾值β時采用噪聲過濾器,剔除標簽中的噪音數(shù)據(jù),保留標簽中的正文內(nèi)容。具體實現(xiàn)過程見圖3,采用遞歸算法,整體步驟如下:

        1)由于人們書寫文章的習慣,噪聲信息往往在標簽中文本的尾部,所以本文以句號為分割標識,每次裁剪標簽文本尾部的最后一句話,采用SVM訓(xùn)練出的數(shù)據(jù)模型進行識別。

        2)如果最后一句話被識別為噪音信息,則遞歸,輸入剩余文本,并再次調(diào)用噪聲過濾器,裁剪剩余文本的最后一句話,使用數(shù)據(jù)模型判斷。如果判斷為正文,保存正文文本部分,并跳出循環(huán)。如果判斷為噪音信息,則繼續(xù)遞歸,重復(fù)上述步驟,直到剩余文本長度為0時跳出遞歸。

        圖3 噪聲過濾器的實現(xiàn)流程圖

        例如下面這個HTML標簽:

        萬豪相關(guān)負責人表示已深刻認識問題嚴重性,將認真配合相關(guān)調(diào)查,回應(yīng)社會關(guān)切。更多信息請點擊下方鏈接

        設(shè)該p標簽的文本長度大于閾值,則在噪音信息過濾器中,首先截取p標簽中的最后一句話,即“更多信息請點擊下方鏈接”,提取5個特征屬性,然后使用數(shù)據(jù)模型對該語句進行識別。假設(shè)識別結(jié)果為噪音信息,則遞歸,繼續(xù)識別剩余文本,即“萬豪相關(guān)負責人表示已深刻認識問題嚴重性,將認真配合相關(guān)調(diào)查,回應(yīng)社會關(guān)切?!奔僭O(shè)識別結(jié)果為正文信息,則跳出遞歸。

        6.2 降噪過程的整體邏輯

        降噪的整體邏輯見圖4,需要注意的是這時已經(jīng)定位到全部正文在某個確定的div標簽里。具體步驟為:

        1)采用深度優(yōu)先的方式遍歷div標簽中所有標簽。

        2)考慮到表格數(shù)據(jù)作為正文的一部分,保留td標簽的文本;識別p標簽和a標簽時,將根據(jù)文本長短用2種方式分別處理。其他標簽直接剔除。

        3)當標簽文本長度≤閾值β時,直接用SVM訓(xùn)練得出的模型識別,當標簽文本長度>β時采用噪聲過濾器,剔除標簽中的噪音數(shù)據(jù),保留標簽中的正文內(nèi)容。

        圖4 降噪的整體邏輯流程圖

        圖5 不同文本長度標簽出現(xiàn)的頻數(shù)圖

        需要說明的是,若閾值β選取過大,SVM數(shù)據(jù)模型可能將整個HTML標簽內(nèi)容識別為噪音信息,增加誤刪正文的概率。若閾值β選取過小,會減少誤刪正文的概率,但會影響程序的效率。本文統(tǒng)計了訓(xùn)練集中正文與噪音信息摻雜在一個標簽時,不同文本長度標簽出現(xiàn)的頻數(shù)。統(tǒng)計結(jié)果見圖5。根據(jù)統(tǒng)計結(jié)果將閾值設(shè)定為40。這樣可以較好地平衡降噪精確性和程序效率。

        7 實驗結(jié)果與分析

        實驗中將閾值θ、α、β分別設(shè)定為0.3、0.8、40。選取互聯(lián)網(wǎng)中5個最流行的網(wǎng)站:百度、網(wǎng)易、新浪、騰訊、鳳凰網(wǎng)。每個網(wǎng)站選取200個網(wǎng)頁作為測試集。

        實驗的降噪過程依賴于成功定位到包含全部正文的標簽,只有成功定位到包含全部正文的標簽,降噪過程才能正常進行。采用公式(7)和公式(8)計算正文定位成功率P和降噪準確率R。

        (7)

        (8)

        上述公式中C1表示實驗的網(wǎng)頁總數(shù),C2表示正文定位成功的網(wǎng)頁個數(shù),C3表示準確降噪的網(wǎng)頁個數(shù)。定位成功率和降噪準確率均以實驗的網(wǎng)頁總數(shù)C1為前提。實驗結(jié)果見表1。

        表1 正文抽取實驗結(jié)果

        網(wǎng)頁來源網(wǎng)頁總數(shù)正文定位成功數(shù)成功率/%降噪準確數(shù)準確率/%百度20019597.519095網(wǎng)易2001969819095新浪20019999.519396.5騰訊2001989918994.5鳳凰網(wǎng)2001969818693總計100098498.494894.8

        實驗結(jié)果表明本文方法對大部分網(wǎng)頁的正文提取效果較好,不依賴于網(wǎng)頁的風格和樣式。由于本文方法中采取“寬進嚴出”的策略,第1步定位到全部正文信息的概率較大,在測試的5大網(wǎng)站中,定位到全部正文的成功率均達到97.5%以上。

        SVM數(shù)據(jù)模型可以有效地去除與正文無關(guān)的噪音信息,對于引用文獻方法中經(jīng)常誤刪的與正文相關(guān)的鏈接、短文本等,數(shù)據(jù)模型可以有效識別為正文并保留。實驗結(jié)果表明本文方法具有較高的降噪準確率。表2為本文方法與文獻[1]、文獻[2]和文獻[6]的實驗結(jié)果對比。

        表2 本文與其他文獻的實驗結(jié)果對照 單位:%

        文獻[1]中的方法適用于多種類型的網(wǎng)站,但由于段落標題的標點特征與噪音信息相似,該方法易將網(wǎng)頁中的段落標題誤識別為噪音信息。本文方法對段落標題通??梢詼蚀_識別為正文。

        文獻[2]中的方法主要依賴于網(wǎng)頁DOM樹節(jié)點路徑相似度,所以對一些網(wǎng)頁結(jié)構(gòu)相對規(guī)律的網(wǎng)頁正文抽取準確率較高。例如新浪網(wǎng)站中網(wǎng)頁結(jié)構(gòu)相對規(guī)律,該方法抽取正文準確率較高。鳳凰網(wǎng)和百度網(wǎng)站中的網(wǎng)頁結(jié)構(gòu)相對復(fù)雜,該方法抽取正文準確率相對偏低。

        文獻[6]中的方法主要依賴正文詞匯與非正文詞匯的不同特征,該方法主要基于文本自身特征,并不依賴于網(wǎng)頁的結(jié)構(gòu),適用于不同風格的網(wǎng)站。由于本文中的方法部分依賴于網(wǎng)頁結(jié)構(gòu),對于網(wǎng)頁結(jié)構(gòu)相對復(fù)雜的網(wǎng)頁,文獻[6]的正文抽取效果較好。但本文方法融合了其他重要特征,所以平均的正文抽取準確率更高。

        8 結(jié)束語

        本文中的方法相比傳統(tǒng)的正文信息提取方法提高了精度。從實驗結(jié)果來看,本文所采用的方法適用于大多數(shù)網(wǎng)站,但也有個別網(wǎng)頁出現(xiàn)正文定位失敗的情況,原因在于實驗所采用的HTML解析器無法正常解析個別網(wǎng)頁的網(wǎng)頁源碼,從而導(dǎo)致定位失敗。此外不同類別文章的噪音信息特點也略有差異,比如財經(jīng)類文章與汽車類文章。如果能夠使用文本分類技術(shù)將文章準確分類,結(jié)合文章類別進行降噪,降噪準確率有繼續(xù)提高的可能。

        猜你喜歡
        詞匯文本信息
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        在808DA上文本顯示的改善
        本刊可直接用縮寫的常用詞匯
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        本刊一些常用詞匯可直接用縮寫
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        奇米影视久久777中文字幕| 色老板美国在线观看| 玩50岁四川熟女大白屁股直播| 少妇人妻偷人精品视频| 日韩在线无| 国产男女做爰猛烈视频网站| 国产精品亚洲一区二区三区在线看| 久久午夜av一区二区三区| 丰满多毛的大隂户毛茸茸| а中文在线天堂| 中文字幕第一页在线无码一区二区| 国产黄色一级到三级视频| 国产av剧情久久精品久久| 人妻少妇-嫩草影院| 国产熟妇按摩3p高潮大叫| 天美麻花果冻视频大全英文版| 免费二级毛片在线播放| 亚洲国产精品天堂久久久| 日本一级特黄aa大片| 无码国模国产在线观看| 激情五月天伊人久久| 中文字幕一区二区三区精品在线| 狠色人妻丝袜中文字幕| 国产免费又爽又色又粗视频| 人妻影音先锋啪啪av资源| 韩国主播av福利一区二区| 午夜视频一区二区三区四区| 国产激情综合在线观看| 亚洲精品国产综合一线久久| 成人无码激情视频在线观看| 老女人下面毛茸茸的视频| 国产精品天堂avav在线| 久久AⅤ无码精品为人妻系列| 国产午夜精品美女裸身视频69| 亚洲国产一区二区,毛片| 久久中文骚妇内射| a人片在线观看苍苍影院| 久久国产精品99精品国产987| 日本在线观看一区二区视频| 无码毛片内射白浆视频| 色偷偷av亚洲男人的天堂|