亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本密度的網(wǎng)頁抽取研究

        2021-11-18 14:58:46謝俊宇
        科學(xué)與生活 2021年20期
        關(guān)鍵詞:數(shù)據(jù)采集

        謝俊宇

        摘要:面對海量的信息庫,如何從網(wǎng)頁中將與網(wǎng)頁主題相關(guān)度較高的正文信息抽取出來是比較困難的。本文針對新聞網(wǎng)頁,提出基于文本密度的網(wǎng)頁抽取算法,這是一種快速、準確通用的網(wǎng)頁提取算法。通過與現(xiàn)有的一些算法對比,該算法可以較好的支持大數(shù)據(jù)量網(wǎng)頁正文提取操作。

        關(guān)鍵詞:數(shù)據(jù)采集;網(wǎng)頁抽取;智能頁面解析

        1 引言

        隨著Web技術(shù)的發(fā)展,人類的日常生活方式已經(jīng)發(fā)生了巨大的變化。這些變化使得許多傳統(tǒng)的紙質(zhì)載體都被電子載體取而代之,許多信息都通過互聯(lián)網(wǎng)上的網(wǎng)頁來傳遞和展示。新聞網(wǎng)站是實時新聞發(fā)布的主要平臺,也是獲取實時新聞的關(guān)鍵平臺,要及時、全面地獲取新聞實時信息并作為后續(xù)研究的基礎(chǔ)信息,對新聞?wù)军c進行實時采集很有必要。因此,如何從大量的半結(jié)構(gòu)化網(wǎng)頁信息中快速抽取用戶感興趣的內(nèi)容是需要研究的重要課題。

        2 國內(nèi)外研究現(xiàn)狀

        目前較為成熟的信息抽取方法為基于統(tǒng)計的方法。主要有統(tǒng)計文本密度、標簽密度和行塊分布等方法。Weninger等提出CETR算法,利用聚類方法并基于網(wǎng)頁源代碼的標簽比特征值來進行網(wǎng)頁信息抽取。Mehta 等在DOM樹的基礎(chǔ)上提出閾值和數(shù)據(jù)過濾器的概念,用于檢測和刪除網(wǎng)頁中不相關(guān)和冗余的數(shù)據(jù),從而動態(tài)消除不同結(jié)構(gòu)化網(wǎng)頁的噪聲內(nèi)容,來提取網(wǎng)頁關(guān)鍵內(nèi)容。吳共慶等根據(jù)DOM樹標簽路徑特征,提出將不同特征融合得到融合特征值的方法,然后在利用融合后的特征對新聞網(wǎng)頁進行內(nèi)容抽取。

        3 網(wǎng)頁抽取算法

        本文通過對新聞網(wǎng)頁的正文頁進行分塊,提出基于標簽文本密度的網(wǎng)頁抽取算法??s小了抽取新聞標題、正文、發(fā)布時間的范圍,并結(jié)合符號密度,計算最終文本密度得分,提高了抽取正文的準確率。

        在新聞網(wǎng)頁的正文頁面中:

        1. 文本字數(shù)較多

        2. <a>標簽文本字數(shù)較少

        3. 標點符號(尤其是句號等)使用較多

        4. 段落較多

        正文標題通常會用<h*></h> (*:1-6) 標簽包含,而正文通常會使用<p></p>標簽包含。有可能在<p></p>標簽中還會包含<a>鏈接或者<span>標簽等,但是只需要找到包含正文內(nèi)容的<p></p>,無論<p></p>標簽內(nèi)會包含什么標簽,都可以視為新聞?wù)膬?nèi)容。例如以下是新聞?wù)捻揾tml代碼示例:

        <body>

        <h1 class="post_title">習近平談為基層減負 </h1>

        <div class="post_info">2021-02-03 08:18:37 來源:黨建網(wǎng)微平臺</div>

        <div class="post_body">

        <p>2020年歲末,一份名為《關(guān)于持續(xù)解決形式主義問題深化拓展基層減負工作情況的報告》……</p>

        <p>要堅決整治形式主義、官僚主義,讓基層干部從繁文縟節(jié)、文山會海、迎來送往中解脫出來。</p>

        <p>在疫情防控工作中,有些地方出現(xiàn)了形式主義、官僚主義現(xiàn)象……</p>

        <p>要控制各級開展監(jiān)督檢查、索要材料報表的總量和頻次,同類事項可以合并的要合并進行…… </p>

        </div>

        </body>

        我們首先需要初始化html,將html文件解析為document對象,并且拆分取出每一個標簽。如圖所示:

        接著獲取每個div盒子中的標簽文本統(tǒng)計信息,分別計算每個div中的標簽文本密度,再計算每個div中的標點符號密度,最終結(jié)合標簽文本密度和標點符號密度,使用不同底數(shù)的對數(shù)函數(shù)對數(shù)據(jù)進行壓縮,調(diào)整權(quán)重占比,計算每個div中的文本密度得分,文本密度得分最高的div盒子即為我們的正文內(nèi)容。

        4 驗證實驗

        4.1 數(shù)據(jù)集的選取

        為驗證算法性能,我們采集了來自不同大型新聞網(wǎng)站、時間跨度30天的9313篇新聞網(wǎng)頁作為算法的性能評測樣本數(shù)據(jù)集。實驗最后將新聞樣本的使用人工方法抽取的正文字符與算法自動抽取的結(jié)果作對比,以此來衡量算法的抽取準確率。

        4.2 評測指標及實驗結(jié)果

        本文對提取內(nèi)容和標準內(nèi)容進行對比,采用Precision、Recall、F1值這3個通用的評測指標來衡量通用網(wǎng)頁新聞標題自動抽取算法的性能。文本對比過程采用改進的LCS(Longest Common Sequence)算法,LCS算法是將兩個給定字符串分別刪去零個或者多個字符,但不改變剩余字符的順序后得到的長度最長的相同字符序列。

        F1值是Precision和Recall調(diào)和平均數(shù)。它綜合了P和R的結(jié)果,當F1值較高時,則能說明算法性能較好。若實驗數(shù)據(jù)量越大,數(shù)據(jù)集分布越平衡,則評測指標的可信度也會越高。最后通過計算,可以得出自動抽取算法在整個樣本數(shù)據(jù)集上的平均準確率P、平均召回率R以及平均F1值分別為98.3、99.2和98.75。

        實驗結(jié)果發(fā)現(xiàn)通過算法提取的網(wǎng)頁正文內(nèi)容與人工提取的標準結(jié)果吻合度較高,所以該算法對于國內(nèi)的新聞網(wǎng)站的智能提取還是較為不錯的。

        參考文獻:

        [1]?WENINGER T,HSU W H,HAN J. CETR:content extraction via tag ratios[C]// Proc of the 19th International Conference on World Wide Web. New York:ACM,2010:971-980.

        [2]?MEHTA B,NARVEKAR M. DOM tree based approach for web content extraction[C]// 2015 International Conference on Communication,Information & Computing Technology. Mumbai:IEEE,2015:1-6.

        [3]?吳共慶,胡駿,李莉,等. 基于標簽路徑特征融合的在線Web新聞內(nèi)容抽取[J]. 軟件學(xué)報,2016,27 (3) :714-735.WU Gongqing,HU Jun,LI Li,et al. Online Web news extraction via tag path feature fusion[J]. Journal of Software,2016,27 (3) :714-735.

        [4] 王永新,王秋芬,梁道雷.一種高效LCS算法[J].南陽理工學(xué)院學(xué)報,2013 (6) :67-70.

        猜你喜歡
        數(shù)據(jù)采集
        Web網(wǎng)絡(luò)大數(shù)據(jù)分類系統(tǒng)的設(shè)計與改進
        CAN總線通信技術(shù)在電梯監(jiān)控系統(tǒng)中的應(yīng)用
        基于大型嵌入式系統(tǒng)的污水檢測系統(tǒng)設(shè)計
        社會保障一卡通數(shù)據(jù)采集與整理技巧
        基于AVR單片機的SPI接口設(shè)計與實現(xiàn)
        CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應(yīng)用
        大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
        科技視界(2016年18期)2016-11-03 22:51:40
        鐵路客流時空分布研究綜述
        基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
        軟件工程(2016年8期)2016-10-25 15:54:18
        通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:52:53
        97久久国产精品成人观看| 亚洲精品久久久久高潮| 久久精品一品道久久精品9 | 久久99亚洲精品久久久久 | 日本50岁丰满熟妇xxxx| 色综合久久中文综合久久激情| av网站可以直接看的| 女同同志熟女人妻二区| 免费人成视频x8x8入口| 国产一区二区三区在线观看精品| 开心激情站开心激情网六月婷婷 | 97中文字幕一区二区| 少妇人妻中文久久综合| 曰本大码熟中文字幕| 亚洲天堂资源网| 国产av在线观看91| 欧美成人家庭影院| 亚洲精品aa片在线观看国产| 久久国产成人午夜av影院| 永久免费看黄网站性色| 99久久99久久久精品齐齐| 18级成人毛片免费观看| 91久久精品人妻一区二区| 女人天堂av人禽交在线观看| 特级毛片爽www免费版| 91精品国产91久久久无码95| 日韩精品视频中文字幕播放| 国产亚洲精品久久久久久国模美| 国产精品无套内射迪丽热巴| 无码国产精品一区二区免费式芒果| 久久国产精品一区av瑜伽| 国产精品18久久久| 无码人妻AⅤ一区 二区 三区| 国产又湿又爽又猛的视频| 97人人模人人爽人人喊网| 韩国三级中文字幕hd久久精品| 久青青草视频手机在线免费观看| 99久久婷婷国产亚洲终合精品| 女人被爽到呻吟gif动态图视看| 亚洲国产成人精品激情资源9| 国产激情一区二区三区成人|