亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)頁特征的特征詞提取技術(shù)

        2014-02-21 02:16:38龐寧
        關(guān)鍵詞:語義文本

        龐寧

        (太原科技大學(xué)應(yīng)用科學(xué)學(xué)院, 山西 太原 030024)

        基于網(wǎng)頁特征的特征詞提取技術(shù)

        龐寧

        (太原科技大學(xué)應(yīng)用科學(xué)學(xué)院, 山西 太原 030024)

        特征詞提取是一項提煉整個web頁面內(nèi)容的實用技術(shù), 同時也為文本分類, 信息抽取應(yīng)用提供了技術(shù)支持. 在web頁面內(nèi)容上, 利用段落間語義關(guān)系劃分出網(wǎng)頁內(nèi)容的篇章結(jié)構(gòu), 并以此為基礎(chǔ)使用網(wǎng)頁的元數(shù)據(jù)和特殊標(biāo)簽, 設(shè)計了一個特征詞的加權(quán)函數(shù), 綜合考慮了詞頻、詞長和位置因子, 最后, 實驗對比了各類位置因子對系統(tǒng)的貢獻(xiàn)度. 實驗結(jié)果表明, 改進(jìn)方法的F1值比傳統(tǒng)的TFIDF提取技術(shù)提高了15.5%, 其中, 位置因子中的標(biāo)題, 關(guān)鍵詞和摘要因素對系統(tǒng)的貢獻(xiàn)最大.

        特征詞提取; 網(wǎng)頁; 元數(shù)據(jù); 加權(quán)函數(shù)

        由于計算機技術(shù)與網(wǎng)絡(luò)的快速發(fā)展, 各種信息以前所未有的速度每天在不斷的生產(chǎn)更新, 知識爆炸已經(jīng)成為人類新的困惑. 如何從海量信息中提取出我們所需要的內(nèi)容是自然語言處理技術(shù)中的新的焦點, 因此能夠有效反映文本內(nèi)容的特征詞提取技術(shù)受到了眾多研究人員的重視, 在各種相關(guān)領(lǐng)域中, 例如, 自動分類[1]、文本聚類[2]、文本過濾[3]等, 都會看到該技術(shù)的應(yīng)用.

        1 相關(guān)研究

        特征詞可以認(rèn)為是代表某類文本的類別領(lǐng)域詞, 是為了滿足文獻(xiàn)標(biāo)引或檢索工作的需要而從文章中萃取出來的、表示全文主題內(nèi)容信息條目的單詞或術(shù)語. 目前特征詞提取技術(shù)大致可以分為三種: 基于規(guī)則方法[4], 基于算法模型[5-6]和基于統(tǒng)計方法[7-9].

        隨著網(wǎng)絡(luò)技術(shù)的發(fā)展, 基于網(wǎng)頁特征詞提取開始受到關(guān)注. 為了盡量減少在提取過程中對文本內(nèi)容結(jié)構(gòu)的過分依賴, 本文提出一種特征詞抽取算法, 除了考慮傳統(tǒng)的詞頻、詞長、位臵等提取特征因子, 還特別引入了網(wǎng)頁元數(shù)據(jù)特征.

        2 Web文檔的元數(shù)據(jù)

        元數(shù)據(jù)在數(shù)據(jù)庫領(lǐng)域和圖書館自動化系統(tǒng)中有著廣泛應(yīng)用. 隨著對網(wǎng)絡(luò)信息使用需求的不斷增長, 元數(shù)據(jù)逐漸開始用于描述Web文檔. 目前, 有些Web信息檢索系統(tǒng)(如Altavista 等0已經(jīng)開始支持HTML 中的META和LINK標(biāo)記. 同時Web文檔的作者也開始利用這些標(biāo)記來指定若干簡單的元數(shù)據(jù)(例如, 東方網(wǎng)指定了Description和keyword0. 而這些簡單的元數(shù)據(jù)恰恰是特征詞提取中所需要. 隨著元數(shù)據(jù)使用的逐漸普及, 越來越多的Web 信息資源已經(jīng)附有元數(shù)據(jù), 因此直接利用這些已有信息也是網(wǎng)絡(luò)檢索發(fā)展的趨勢.

        3 特征詞提取算法

        3.1 算法流程

        本文研究的是基于網(wǎng)頁元數(shù)據(jù)的一種提取算法, 具體過程如圖1所示. 首先將網(wǎng)頁源文本利用HTML網(wǎng)頁清洗技術(shù)去掉網(wǎng)頁上的噪音, 保留網(wǎng)頁中的主題文本和超鏈接, 利用網(wǎng)頁上保留的重要標(biāo)簽信息對網(wǎng)頁內(nèi)容結(jié)構(gòu)化, 將其分為標(biāo)題、關(guān)鍵詞和摘要、正文、超鏈接, 分別存儲. 再利用分詞軟件將各部分文本分詞, 標(biāo)注詞性,僅保留文中名詞和動詞, 這是因為特征詞一般都是名詞或動詞, 同時也避免高頻虛詞的干擾, 第四步是將正文中的文本進(jìn)行語義段落劃分, 即形成內(nèi)容相近的若干子節(jié), 抽取各子節(jié)的子標(biāo)題, 進(jìn)一步為提取各詞的位臵因子特征做準(zhǔn)備, 最后, 計算各詞的特征因子的值, 利用權(quán)值函數(shù), 求出各詞的權(quán)重, 最后, 按照權(quán)重值排序得到網(wǎng)頁的特征詞.

        3.2 語義段落的生成機制

        網(wǎng)頁文本通常呈現(xiàn)半結(jié)構(gòu)化的特點, 為了更好地衡量每個候選特征詞的位臵因子, 采用智能化的方法[10]對網(wǎng)頁正文內(nèi)容進(jìn)行結(jié)構(gòu)化, 將內(nèi)容相近的若干段落歸為一個語義段落. 首先, 通過計算每兩個連續(xù)段落之間的語義距離來判斷它們在內(nèi)容上的相似程度. 假定文本任意兩個連續(xù)段落pai和pai+1之間的語義相似度定義為:

        其中, |pai∩pai+1| 是pai和pai+1所具有的相同詞的數(shù)目, |pai∪pai+1|是pai和pai+1所有詞的數(shù)目. 顯然, 段落相似度越大, 說明二者在內(nèi)容上的差異越小. 基于段落相似度, 在相鄰的段落上使用聚類算法進(jìn)行合并. 具體而言, 首先假設(shè)整篇文本是一個語義段落, 從相似度最小的兩個段落處斷成兩個新的語義段落, 重復(fù)上述過程直至文本的語義段落的數(shù)目滿足要求.

        在各個語義段落中需要提取出一部分詞代表該段的中心思想, 類似于子標(biāo)題的作用, 做法是: 尋找在該語義段落中出現(xiàn)頻率高的, 而在其他語義段中的頻率反而低的一些詞借鑒TFIDF方法構(gòu)造詞頻計算函數(shù)如下:

        其中, tfi是 ti在文本中的詞頻, ND為文本中包含的所有段落數(shù)目, 而ni為文本中出現(xiàn)過詞ti的所有段落的數(shù)目. 這樣, 就得到Wi的一種可行的計算方法. 選取Wi值大的前10個代表該語義段落的子標(biāo)題.

        3.3 特征詞權(quán)重的計算

        3.3.1 詞長因子

        詞語的長度與詞語的抽象度存在一定的聯(lián)系, 基本規(guī)律是詞語的長度與意義具體化的關(guān)系呈反比, 長度越短, 意義越抽象、模糊, 而通常需要更加具體的詞語反映文本主題思想. 因此設(shè)計了如下的方法計算詞長因子,

        其中l(wèi)en是詞ti的詞長,maxlen為全文中最長的詞長,minlen為全文中最短的詞長.

        3.3.2 詞頻因子

        通常研究人員更傾向于認(rèn)為, 在一篇文本中, 高頻詞要比低頻詞更能反映主題, 但事實上, 詞語的出現(xiàn)頻率無法完全體現(xiàn)出該詞對于文本分類的重要性, 很多出現(xiàn)次數(shù)較少的專用名詞反而更能反映文本的類別. 因此特別設(shè)計如下的詞頻因子計算方法, 利用加權(quán)法克服了單純考慮詞語的出現(xiàn)次數(shù)的弊端.

        其中tw是詞ti在全文出現(xiàn)的次數(shù), tt是詞ti在標(biāo)題出現(xiàn)的次數(shù), tl是詞ti在鏈接處出現(xiàn)的次數(shù).

        圖1 特征詞提取算法流程圖Figure1 the flow chart of signature word extracting algorithm

        3.3.3 位置因子

        在文本中, 不同位臵上的詞語所能蘊含的文本主題的作用是不同的. 將網(wǎng)頁文本按照體現(xiàn)主題內(nèi)容的差別分為如下幾種位臵, 見表1.

        表1 位置因子具體描述表Table1 specific description table of location factor

        為了體現(xiàn)出不同的位臵上的詞對于特征詞提取結(jié)果的影響的差異, 特別設(shè)計了式(40所示的計算位臵因子的函數(shù),

        tw表示詞ti的位臵因子的計算函數(shù), 其中, ω、ψ表示不同位臵上的詞語所含的信息量系數(shù), 經(jīng)過大量實驗, 我們得到如表3-2的系數(shù)取值表, fw(ti)代表詞ti的信息量, 具體計算公式見式(5)

        其中, fu(ti)表示詞ti在文本中的頻數(shù), fv(ti)表示詞ti的段落頻數(shù), l表示詞長.

        表2 ω、ψ系數(shù)取值表Table2 factor value table of ω、ψ

        3.3.4 加權(quán)函數(shù)

        綜合上述三種特征因子, 構(gòu)造如下的特征詞加權(quán)函數(shù):

        其中, w(ti)表示詞ti在網(wǎng)頁中作為特征詞的權(quán)重值, 而系數(shù)2、1、2分別用來表明位臵因子(tw), 詞長因子(tl),詞頻因子(tp)在加權(quán)函數(shù)中的所占的比重.

        4 實驗

        4.1 測試集和評價準(zhǔn)則

        為了避免評測時, 由于測試人員的主觀性帶來的誤差, 我們選用網(wǎng)易網(wǎng)站提供的新聞網(wǎng)頁, 以該網(wǎng)站責(zé)任編輯自己提煉的核心提示作為評價標(biāo)準(zhǔn), 我們下載不同類別的新聞網(wǎng)頁共400篇用于測試, 分別計算召回率Recall、準(zhǔn)確率Precision、F1, 以此評價實驗系統(tǒng)的性能. 其定義如下:

        Precision=x/y, Recall=x/z.

        其中, x表示系統(tǒng)正確識別的特征詞的數(shù)目, y表示系統(tǒng)所提取出的特征詞總數(shù), z代表人工標(biāo)注的全文的特征詞總數(shù).

        F1=(2×Precision×Recall) / (Precision +Recall).

        4.2 實驗結(jié)果與分析

        分別對不同的特征因子的組合情況進(jìn)行了評測對比, 結(jié)果如表3所示.

        表3 特征因子組合情況表Table3 feature factors combination table

        實驗結(jié)果表明, 對于網(wǎng)頁特征詞提取系統(tǒng)而言, 僅僅依靠傳統(tǒng)的詞長、詞頻因子是無法滿足提取需要的. 加

        入位臵因子可以使系統(tǒng)的F1提高51%. 在位臵因子中, 各項特征對于系統(tǒng)的貢獻(xiàn)度也不同, 其中, 去掉位臵因子中的標(biāo)題、摘要、關(guān)鍵詞項會使系統(tǒng)的F1降低37.7%, 而去掉自然段落的首尾項僅會使系統(tǒng)降低1.7%. 與傳統(tǒng)的TFIDF提取方法相比, 添加位臵因子的F1提高了15.5%.

        5 結(jié)論

        本文是基于網(wǎng)頁的標(biāo)簽的特征詞提取, 尤其是元數(shù)據(jù)和相關(guān)鏈接的標(biāo)簽, 并采用自動生成語義段落的技術(shù),將自動生成的網(wǎng)頁內(nèi)容結(jié)構(gòu)結(jié)合傳統(tǒng)的詞頻和詞長因子, 構(gòu)建出一個綜合多種因子的特征詞計算公式, 利用計算出各詞的權(quán)重值求解出特征詞. 該方法對文本格式無要求, 實用性很廣, 不僅對格式規(guī)范的論文式文本有效,同樣也適用于結(jié)構(gòu)松散的網(wǎng)頁文本. 但是,由于網(wǎng)頁更新快的特點, 有很多代表文本主題的關(guān)鍵詞語沒有被正確分詞, 從而進(jìn)一步導(dǎo)致網(wǎng)頁在提取特征詞時的準(zhǔn)確率降低.

        [1] 蘇金樹, 張博鋒, 徐聽. 基于機器學(xué)習(xí)的文木分類技術(shù)研究進(jìn)展[J]. 軟件學(xué)報, 2006, 17(9):1848-1859.

        [2] 劉遠(yuǎn)超, 王曉龍, 徐志明, 等.文檔聚類綜述[J]. 中文信息學(xué)報, 2006, 20(3):55-62.

        [3] 尤文建, 李紹滋, 李堂秋.基于詞匯鏈的文木過濾模型[J]. 計算機應(yīng)用研究, 2003, 9:32-35.

        [4] TURNEY PD. Learning to extract keyphrase from text[C]. National Research Council, Canada, 1999: 1057-1097.

        [5] FRANK E, PAINTER GW. Domain-specific key phrase extraction[C]. Proceedings of the sixteenth international joint conference on artificial intelligence, Sweden, 1999: 668-673.

        [6] 李素建, 王厚峰, 俞士汶, 等. 關(guān)鍵詞自動標(biāo)引的最大熵模型應(yīng)用研究[J]. 計算機學(xué)報, 2004, 27(9): 1192-1197.

        [7] 徐建民, 劉清江. 基于量化同義詞關(guān)系的改進(jìn)特征詞提取方法[J]. 河北大學(xué)學(xué)報, 2010, 30(1):97-101.

        [8] 索紅光, 劉玉樹, 曹淑英. 一種基于詞匯鏈的關(guān)鍵詞抽取方法[J]. 中文信息學(xué)報, 2006, 20(6): 25-30.

        [9] 王軍. 詞表的自動豐富—從元數(shù)據(jù)中提取關(guān)鍵詞及其定位[J]. 中文信息學(xué)報, 2005, 19(6):36-43.

        [10] 王繼成. 基于元數(shù)據(jù)的 Web 信息檢索技術(shù)研究[D]. 南京: 南京大學(xué), 2000.

        Signature word extracting retrieval based on web feature

        PANG Ning
        (The School of Applied Sciences, Taiyuan University of Science and Technology, Taiyuan 030024, P.R.C.)

        Signature word extracting of the text is a useful technique which can abstract web page text, and it provides technical support for text classification, information extraction tasks. A web hierarchical structure is extracted through parsing the semantic relation between each adjacent paragraph in the web page contents. On the basis of the hierarchical structure, this paper uses the HTML metadata and special tags to design a weighting function, which is a combination of the factor of the frequency, length and location for a word. Meanwhile, an initial contrast analysis is carried out of various position factor about contributing degree to the system. Experimental results show that F1 value of improved method has increased by 15.5% than that of the traditional TFIDF extraction method. The contributing degree to the system of the title, abstract and keywords in the location factor are the largest.

        signature word extracting; web; metadata; weighting function

        TP391.1

        A

        1003-4271(2014)01-0137-05

        10.3969/j.issn.1003-4271.2014.01.28

        2013-11-22

        龐寧(1979-), 女, 講師, 碩士, 研究方向: 自然語言處理.

        山西省自然科學(xué)基金(2012011011-4).

        猜你喜歡
        語義文本
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        認(rèn)知范疇模糊與語義模糊
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        “深+N季”組配的認(rèn)知語義分析
        宝贝把腿张开我要添你下边动态图| 日韩中文字幕在线观看一区| 国产成人av在线免播放观看新| 午夜精品久久久久久| 亚洲欧洲精品成人久久曰影片| 国产成人高清精品亚洲一区| 亚洲蜜臀av一区二区三区| 欧美一区二区三区久久综| 日韩AVAV天堂AV在线| 国产亚洲亚洲精品视频| 日本久久精品中文字幕| 果冻传媒2021精品一区| 国产成人一区二区三中文| 国产一级av理论手机在线| 国产免费三级av在线| 精品国产一区二区三区免费| jjzz日本护士| 亚洲av综合色区久久精品| 欧美颜射内射中出口爆在线| 中文字幕爆乳julia女教师| 免费国产一级片内射老| 青青草视频在线观看精品在线| 国产成人a∨激情视频厨房| 色先锋资源久久综合5566| 北岛玲精品一区二区三区| 日韩高清不卡一区二区三区| 人妻少妇不满足中文字幕| 久久精品国产亚洲AV成人公司| 这里有精品可以观看| 无码视频一区=区| 精品国产一区二区三区av麻| 亚洲熟妇av日韩熟妇在线| 久久久亚洲经典视频| 蜜桃视频永久免费在线观看 | 久久精品亚洲乱码伦伦中文| 国产一级做a爱视频在线| 国产草逼视频免费观看| 国产在线精品一区在线观看| 亚洲 无码 制服 丝袜 自拍| av人妻在线一区二区三区| 亚洲精品动漫免费二区|