亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于WordNet的網(wǎng)頁情境解析算法

        2015-07-31 07:01:12蔡勁松鄒汪平
        咸陽師范學院學報 2015年4期
        關鍵詞:消歧特征詞歧義

        蔡勁松,鄒汪平

        (1.安徽新聞出版職業(yè)技術學院,安徽 合肥 230601;2.池州職業(yè)技術學院 信息技術系,安徽 池州 247000)

        詞只有在句子有具體情境中才能知道確切的含義。在傳統(tǒng)的搜索中,詞均是單獨地作為索引被存儲起來的,未曾將詞的情境信息考慮到語義之間的區(qū)別,傳統(tǒng)的搜索缺少個性查詢?,F(xiàn)在,搜索引擎也有類似功能,推斷出用戶查詢意圖,這個過程務必是“先搜索”“再過濾”的步驟,因此,亟需研究出一種方法改善索引結(jié)構(gòu)。如何在索引中加入必要的情境信息,如時間或者地點,本文主要研究的是網(wǎng)頁情境解析相關方法和理論,情境解析是研究情境搜索的前提和基礎。

        傳統(tǒng)搜索引擎將網(wǎng)頁表示成文本向量,其優(yōu)點是向量表示方式簡單、處理速度快,缺點是不含情境信息(時間或者地點),情境表示正是解決這個問題而被提出的,于是情境搜索誕生了。不同的用戶對同一個搜索詞獲取的需求是不一定相同的,傳統(tǒng)的搜索引擎則是返回相同的結(jié)果,這時用戶搜索缺少個性化查詢。例如:對于“蘋果”這個查詢詞而言,大部分人想了解蘋果系列的電子產(chǎn)品的網(wǎng)頁內(nèi)容,個別人想了解水果類蘋果的營養(yǎng)成分的網(wǎng)頁內(nèi)容。

        網(wǎng)頁情境解析包括3個方面:網(wǎng)頁正文提取、詞義標注、詞義消歧和情境表示。網(wǎng)頁正文提取使用視覺獲取正文,文獻[1]提出VIPS算法,它基于DOM樹獲取網(wǎng)頁視覺內(nèi)容結(jié)構(gòu)信息;文獻[2]提出一種模板檢測方法,在由模板生成網(wǎng)頁中自動地抽取網(wǎng)頁正文數(shù)據(jù);文獻[3]提議一種基于DOM樹的方法,并將獲取的信息作為DOM樹中節(jié)點表示,根據(jù)歸納學習算法自動生成規(guī)則;文獻[4]提出一種基于統(tǒng)計的方法,通過網(wǎng)頁鏈接與預設閾值之間的關系獲取正文部分;文獻[5]提出一種包含語義層次的STU-DOM樹模型,這個算法不會改變網(wǎng)頁結(jié)構(gòu)與內(nèi)容,自動獲取網(wǎng)頁正文。文獻[6]提出一種基于文本相似度計算形式獲取網(wǎng)頁正文,而不使用DOM樹。文獻[7]利用基于網(wǎng)頁中是否為文本行的判斷方法,再判斷每行中的錨文字比與所設置閾值的大小關系來判斷其是否為文本行;文獻[8]利用統(tǒng)計的方法正文的部分區(qū)域,再根據(jù)正文特征來識別其他正文區(qū)域,這此過程中消歧是必須的;文獻[9]將機器學習方法引入到詞義消歧中,提出一種基于SVM的機器學習詞義消歧方法;文獻[10]提出了人工標注詞義的機器學習方法;文獻[11]結(jié)合了一種集成方法,將3種集成方法乘法、平均值、最大值評價詞義消歧的性能。

        本文將從網(wǎng)頁正文提取、詞義標注、詞義消歧和情境表示等研究入手,并能夠自動解析網(wǎng)頁情境信息,為搜索提供巨大幫助。

        1 網(wǎng)頁情境解析建模

        1.1 網(wǎng)頁情境解析的總體框架圖

        網(wǎng)頁情境解析將會涉及到各個方面的技術有機結(jié)合起來,統(tǒng)一建網(wǎng)頁情境解析模型,該模型中包含了:正文獲取、詞性標注、詞義消歧和獲取網(wǎng)頁更新時間等功能,其中,網(wǎng)頁的正文獲取使用基于規(guī)則的正文獲??;詞義消歧是網(wǎng)頁情境解析最為關鍵的一步,確定網(wǎng)頁正文中歧義詞的唯一釋義,詞義消歧基于WordNet實現(xiàn)的。前文中舉例為“蘋果”,通過分析用戶查詢詞與其附加的情境詞進行情境索引,這樣返回的查詢結(jié)果和查詢本身在語義上直接相關。由此可見,網(wǎng)頁情境解析的詞義消歧部分在情境搜素中起著舉足輕重的地位。圖1網(wǎng)頁情境解析的總體框架圖。

        圖1 WCA-WordNet的總體框架圖

        1.2 形式化描述網(wǎng)頁情境解析

        網(wǎng)頁情境解析包括網(wǎng)頁正文的關鍵詞與情境詞、網(wǎng)頁內(nèi)的時間和地點信息、網(wǎng)頁更新時間等等網(wǎng)頁的重要信息。在本小節(jié)中,給出網(wǎng)頁情境解析的形式化描述,如下:

        其中,CA表示的情境解析,K表示的是網(wǎng)頁正文的關鍵詞,C表示的是情境詞,T表示網(wǎng)頁的時間集(網(wǎng)頁內(nèi)時間、創(chuàng)建時間和網(wǎng)頁更新時間),Q表示的是地點。

        2 網(wǎng)頁情境解析算法實現(xiàn)

        本文中提出一種基于WordNet的網(wǎng)頁情境解析算法WCA-WordNet(Web ContextAnalysis-WordNet)。

        2.1 獲取網(wǎng)頁集并建立DOM樹

        下載網(wǎng)頁集,目前,使用多線程爬蟲下載互聯(lián)網(wǎng)上大量的原始網(wǎng)頁,并對獲取的原始網(wǎng)頁建立DOM樹解析網(wǎng)頁,簡單的實現(xiàn)對網(wǎng)頁去噪音和廣告等;圖2獲取網(wǎng)頁集并建立DOM樹。

        2.2 獲取網(wǎng)頁正文、網(wǎng)頁生成時間和更新時間

        目前,互聯(lián)網(wǎng)上有百萬億網(wǎng)頁數(shù),并不是所有獲取網(wǎng)頁正文算法都適合網(wǎng)頁結(jié)構(gòu),但是,本文采用基于規(guī)則的算法獲取網(wǎng)頁正文,根據(jù)網(wǎng)頁正文在網(wǎng)頁中的位置和特征獲取正文抽取規(guī)則,再進行文本過濾、篩選、和文本合并,獲取準確的網(wǎng)頁文本內(nèi)容,這要比只基于網(wǎng)頁標簽規(guī)則獲取的網(wǎng)頁文本更加準確。

        圖2 獲取網(wǎng)頁集并建立DOM樹

        首先,將HTML轉(zhuǎn)化成DOM樹;其次,計算每一個HTML節(jié)點錨文字比值,根據(jù)比值的大小決定該節(jié)點是否刪除,計算的比值包括:內(nèi)容比值和節(jié)點比值;最后,獲取網(wǎng)頁生成時間、更新時間。

        概念1:內(nèi)容比值。CV=W/All(W),CV表示內(nèi)容比值,W表示關鍵詞,All(W)表示網(wǎng)頁關鍵詞總數(shù)。這個公式表示關鍵詞W在網(wǎng)頁文本中的重要程度,關鍵詞內(nèi)容比值越大說明在網(wǎng)頁文本中的重要程度就越大。

        概念2:節(jié)點比值。NV=W/All(N),NV表示的是節(jié)點比值,W表示網(wǎng)頁內(nèi)容中單詞W,All(N)表示的是網(wǎng)頁正文中所有節(jié)點值。NV衡量的是節(jié)點在文本內(nèi)容中的重要程度,NV值越大,說明文本內(nèi)容是網(wǎng)頁正文的可能性就越大。獲取網(wǎng)頁正文算法1。

        WC(String html)//獲取網(wǎng)頁正文和網(wǎng)頁生成時間、更新時間

        2.3 基于WordNet與語法分析的詞義消歧

        2.3.1 基于語法分析獲取上下文特征詞

        基于WordNet與語法分析WSA-WSD的詞義消歧算法,首先,將句子轉(zhuǎn)化成語法分析樹;其次,根據(jù)WordNet選擇上下文特征詞,逐層遍歷語法分析樹中歧義詞節(jié)點到上下文特征詞之間的距離,計算歧義詞與特征詞的關聯(lián)度;最后,選擇關聯(lián)度最大作為歧義詞上下文的語境詞,根據(jù)文獻[1]中提出的方法計算關聯(lián)度,本文中僅僅是選取上下文特征詞,其計算公式為:

        其中公式中Wi表示的第i個歧義詞,F(xiàn)j表示第j個待選特征詞,L表示樹中歧義詞到上下文選特征詞遍歷樹的層數(shù),d表示目標詞到上下文路徑距離長度,α表示的影響因子,其值設置為0.5。

        2.3.2 計算關聯(lián)度

        分別計算歧義詞與上下文特征詞之間關聯(lián)度、計算上下文特征詞詞義與歧義詞之間的關聯(lián)度。歧義詞Wi和Fj之間的關聯(lián)度R(Wi,Fj),其計算公式為:

        計算上下文特征詞的詞義與歧義詞之間的關聯(lián)度R(Wi,Sk),R(Wi,Sk)可計算Wi與每個特征詞的詞義Sk的關聯(lián)度之和,并為每一個路徑賦予一個權(quán)值w,獲取詞義與詞之間最大關聯(lián)度,其計算公式為:其中公式中Wi表示的第i個歧義詞,Sk表示第k個特征詞的詞義,d(Wi,Sk)表示歧義詞到上下文特征詞語義的距離,L表示在語義分析樹中的層數(shù)。

        2.3.3 詞義選擇

        根據(jù)計算歧義詞關聯(lián)度可知,進行歧義詞的詞義選擇,首先,分別計算Wi和Fj之間的關聯(lián)度R(Wi,Fj)、計算上下文特征詞的詞義與歧義詞之間的關聯(lián)度R(Wi,Sk),詞義選擇計算公式WS為:

        其中λ、μ分別表示式(4)的影響因子,根據(jù)其重要程度分別設置初始值為0.3和0.7,即λ+ μ=1,之所以將λ和μ權(quán)重設置為上述值,是因為基于詞與詞之間的關聯(lián)度遠小于詞義與詞之間關聯(lián)度選擇詞義的準確性,歧義詞的詞義選擇根據(jù)式(4)定義計算最大的值作為歧義詞的詞義。

        2.3.4 網(wǎng)頁情境解析算法實現(xiàn)

        3 實驗結(jié)果及分析

        為了驗證算法的有效性,算法進行多次的實驗,由于不能在真實的搜索引擎中做測試。本文中獲取網(wǎng)頁正文均是來自網(wǎng)頁的原始內(nèi)容,本文的歧義消岐測試數(shù)據(jù)集是SENSEVAL3英文部分,測試數(shù)據(jù)中提供了語法結(jié)構(gòu)分析樹,而詞性標注基于斯坦福大學研制的詞性標注軟件。

        3.1 參數(shù)討論

        本文提出的基于WordNet與語法分析的詞義消歧算法包含參數(shù)λ、μ,首先。選擇最佳的參數(shù)值,λ、μ的取值是在[0,1)之間的數(shù)值,其中參數(shù)保持0.1的增量,其初始值分別設置為0.1和0.9。

        由表1對比數(shù)據(jù)可知,數(shù)值的準確率P和召回率R,實驗表明λ、μ二者值分別為0.3和0.7,表1參數(shù)訓練的部分結(jié)果。

        表1 參數(shù)訓練的部分結(jié)果

        3.2 網(wǎng)頁正文獲取

        本文使用的網(wǎng)頁正文獲取算法,對于包含網(wǎng)頁正文均能很高的正確率。原始網(wǎng)頁來自于新聞類、微博類、官網(wǎng)類、娛樂類、體育類、網(wǎng)購類、社區(qū)類、電子類、財經(jīng)類和其他類,經(jīng)過實驗測試,本文對上述網(wǎng)頁正文內(nèi)容能達到99%以上的正確率,表2網(wǎng)頁正文獲取結(jié)果。

        由表2可知,網(wǎng)頁正文獲取算法能抽取的正文很高的準確率,但是,其他類別中包含了一些不規(guī)則的段落內(nèi)容,會對獲取正文有一定的影響,本文使用的正文獲取算法對情境解析有著非常重要的意義,因此,本文的正文獲取算法需在大量的網(wǎng)頁文本支持下才有意義。從表2分析可知,實驗結(jié)果較好,能繼續(xù)從事情境解析工作做準備。

        3.3 詞義消歧實驗

        詞義消歧是網(wǎng)頁情境解析中一個細節(jié)工作,為了驗證本文所使用的詞義消歧算法可行性,本文給出了算法的實驗結(jié)果,由分析可知本文使用的算法在消歧任務中獲取了較高的準確度,同時,詞義消歧也能為網(wǎng)頁情境解析提供了重要的支撐,表3詞義消歧的實驗結(jié)果。

        3.4 網(wǎng)頁情境解析實驗

        網(wǎng)頁情境解析是情境搜索中實現(xiàn)情境索引的基礎,本文研究了基于WordNet的網(wǎng)頁情境解析算法,并實驗驗證算法的有效性。網(wǎng)頁情境解析研究是對網(wǎng)頁正文文本內(nèi)容解析,確定歧義實詞在其上下文唯一語義,情境解析過程最重要的是對網(wǎng)頁正文內(nèi)容抽取時間和地點信息,建立情境索引。本文實驗的準確率P和召回率R,表4情境索引實驗結(jié)果。

        表3 詞義消歧的實驗結(jié)果

        表4 網(wǎng)頁正文獲取結(jié)果

        由表4可知,網(wǎng)頁情境解析獲取算法在給定列出的URL,獲取網(wǎng)頁正文情境解析的時間和地點的準確率和召回率都很高,說明本文算法在情境搜索中具有很好的應用價值。

        4 結(jié)論

        本文提出一種基于WordNet的情境解析算法,根據(jù)獲取網(wǎng)頁正文內(nèi)容并建立基于DOM樹進行網(wǎng)頁解析,獲取網(wǎng)頁正文、網(wǎng)頁生成時間和更新時間;對網(wǎng)頁集進行基于WordNet的詞性標注和詞義消歧;利用命名實體識別技術獲取網(wǎng)頁正文內(nèi)的時間和地點信息,作為網(wǎng)頁的情境表示。本文算法通過實驗驗證可得出,獲取了比較高的實驗結(jié)果,分析結(jié)果表明,本文提出的方法和理論完全能夠自動解析網(wǎng)頁情境信息,為搜索提供巨大幫助。后續(xù)研究需要提高解析結(jié)果的準確度,還需要對網(wǎng)頁情境信息表示,并建立高效的情境索引,完善情境搜索系統(tǒng),進而改善了搜索的性能和精確度。

        [1]CAI D,YU S P,WEN J R,et al.VIPS:a vision based page segmentation algorithm[R/OL].(2003-11-01)American:Microsoft Research.

        [2]楊少華,林海略,韓嚴博.基于通用本體網(wǎng)頁自動信息抽取[J].軟件學報,2008,19(2):209-223.

        [3]李效東,顧毓清.基于DOM的Web信息提取[J].計算機學報,2002,25(5):526-533.

        [4]SUHIT G,GALL K,DAVID N,et al.DOM-based content extraction of html documents[S].In proceedings of the Twelfth International World Wide Web Conference,Budapest,Hungary,2003:207-214.

        [5]王利,劉宗田,王燕華,等.基于內(nèi)容相似度的網(wǎng)頁正文提取[J].計算機工程,2010,36(6):102-104.

        [6]王琦,唐世渭,楊冬清,等.基于DOM的網(wǎng)頁主題信息自動提取[J].計算機研究與發(fā)展,2004,41(10):1786-1792.

        [7]韓忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].計算機應用研究,2008,25(12):3568-3574.

        [8]周佳穎,朱珍民,高曉芳.基于統(tǒng)計與正文特征的中文網(wǎng)頁正文抽取研究[J].中文信息學報,2009,23(5):80-85.

        [9]魯松,白碩,黃雄,等.基于向量空間模型的有導詞義消歧[J].計算機研究與發(fā)展,2001,38(6):662-667.

        [10]魯松,白碩,黃雄.基于向量空間模型中義項詞語的無導詞義消歧[J].軟件學報,2002,13(6):1082-1089.

        [11]吳云芳,王淼,金澎,等.多分類器集成的漢語詞義消歧研究[J].計算機研究與發(fā)展,2008,45(8):1354-1361.

        猜你喜歡
        消歧特征詞歧義
        基于關聯(lián)圖和文本相似度的實體消歧技術研究*
        基于半監(jiān)督集成學習的詞義消歧
        eUCP條款歧義剖析
        中國外匯(2019年12期)2019-10-10 07:26:58
        基于改進TFIDF算法的郵件分類技術
        藏文歷史文獻識別過程中藏文自由虛詞的自動識別及消歧算法的研究
        產(chǎn)品評論文本中特征詞提取及其關聯(lián)模型構(gòu)建與應用
        English Jokes: Homonyms
        “那么大”的語義模糊與歧義分析
        面向文本分類的特征詞選取方法研究與改進
        基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究
        国产伪娘人妖在线观看| 中文字幕v亚洲日本| 一群黑人大战亚裔女在线播放| 欧美激情国产亚州一区二区| 国产91久久精品成人看网站| 色窝窝亚洲av网在线观看| 香港日本三级亚洲三级| 久久亚洲AV无码精品色午夜| 日韩av最新在线地址| 音影先锋中文字幕在线| 成人a级视频在线观看| 囯产精品无码va一区二区| 亚洲精品一区二区三区蜜臀| 丰满精品人妻一区二区| 亚洲国产一区二区网站| 国产成人av在线免播放观看新 | 国产一区二区三区我不卡| 亚洲熟妇少妇任你躁在线观看无码 | 中国农村熟妇性视频| 日韩av在线毛片| 亚洲精品女人天堂av麻| 亚洲欧美日韩综合一区二区| 国产精品无码不卡一区二区三区| 亚洲欧洲综合有码无码| 精品国产一区二区三区a| 日本做受120秒免费视频| 亚洲精品国产美女久久久| 男女羞羞的视频免费网站| 97精品人妻一区二区三区蜜桃 | 日本高清不卡一区二区三区| 久久久国产精品123| 国产精品无码a∨精品影院| 丰满人妻无套中出中文字幕| 国产乱人伦偷精品视频还看的| 久久国产加勒比精品无码| 香蕉视频在线观看国产| 中文字幕久区久久中文字幕| 少妇无码太爽了在线播放| 亚洲av无码一区二区三区网站| 国产男女猛烈无遮挡免费视频网址| 淫片一区二区三区av|