亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于英文網(wǎng)頁描述性信息的摘要算法

        2015-11-07 08:26:06郭培勝
        中國科技信息 2015年23期
        關(guān)鍵詞:描述性度值網(wǎng)頁

        郭培勝 張 燕

        一種基于英文網(wǎng)頁描述性信息的摘要算法

        郭培勝 張 燕

        本文給出了一種基于英文網(wǎng)頁的描述性信息(context)的摘要算法。該算法改進(jìn)了提取描述性信息的方法,用HtmlParser工具提取所有符合條件的描述性信息。對(duì)描述性信息集進(jìn)行預(yù)處理后,討論了如何解決描述性信息集的相關(guān)性問題,并通過實(shí)驗(yàn)結(jié)果對(duì)比分析了本摘要算法中混合法和聚類法的性能。

        網(wǎng)頁自動(dòng)摘要技術(shù)是利用計(jì)算機(jī)從網(wǎng)頁的文本中抽取句子或利用網(wǎng)頁的特點(diǎn)得到網(wǎng)頁內(nèi)容的縮減版本,據(jù)此預(yù)先了解網(wǎng)頁的內(nèi)容,并判斷是否有必要瀏覽網(wǎng)頁全文從而節(jié)省瀏覽時(shí)間的一門技術(shù)。本文第一部分描述描述性信息獲取和預(yù)處理技術(shù),第二部分詳細(xì)介紹該摘要算法,第三部分對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,最后第四部分是結(jié)論。

        獲取描述性信息及預(yù)處理

        網(wǎng)頁來源是通過在搜索引擎工具(如Google)的搜索框中搜索得到的,得到源網(wǎng)頁之后,采用HtmlParser工具和eclipse編程軟件,先匹配目標(biāo)網(wǎng)址,找到其所在的節(jié)點(diǎn),然后得到其父節(jié)點(diǎn)的內(nèi)容,也即得到了描述性信息。但描述性信息集里還是有大量的噪聲。所以首先去掉換行,去掉多余的空格等,作為預(yù)處理的第一步。并依次通過去重、去掉只包含了目標(biāo)網(wǎng)頁的標(biāo)題和網(wǎng)址、考慮描述性信息的大小原則和停用詞原則,得到經(jīng)預(yù)處理后的描述性信息集。

        算法

        經(jīng)預(yù)處理后得到的描述性信息集可能存在如下兩個(gè)問題:

        1.得到的描述性信息部分地概括了網(wǎng)頁的內(nèi)容,即片面性問題;

        2.得到的描述性信息與網(wǎng)頁相關(guān),但是沒有概括網(wǎng)頁的內(nèi)容,即相關(guān)性問題。

        本文主要研究相關(guān)性問題。

        在描述性信息集中,定義一個(gè)描述性信息為相關(guān)描述性信息(reference context),定義描述性信息集D 中描述性信息S 的話題度為T( S, D)。

        下面是解決相關(guān)性問題的兩種算法。

        混合法

        描述性信息S 與文本C中句子的話題相關(guān)度能用廣義滿意度來衡量,如公式(1):

        混合摘要算法如下:

        計(jì)算描述性信息S與目標(biāo)文本中句子的話題相關(guān)度。根據(jù)1)的結(jié)果對(duì)描述性信息排序;

        選擇具有最高的話題相關(guān)度權(quán)值的描述性信息作為摘要。

        聚類法

        當(dāng)目標(biāo)文本的文字信息太少時(shí),不適合用目標(biāo)網(wǎng)頁的文本作為輸入信息,也不適合采用算法一來找出最能描述網(wǎng)頁內(nèi)容的描述性信息。這里選擇層次聚類算法。

        首先選擇一個(gè)相似函數(shù),相似度量用經(jīng)典的余弦相似度。讓S1和S2分別由向量〈w1i,...,wi

        N〉和〈w1k,...,wNk〉代表。相似度值公式(2)如下:

        設(shè)定摘要的最大長度為l ,描述性信息集為:S={Si}i=1..N。

        以下是聚類法的步驟。

        指定每個(gè)句子的類,定義每兩個(gè)類{Si}和{Sk}的相似度Sim( Si, Sk)。找出最接近的兩個(gè)類并合并,這樣使總的類數(shù)減一。計(jì)算每一個(gè)舊類和新類的相似度。這里把兩個(gè)類的描述性信息之間的相似度值求平均作為兩個(gè)類的相似度值。

        圖1 改進(jìn)后的混合法與改進(jìn)前的混合法的相似度值比較

        圖2 改進(jìn)后的聚類法與改進(jìn)前的聚類法的相似度值比較

        反復(fù)步驟2)和步驟3),直到所有類都聚為大小為N的一個(gè)類,或者最相似的兩個(gè)類之間的相似值小于給定門限α(0≤α≤1)。

        去除只有一個(gè)元素的類。

        根據(jù)類所包含的描述性信息的個(gè)數(shù)來降序排列類,得到{C1,...,Cp}。

        對(duì)每個(gè)類Ci運(yùn)用排序函數(shù)f。這里采用基于網(wǎng)頁內(nèi)容的摘要算法的Lexrank算法來對(duì)同一類的描述性信息進(jìn)行排序,找出權(quán)值最高的描述性信息作為摘要。

        當(dāng)i〈min(l, p)時(shí),認(rèn)為Ci是排序函數(shù)f 的最大值。

        實(shí)驗(yàn)結(jié)果分析

        下面分析摘要算法中混合法和聚類法的性能。比較文獻(xiàn)中的未改進(jìn)的混合法與本文的混合法的結(jié)果,主要比較兩種算法與理想摘要的相似度,該相似度用計(jì)算單詞頻率和余弦相似度來完成,比較結(jié)果見圖1。

        通過圖1可以看出,與改進(jìn)前的方法相比,改進(jìn)后的混合法與理想摘要的相似度值更高,說明改進(jìn)后的方法生成的摘要更接近理想摘要。也證實(shí)了改進(jìn)后的混合法中用HtmlParser工具得到更多的質(zhì)量較高的描述性信息集的必要性。

        比較文獻(xiàn)中的未改進(jìn)的聚類法與本文的聚類法的結(jié)果,方法同上,比較結(jié)果見圖2。其中未改進(jìn)的聚類法的排序函數(shù)采用平均TF-ISF方法。

        通過圖2可以看出,與改進(jìn)前的方法相比,改進(jìn)后的聚類法與理想摘要的相似度值更高,說明改進(jìn)后的方法生成的摘要更接近理想摘要。同圖1一樣,證實(shí)了改進(jìn)后的聚類法中用HtmlParser工具得到更多的質(zhì)量較高的描述性信息集的必要性,也反映了在處理相關(guān)性問題時(shí)采用Lexrank方法比采用平均TF-ISF方法能得到更好的描述網(wǎng)頁內(nèi)容的描述性信息作為摘要。

        結(jié)束語

        本文提出了一種基于描述性信息的摘要算法。針對(duì)預(yù)處理后的描述性信息集存在的相關(guān)性問題,分別對(duì)傳統(tǒng)混合法和聚類法進(jìn)行了改進(jìn),對(duì)比實(shí)驗(yàn)結(jié)果表明改進(jìn)后的方法生成的摘要更接近理想摘要,對(duì)網(wǎng)頁摘要算法研究有一定的參考價(jià)值。

        10.3969/j.issn.1001-8972.2015.23.011

        猜你喜歡
        描述性度值網(wǎng)頁
        探討公路項(xiàng)目路基連續(xù)壓實(shí)質(zhì)量檢測技術(shù)
        虛構(gòu)人名的內(nèi)涵意義分析*——描述性理論面臨的挑戰(zhàn)和反駁
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        淺析獨(dú)立主格結(jié)構(gòu)在大學(xué)英語四六級(jí)段落翻譯中的運(yùn)用
        考試周刊(2016年90期)2016-12-01 19:39:34
        從描述性到分析性:法律史教學(xué)改革管見
        人間(2016年27期)2016-11-11 16:01:36
        無線傳輸中短碼長噴泉碼的度分布優(yōu)化算法*
        微博網(wǎng)絡(luò)較大度值用戶特征分析
        科技傳播(2016年17期)2016-10-10 01:46:58
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        淺談?wù)Z文課堂中引讀的運(yùn)用
        精品国产车一区二区三区| 精品无码日韩一区二区三区不卡| 亚洲乱码日产精品bd| 亚洲精品一二区| 人妻风韵犹存av中文字幕| 亚洲熟女少妇精品综合| 久久天天躁狠狠躁夜夜躁2014| 亚洲另类精品无码专区| 国产激情无码Av毛片久久| 亚洲视频观看一区二区| 国产一区二区三区中文在线| 免费无码一区二区三区蜜桃| 国产99r视频精品免费观看| 国产精品国产三级国产av主| 日本一区二区三级在线| 日本高清视频wwww色| 国产微拍精品一区二区| 国产精品自线在线播放| 91l视频免费在线观看| 久久亚洲欧美国产精品| 亚洲av色无码乱码在线观看| 亚洲AV专区一专区二专区三| 国产精品老熟女乱一区二区| 狠狠噜狠狠狠狠丁香五月| 乱中年女人伦av| 区一区一日本高清视频在线观看| 午夜国产精品视频在线观看| 亚洲热妇无码av在线播放| 午夜精品久久久| 中文字幕久久人妻av| 久久天天躁狠狠躁夜夜av浪潮| 毛片24种姿势无遮无拦| 在线观看一区二区女同| 精品人妻av中文字幕乱| 久久久久亚洲av成人网人人软件| 亚洲乱码日产精品bd在线观看| 无码AV大香线蕉伊人久久| 日韩高清不卡一区二区三区| 日韩丰满少妇无码内射| 国产无码swag专区| 亚洲国产精品av麻豆一区|