亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于欄目的藏文網(wǎng)頁(yè)文本自動(dòng)分類(lèi)方法

        2011-06-28 06:27:06胥桂仙向春丞趙小兵楊國(guó)勝
        中文信息學(xué)報(bào) 2011年4期
        關(guān)鍵詞:詞表藏文詞條

        胥桂仙,向春丞,翁 彧,趙小兵,楊國(guó)勝

        (1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081; 2. 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心 少數(shù)民族語(yǔ)言分中心,北京 100081)

        1 引 言

        在一個(gè)多民族的國(guó)度,保護(hù)少數(shù)民族文化遺產(chǎn)是我們每個(gè)人的責(zé)任。自上世紀(jì)80年代開(kāi)始,藏文走入了信息化時(shí)代。20多年來(lái),我國(guó)的民族語(yǔ)言文字及現(xiàn)代科技工作者在藏文計(jì)算機(jī)信息處理方面做了大量的工作。才讓加等人對(duì)藏文語(yǔ)料進(jìn)行分詞標(biāo)注[1]并利用詞性特征建立分類(lèi)語(yǔ)料庫(kù)[2],賈會(huì)強(qiáng)等人提出了基于規(guī)則的藏文文本分類(lèi)方法[3]。藏文網(wǎng)頁(yè)文本分類(lèi)不僅對(duì)于幫助人們快速、準(zhǔn)確獲取所需信息及構(gòu)建藏文語(yǔ)料庫(kù)具有積極的意義,而且對(duì)于推動(dòng)和發(fā)展藏文信息檢索技術(shù),保護(hù)少數(shù)民族語(yǔ)言文化也有重要作用。

        文本分類(lèi)的技術(shù)有很多。文獻(xiàn)[4]中設(shè)計(jì)了一種基于統(tǒng)計(jì)與基于規(guī)則相結(jié)合的混合分類(lèi)器系統(tǒng),它需要一定規(guī)模的高質(zhì)量語(yǔ)料庫(kù)作為訓(xùn)練集。文獻(xiàn)[5]提出了一種基于統(tǒng)計(jì)的二元分詞文本分類(lèi)方法,文獻(xiàn)[6]中利用粗糙集優(yōu)越的約簡(jiǎn)理論對(duì)文本進(jìn)行了分類(lèi),它們都需要借助分詞器對(duì)文本進(jìn)行分詞。由于藏文訓(xùn)練語(yǔ)料的收集需要大量人力、物力、財(cái)力,短期內(nèi)不能完成,所以無(wú)法采用基于統(tǒng)計(jì)的文本分類(lèi)算法,如:K近鄰法(KNN)、決策樹(shù)、支持向量機(jī)(SVM)[7]等經(jīng)典分類(lèi)方法。同時(shí),基于規(guī)則的文本分類(lèi)方法需要建設(shè)科學(xué)的、全面的藏文主題詞表,其工作量大,分類(lèi)時(shí)人工干預(yù)的成分多。

        為此,本文提出了一種簡(jiǎn)單、快速且準(zhǔn)確率理想的藏文網(wǎng)頁(yè)文本分類(lèi)方法,該方法不需要事先對(duì)抽取的藏文網(wǎng)頁(yè)文本進(jìn)行分詞等復(fù)雜操作,而是結(jié)合現(xiàn)有的網(wǎng)頁(yè)文本提取技術(shù),利用正則表達(dá)式提取網(wǎng)頁(yè)日期、網(wǎng)頁(yè)欄目,并建立基于網(wǎng)頁(yè)欄目詞條的類(lèi)別特征詞表來(lái)對(duì)藏文網(wǎng)頁(yè)文本進(jìn)行分類(lèi)。

        2 分類(lèi)方法的實(shí)現(xiàn)過(guò)程

        2.1 建立藏文類(lèi)別特征詞表

        我們構(gòu)建了人文與社會(huì)科學(xué)類(lèi)、自然科學(xué)類(lèi)兩個(gè)大類(lèi),前者包括政治類(lèi)、法律類(lèi)、歷史類(lèi)、社會(huì)類(lèi)、經(jīng)濟(jì)類(lèi)、藝術(shù)類(lèi)、文學(xué)類(lèi)、軍事類(lèi)、體育類(lèi)、生活類(lèi)、宗教類(lèi)、文化宣傳類(lèi)12個(gè)類(lèi)別,后者包括數(shù)理類(lèi)、生化類(lèi)、環(huán)境類(lèi)、農(nóng)林類(lèi)、醫(yī)藥衛(wèi)生類(lèi)5個(gè)類(lèi)別。類(lèi)別命名參照了《國(guó)務(wù)院公文主題詞表》的第一層主題詞,類(lèi)別的特征詞則來(lái)源于待分類(lèi)網(wǎng)站的網(wǎng)頁(yè)欄目詞條。由于一個(gè)網(wǎng)站符合要求的欄目詞條是有限的,因此可以快速、準(zhǔn)確地采集類(lèi)別特征詞,建立類(lèi)別特征詞表。例如有譯成中文后的藏文欄目詞組:“首頁(yè)—>專(zhuān)欄—>格爾薩傳”,那么僅可將詞條“格爾薩傳”加入預(yù)定義的“文學(xué)類(lèi)”一類(lèi)中。

        為了實(shí)現(xiàn)類(lèi)別特征詞表能被快速順序查找和動(dòng)態(tài)擴(kuò)充的功能,我們采用鏈表數(shù)組的方式來(lái)存儲(chǔ)類(lèi)別特征詞表。定義用Tn來(lái)表示類(lèi)別名稱(chēng),其中n表示類(lèi)別個(gè)數(shù);tk表示其中的特征詞,其中k表示該類(lèi)別中的第幾個(gè)特征詞。那么類(lèi)別特征詞表的存儲(chǔ)結(jié)構(gòu)如圖1所示。

        圖1 類(lèi)別特征詞表存儲(chǔ)結(jié)構(gòu)圖

        類(lèi)別T1及其特征詞用一個(gè)鏈表來(lái)存儲(chǔ),該類(lèi)別擴(kuò)充的特征詞加入鏈尾;n個(gè)類(lèi)別鏈表由一個(gè)大小為n的數(shù)組管理。這樣建立和存儲(chǔ)的類(lèi)別特征詞表,可以保證隨機(jī)順序匹配速度快,特征詞可以動(dòng)態(tài)擴(kuò)充,其個(gè)數(shù)及長(zhǎng)度不限。

        2.2 網(wǎng)頁(yè)預(yù)處理

        2.2.1 提取藏文網(wǎng)頁(yè)正文發(fā)表日期

        提取藏文網(wǎng)頁(yè)正文發(fā)表日期以對(duì)該網(wǎng)頁(yè)文本命名,對(duì)后期分類(lèi)語(yǔ)料的使用和處理很有意義,如我們可能會(huì)要求按類(lèi)別和時(shí)間對(duì)藏文文本語(yǔ)料庫(kù)進(jìn)行檢索。

        藏文網(wǎng)頁(yè)文件的日期通常有如下兩種格式:

        (1)

        (2)

        當(dāng)然,某些網(wǎng)站的網(wǎng)頁(yè)日期信息不在元素的內(nèi)容中,如中國(guó)西藏信息中心網(wǎng)。用于提取日期信息的正則表達(dá)式為:

        (1)

        (2) \d{4}(.{10,13})\d{2}(.{5,8})\d{2}

        上述提取日期的正則表達(dá)式可合并為:(\d{4}-\d{2}-\d{2})|(\d{4}(.{10,13}) \d{2}(.{5,8})\d{2})

        2.2.2 提取藏文網(wǎng)頁(yè)文本內(nèi)容

        藏文網(wǎng)頁(yè)主題內(nèi)容的抽取可以借鑒國(guó)內(nèi)外研究較多的一些方法,如基于混合特征的網(wǎng)頁(yè)主題提取方法[8],依靠統(tǒng)計(jì)信息抽取網(wǎng)頁(yè)正文[9], 利用HTML與文本的密度比進(jìn)行文本識(shí)別與抽取[10],利用DOM樹(shù)進(jìn)行Web信息抽取等技術(shù)。本文利用了網(wǎng)頁(yè)分塊的信息提取方法[11],并結(jié)合正則表達(dá)式來(lái)抽取藏文網(wǎng)頁(yè)文本內(nèi)容。

        2.2.3 提取網(wǎng)頁(yè)欄目信息

        對(duì)于含有欄目信息的藏文網(wǎng)頁(yè),系統(tǒng)采用正則表達(dá)式提取,下面以中國(guó)藏族網(wǎng)通網(wǎng)站為例,如有網(wǎng)頁(yè)文檔片段:

        用于提取欄目信息的正則表達(dá)式為:

        (1) “”;

        (2) “>(\W+)<”;

        2.3 基于欄目的網(wǎng)頁(yè)文本分類(lèi)

        在提取時(shí)網(wǎng)頁(yè)時(shí)間、網(wǎng)頁(yè)正文文本及網(wǎng)頁(yè)欄目后,我們將網(wǎng)頁(yè)欄目按鏈接級(jí)數(shù)拆分為多級(jí)詞條?;跈谀康木W(wǎng)頁(yè)分類(lèi)算法流程圖如圖2所示。

        圖2 藏文網(wǎng)頁(yè)文本分類(lèi)流程圖

        獲取文本類(lèi)別算法程序描述如下:

        //將用“>>”連接的網(wǎng)頁(yè)欄目詞組進(jìn)行拆分

        eachColumn = fileColumn.split(">>");

        //計(jì)算欄目詞條個(gè)數(shù)

        columnLength = eachColumn.length();

        //對(duì)詞條進(jìn)行分級(jí)匹配

        for i=0 to columnLength

        //調(diào)用詞條在類(lèi)別詞表中的匹配函數(shù)

        resultCategory = match(eachColumn[i]);

        if resultCategory == null

        then

        繼續(xù)匹配;

        else 返回類(lèi)別名稱(chēng);

        我們將丟棄不能提取出日期、正文及欄目的網(wǎng)頁(yè),并對(duì)能提取這些信息的網(wǎng)頁(yè)分為“欄目合法網(wǎng)頁(yè)”和“欄目非法網(wǎng)頁(yè)”兩類(lèi)。其中前者定義為:欄目詞組中至少含有一個(gè)具有類(lèi)別特征的詞條的網(wǎng)頁(yè)。欄目非法網(wǎng)頁(yè)即欄目不能給出類(lèi)別信息。例如下面給出了一個(gè)“欄目非法網(wǎng)頁(yè)”的欄目詞組:

        首頁(yè) >>新聞 >>藏區(qū)新聞 >>西藏

        類(lèi)似這類(lèi)欄目中不含具有類(lèi)別特征的詞條,我們同樣作丟棄處理。

        3 實(shí)驗(yàn)結(jié)果及分析

        基于欄目的藏文網(wǎng)頁(yè)分類(lèi)工具如圖3所示。

        圖3 基于欄目的藏文網(wǎng)頁(yè)分類(lèi)工具截圖

        為了驗(yàn)證該分類(lèi)方法的有效性,我們采集了2010年的中國(guó)藏族網(wǎng)通的絕大部分網(wǎng)頁(yè)文件,文件格式為.htm,共1 842篇,作為該分類(lèi)方法的實(shí)驗(yàn)語(yǔ)料。

        實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)如表1所示。(注:網(wǎng)頁(yè)數(shù)量為0的類(lèi)別未給出)

        分類(lèi)結(jié)果統(tǒng)計(jì)表顯示該方法能成功分類(lèi)1 842篇網(wǎng)頁(yè)文件中的623篇,絕大多數(shù)未能分類(lèi)的藏文網(wǎng)頁(yè)均為“欄目非法網(wǎng)頁(yè)”。對(duì)于分類(lèi)結(jié)果的準(zhǔn)確率統(tǒng)計(jì),我們采取了隨機(jī)采樣的統(tǒng)計(jì)方法,即在各實(shí)驗(yàn)結(jié)果類(lèi)別中隨機(jī)抽取一定百分比的文本進(jìn)行人工驗(yàn)證。統(tǒng)計(jì)結(jié)果表明,本文提出的藏文網(wǎng)頁(yè)文本分類(lèi)方法能將“欄目合法網(wǎng)頁(yè)”完全正確地歸于預(yù)定義類(lèi)別中,分類(lèi)準(zhǔn)確率可達(dá)97%。

        表1 分類(lèi)結(jié)果統(tǒng)計(jì)表

        4 結(jié)語(yǔ)

        本文提出了一種基于欄目的藏文網(wǎng)頁(yè)自動(dòng)分類(lèi)方法。實(shí)驗(yàn)表明,該方法能快速、準(zhǔn)確地將大量藏文網(wǎng)頁(yè)文本進(jìn)行自動(dòng)分類(lèi)。這將為今后的基于統(tǒng)計(jì)和基于規(guī)則的藏文文本分類(lèi)、構(gòu)建藏文語(yǔ)料庫(kù)提供高質(zhì)量語(yǔ)料。

        當(dāng)然,該方法也有不足及需要進(jìn)一步改進(jìn)與優(yōu)化的地方,主要包括以下三個(gè)方面:

        (1) 不同的藏文網(wǎng)站有不同的網(wǎng)頁(yè)欄目格式,制定統(tǒng)一的或者可擴(kuò)充的欄目提取規(guī)則(集),才能保證該分類(lèi)方法對(duì)其進(jìn)行有效處理。

        (2) 藏文網(wǎng)頁(yè)文本的正確提取直接關(guān)系到最終文本語(yǔ)料的質(zhì)量。對(duì)于沒(méi)有欄目信息的藏文網(wǎng)頁(yè),需要進(jìn)一步研究分類(lèi)方法。

        (3) 類(lèi)別特征詞表的存儲(chǔ)結(jié)構(gòu)需要根據(jù)特征詞的數(shù)量作相應(yīng)的優(yōu)化或變換,以實(shí)現(xiàn)欄目特征詞條的快速匹配,提高分類(lèi)效率。

        [1] 才讓加.藏語(yǔ)語(yǔ)料庫(kù)加工方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(6):138-139,146.

        [2] 才讓加,吉太加.藏語(yǔ)語(yǔ)料庫(kù)的詞性分類(lèi)方法研究[J]. 青海師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2005,(4):112-114.

        [3] 賈會(huì)強(qiáng),李永宏.藏文文本分類(lèi)器的設(shè)計(jì)與實(shí)現(xiàn)[J].科技向?qū)В?010,(4)下:30-31.

        [4] 李渝勤,孫麗華.基于規(guī)則的自動(dòng)分類(lèi)在文本分類(lèi)中的應(yīng)用[J].中文信息學(xué)報(bào),2004,18(4):9-14.

        [5] 黃科,馬少平.基于統(tǒng)計(jì)分詞的中文網(wǎng)頁(yè)分類(lèi)[J].中文信息學(xué)報(bào),2002,16(6):25-31.

        [6] 盧嬌麗,鄭家恒.基于粗糙集的文本分類(lèi)方法研究[J].中文信息學(xué)報(bào),2005,19(2):66-70.

        [7] 許世明,武波,馬翠,等.一種基于預(yù)分類(lèi)的高效SVM中文網(wǎng)頁(yè)分類(lèi)器[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(1):125-128.

        [8] 劉建,孫鵬,倪宏.面向分類(lèi)的網(wǎng)頁(yè)主題特征提取[J].計(jì)算機(jī)應(yīng)用研究,2010,27(9):3399-3402.

        [9] 孫承杰,關(guān)毅.基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J].中文信息學(xué)報(bào),2004,18(5):17-22.

        [10] 韓忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2008,25(12): 3568-3571,3574.

        [11] 黃玲,陳龍.基于網(wǎng)頁(yè)分塊的正文信息提取方法[J].計(jì)算機(jī)運(yùn)用,2008,28:326-328.

        猜你喜歡
        詞表藏文詞條
        A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱(chēng)漢英對(duì)照詞表
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        2016年4月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        2016年3月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
        現(xiàn)代語(yǔ)境下的藏文報(bào)刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        2016年9月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        大數(shù)據(jù)相關(guān)詞條
        日韩丝袜人妻中文字幕| 亚洲av无码专区国产乱码不卡| 最新国产三级| 毛片av在线尤物一区二区| 亚洲无精品一区二区在线观看| 人妻少妇出轨中文字幕| 亚洲成a人v欧美综合天堂麻豆| 日本中文字幕一区二区高清在线| 一本色道久久88加勒比—综合| 欧美激情一区二区三区成人 | 青青草小视频在线播放| 日本中文字幕一区二区高清在线| 久久国产精品不只是精品| 日本精品人妻一区二区三区| 日韩精品一区二区三区在线视频| 国产农村乱辈无码| 亚洲AV伊人久久综合密臀性色| 精品自拍偷拍一区二区三区| 亚洲av免费手机在线观看 | 日本午夜一区二区视频| 亚洲日本国产精品久久| 精品国产一区二区三区av片| 亚洲Va中文字幕久久无码一区| 女同另类专区精品女同| 国产99视频精品免视看7| 精品人妻系列无码一区二区三区 | 羞涩色进入亚洲一区二区av| 在线无码中文字幕一区| 69久久夜色精品国产69| 亚洲人成网站www| 在线播放亚洲丝袜美腿| 欧美黑人性暴力猛交喷水黑人巨大 | 亚洲国产成人Av毛片大全| 国产丝袜美腿中文字幕| 亚洲精品v欧洲精品v日韩精品| 国产最新地址| 伊人久久综合狼伊人久久| 久久人妻少妇嫩草av| 欧美精品免费观看二区| 少妇被搞高潮在线免费观看| 国产一品二品三品精品在线|