亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類系統(tǒng)

        2009-08-14 07:41:00孫瑤琴
        中國校外教育(下旬) 2009年7期
        關(guān)鍵詞:分類器特征文本

        孫瑤琴

        [摘 要]文章闡述了國內(nèi)在基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類方面所做研究工作的發(fā)展現(xiàn)狀,分析了已有工作的特點(diǎn);在此基礎(chǔ)上,結(jié)合自己的工作提出了一個(gè)基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類系統(tǒng)分析。給出了系統(tǒng)的總體結(jié)構(gòu)設(shè)計(jì)思想和總體結(jié)構(gòu)框架,以及組成系統(tǒng)的各個(gè)模塊的功能和結(jié)構(gòu)描述。按照該系統(tǒng)的設(shè)計(jì)思想和進(jìn)一步的詳細(xì)設(shè)計(jì)可以搭建一個(gè)系統(tǒng)化的、功能較為全面的、具有較高效率的中文網(wǎng)頁自動(dòng)分類系統(tǒng)平臺(tái)。

        [關(guān)鍵詞]中文網(wǎng)頁自動(dòng)分類系統(tǒng) 文本 特征 分類器 測(cè)試

        人們?cè)谙硎躀nternet給現(xiàn)代文明帶來劃時(shí)代的變革的同時(shí),越來越感覺到在知識(shí)檢索上面臨許多需要改進(jìn)和解決的問題。Web自動(dòng)分類涉及Web的文本信息、結(jié)構(gòu)信息和超連接信息。目前人們研究的熱點(diǎn)集中在基于Web文本信息的自動(dòng)分類,即基于文本內(nèi)容的分類?;趦?nèi)容的文本分類的研究?jī)?nèi)容主要包括文本特征的表示、特征提取、分類器設(shè)計(jì)等,其中每一階段的研究以上一階段的工作為基礎(chǔ)?;趦?nèi)容的Web自動(dòng)分類系統(tǒng)平臺(tái)的研究是上述研究?jī)?nèi)容的基礎(chǔ)工作,是實(shí)現(xiàn)網(wǎng)頁自動(dòng)分類的工具,目前在該領(lǐng)域的工作者都是根據(jù)自己的側(cè)重點(diǎn)不同搭建各自的平臺(tái),并在此基礎(chǔ)上開展一系列的工作。

        一、系統(tǒng)的用戶需求

        粗略地講,該系統(tǒng)的需求可描述為:建立網(wǎng)頁自動(dòng)分類系統(tǒng)平臺(tái)。要求該平臺(tái)存儲(chǔ)大量的領(lǐng)域相關(guān)網(wǎng)頁,并動(dòng)態(tài)調(diào)整網(wǎng)頁;該平臺(tái)能夠動(dòng)態(tài)生成網(wǎng)頁特征向量,對(duì)特征向量做維數(shù)壓縮;該平臺(tái)能夠提供若干分類或聚類算法,對(duì)網(wǎng)頁對(duì)應(yīng)的特征進(jìn)行一定正確率的分類或聚類;該平臺(tái)提供友好的測(cè)試界面,能夠?qū)﹄S機(jī)選取的領(lǐng)域網(wǎng)頁進(jìn)行自動(dòng)分類;該平臺(tái)提供在線幫助系統(tǒng),能夠使得用戶在盡可能短的時(shí)間內(nèi)熟悉和實(shí)用該系統(tǒng)。

        二、系統(tǒng)的總體結(jié)構(gòu)

        系統(tǒng)分析的目的是在需求分析的基礎(chǔ)上,為實(shí)現(xiàn)系統(tǒng)的功能要求而設(shè)計(jì)系統(tǒng)的結(jié)構(gòu),劃分系統(tǒng)的功能模塊,確定各個(gè)模塊之間的邏輯順序關(guān)系。從整體上把握系統(tǒng)的組織結(jié)構(gòu),直觀地了解系統(tǒng)的構(gòu)成和各個(gè)部分之間的相互關(guān)系。

        整個(gè)系統(tǒng)主要有三部分組成,數(shù)據(jù)庫管理系統(tǒng)、任務(wù)管理系統(tǒng)、用戶界面部分。

        三、系統(tǒng)的結(jié)構(gòu)分析

        (1)數(shù)據(jù)庫管理系統(tǒng):該系統(tǒng)主要由4種數(shù)據(jù)庫,分別為原始網(wǎng)頁數(shù)據(jù)庫、詞典庫、文本特征庫、系統(tǒng)開發(fā)文檔庫。

        (2)任務(wù)管理系統(tǒng):該系統(tǒng)是整個(gè)平臺(tái)的主要前臺(tái)組成部分,用于完成網(wǎng)頁分類的各個(gè)環(huán)節(jié),在實(shí)現(xiàn)上具有一定的前后邏輯關(guān)系。

        (3)網(wǎng)頁自動(dòng)下載系統(tǒng):完成指定領(lǐng)域的網(wǎng)頁按類自動(dòng)下載與存儲(chǔ)

        (4)網(wǎng)頁版面分析系統(tǒng):該系統(tǒng)實(shí)現(xiàn)網(wǎng)頁版面結(jié)構(gòu)分析與結(jié)構(gòu)特征提取。

        (5)切詞系統(tǒng):切詞系統(tǒng)用于統(tǒng)計(jì)領(lǐng)域網(wǎng)頁庫中各詞條出現(xiàn)的頻率。

        (6)特征壓縮系統(tǒng):該系統(tǒng)的目的是特征向量空間壓縮。

        (7)學(xué)習(xí)系統(tǒng):該系統(tǒng)給用戶提供學(xué)習(xí)方法集。

        (8)測(cè)試系統(tǒng):系統(tǒng)測(cè)試是為了發(fā)現(xiàn)錯(cuò)誤而執(zhí)行程序的過程。

        (9)幫助系統(tǒng):在線幫助功能。該系統(tǒng)應(yīng)提供給用戶較為友好的交互界面,幫助用戶了解各個(gè)部分的功能,提供操作錯(cuò)誤分析和系統(tǒng)運(yùn)行錯(cuò)誤分析和提示等。

        四、系統(tǒng)模塊實(shí)現(xiàn)

        模塊實(shí)現(xiàn)部分提供系統(tǒng)的各個(gè)模塊具體實(shí)現(xiàn)的方法、步驟、流程和實(shí)現(xiàn)的工具等。在前述功能和結(jié)構(gòu)描述的基礎(chǔ)上,規(guī)范各個(gè)模塊的程序接口、統(tǒng)一風(fēng)格、注意事項(xiàng)等。整個(gè)系統(tǒng)開發(fā)平臺(tái)選擇VC++6.0系統(tǒng),其中的核心算法部分若不涉及交互界面可以使用標(biāo)準(zhǔn)C。網(wǎng)頁文件管理的操作借助于操作系統(tǒng)的文件管理系統(tǒng),網(wǎng)頁文件索引文件和文本特征向量數(shù)據(jù)庫系統(tǒng)采用Access的數(shù)據(jù)表*.ndb格式。

        (1)數(shù)據(jù)庫管理系統(tǒng):數(shù)據(jù)庫管理系統(tǒng)具備一般數(shù)據(jù)庫的操作,根據(jù)數(shù)據(jù)庫管理內(nèi)容的區(qū)別,在上述操作內(nèi)容上有所不同。管理系統(tǒng)應(yīng)充分利用windows提供的功能和設(shè)計(jì)風(fēng)格實(shí)現(xiàn)數(shù)據(jù)的可視化、實(shí)現(xiàn)快速化等特點(diǎn)。

        (2)任務(wù)管理系統(tǒng):整個(gè)任務(wù)管理系統(tǒng)是系統(tǒng)的方法集中部分,為了縮短開發(fā)周期和提高整個(gè)系統(tǒng)整體性能,特統(tǒng)一系統(tǒng)的開發(fā)規(guī)范如下:

        a)使用統(tǒng)一的編程工具:VC++6.0,便于整個(gè)系統(tǒng)的集成;

        b)使用統(tǒng)一的程序接口格式;例子如下:

        FunctionName(parameter1, parameter 2,…, parameterN)

        {//模塊說明:模塊功能描述,參數(shù)設(shè)置,調(diào)用模塊;輸出結(jié)果說明;

        變量說明;

        調(diào)用函數(shù)說明;

        模塊主體;

        返回值;

        }

        c)使用統(tǒng)一的局部變量規(guī)定;變量的取名規(guī)定為與物理意義的變量對(duì)應(yīng)的英文單詞或組合詞使用。

        五、系統(tǒng)模塊測(cè)試

        模塊測(cè)試又稱單元測(cè)試,是針對(duì)軟件設(shè)計(jì)的最小單位-程序模塊,進(jìn)行正確性檢驗(yàn)的測(cè)試工作。其目的在于發(fā)現(xiàn)各模塊內(nèi)部可能存在的各種差錯(cuò)。單元測(cè)試需要從程序的內(nèi)部結(jié)構(gòu)出發(fā)設(shè)計(jì)測(cè)試用例。多個(gè)模塊可以平行地獨(dú)立進(jìn)行單元測(cè)試。需要從以下五個(gè)方面測(cè)試:模塊接口測(cè)試、局部數(shù)據(jù)結(jié)構(gòu)測(cè)試、路徑測(cè)試、錯(cuò)誤處理測(cè)試、邊界測(cè)試。

        六、系統(tǒng)測(cè)試

        在系統(tǒng)測(cè)試之前需要做的是聯(lián)合測(cè)試:在單元測(cè)試的基礎(chǔ)上,需要將所有模塊按照設(shè)計(jì)要求組裝成為系統(tǒng)。需要考慮的問題:

        (1)在把各個(gè)模塊連接起來的時(shí)候,穿越模塊接口的數(shù)據(jù)是否會(huì)丟失;

        (2)一個(gè)模塊的功能是否會(huì)對(duì)另一個(gè)模塊的功能產(chǎn)生不利的影響;

        (3)各個(gè)子功能組合起來,是否達(dá)到預(yù)期要求的父功能;

        (4)全局?jǐn)?shù)據(jù)結(jié)構(gòu)是否有問題;

        (5)單個(gè)模塊的誤差積累起來,是否會(huì)放大,從而達(dá)到不能接受的程度。

        系統(tǒng)測(cè)試的目的是通過與系統(tǒng)的需求定義作比較,發(fā)現(xiàn)軟件與系統(tǒng)定義不符合或與之矛盾的地方。系統(tǒng)測(cè)試的測(cè)試用例應(yīng)根據(jù)需求分析說明書來設(shè)計(jì),并在實(shí)際使用環(huán)境下來運(yùn)行。

        七、總結(jié)

        中文文本的自動(dòng)分類是中文信息處理領(lǐng)域中的一項(xiàng)重要研究課題。本文對(duì)中文信息分類技術(shù)及其應(yīng)用作了初步的探討,并從實(shí)際應(yīng)用出發(fā)給出一個(gè)基于內(nèi)容的中文網(wǎng)頁自動(dòng)分類系統(tǒng)分析。描述了系統(tǒng)的總體結(jié)構(gòu)設(shè)計(jì)思想和總體結(jié)構(gòu)框架,以及組成系統(tǒng)的各個(gè)模塊的功能和結(jié)構(gòu)。按照該系統(tǒng)的設(shè)計(jì)思想和進(jìn)一步的詳細(xì)設(shè)計(jì)可以搭建一個(gè)系統(tǒng)化的、功能較為全面的、具有較高效率的中文網(wǎng)頁自動(dòng)分類系統(tǒng)平臺(tái)。

        由于整個(gè)系統(tǒng)涵蓋的范圍大,設(shè)計(jì)到的技術(shù)細(xì)節(jié)多,在很多實(shí)現(xiàn)細(xì)節(jié)上采用了比較簡(jiǎn)單的方法,以便于整個(gè)系統(tǒng)的順利實(shí)現(xiàn)。在很多方面需要進(jìn)行繼續(xù)深入的研究,以提高整個(gè)自動(dòng)分類過程的識(shí)別準(zhǔn)確率。

        參考文獻(xiàn):

        [1]王繼成,蕭嶸,孫正興,張福炎.Web信息檢索研究進(jìn)展.計(jì)算機(jī)研究與發(fā)展,2006,38(2):187-193.

        [2]王繼成,潘金貴,張福炎.Web文本挖掘技術(shù)研究.計(jì)算機(jī)研究與發(fā)展,2005,37(5):513-520.

        [3]呂津,趙明生.對(duì)因特網(wǎng)上自動(dòng)信息提取的研究.數(shù)據(jù)通信,2007.

        [4]朱明,王軍,王俊普.Web網(wǎng)頁識(shí)別中的特征選擇問題研究.計(jì)算機(jī)工程,2006,26(8):35-37.

        [5]肖明,沈英.自動(dòng)分類研究進(jìn)展.現(xiàn)代圖書情報(bào)技術(shù),2000.

        猜你喜歡
        分類器特征文本
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        抓住特征巧觀察
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        精品国产黑色丝袜高跟鞋| 一区二区三区人妻少妇| 免费人成在线观看网站| 久久精品人人做人人爽电影蜜月| 精品视频在线观看免费无码| 中文字幕国产精品专区| 蜜桃一区二区在线视频| 18禁真人抽搐一进一出在线| 午夜成人理论无码电影在线播放| 中文字幕成人乱码亚洲| 美女丝袜美腿玉足视频| 一本一本久久aa综合精品| 欧美国产亚洲日韩在线二区| 三级黄色片一区二区三区| 国产一区二区三区激情视频| 欧美大成色www永久网站婷| 日日摸夜夜添夜夜添一区二区 | 中文字幕亚洲乱码熟女一区二区| 亚洲AV无码AV色| 在线成人影院国产av| 国产精品成人va在线观看| 午夜国产在线| 国产精品亚洲一区二区三区妖精| 熟女一区二区三区在线观看| 无码少妇一区二区浪潮av| 久久尤物av天堂日日综合| 一区二区三区极品少妇| 亚洲欧美日韩中文字幕一区二区三区| 国产激情视频白浆免费| 国产一区二区三区免费主播| 美腿丝袜诱惑一区二区| 欧美人与动牲猛交xxxxbbbb| 亚洲人成18禁网站| 国产中文字幕亚洲精品| 粗大的内捧猛烈进出视频| 在线观看视频亚洲| 精品一区2区3区4区| 又粗又黄又猛又爽大片app| 97se亚洲国产综合自在线图片| 自拍偷拍一区二区三区四区| 新婚少妇无套内谢国语播放|