亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向傳媒領(lǐng)域文本分類訓(xùn)練器的設(shè)計

        2017-09-29 11:19:23宋燕燕
        科學(xué)家 2016年12期
        關(guān)鍵詞:訓(xùn)練器特征提取分類

        宋燕燕

        摘要 傳媒領(lǐng)域存著在大面積的領(lǐng)域知識,這類領(lǐng)域知識將特征項與文本類別相關(guān)聯(lián)在一起,非常有助于區(qū)分文本的具體類別。本文設(shè)計方面一種面向傳媒領(lǐng)域知識的文本分類訓(xùn)練器,旨在提高傳媒領(lǐng)域文本的分類性能。訓(xùn)練器將以非常直觀的方式實現(xiàn)關(guān)鍵詞檢索,特征詞提取,文本分類功能,可以方便地對未知的文件進(jìn)行分類,統(tǒng)計文本關(guān)鍵詞出現(xiàn)的頻率和文本內(nèi)容的訓(xùn)練。

        關(guān)鍵詞 文本分類;傳媒領(lǐng)域;詞頻統(tǒng)計;特征詞

        中圖分類號 TP3 文獻(xiàn)標(biāo)識碼A 文章編號2095—6363(2016)12—0032—02

        伴隨著互聯(lián)網(wǎng)的迅猛發(fā)展和日益遍及,互聯(lián)網(wǎng)數(shù)據(jù)量劇增,電子文本信息迅速的擴(kuò)大,如何有效地安排和管理這些信息,并且迅速、精確地找到用戶所需要的信息是當(dāng)時信息技術(shù)領(lǐng)域面對的一大應(yīng)戰(zhàn)。文本分類作為處理和安排很多文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在較大程度上處理信息亂現(xiàn)象的問題,便利用戶精確地定位所需的信息和分流信息。

        文本分類是指采用計算機(jī)程序?qū)ξ谋炯凑找欢ǖ姆诸愺w系進(jìn)行分類標(biāo)記和有效管理,方便用戶進(jìn)行查詢。文本分類訓(xùn)練器的設(shè)計通常包括文本的特征向量表示、文本特征向量的降維,以及文本分類器的設(shè)計與測試等。

        本文通過分析利用Java技術(shù)構(gòu)建分類訓(xùn)練器的結(jié)構(gòu)框架,明確了基于Java構(gòu)建分類訓(xùn)練器理論可行性,并進(jìn)一步設(shè)計了系統(tǒng)的技術(shù)流程和功能實現(xiàn),從而為面向傳媒領(lǐng)域的文本分類訓(xùn)練器的研究和應(yīng)用提供了一種方法。

        1相關(guān)技術(shù)介紹

        文本分類問題的困難之一便是特征空間的高維性,而特征提取的主要功能就是在保留文本核心信息的情況下盡量減少要處理的單詞數(shù),也就是降低向量空間維數(shù),從而提高文本處理的效率和精度。特征提取方法成為文本分類中首先要解決的問題。

        特征提取的常用辦法分為根據(jù)概率的特征提取辦法和根據(jù)語義的特征提取辦法。根據(jù)概率的特征提取辦法是先對文檔進(jìn)行分詞,過濾掉停用詞,并用傳統(tǒng)算法對詞語權(quán)重進(jìn)行核算,得到權(quán)重的排序后,按權(quán)重值的大小選擇相應(yīng)的特征作為文檔的特征關(guān)鍵字。而根據(jù)語義的特征提取辦法是在過濾掉停用詞后對詞語構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過詞語網(wǎng)絡(luò)結(jié)構(gòu)對特征權(quán)值進(jìn)行核算,從而得到終究文檔的特征詞。

        現(xiàn)在選用的分類辦法根本都是根據(jù)機(jī)器學(xué)習(xí)的思維。對于傳媒范疇,有些專業(yè)詞具有顯著的種類傾向性,是判別文本種類的重要依據(jù),如:當(dāng)文本中較多的呈現(xiàn)“新媒體”“媒體”“移動媒體”等這些詞語時,咱們就簡單將文本聯(lián)想到媒體工業(yè)這一種類。咱們把這些行業(yè)內(nèi)流轉(zhuǎn)度高、盡人皆知、與具體種類有關(guān)的語義常識稱為范疇常識,把握住范疇常識有助于文本分類。

        2文本分類訓(xùn)練器功能需求以及設(shè)計

        面向于傳媒領(lǐng)域的文本分類訓(xùn)練器的功能需求有以下的幾個大的方面:該系統(tǒng)要可以對文本或文件夾進(jìn)行分類、訓(xùn)練、關(guān)鍵字檢索、詞頻查詢、清屏等具體操作來滿足用戶的多種需求;要給用戶提供直觀方便的操作界面,設(shè)計的圖形界面方便用戶直觀快速的找到自己需要的功能和其它的一些信息;盡可能詳細(xì)的優(yōu)化輸出功能,讓使用者可以更直接看到所需要的文本和訓(xùn)練結(jié)果;盡可能多的訓(xùn)練文本,合理設(shè)置傳媒領(lǐng)域關(guān)鍵詞才會使文本分類更加準(zhǔn)確。

        根據(jù)功能需求對系統(tǒng)進(jìn)行設(shè)計,主要設(shè)計流程如圖1所示。

        3文本分類訓(xùn)練器的實現(xiàn)

        文本分類訓(xùn)練器采用Java開發(fā),分類訓(xùn)練器的屬性數(shù)據(jù)可直接存儲于XML文檔中,在系統(tǒng)內(nèi)部可以方便地實現(xiàn)屬性數(shù)據(jù)的讀入和讀出,滿足用戶對屬性數(shù)據(jù)直觀的獲取需求。

        1)分類模塊的實現(xiàn)

        每個關(guān)鍵詞在此類文章里出現(xiàn)的平均比例等于關(guān)鍵詞出現(xiàn)次數(shù)除以文章總字?jǐn)?shù),統(tǒng)計關(guān)鍵詞種類和數(shù)量,然后把這些關(guān)鍵詞所對應(yīng)的類枚舉出來,然后將關(guān)鍵詞出現(xiàn)數(shù)量乘以在訓(xùn)練里面的平均占比,得出概論,再歸一化成百分?jǐn)?shù)排列。部分代碼如下:endprint

        猜你喜歡
        訓(xùn)練器特征提取分類
        拼音拼讀訓(xùn)練器
        連續(xù)被動式運(yùn)動訓(xùn)練器轉(zhuǎn)速切換協(xié)調(diào)控制方法
        分類算一算
        虛擬維護(hù)訓(xùn)練器在飛機(jī)維修課程中的應(yīng)用實踐
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        腹腔鏡手術(shù)訓(xùn)練器的攝像頭影像滯后現(xiàn)象及分析
        国内精品久久久久久久久久影院| 久久精品国产亚洲av麻豆会员| 97人妻人人做人碰人人爽| 欧美最猛黑人xxxx黑人表情| 亚洲成a∨人片在线观看无码| 白白色青青草视频免费观看| 亚洲天堂一区av在线| av午夜久久蜜桃传媒软件| 图图国产亚洲综合网站| 91精品国产色综合久久不| 日韩熟女系列中文字幕| 亚洲av成人无码精品电影在线| 日韩国产一区| 超短裙老师在线观看一区二区| 97精品一区二区三区| 精品亚洲一区二区三区在线观看 | av素人中文字幕在线观看| 亚洲精品无码久久久久牙蜜区| 精品亚洲国产探花在线播放 | 中文字幕av永久免费在线| 免费高清av一区二区三区| 亚洲综合性色一区| 亚洲天堂av另类在线播放| 妃光莉中文字幕一区二区| 日本理伦片午夜理伦片| 98国产精品永久在线观看| 久久精品人妻中文av| 亚洲av无码乱码国产精品久久| 欧美大香线蕉线伊人久久| 青青草免费激情自拍视频| 久久综合九色综合97婷婷| 国内露脸少妇精品视频| 欧美日韩精品一区二区三区高清视频| 亚洲国产精品嫩草影院久久av| 中文字幕人乱码中文字幕| 国产精品成人av在线观看| 国产三级在线看完整版| 少妇被黑人整得嗷嗷叫视频| 特级婬片国产高清视频| av天堂线上| 国产免费二区三区视频|