亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向傳媒領(lǐng)域文本分類訓(xùn)練器的設(shè)計

        2017-09-29 11:19:23宋燕燕
        科學(xué)家 2016年12期
        關(guān)鍵詞:訓(xùn)練器特征提取分類

        宋燕燕

        摘要 傳媒領(lǐng)域存著在大面積的領(lǐng)域知識,這類領(lǐng)域知識將特征項與文本類別相關(guān)聯(lián)在一起,非常有助于區(qū)分文本的具體類別。本文設(shè)計方面一種面向傳媒領(lǐng)域知識的文本分類訓(xùn)練器,旨在提高傳媒領(lǐng)域文本的分類性能。訓(xùn)練器將以非常直觀的方式實現(xiàn)關(guān)鍵詞檢索,特征詞提取,文本分類功能,可以方便地對未知的文件進(jìn)行分類,統(tǒng)計文本關(guān)鍵詞出現(xiàn)的頻率和文本內(nèi)容的訓(xùn)練。

        關(guān)鍵詞 文本分類;傳媒領(lǐng)域;詞頻統(tǒng)計;特征詞

        中圖分類號 TP3 文獻(xiàn)標(biāo)識碼A 文章編號2095—6363(2016)12—0032—02

        伴隨著互聯(lián)網(wǎng)的迅猛發(fā)展和日益遍及,互聯(lián)網(wǎng)數(shù)據(jù)量劇增,電子文本信息迅速的擴(kuò)大,如何有效地安排和管理這些信息,并且迅速、精確地找到用戶所需要的信息是當(dāng)時信息技術(shù)領(lǐng)域面對的一大應(yīng)戰(zhàn)。文本分類作為處理和安排很多文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在較大程度上處理信息亂現(xiàn)象的問題,便利用戶精確地定位所需的信息和分流信息。

        文本分類是指采用計算機(jī)程序?qū)ξ谋炯凑找欢ǖ姆诸愺w系進(jìn)行分類標(biāo)記和有效管理,方便用戶進(jìn)行查詢。文本分類訓(xùn)練器的設(shè)計通常包括文本的特征向量表示、文本特征向量的降維,以及文本分類器的設(shè)計與測試等。

        本文通過分析利用Java技術(shù)構(gòu)建分類訓(xùn)練器的結(jié)構(gòu)框架,明確了基于Java構(gòu)建分類訓(xùn)練器理論可行性,并進(jìn)一步設(shè)計了系統(tǒng)的技術(shù)流程和功能實現(xiàn),從而為面向傳媒領(lǐng)域的文本分類訓(xùn)練器的研究和應(yīng)用提供了一種方法。

        1相關(guān)技術(shù)介紹

        文本分類問題的困難之一便是特征空間的高維性,而特征提取的主要功能就是在保留文本核心信息的情況下盡量減少要處理的單詞數(shù),也就是降低向量空間維數(shù),從而提高文本處理的效率和精度。特征提取方法成為文本分類中首先要解決的問題。

        特征提取的常用辦法分為根據(jù)概率的特征提取辦法和根據(jù)語義的特征提取辦法。根據(jù)概率的特征提取辦法是先對文檔進(jìn)行分詞,過濾掉停用詞,并用傳統(tǒng)算法對詞語權(quán)重進(jìn)行核算,得到權(quán)重的排序后,按權(quán)重值的大小選擇相應(yīng)的特征作為文檔的特征關(guān)鍵字。而根據(jù)語義的特征提取辦法是在過濾掉停用詞后對詞語構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過詞語網(wǎng)絡(luò)結(jié)構(gòu)對特征權(quán)值進(jìn)行核算,從而得到終究文檔的特征詞。

        現(xiàn)在選用的分類辦法根本都是根據(jù)機(jī)器學(xué)習(xí)的思維。對于傳媒范疇,有些專業(yè)詞具有顯著的種類傾向性,是判別文本種類的重要依據(jù),如:當(dāng)文本中較多的呈現(xiàn)“新媒體”“媒體”“移動媒體”等這些詞語時,咱們就簡單將文本聯(lián)想到媒體工業(yè)這一種類。咱們把這些行業(yè)內(nèi)流轉(zhuǎn)度高、盡人皆知、與具體種類有關(guān)的語義常識稱為范疇常識,把握住范疇常識有助于文本分類。

        2文本分類訓(xùn)練器功能需求以及設(shè)計

        面向于傳媒領(lǐng)域的文本分類訓(xùn)練器的功能需求有以下的幾個大的方面:該系統(tǒng)要可以對文本或文件夾進(jìn)行分類、訓(xùn)練、關(guān)鍵字檢索、詞頻查詢、清屏等具體操作來滿足用戶的多種需求;要給用戶提供直觀方便的操作界面,設(shè)計的圖形界面方便用戶直觀快速的找到自己需要的功能和其它的一些信息;盡可能詳細(xì)的優(yōu)化輸出功能,讓使用者可以更直接看到所需要的文本和訓(xùn)練結(jié)果;盡可能多的訓(xùn)練文本,合理設(shè)置傳媒領(lǐng)域關(guān)鍵詞才會使文本分類更加準(zhǔn)確。

        根據(jù)功能需求對系統(tǒng)進(jìn)行設(shè)計,主要設(shè)計流程如圖1所示。

        3文本分類訓(xùn)練器的實現(xiàn)

        文本分類訓(xùn)練器采用Java開發(fā),分類訓(xùn)練器的屬性數(shù)據(jù)可直接存儲于XML文檔中,在系統(tǒng)內(nèi)部可以方便地實現(xiàn)屬性數(shù)據(jù)的讀入和讀出,滿足用戶對屬性數(shù)據(jù)直觀的獲取需求。

        1)分類模塊的實現(xiàn)

        每個關(guān)鍵詞在此類文章里出現(xiàn)的平均比例等于關(guān)鍵詞出現(xiàn)次數(shù)除以文章總字?jǐn)?shù),統(tǒng)計關(guān)鍵詞種類和數(shù)量,然后把這些關(guān)鍵詞所對應(yīng)的類枚舉出來,然后將關(guān)鍵詞出現(xiàn)數(shù)量乘以在訓(xùn)練里面的平均占比,得出概論,再歸一化成百分?jǐn)?shù)排列。部分代碼如下:endprint

        猜你喜歡
        訓(xùn)練器特征提取分類
        拼音拼讀訓(xùn)練器
        連續(xù)被動式運(yùn)動訓(xùn)練器轉(zhuǎn)速切換協(xié)調(diào)控制方法
        分類算一算
        虛擬維護(hù)訓(xùn)練器在飛機(jī)維修課程中的應(yīng)用實踐
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        腹腔鏡手術(shù)訓(xùn)練器的攝像頭影像滯后現(xiàn)象及分析
        精品一区二区三区免费爱| 老岳肥屁熟女四五十路| 国产一级内射一片视频免费| 久久一二区女厕偷拍图| 国产精品一区二区日韩精品| 日本丰满少妇高潮呻吟| 国产一级做a爱视频在线| 毛片av中文字幕一区二区| 国产精品国产三级国产专区51区| 激情视频国产在线观看| 亚洲综合新区一区二区| 手机av在线中文字幕| 久久久久免费精品国产| 中国孕妇变态孕交xxxx| 日日婷婷夜日日天干| 欧美国产一区二区三区激情无套| 亚洲色欲久久久久综合网| 99久久国产亚洲综合精品| 亚洲美女主播一区二区| 日韩久久免费精品视频| 蜜桃网站免费在线观看视频| 欧洲美女熟乱av| a级大胆欧美人体大胆666| 国产成人精品三级在线影院| 久久久精品国产亚洲av网| 亚洲av老熟女一区二区三区 | 最新日韩人妻中文字幕一区| 国产片在线一区二区三区| 久久精品熟女亚洲av麻| 99国产精品久久久蜜芽| 国模无码视频一区| 国内精品伊人久久久久av| 亚洲先锋影院一区二区| 亚洲天堂免费一二三四区| 二区三区日本高清视频| 国产电影一区二区三区| 亚洲色自偷自拍另类小说| 白白青青视频在线免费观看| 九七青青草视频在线观看| 国产欧美亚洲精品第一页| 久久久久亚洲精品天堂|