亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自編碼神經(jīng)網(wǎng)絡(luò)的文本表示應(yīng)用研究

        2016-11-10 10:39:30俸世洲
        電子測(cè)試 2016年19期
        關(guān)鍵詞:用詞布爾分詞

        俸世洲

        (重慶師范大學(xué)涉外商貿(mào)學(xué)院,401520)

        基于自編碼神經(jīng)網(wǎng)絡(luò)的文本表示應(yīng)用研究

        俸世洲

        (重慶師范大學(xué)涉外商貿(mào)學(xué)院,401520)

        本文主要研究高校招生領(lǐng)域Web短文本的表示方法及處理步驟?;谧跃幋a神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)的要求,研究文本預(yù)處理的主要技術(shù):中文分詞、停用詞處理、降維處理,文本向量化表示等技術(shù),并分析了文本表示的處理流程。

        高校招生自編碼;中文分詞;文本表示

        0 引言

        隨著互聯(lián)網(wǎng)的發(fā)展,留言板、QQ、微信等媒體在招生工作中的應(yīng)用越來(lái)越頻繁,積累了越來(lái)越多的電子文本數(shù)據(jù),如何有效地利用這些大數(shù)據(jù)資源已經(jīng)成為招生領(lǐng)域急需解決的問(wèn)題。為從這些數(shù)據(jù)資源中挖掘有利于改進(jìn)招生工作的信息,嘗試?yán)卯?dāng)下最熱門的深度學(xué)習(xí)算法來(lái)挖掘文本數(shù)據(jù),基于此算法必須找出一個(gè)適應(yīng)其輸入的文本表示方法,本文分別從中文分詞、停用詞處理、降維處理、文本向量化表示等技術(shù)入手,分析文本表示的處理流程。

        1 分詞處理

        分詞處理具體包括了若干步驟,如圖1所示:

        圖1 中文分詞處理流程

        (1)從留言板后臺(tái)獲取數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)為MDB格式,只保留留言主題、留言問(wèn)題及問(wèn)題回復(fù)三個(gè)字段,把其余字段去除,這三個(gè)字段包含的信息量最大,其中包含了考生咨詢的主題、具體細(xì)節(jié)以及回復(fù)人員的解答。通過(guò)數(shù)據(jù)庫(kù)工具把這三個(gè)字段導(dǎo)出到文本編輯工具當(dāng)中。

        (2)利用文本編輯工具如記事本、word或excel,去除HTML代碼及多余的符號(hào)。由后臺(tái)數(shù)據(jù)庫(kù)導(dǎo)出的數(shù)據(jù)當(dāng)中存在很多HTML代碼,如:<font color="#cc0000">回復(fù)內(nèi)容</font>,需要手動(dòng)去除掉,保留純文本的部份。

        (3)目前應(yīng)用比較廣泛的中文分詞工具有NLPIR/ICTCLAS分詞系統(tǒng)和教育部語(yǔ)言文字應(yīng)用研究所的分詞和詞性標(biāo)注程序。本文選用后者用于試驗(yàn),此系統(tǒng)可以對(duì)文件進(jìn)行批量處理,并同時(shí)標(biāo)注詞性,利于下一步去除停用詞等工作。如圖2所示:

        (4)分詞和詞性標(biāo)注完成后,得到分詞及標(biāo)注后的文本文件,從中可區(qū)分出名詞、動(dòng)詞、停用詞、嘆詞等詞性。去除停用詞等不需要的詞,這也是對(duì)文本進(jìn)行降維的方式。

        通過(guò)以上幾步的處理,輸出純文本文件,準(zhǔn)備下一步的文本向量化表示。

        圖2 分詞和詞性標(biāo)注程序

        2 文本向量化表示

        文本文檔是字符的集合,是非結(jié)構(gòu)化信息,神經(jīng)網(wǎng)絡(luò)不能識(shí)別,必須將其轉(zhuǎn)換成統(tǒng)一的結(jié)構(gòu)化形式,才能夠進(jìn)行進(jìn)一步的分析和處理。1975年,Salton提出的向量空間模型(Vector Space Model)是文本分類中應(yīng)用最廣泛的一種文本表示模型。在該模型中,所有出現(xiàn)在文本中的特征項(xiàng)被作為向量空間中的一維,n個(gè)特征項(xiàng)就構(gòu)成一個(gè)n維的特征向量空間。每一篇文檔都表示成一組特征詞組成的特征向量,其中表示特征詞k在特征向量中的權(quán)重。權(quán)值的取值范圍為[0,1]。

        向量空間中,主要有以下幾種權(quán)重計(jì)算方式:布爾加權(quán)法,詞頻加權(quán)法,加權(quán)法。假設(shè)為特征項(xiàng)在文檔,出現(xiàn)的頻率,n為文檔集中文檔總數(shù),為在文檔集中出現(xiàn)文檔特征項(xiàng)的文檔數(shù)量。

        (1)布爾加權(quán)法

        布爾權(quán)重也叫二值權(quán)重或二元權(quán)重,是最簡(jiǎn)單的權(quán)重計(jì)算方法。如公式1所示,當(dāng)特征項(xiàng)出現(xiàn)在文檔中時(shí),權(quán)重為1,否則為0。

        即,公式1

        (2)詞頻加權(quán)法

        用特征頻度作為權(quán)重。即。

        (3)加權(quán)法

        加權(quán)法是使用比較廣泛的權(quán)重計(jì)算方法。特征在文本中出現(xiàn)次數(shù)越多,越重要;特征在越多的文本中出現(xiàn),越不重要。即,。

        基于自編碼神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)的要求,并且留言板文本屬于Web短文本,用布爾加權(quán)法來(lái)表示更加適用。本文選擇布爾加權(quán)法表示文本向量。詞頻統(tǒng)計(jì)工具我們采用教育部語(yǔ)言文字應(yīng)用研究所的字詞頻率統(tǒng)計(jì)工具,如圖3所示:

        統(tǒng)計(jì)過(guò)后,去除出現(xiàn)頻率過(guò)高或過(guò)低的詞,并構(gòu)建特征詞表。最后通過(guò)程序構(gòu)造出布爾編碼向量,形成自編碼神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)。

        圖3 字詞頻率統(tǒng)計(jì)工具

        4 結(jié)語(yǔ)

        本文通過(guò)一個(gè)文本預(yù)處理實(shí)例分析了中文分詞、停用詞處理、降維處理、文本向量化表示等技術(shù)的實(shí)施步驟,并為后期的文本分類等工作做好數(shù)據(jù)準(zhǔn)備。

        [1] SONGF,LIUS,YANGJ.Acomparative study on text representations chemes intext categorization[J].Pattern Analysis & Applications, 2005, 8(1): 199-209.

        [2] 楊杰明. 文本分類中文本表示模型和特征選擇算法研究[D].長(zhǎng)春:吉林大學(xué),2013

        1981年9月出生;工作單位:重慶師范大學(xué)涉外商貿(mào)學(xué)院;重慶大學(xué)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)專業(yè)碩士,助理研究員職稱,研究方向:數(shù)據(jù)挖掘,人工智能,人工神經(jīng)網(wǎng)絡(luò)

        Research indicates neural network based on self-encoding text

        Feng Shizhou
        (Chongqing Normal University Foreign Trade And Business College,401520)

        This paper studies the field of representation College Enrollment Web and short text processing steps.Based on self-encoding neural network input data requirements,the main technical pretreatment study text:Chinese word,stop word processing,reduce the dimension text representation techniques to quantify and analyze the process flow text representation.

        College Admissions self-encoding;Chinese word;text representation

        項(xiàng)目支持:重慶市教委科學(xué)技術(shù)研究項(xiàng)目KJ1501703重慶師范大學(xué)涉外商貿(mào)學(xué)院科研項(xiàng)目KY2015004

        猜你喜歡
        用詞布爾分詞
        需注意的規(guī)范醫(yī)學(xué)用詞
        強(qiáng)化詩(shī)詞用詞的時(shí)代性
        蒼涼又喧囂:《我與地壇》中的用詞
        結(jié)巴分詞在詞云中的應(yīng)用
        布爾和比利
        幽默大師(2019年4期)2019-04-17 05:04:56
        布爾和比利
        幽默大師(2019年3期)2019-03-15 08:01:06
        布爾和比利
        幽默大師(2018年11期)2018-10-27 06:03:04
        布爾和比利
        幽默大師(2018年3期)2018-10-27 05:50:48
        寫話妙計(jì)之用詞準(zhǔn)確
        值得重視的分詞的特殊用法
        国产精品综合一区久久| 国产精品久久久久9999无码| 国产成人小视频| 性色做爰片在线观看ww| chinese国产乱在线观看| 天天草夜夜草| av在线手机中文字幕| 国产性色av一区二区| 国内精品久久久久久99| 国产台湾无码av片在线观看| 亚洲一区日韩无码| 日本午夜理伦三级好看| 白白色免费视频一区二区在线 | 日韩av中出在线免费播放网站| 国产三级三级三级看三级日本| 亚洲精品一区二区高清| 337p日本欧洲亚洲大胆精品| 天美传媒精品1区2区3区| 亚洲精品第一国产麻豆| 亚洲成AV人国产毛片| 蜜桃网站免费在线观看视频| 美女扒开大腿让男人桶| 亚洲日本va中文字幕| 在线精品国内视频秒播| 美国又粗又长久久性黄大片| 亚洲av熟女一区二区三区站| 一本一道vs无码中文字幕| 免费无码又爽又刺激网站| 久久亚洲国产精品五月天| 免费黄网站一区二区三区| 99久久婷婷国产亚洲终合精品 | 最新国产福利在线观看精品| 国产精品久久婷婷六月丁香| 亚洲线精品一区二区三区八戒| 日本一区中文字幕在线播放| 91自拍视频国产精品| 4399理论片午午伦夜理片| 超碰Av一区=区三区| 国产精品美女主播在线| 国产亚av手机在线观看| 久久男人av资源网站无码|