亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的文本情感多分類的學(xué)習(xí)與研究

        2020-08-26 07:46:55劉呈
        電腦知識與技術(shù) 2020年20期
        關(guān)鍵詞:文本分類自然語言處理機(jī)器學(xué)習(xí)

        摘要:文本分類與情感分類是自然語言處理中基礎(chǔ)的領(lǐng)域,為幫助初學(xué)者對文本情感多分類的項(xiàng)目學(xué)習(xí),在機(jī)器學(xué)習(xí)的基礎(chǔ)上,分析了線性邏輯回歸算法、樸素貝葉斯模型在文本情感分類項(xiàng)目中的應(yīng)用,并針對數(shù)據(jù)處理、模型構(gòu)建、模型訓(xùn)練、模型測試過程中初學(xué)者難以解決和易出錯(cuò)的部分進(jìn)行分析與實(shí)現(xiàn)。結(jié)合kaggle上的比賽數(shù)據(jù)實(shí)例,實(shí)現(xiàn)了完整的文本情感多分類項(xiàng)目并做出詳細(xì)分析,項(xiàng)目評測結(jié)果較為可觀,證實(shí)可以幫助初學(xué)者更易上手文本情感多分類和機(jī)器學(xué)習(xí)。同時(shí)提出了基于傳統(tǒng)二分類問題的多分類問題解決方法。

        關(guān)鍵詞:機(jī)器學(xué)習(xí);文本分類;情感分類;自然語言處理;多分類

        中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2020)20-0181-02

        Study and Research on Text Emotion Multi-Classification Based on Machine Learning

        LIU Cheng

        (Central China Normal University, Wuhan 430079,China)

        Abstract: Text categorization and emotion classification are basic fieldsin natural language processing. To help beginners leam theitems of text sentiment multi-classification. based on machine learning, the linear logistic regression algorithm and Bayesian modelare analyzed in the text sentiment classification project. In the process of data processing、model building、model training and mod-el testing, it is difficult for beginners to solve and error-prone parts are analyzed and implemented. Combined with the game dataexamples on Kaggle, a complete text emotion multi-classification project has been implemented and detailed analysis has beenmade. The results are considerable, which proves that it can help beginners get started with text emotion classification and machineleaming. At the same time, a multi-classification problem solving method based on the traditional two-classification problem isproposed.

        Key words : machine leaming ; text categorization; emotion classification: NLP; Multi-classification

        隨著人工智能的飛速發(fā)展,作為最核心與最具挑戰(zhàn)性領(lǐng)域之一的自然語言處理在最近幾年逐漸進(jìn)入研究高潮,進(jìn)入這個(gè)領(lǐng)域的初學(xué)者也越來越多。在NLP(Natural Language Process-ing.)領(lǐng)域,所需知識比較繁雜,掌握難度較大,缺乏對于初學(xué)者入門級學(xué)習(xí)的研究,導(dǎo)致初學(xué)者大多難以適應(yīng)。

        本文基于NLP中基礎(chǔ)性的文本情感分類項(xiàng)目,區(qū)別于傳統(tǒng)的二分類問題,將情感類型細(xì)化為五類,更貼合生活實(shí)際,做出挑戰(zhàn)。同時(shí)結(jié)合kaggle上的比賽數(shù)據(jù)實(shí)例,基于機(jī)器學(xué)習(xí)中的線性邏輯回歸算法和樸素貝葉斯模型算法,完成了整個(gè)情感多分類項(xiàng)目流程并做出研究。針對初學(xué)者在數(shù)據(jù)處理、特征選擇、模型網(wǎng)絡(luò)構(gòu)建、模型訓(xùn)練與測試過程中難以解決和易出錯(cuò)的部分做出了詳細(xì)分析與說明,以幫助初學(xué)者進(jìn)行NLP領(lǐng)域的項(xiàng)目學(xué)習(xí)。

        1文本情感分類概述

        文本情感分類是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程,是NLP領(lǐng)域重要的基礎(chǔ)領(lǐng)域,涉及文本分詞、詞語情感分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等。文本情感分類通過在現(xiàn)有的大量數(shù)據(jù)中,基于學(xué)習(xí)算法尋找并學(xué)習(xí)詞語情感的規(guī)律,構(gòu)建相應(yīng)的分類函數(shù)或分類模型(分類器,Classi-fie),這樣對于給定的其他文本將能做到文本情感分類[1]。

        計(jì)算機(jī)并不能直接識別與處理所提供的自然語言數(shù)據(jù),通常要對這些文本數(shù)據(jù)進(jìn)行維度上的抽象處理[1]?;跈C(jī)器學(xué)習(xí)算法的文本情感分類通常需要構(gòu)建學(xué)習(xí)模型,針對已處理的數(shù)據(jù)進(jìn)行重復(fù)的訓(xùn)練與測試,通過測試的反饋修正模型參數(shù),使得分類模型具備更高的準(zhǔn)確度。文本數(shù)據(jù)經(jīng)過模型導(dǎo)出后將被劃分到對應(yīng)情感類別,實(shí)現(xiàn)文本情感分類。

        2文本情感多分類項(xiàng)目設(shè)計(jì)與實(shí)現(xiàn)

        文本情感多分類項(xiàng)目整體流程大致分為數(shù)據(jù)處理、特征選取、模型的構(gòu)建、訓(xùn)練與測試,其中對于模型的處理,本文基于機(jī)器學(xué)習(xí)主要給出兩種模型算法:線性邏輯回歸模型和樸素貝葉斯模型。圖1是項(xiàng)目結(jié)構(gòu)框架圖。

        項(xiàng)目過程的功能與實(shí)現(xiàn)如下:

        2.1數(shù)據(jù)處理

        文本數(shù)據(jù)來源于Kaggle網(wǎng)站競賽數(shù)據(jù),數(shù)據(jù)包括四列,Phraseld(短語編號)、Sentenceld(句子編號)、Phrase(短語)和Sentiment(短語情感分類)。針對數(shù)據(jù)做出幾點(diǎn)說明,一個(gè)句子可以劃分成若干個(gè)短語,所以存在多個(gè)短語來源于同一個(gè)句子,其句子編號相同;情感分類是對每一個(gè)短語進(jìn)行分類,情感類型劃分為五類,用數(shù)字0-4標(biāo)明,代表非常消極、消極、中性、積極、非常積極。

        對數(shù)據(jù)梳理清楚后,需要對每個(gè)短語進(jìn)行分詞,英文文本分詞相對簡單,以空格為標(biāo)志劃分出每個(gè)單詞。這里存在初學(xué)者的誤區(qū),一些諸如“a”的英文單詞是否取舍不應(yīng)該由停詞表來決定。對此本文去掉停詞表,對統(tǒng)計(jì)到的單詞計(jì)算每一個(gè)單詞的頻率,頻率過大或過小的單詞均去除。至此,數(shù)據(jù)處理完成,得到了所有有效單詞的匯總與其頻率,成功構(gòu)建了詞袋。

        2.2特征選取

        如英文單詞,這些自然語言計(jì)算機(jī)無法處理,其二進(jìn)制碼也毫無意義,這使得特征選取工作變得困難。通常采取的是One-Hot編碼(獨(dú)熱編碼),統(tǒng)計(jì)所有的狀態(tài)并對每一個(gè)狀態(tài)獨(dú)立編碼,這樣任意時(shí)刻每個(gè)狀態(tài)的編碼中只有一位是有效的[2]。但這樣使用對初學(xué)者十分不友好,One-Hot編碼后的數(shù)據(jù)維度將十分龐大,無論是計(jì)算機(jī)內(nèi)存還是運(yùn)行時(shí)間,其效率都變得十分低下。針對初學(xué)者,本文采取TfidfVectorizer函數(shù),利用數(shù)據(jù)處理過程中得到的詞袋,對單詞進(jìn)行狀態(tài)編碼,每一個(gè)單詞都是被選取的特征。短語由若干個(gè)單詞組成,這樣每一個(gè)短語可以表示成單詞編碼的組合,于是得到了計(jì)算機(jī)可以處理的數(shù)據(jù)[3]。

        最后,將處理好的數(shù)據(jù)劃分為兩類,一類作為訓(xùn)練數(shù)據(jù),讓模型進(jìn)行學(xué)習(xí),另一類作為測試數(shù)據(jù),評價(jià)模型效果。

        2.2線性邏輯回歸模型

        線性邏輯回歸模型是機(jī)器學(xué)習(xí)中常見的模型算法,可以通過調(diào)用skleam庫里的LogisticRegression函數(shù),其作用是對輸入短語的每一個(gè)維度數(shù)據(jù)(單詞編碼)分配一個(gè)可調(diào)整參數(shù),使輸出結(jié)果趨近短語的情感類型數(shù)字[4]。

        每一輪訓(xùn)練都需要針對輸出結(jié)果與實(shí)際結(jié)果的差距進(jìn)行調(diào)整維度參數(shù),對于如何評價(jià)差距,初學(xué)者很容易想到roc_auc評價(jià)方法,它是接收者操作特征曲線下的面積,可以有效避免假陽性和偽陰性數(shù)據(jù)的影響[5]。但這是一種初學(xué)者的誤區(qū),roc_auc方法只針對二分類問題,本文采取間接轉(zhuǎn)化的方法,將五分類轉(zhuǎn)化為多次二分類問題,首先中性與非中性數(shù)據(jù)的分類,然后是積極與消極數(shù)據(jù)的分類,最后是其內(nèi)部程度的二分類。

        另外提出,模型訓(xùn)練過程中是基于訓(xùn)練集數(shù)據(jù)不斷學(xué)習(xí),模型準(zhǔn)確度也是基于這些已訓(xùn)練的數(shù)據(jù),過度訓(xùn)練可能導(dǎo)致模型“僵化”,對新數(shù)據(jù)適應(yīng)性較差。

        模型除了對于輸入數(shù)據(jù)的參數(shù)外還有自身的選擇性參數(shù),稱為超參數(shù),比如學(xué)習(xí)率等,如何調(diào)整合適的模型參數(shù)一直是初學(xué)者難以把握的問題,本文采用CridSearchCV函數(shù)對模型進(jìn)行自動調(diào)參。它是網(wǎng)格搜索和交叉驗(yàn)證的結(jié)合,原理是在指定的參數(shù)范圍內(nèi),按步長依次調(diào)整參數(shù),利用調(diào)整的參數(shù)訓(xùn)練學(xué)習(xí)器,從所有的參數(shù)中找到在測試集上精度最高的參數(shù),這其實(shí)是一個(gè)訓(xùn)練和比較的過程。

        訓(xùn)練好模型后,對于新的文本數(shù)據(jù),只要處理好數(shù)據(jù)特征,模型將會自動對文本進(jìn)行情感分類。基于線性邏輯回歸模型的文本情感分類,其最終準(zhǔn)確度為0.768,較為可觀。

        2.3樸素貝葉斯模型

        樸素貝葉斯模型是常見的分類模型之一,通過假設(shè)特征條件之間相互獨(dú)立的方法,先通過已給定的訓(xùn)練集,學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,進(jìn)行模型的訓(xùn)練[6]。其算法原理是:

        其中,d為樣本數(shù)據(jù)集D的下標(biāo),x為樣本特征數(shù)據(jù)集X特征,y為情感的類變量。通過MultinomiaINB函數(shù)可以調(diào)用樸素貝葉斯模型。

        區(qū)別于線性邏輯回歸模型處理的一點(diǎn)時(shí),這里本文沒有采用GridSearchCV網(wǎng)絡(luò)搜索,準(zhǔn)確度的評價(jià)采用Cross_val_score函數(shù)的十折交叉驗(yàn)證,最終模型準(zhǔn)確度為0.743,略低于線性邏輯回歸模型。

        3項(xiàng)目結(jié)果與分析

        情感分類本質(zhì)是函數(shù)的映射,評價(jià)分類器的效果依據(jù)就是映射的準(zhǔn)確度,除此之外還有模型的開銷(速度與內(nèi)存),評價(jià)的標(biāo)準(zhǔn)各異,本文采取準(zhǔn)確率作為評價(jià)標(biāo)準(zhǔn)[1]。

        項(xiàng)目過程中,通過從Kaggle上收集的比賽數(shù)據(jù),進(jìn)行線性邏輯回歸和樸素貝葉斯兩種模型的學(xué)習(xí)與誤區(qū)難點(diǎn)研究,完成了文本情感多分類項(xiàng)目。兩種模型得到的準(zhǔn)確度分別為0.768、0.743,對于初學(xué)者而言,這種準(zhǔn)確度已頗為可觀。詳細(xì)模型評測數(shù)據(jù)如表1所示。

        4結(jié)束語

        本文主要研究初學(xué)者在文本情感多分類項(xiàng)目過程中的誤區(qū)與難點(diǎn),同時(shí)做出了詳細(xì)說明與解決方法,實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)的線性邏輯回歸和樸素貝葉斯兩種模型并詳細(xì)介紹了項(xiàng)目過程中的各個(gè)步驟與相關(guān)原理,提出了基于傳統(tǒng)二分類的多分類問題解決方法,最后給出了兩種模型的評測結(jié)果。從評測結(jié)果來看,項(xiàng)目的準(zhǔn)確度完全能滿足初學(xué)者對于文本情感多分類的入門學(xué)習(xí)。進(jìn)一步的研究是模型算法的改進(jìn),利用更先進(jìn)的模型解決文本情感多分類問題,比較其性能效果,提高總體的準(zhǔn)確度,同時(shí)滿足初學(xué)者的學(xué)習(xí)。

        參考文獻(xiàn):

        [1]徐大偉,董淵,張素琴.文本分類技術(shù)在海洋信息處理領(lǐng)域中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2008,35(11):144-146.

        [2]嚴(yán)紅.詞向量發(fā)展綜述[J].現(xiàn)代計(jì)算機(jī),2019(8):50-52.

        [3]郁可人.基于情感分類的特征表示研究[D].上海:華東師范大學(xué).2019.

        [4]張璞,李逍,劉暢.基于情感詞匯與機(jī)器學(xué)習(xí)的方面級情感分類[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(1):128-133.

        [5]楊俊杰.基于k近鄰分類器ROC分析方法[D].廣州:廣東工業(yè)大學(xué).2019.

        [6]向志華,鄧怡辰.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究[J].軟件,2019,40(9):94-97.

        【通聯(lián)編輯:唐一東】

        收稿日期:2020-03-25

        作者簡介:劉呈(2000一),男,湖北黃岡人,本科,主要研究方向?yàn)樽匀徽Z言處理。

        猜你喜歡
        文本分類自然語言處理機(jī)器學(xué)習(xí)
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于蟻群智能算法的研究文本分類
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        欧美日一本| 精品乱码久久久久久久| 国产嫖妓一区二区三区无码| 久久久久人妻一区精品| 国产精品国产成人国产三级| 国产精品久久久久久久专区| 日韩女优在线一区二区| 久久久久久人妻无码| 一本一道久久综合狠狠老| 福利视频一二区| 国产精品一品二区三区| 国产精品久久久久久人妻无| 日韩少妇激情一区二区| 少妇的诱惑免费在线观看| 亚洲中文乱码在线视频| 一本大道熟女人妻中文字幕在线| 日本又色又爽又黄的a片18禁| 人妻妺妺窝人体色www聚色窝| 四虎国产精品免费久久麻豆| 日本a级片一区二区三区| 一色桃子中文字幕人妻熟女作品 | 久久亚洲日本免费高清一区| 国产精品一区二区三区三| 风韵少妇性饥渴推油按摩视频| 人妻无码久久一区二区三区免费| 日韩人妻无码中文字幕一区| 麻婆视频在线免费观看| 亚洲av日韩av在线观看| 精品人妻VA出轨中文字幕| 无码熟妇人妻av在线c0930| 日本一区二区三区四区啪啪啪| 久久婷婷人人澡人人喊人人爽| 国产网站视频| 国产激情在线观看视频网址| 少妇被又大又粗又爽毛片久久黑人 | 吃奶摸下激烈床震视频试看| 2021年最新久久久视精品爱| 国产av一区二区网站| 国精品人妻无码一区免费视频电影| 中文字幕在线亚洲一区二区三区| 人妻少妇偷人精品久久人妻|