亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        卷積神經(jīng)網(wǎng)絡(luò)在微博反諷語(yǔ)句識(shí)別中的應(yīng)用

        2021-07-20 08:54:36霍瑞雪白曉雷
        中國(guó)新通信 2021年9期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        霍瑞雪 白曉雷

        【摘要】 ? ?隨著互聯(lián)網(wǎng)信息發(fā)布平臺(tái)日益增多,網(wǎng)民發(fā)表情感的方式也逐漸多元化,其中反諷這一特殊修辭手法得到了廣泛使用,對(duì)其的識(shí)別也變得日益迫切。為了更好的識(shí)別微博語(yǔ)料中的反諷語(yǔ)句,研究了一種改進(jìn)后卷積神經(jīng)網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的一個(gè)重要組成部分,應(yīng)用范圍極其廣泛,也是目前人工智能領(lǐng)域的研究重點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)憑借著特征自主學(xué)習(xí)的優(yōu)勢(shì)在自然語(yǔ)言處理方面有著出色的表現(xiàn)。通過(guò)實(shí)驗(yàn),利用特征與詞向量雙輸入的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)反諷識(shí)別準(zhǔn)確率有了明顯提升。

        【關(guān)鍵詞】 ? ?卷積神經(jīng)網(wǎng)絡(luò) ? ?機(jī)器學(xué)習(xí) ? ?反諷識(shí)別

        引言:

        隨著互聯(lián)網(wǎng)信息發(fā)布平臺(tái)的逐漸增加,網(wǎng)民的發(fā)布內(nèi)容也變得多樣化。其中反諷作為一種特殊的表達(dá)方式,也占有相當(dāng)大的比例。反諷通常是以一種正面的文字表達(dá)不屑、嘲笑等反面的信息內(nèi)容,為微博平臺(tái)自身管理帶來(lái)了一定的挑戰(zhàn)。本文基于卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)反諷語(yǔ)句的識(shí)別展開(kāi)研究,為微博等互聯(lián)網(wǎng)信息發(fā)布平臺(tái)開(kāi)展內(nèi)容審核提供一種新的思路。

        一、技術(shù)研究路線概述

        本文的主要技術(shù)路線如圖1所示,首先是對(duì)實(shí)驗(yàn)數(shù)據(jù)的收集。該部分主要是對(duì)微博的數(shù)據(jù)進(jìn)行爬取,過(guò)濾,清洗、標(biāo)注形成初步的實(shí)驗(yàn)數(shù)據(jù)集。

        其次對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行特征提取。特征主要包含兩方面,一是通過(guò)人工提取的方式,找到反諷語(yǔ)句共通的特征。例如:很好又要加班了,該句中的“很好……又”,就可以作為一種特征。二是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)模型中獨(dú)特的卷積層和池化層,自主提取特征。

        然后使用詞向量與特征共同融入至卷積神經(jīng)網(wǎng)絡(luò)模型。實(shí)現(xiàn)反諷特征、詞向量的雙輸入,提高卷積神經(jīng)網(wǎng)絡(luò)反諷識(shí)別的準(zhǔn)確性。

        最后將經(jīng)過(guò)改善的卷積神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)機(jī)器模型進(jìn)行對(duì)比,并通過(guò)人工方式驗(yàn)證識(shí)別效果,并持續(xù)對(duì)模型進(jìn)行優(yōu)化,持續(xù)提高模型的反諷文本識(shí)別準(zhǔn)確率。

        二、數(shù)據(jù)集建立與特征選擇

        2.1 實(shí)驗(yàn)數(shù)據(jù)集建立

        為了更好的進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,提高準(zhǔn)確性,本研究明確了采用監(jiān)督學(xué)習(xí)的方式。監(jiān)督學(xué)習(xí)需要對(duì)訓(xùn)練樣本進(jìn)行標(biāo)注,反諷的標(biāo)注過(guò)程,主要是將反諷看做二分類,若為反諷則標(biāo)注為1,否則標(biāo)注為0。在標(biāo)注的同時(shí)對(duì)不符合要求的數(shù)據(jù)進(jìn)行清洗、擴(kuò)充、去噪等處理。另外為了保證標(biāo)注結(jié)果的準(zhǔn)確性,減少人工判定的偏差。在標(biāo)注完成后,又采用交叉檢驗(yàn)的方式,最終得到標(biāo)注后的反諷語(yǔ)句共2888條,為了防止實(shí)驗(yàn)數(shù)據(jù)集類別傾斜,影響分類的性能,需要把數(shù)據(jù)類別平衡化,又從非反諷中任意抽取了2888條語(yǔ)料,使得中文反諷數(shù)據(jù)集最終由反諷與非反諷各2888條語(yǔ)料,共5776條語(yǔ)料構(gòu)成了反諷平衡語(yǔ)料庫(kù)。

        2.2 特征選擇

        反諷語(yǔ)言特征的選擇好壞與最終識(shí)別結(jié)果有著緊密的聯(lián)系,為了提取最佳的語(yǔ)言特征,本研究利用在文本檢測(cè)方面有著較大優(yōu)勢(shì)的卡方統(tǒng)計(jì)法??ǚ浇y(tǒng)計(jì)法首先假設(shè)特征和類別之間是相互獨(dú)立的,主要通過(guò)計(jì)算偏差來(lái)判斷相關(guān)性。當(dāng)卡方值較小時(shí),說(shuō)明二者相關(guān)性不大;當(dāng)卡方統(tǒng)計(jì)值較大時(shí),說(shuō)明選取的特征和類別相關(guān)性較高,可以作為該類別的特征。

        反諷特征詞匯的選擇:

        通過(guò)計(jì)算卡方值,人工提取了緊密度較高的反諷詞匯,如絕了、果然、就這、極好、不愧、牛逼、真有你的、你敢信、真是高啊等。

        三、融合反諷特征的卷積神經(jīng)網(wǎng)絡(luò)

        3.1 詞嵌入向量

        詞向量技術(shù)是將自然語(yǔ)言中的詞語(yǔ)轉(zhuǎn)化為稠密的向量,相似的詞會(huì)有相似的向量表示,這樣的轉(zhuǎn)化方便挖掘文字中詞語(yǔ)和句子之間的特征。生成詞向量的方法從一開(kāi)始基于統(tǒng)計(jì)學(xué)的方法到基于不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型方法。到現(xiàn)在為止已經(jīng)有很多成熟的詞向量模型,本研究中采用的是TF-IDF模型來(lái)進(jìn)行詞向量的訓(xùn)練。

        TF-IDF模型是一種統(tǒng)計(jì)方法,用來(lái)衡量字詞對(duì)于文本的重要程度。字詞的重要性隨著它在當(dāng)前文本中出現(xiàn)的頻率成正比,隨著它在語(yǔ)料庫(kù)中其他文本中出現(xiàn)的頻率成反比,因此TD-IDF也經(jīng)常被用來(lái)提取文本的特征。該模型的計(jì)算公式如下:

        在實(shí)驗(yàn)中只要設(shè)置合適語(yǔ)料,就可以訓(xùn)練出高質(zhì)量的詞向量。

        3.2 融合反諷特征與詞向量技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型

        為了更好的提高反諷的識(shí)別精度,本研究采用詞向量與反諷特征雙輸入的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。具體流程:首先輸入語(yǔ)料,使用特征對(duì)語(yǔ)料進(jìn)行擴(kuò)展,再統(tǒng)一進(jìn)行分詞。之后使用詞向量模型對(duì)擴(kuò)展分詞后的進(jìn)行使用詞向量對(duì)融合特征的句子形成矩陣。最后將矩陣輸入至卷積神經(jīng)網(wǎng)絡(luò)模型,經(jīng)過(guò)卷積層、池化層自動(dòng)提取特征向量,并在全連接層進(jìn)行擬合,最后在輸出層分類器sigmoid分類器進(jìn)行輸出。

        3.2.1輸入層

        由于我們要進(jìn)行識(shí)別的是反諷語(yǔ)句,要想使用卷積層、池化層進(jìn)行特征的進(jìn)一步提取就需要把語(yǔ)句轉(zhuǎn)化為矩陣的形式。我們實(shí)驗(yàn)集的語(yǔ)句經(jīng)過(guò)詞向量的訓(xùn)練后,已經(jīng)形成矩陣。

        首先使用分詞工具對(duì)句子進(jìn)行分詞,假設(shè)一個(gè)句子為“醉了,當(dāng)著這么多人也不臉紅,是真夠厲害的”使用分詞工具進(jìn)行分詞后得到的為“醉 了 , 當(dāng)著 這么 多人 也 不 臉紅 , 是 真夠 厲害 的”。

        3.2.2卷積層

        卷積層的作用主要是用于特征的提取。和之前的人工特征提取不同,此處的特征提取是模型隨著訓(xùn)練次數(shù)的增多自主提取的??紤]到本課題是對(duì)文本的識(shí)別,卷積神經(jīng)網(wǎng)絡(luò)的過(guò)濾器只能在矩陣的列上移動(dòng)才能正確的識(shí)別出特征。

        3.3 具體實(shí)驗(yàn)過(guò)程與結(jié)果分析

        為了進(jìn)一步驗(yàn)證融合特征與詞向量的卷積神經(jīng)網(wǎng)絡(luò)在反諷識(shí)別上的優(yōu)勢(shì),采用keras 深度學(xué)習(xí)的框架,在GT740顯卡上展開(kāi)了實(shí)驗(yàn)。

        3.3.1評(píng)價(jià)指標(biāo)

        本課題采用的是精確率、召回率、F值三個(gè)指標(biāo)作為實(shí)驗(yàn)結(jié)果的評(píng)判指標(biāo)。其中主要是以準(zhǔn)確率作為重要的整體評(píng)價(jià)指標(biāo)。

        3.3.2參數(shù)設(shè)置

        本課題反諷語(yǔ)料庫(kù)中20%用來(lái)做測(cè)試集。實(shí)驗(yàn)中卷積神經(jīng)網(wǎng)絡(luò)的卷積層的過(guò)濾器設(shè)置大小為[3,4,5]訓(xùn)練迭代次數(shù)為20次,batch size是32,dropout率設(shè)為0.5.

        3.3.3實(shí)驗(yàn)結(jié)果

        按照約定的把反諷語(yǔ)料數(shù)據(jù)劃分成了4:1的形式。實(shí)驗(yàn)主要過(guò)程是對(duì)比融合反諷特征以及詞向量后的卷積神經(jīng)網(wǎng)絡(luò)與融合反諷特征以及詞向量后詞袋模型在反諷識(shí)別上的主要差別。其中詞袋模型采用支持向量機(jī)(svm),樸素貝葉斯(NB)和隨機(jī)森林(rf)三種方法。

        融合反諷特征與沒(méi)有融合詞袋模型的訓(xùn)練結(jié)果對(duì)比如下所示:

        由此可見(jiàn),融合了反諷特征后的,傳統(tǒng)的機(jī)器模型識(shí)別精確度都有所提升??梢?jiàn)融入反諷特征在對(duì)反諷識(shí)別上具有一定的積極作用。

        將融合反諷特征以及詞向量技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)與融合反諷特征以及詞向量技術(shù)的傳統(tǒng)模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如下:

        由此可見(jiàn)卷積神經(jīng)網(wǎng)絡(luò)在反諷識(shí)別上相比較傳統(tǒng)的機(jī)器學(xué)習(xí)模型的確優(yōu)勢(shì)較為明顯。

        四、結(jié)束語(yǔ)

        針對(duì)微博反諷語(yǔ)句識(shí)別,本文提出了一種融合反諷特征的深度學(xué)習(xí)的模型。該方法首先對(duì)微博的反諷語(yǔ)料數(shù)據(jù)進(jìn)行預(yù)處理,人工提取反諷語(yǔ)料中出現(xiàn)頻率較多的特征詞,之后采用分詞工具對(duì)語(yǔ)句、特征進(jìn)行分詞,再用詞向量進(jìn)行訓(xùn)練,轉(zhuǎn)換成矩陣模塊,最后再采用與卷積神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行訓(xùn)練與對(duì)比,得到最終實(shí)驗(yàn)結(jié)果相比較與傳統(tǒng)的分類器精確率有明顯提高,進(jìn)一步驗(yàn)證深度學(xué)習(xí)在反諷識(shí)別方面具有顯著優(yōu)勢(shì)。

        參 ?考 ?文 ?獻(xiàn)

        [1]盧欣. 基于深度學(xué)習(xí)的中文反諷識(shí)別及其情感判別研究[D]. ?山西大學(xué), 2019.

        [2] 羅婷. ?社交網(wǎng)絡(luò)評(píng)論中的反語(yǔ)識(shí)別研究[D]. ?云南:云南財(cái)經(jīng)大學(xué), 2017.

        [3] 羅觀柱. ?面向社交媒體的反諷識(shí)別[D]. ?哈爾濱工業(yè)大學(xué), 2019.

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        亚洲中文字幕无码爆乳app| 午夜短无码| 成人国产自拍在线播放| 白白在线免费观看视频| 亚洲国产av一区二区三区天堂| 亚洲av网一区二区三区| 国产综合精品一区二区三区| 伊在人天堂亚洲香蕉精品区| 又粗又大又黄又爽的免费视频| 精品免费福利视频| 日韩精品国产一区在线| 一区二区午夜视频在线观看| 久久久亚洲熟妇熟女av| 日本中国内射bbxx| 国产剧情麻豆女教师在线观看| 中文字幕日韩高清| 亚洲一本之道高清在线观看| 日本韩国亚洲三级在线| 四虎影在永久在线观看| 极品白嫩的小少妇| chinese国产乱在线观看| 亚洲AV无码久久精品成人| 国产成人精品日本亚洲直播| 亚洲国产精品成人av| 日韩免费精品在线观看| 国产 精品 自在 线免费| а√资源新版在线天堂| 亚洲国产一区二区三区亚瑟| 成年女人在线观看毛片| 综合图区亚洲偷自拍熟女| av成人一区二区三区| 欧美激情综合色综合啪啪五月| 亚洲精品乱码久久久久久金桔影视| 国产美女露脸口爆吞精| 欧美a在线播放| 亚洲国产丝袜美女在线| 国产高清成人午夜视频| 18禁黄污吃奶免费看网站| 扒开双腿疯狂进出爽爽爽视频| 日韩AV有码无码一区二区三区 | 国产成人自拍视频在线免费|