亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的中文幽默計算

        2020-07-22 09:57:27孫緒瑞常遠舒言劉川戴心雨

        孫緒瑞 常遠 舒言 劉川 戴心雨

        摘要:本文提出了一種基于Bi-LSTM和CNN的混合模型,并引入自注意力機制,使模型更好地理解幽默文本的語義,完成幽默計算的兩個任務(wù)。通過實驗,本文模型將中文幽默計算兩個任務(wù)的F1值分別提高了近2%和5%。

        關(guān)鍵詞:幽默計算;長短時記憶網(wǎng)絡(luò);自注意力機制;卷積神經(jīng)網(wǎng)絡(luò);文本分類

        中圖分類號:TP391.1;TP181 ? 文獻標識碼:A ?文章編號:1007-9416(2020)06-0000-00

        1研究背景

        幽默可以分為不同的類型,如反轉(zhuǎn)、諧音、諧義等,并且幽默往往還存在著強弱之分。雖然主觀性較強,仍可以以一定的規(guī)則進行計算。幽默計算可以進一步揭示人類使用幽默的方式和機制,形成涵蓋幽默機制的認知模型,實現(xiàn)更為智能的人機交互。同時,建立基于幽默的計算模型,有助于賦予計算機更深層次的人類認知。

        2相關(guān)工作

        本文對中文幽默的計算任務(wù)主要有兩個,一是將包含有幽默的語料分成諧音,諧義,反轉(zhuǎn)這三個基本類別,二是將一條幽默語料按照幽默強度進行二等級劃分,即分為強幽默或者弱幽默。

        對于傳統(tǒng)的文本分類方法目前已經(jīng)比較成熟,祁小軍等人[1]將貝葉斯,KNN以及SVM算法這幾種方法成功應(yīng)用到海量新聞抓取有用信息上來,并對比分析了這幾種方法的效果;丁世濤等人[2]以文本標題作為突破口,并使用word2vec進行分詞詞向量的訓(xùn)練,快速將文本對應(yīng)到分類標簽上。但是這幾種方法都難以避免人工提取規(guī)則的開銷,而且遷移性差也成為傳統(tǒng)文本分類任務(wù)的瓶頸。

        因此,利用神經(jīng)網(wǎng)絡(luò)來自動提取特征的方法逐漸過渡到文本分類任務(wù)上來。孫明敏[3]使用改進的TF-IDF算法提取文本特征,將其與FastText模型結(jié)合,一定程度上提高了分類準確率,但是其提取文本特征依舊局限于詞語級別,而忽略了句子之間的依賴關(guān)系;孫嘉琪等人[4]先使用了RNN來解決文本語義的長期依賴問題,但是由于RNN所存在的梯度消失這一問題,又使用了LSTM的方法加以改進。朱文峰[5]為了提升算法時間效率并兼顧準確度,結(jié)合卷積模型中的注意力機制并行連接長短時記憶網(wǎng)絡(luò)以及門控循環(huán)單元構(gòu)建一個深度模型。

        注意力機制模擬了人腦在觀察事物時會重點關(guān)注某些特定區(qū)域以精準快速地獲取需要的信息的機制。2017年Google團隊的Vaswani等人[6]提出一種基于多頭自注意力機制的編碼器-解碼器模型用于機器翻譯任務(wù),取得出色的效果。自注意力機制對于序列化的文本輸入來說通過詞語對周圍詞分配不同的權(quán)重來進行詞的表示學(xué)習(xí),能更好地捕獲到詞與詞之間的關(guān)聯(lián),因此本文中引入了一層自注意力機制來捕獲詞與詞之間的關(guān)系。

        基于以上研究,我們發(fā)現(xiàn),不同的神經(jīng)網(wǎng)絡(luò)對文本的不同粒度特征的提取各有優(yōu)勢。因此,本文構(gòu)建了一種組合式的神經(jīng)網(wǎng)絡(luò)模型,模型主要由嵌入層、雙向長短時記憶層、自注意力層、卷積神經(jīng)網(wǎng)絡(luò)層和輸出層五個部分組成。

        3本文模型

        本文結(jié)合了長短時記憶網(wǎng)絡(luò)捕獲文本上下文全局特征的特性,自注意力機制調(diào)整詞與詞之間權(quán)重分配的特性和卷積神經(jīng)網(wǎng)絡(luò)捕獲文本不同位置的局部相關(guān)性的特性,提出基于Bi-LSTM,Self-Attention和CNN的組合模型。

        模型的嵌入層將輸入的幽默文本序列映射為詞向量序列,這些向量將與模型一起參與訓(xùn)練;雙向長短時記憶層負責對詞向量序列提取上下文的長距離依賴特征,使模型能夠識別幽默文本序列存在的全局上下文模式,有助于模型辨別諸如前后反轉(zhuǎn)造成的幽默效果,同時使模型具有識別文本中是否存在加強幽默效果的關(guān)鍵句的能力。自注意力層在雙向長短時記憶層的基礎(chǔ)上,通過文本序列中每個位置的詞語對其他位置詞語分配注意力權(quán)重,動態(tài)地調(diào)整詞向量序列,使每個詞語更加關(guān)注文本序列中有限的若干個詞語,對模型捕獲文本中存在的諧音、諧義和反義等關(guān)系有重要作用。卷積神經(jīng)網(wǎng)絡(luò)層中通過卷積操作進一步提取文本中的局部相關(guān)性特征,并通過平均池化來整合特征以及降低特征維度。輸出層經(jīng)過全連接層與卷積神經(jīng)網(wǎng)絡(luò)層相連,用于輸出分類類別。

        4實驗

        4.1實驗數(shù)據(jù)

        本文實驗所使用的數(shù)據(jù)為CCL2018 Task4由大連理工大學(xué)信息檢索實驗室提供的的評測數(shù)據(jù)集。任務(wù)一數(shù)據(jù)集共有9123條幽默文本,任務(wù)二數(shù)據(jù)集共有10058條幽默文本,其中幽默文本的類別分布與現(xiàn)實情況基本一致。

        對于輸入模型的語料,需要進行一些預(yù)處理的工作:使用正則表達式去除語料中的標點符號、特殊符號,并使用python中的jieba庫對文本進行分詞處理,將每個幽默文本轉(zhuǎn)化為詞語序列的表示。

        4.2實驗結(jié)果及分析

        本文實驗中,選取CNN和Bi-LSTM模型作為對比模型,用以證明本文模型在幽默計算任務(wù)中的有效性。我們使用F1值、準確率和召回率作為評價指標。由于任務(wù)一為三分類任務(wù),因此均使用宏平均的指標。

        在任務(wù)一中,經(jīng)過對比我們可以發(fā)現(xiàn),CNN模型對于幽默識別任務(wù)來說能達到一個相對較高的準確率,而在召回率上表現(xiàn)較差。而Bi-LSTM模型在召回率上有所提升,但是準確率卻相對于CNN有所下降。本文模型在達到了較高召回率的同時,也保持了相對高的準確率,并在宏平均F1值上相較于其他兩個模型提高了近2%。在任務(wù)二中,經(jīng)過對比我們可以發(fā)現(xiàn)Bi-LSTM在準確率和召回率上相較于CNN均有提升,本文模型在準確率上相較于Bi-LSTM略有提升,而在召回率上提升幅度較大,并在F1值上達到3%-5%的提升。

        5結(jié)語

        對于本文的幽默類型及幽默等級分類任務(wù),我們通過使用Bi-LSTM與CNN組合,并加入自注意力機制調(diào)整詞語對周圍詞的注意力權(quán)重的方法,更好地捕捉到了幽默文本中的語義信息以及長距離諧音、諧義、反轉(zhuǎn)的特征信息,從而在原有的使用簡單神經(jīng)網(wǎng)絡(luò)分類基礎(chǔ)上準確率進一步提高。

        目前將機器識別幽默運用到實際中還需要更深入的研究。在未來的學(xué)習(xí)與工作中,我們將嘗試將外部知識庫融入模型中,輔助模型進行幽默的識別和分類,從而能實現(xiàn)幽默機制真正意義上的現(xiàn)實應(yīng)用。

        參考文獻

        [1] 祁小軍,蘭海翔,盧涵宇,等.貝葉斯、KNN和SVM算法在新聞文本分類中的對比研究[J].電腦知識與技術(shù),2019,15(25):220-222.

        [2] 丁世濤,盧軍,洪鴻輝,等.基于SVM的文本多選擇分類系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機與數(shù)字工程,2020,48(1):147-152.

        [3] 孫明敏.基于TF-IDF的FastText文本分類算法研究[D].揚州:揚州大學(xué),2019.

        [4] 孫嘉琪,王曉曄,周曉雯.基于神經(jīng)網(wǎng)絡(luò)模型的文本分類研究綜述[J].天津理工大學(xué)學(xué)報,2019,35(5):29-33.

        [5] 朱文峰.基于支持向量機與神經(jīng)網(wǎng)絡(luò)的文本分類算法研究[D].南京:南京郵電大學(xué),2019.

        [6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems,2017:5998-6008.

        收稿日期:2020-05-06

        作者簡介:孫緒瑞,男,江蘇連云港人,本科,研究方向:人工智能與大數(shù)據(jù)處理。

        s级爆乳玩具酱国产vip皮裤| 亚洲视一区二区三区四区| 毛茸茸的女性外淫小视频| 欧美精品欧美人与动人物牲交 | 国语对白免费观看123| 久久狠狠色噜噜狠狠狠狠97| 69久久夜色精品国产69| 国产中文字幕乱码在线| 国产成人亚洲精品一区二区三区| 红桃av一区二区三区在线无码av| 柠檬福利第一导航在线| AV永久天堂网| 日本在线一区二区三区四区| av在线观看一区二区三区| 激情偷乱人成视频在线观看| 国产精品欧美久久久久老妞| 国产一级自拍av播放| 久久人妻av无码中文专区| 一本加勒比hezyo无码人妻| 色综合久久加勒比高清88| 在线高清亚洲精品二区| av天堂午夜精品一区| 一本大道色婷婷在线| 亚洲日本无码一区二区在线观看| 我揉搓少妇好久没做高潮| 国产精品久久久久高潮| 特级毛片a级毛片在线播放www| 97久久成人国产精品免费| 成人自拍小视频在线看| 久久久无码精品亚洲日韩按摩| 亚洲红怡院| 国内偷拍第一视频第一视频区| 国产精品美女久久久免费| 人妻系列无码专区久久五月天| 国产精品无码久久久久久蜜臀AV| 国产人妖视频一区二区| 国产精品亚洲а∨无码播放不卡| 中文字幕第1页中文字幕在| 爱a久久片| 一区二区在线视频大片| 青青草精品视频在线播放|