亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合編碼的社交媒體英語文本情緒檢測(cè)

        2022-05-08 03:01:30黎家寧
        科技創(chuàng)新與應(yīng)用 2022年12期
        關(guān)鍵詞:代碼單詞社交

        黎家寧

        (大連民族大學(xué) 外國(guó)語學(xué)院,遼寧 大連 116600)

        世界各地的人們都在大量使用Twitter和Facebook等社交媒體平臺(tái)來表達(dá)自己的觀點(diǎn)。這些平臺(tái)的廣泛應(yīng)用使得文本數(shù)據(jù)豐富,為自然語言處理領(lǐng)域的研究提出了各種挑戰(zhàn)。在這些挑戰(zhàn)中,檢測(cè)文本中傳達(dá)的情感在各個(gè)領(lǐng)域都具有重要意義。分析社交媒體文本內(nèi)容中表達(dá)的情感,對(duì)于評(píng)估人們?cè)诋a(chǎn)品評(píng)價(jià)、電影評(píng)價(jià)、對(duì)新出臺(tái)政府政策的接受等應(yīng)用中的理解力非常有用,這就增加了檢測(cè)它的必要性。在社交媒體中,人們傾向于使用不遵循標(biāo)準(zhǔn)句法結(jié)構(gòu)的非正式表達(dá)方式,使分類成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

        首先,理解文本中表達(dá)的核心觀點(diǎn)僅限于情感分析[1],其中基于句子中極性矛盾的分類,即是否表達(dá)任何積極、消極或中性的行為,也可以稱為觀點(diǎn)挖掘。在后期階段,它已經(jīng)進(jìn)化到識(shí)別更精細(xì)的情緒水平。這種情緒檢測(cè)和分類的目的是識(shí)別精煉的情緒,如快樂、悲傷、憤怒。由于大量的單語語料庫的可用性,大多數(shù)有關(guān)情感檢測(cè)的研究分析都是在單語數(shù)據(jù)上進(jìn)行的。然而,公眾屬于多語言領(lǐng)域,當(dāng)他們涉足社交媒體時(shí),通常使用代碼混合語言[2]。碼混疊識(shí)別是將一種語言的形態(tài)成分嵌入另語言話語中的語義表達(dá)現(xiàn)象。這種用法在多語言社會(huì)中非常常見,人們?cè)谑褂蒙缃幻襟w平臺(tái)時(shí),將一種語言的單詞翻譯成另一種語言,而不遵循任何標(biāo)準(zhǔn)的語義結(jié)構(gòu)。

        印度是一個(gè)多元化的國(guó)家,在文化、語言和時(shí)尚方面,異質(zhì)性在全國(guó)普遍存在。13億人在印度使用大約1 600種語言。受至少2種語言的影響,印度公民往往在社交媒體上經(jīng)常使用混合語言。印地語是這個(gè)國(guó)家使用最多的語言。超過45%的人口以印地語為母語,這使得印度英語(印地語+英語)混合的社交媒體文本內(nèi)容過多。下面是一些直接從社交媒體上根據(jù)一些流行事件提取的印度-英語代碼混合文本樣本及其翻譯。

        文本1:Aaj ye government ek shaandar decision le liya Article 370 koscarp karke.

        翻譯:今天,本屆政府做出了一個(gè)偉大的決定,廢除了第三百七十條。

        文本2:Indian team ke liye bura lag raha hai,they should have won.

        翻譯:真為印度隊(duì)難過,他們本該贏的。

        文 本3:Pulwama attack ki news dekh kar bahut gussa aa gaya.Hamare armed forces jaroor retaliate karna hein.

        翻譯:當(dāng)我看到普瓦馬襲擊的新聞時(shí),我非常生氣。本文的武裝部隊(duì)一定要報(bào)復(fù)。

        正如給的例子所描述的,在代碼混合文本中,印地語單詞被音譯成羅馬文字,并與英語單詞一起書寫。在文本1中,快樂的情緒是通過贊揚(yáng)政府作為shandara決定所采取的步驟來表達(dá)的;在文本2中,短語bura lag raha haisigne表達(dá)的悲傷的情緒;在文本3中bahut gussa aa gayain表達(dá)憤怒情緒。這類句子的語義復(fù)雜性和句法結(jié)構(gòu)的異常變化使得在代碼混合的文本數(shù)據(jù)中進(jìn)行情感檢測(cè)非常困難。由于數(shù)據(jù)的缺乏,該情感檢測(cè)任務(wù)在印地語-英語代碼-混合語言領(lǐng)域的研究程度較低。

        本文的目標(biāo)是檢測(cè)和分類這些代碼,混合文本表達(dá)的情感。為了解決這一問題,將Vijay等[3]人的印地語-英語代碼混合文本情緒檢測(cè)任務(wù)作為工作的基線。作為初步的努力,本文主要集中在數(shù)據(jù)的收集。因此,在他們提供的數(shù)據(jù)集的基礎(chǔ)上,還從各個(gè)平臺(tái)上抓取了codemixed social media內(nèi)容,共收集了12 000條文本。工作考慮的情緒類別是快樂、悲傷和憤怒,每個(gè)文本都手工注釋與之相關(guān)的情緒。

        1 數(shù)據(jù)收集及描述

        Vijay等[3]人完成了印地語-英語代碼混合數(shù)據(jù)中情感檢測(cè)的基本工作。他們提供的數(shù)據(jù)集是這項(xiàng)工作的基礎(chǔ)數(shù)據(jù),基于此,開始了語料庫的創(chuàng)建,收集更多的代碼混合文本的數(shù)據(jù),意圖更好地統(tǒng)計(jì)意義的分類。Twitter API用于提取代碼混合的tweet。本文使用了一個(gè)python庫tweepy,并在程序生成文本數(shù)據(jù)。除了Twitter API外,F(xiàn)acebook和Instagram的評(píng)論也被匯集在一起以獲取所需的數(shù)據(jù)。內(nèi)容提取使用了很多關(guān)鍵詞,一些熱門的是三重塔拉克,巴拉克襲擊,CWC2019,Chandrayaan2,Election2019,克什米爾問題,外科手術(shù)式打擊,莫迪,Jio Fiber,PV Sindhu。由于這些活動(dòng)吸引了如此多的公眾關(guān)注,可以很容易地獲得多種情感內(nèi)容。通過對(duì)Vijay等人數(shù)據(jù)集的收集和分析,共收集了12 000個(gè)印地語-英語代碼混合文本。數(shù)據(jù)類和每個(gè)數(shù)據(jù)類中出現(xiàn)句子數(shù)量的詳細(xì)描述見表1。每堂課的課文數(shù)量保持統(tǒng)一,避免班級(jí)失衡問題。每一篇文章都有相應(yīng)的情感注解。實(shí)驗(yàn)中考慮的情感類有快樂、悲傷和憤怒。注釋是由2個(gè)擁有2種語言知識(shí)的人通過指定的指令手工完成的。

        表1 數(shù)據(jù)集的詳細(xì)描述

        2 研究方法

        在這一節(jié)中,將詳細(xì)描述適用于實(shí)驗(yàn)的方法。方法的流程如圖1所示。預(yù)處理:從社交媒體平臺(tái)提取的數(shù)據(jù)中包含了大量不需要的信息,如url、用戶名、標(biāo)簽、表情符號(hào)和其他特殊字符。為了刪除它們并使文本干凈,可以采用以下步驟:

        圖1 方法流程圖

        (1)從文本中刪除url。

        (2)從文本中刪除所有用戶名和特殊字符。

        (3)從整個(gè)文本中刪除所有額外的空格。

        (4)將每個(gè)文本轉(zhuǎn)換為小寫。

        這些步驟以Jose等[4]人的工作為基礎(chǔ),在使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分類時(shí),預(yù)處理技術(shù)的作用提供了明確的支持。

        重新訓(xùn)練模型和特征提?。涸谔卣魈崛」ぷ髦?,使用預(yù)先訓(xùn)練的領(lǐng)域特定的詞嵌入模型[5]。使用這個(gè)預(yù)訓(xùn)練模型的原因是,它是由250K碼混合推文構(gòu)建而成的,這樣大的語料庫生成的訓(xùn)練模型可以提供更好的特征向量。本文用Word2Vec重新訓(xùn)練了這個(gè)模型。Word2Vec的核心思想是通過分析所有被標(biāo)記的詞,了解它們之間的語義關(guān)系,根據(jù)詞的相似度來實(shí)現(xiàn)向量相似度。

        在Word2Vec中,有2種方法生成單詞向量。這2種方法分別是連續(xù)詞袋法和跳躍圖法。CBOW在工作中的作用是用本文清理的數(shù)據(jù)對(duì)模型進(jìn)行再培訓(xùn)。CBOW的主要功能是借助鄰接詞預(yù)測(cè)一個(gè)詞的前景,即根據(jù)上下文預(yù)測(cè)單個(gè)詞。Word2Vec是一個(gè)淺層神經(jīng)網(wǎng)絡(luò),其中存在2組權(quán)值。當(dāng)周圍的單詞作為輸入時(shí),它預(yù)測(cè)單個(gè)單詞,如果在預(yù)測(cè)中有錯(cuò)誤,它將通過反向傳播進(jìn)行修正,以調(diào)整權(quán)重。在更好的預(yù)測(cè)之后,CBOW給出隱藏層和輸出層之間的權(quán)值作為單詞的數(shù)值向量。綜上所述,特征提取過程如下:

        (1)對(duì)預(yù)處理獲得的已清洗文本進(jìn)行標(biāo)記。

        (2)使用標(biāo)記化的單詞對(duì)模型進(jìn)行再訓(xùn)練。

        (3)從重新訓(xùn)練的模型中為每個(gè)單詞生成數(shù)值向量,從而獲得每個(gè)句子的特征向量。

        將從模型接收到的特征向量提供給各種深度學(xué)習(xí)算法進(jìn)行文本分類。

        單詞向量一旦生成,所有的單詞向量都被堆疊到一個(gè)嵌入矩陣中,并使用各自的行數(shù)作為索引。將令牌化句子中的每個(gè)詞替換為詞索引,并將其作為模型的輸入,傳遞給嵌入層。由于每個(gè)句子的長(zhǎng)度都是唯一的,所以使用零填充使它們的長(zhǎng)度統(tǒng)一。在嵌入層中,每個(gè)輸入整數(shù)作為索引訪問包含所有可能特征向量的嵌入矩陣。在獲取每個(gè)句子的特征向量后,將其傳遞給深度神經(jīng)網(wǎng)絡(luò)模型。從相關(guān)工作中可以明顯看出,CNN和CNN為首的序列模型,如LSTM、BiLSTM已經(jīng)證明在許多文本分類任務(wù)中提供了更好的結(jié)果。CNN層捕獲的必要特征對(duì)于LSTM進(jìn)行序列預(yù)測(cè)非常有用。它減少了LSTM上的負(fù)載,使計(jì)算速度更快。LSTM對(duì)順序數(shù)據(jù)的處理效果非常好,因?yàn)樗鼈兛梢赃x擇性地記住所需的模式,這在分類任務(wù)中起著至關(guān)重要的作用。雙向LSTM層也被使用,因?yàn)樗鼈兛梢栽?個(gè)LSTM上訓(xùn)練,而不是第1個(gè)LSTM對(duì)輸入序列進(jìn)行訓(xùn)練,第2個(gè)LSTM對(duì)其反向拷貝進(jìn)行訓(xùn)練。簡(jiǎn)而言之即提出再訓(xùn)練一個(gè)雙語預(yù)訓(xùn)練模型來生成單詞嵌入特征向量和CNN頭神經(jīng)網(wǎng)絡(luò)模型用于印式英語碼混合文本分類。

        3 實(shí)驗(yàn)和結(jié)果

        收集的12 000條代碼混合的社交媒體文本被考慮用于實(shí)驗(yàn)。每一個(gè)清理的文本被標(biāo)記,并給予再訓(xùn)練的模型,以生成單詞向量。語料庫中的每個(gè)詞都有索引并從嵌入層訪問其各自的向量。調(diào)查結(jié)果表明,一維CNN在NLP分類任務(wù)中取得了一些顯著的結(jié)果,因?yàn)樵~語的鄰近性可能并不總是一個(gè)良好的指示可訓(xùn)練模式的指標(biāo)。因此第1個(gè)實(shí)驗(yàn)是用1D-CNN做的。當(dāng)僅使用CNN時(shí),從模型中去掉LSTM層。LSTM和BiLSTM可以記憶在分析文本時(shí)具有重要意義的順序模式,因此也通過省略CNN層來利用它們。最后,采用CNN-LSTM和CNNBiLSTM模型,因?yàn)镃NN具有提取特征的能力,降低了LSTM或BiLSTM訓(xùn)練的復(fù)雜性。對(duì)CNN、LSTM、BiLSTM、CNN-LSTM、CNN-BiLSTM這5個(gè)模型進(jìn)行分類實(shí)驗(yàn)。對(duì)每個(gè)模型進(jìn)行了15代的訓(xùn)練,并利用10倍交叉驗(yàn)證進(jìn)行模型評(píng)價(jià)。各分類模型的性能指標(biāo)見表2。

        表2 分類模型的性能指標(biāo)

        CNN-BiLSTM的分類準(zhǔn)確率達(dá)到了83.21%,從所得結(jié)果可以看出,與其他模型相比,CNN-BiLSTM的分類性能更好,CNN-BiLSTM模型列于表3,以直觀地展示其性能。從所提供的統(tǒng)計(jì)數(shù)據(jù)可以理解,CNN-BiLSTM在每一個(gè)類的分類中都有顯著的表現(xiàn),總體上的準(zhǔn)確性都是最優(yōu)的。

        表3 CNN-BiLSTM分類性能

        4 結(jié)論

        社交媒體平臺(tái)的普及為每個(gè)人通過文字或圖片來表達(dá)自己對(duì)各種話題的情感鋪平了道路。在印度,人們混合使用英語和當(dāng)?shù)卣Z言(代碼混合語言)來表達(dá)他們的情感。自動(dòng)識(shí)別那些通過代碼混合語言表達(dá)的情緒是一項(xiàng)乏味的任務(wù),因?yàn)樗?種(或更多)完全不同的語言的特征。本文提出了一種深度學(xué)習(xí)方法,用于識(shí)別各種社交媒體平臺(tái)(如Twitter和Facebook)中通過印地語-英語代碼混合語言表達(dá)的情緒。為了實(shí)現(xiàn)檢測(cè)模型,本文從不同的來源收集并清理了12 000條包含快樂、悲傷、憤怒等情緒的印地語-英語代碼混合句子。為了將句子轉(zhuǎn)換成向量,使用了雙語預(yù)訓(xùn)練模型,該模型再使用為該任務(wù)收集的語料庫進(jìn)行再訓(xùn)練。在檢測(cè)情感的各種深度學(xué)習(xí)模型中,CNN-BiLSTM模型的檢測(cè)準(zhǔn)確率較高,達(dá)到83.21%。該模型在分類智能檢測(cè)方面也有良好的性能。由于典型的單語預(yù)訓(xùn)練模型不包含其他語言的詞匯,為了從代碼混合數(shù)據(jù)中檢測(cè)情感或其他信息,需要雙語預(yù)訓(xùn)練模型。此外,應(yīng)用CNN層可以從單詞嵌入中生成更有意義的信息,這些信息可以作為輸入傳遞給BiLSTM,BiLSTM捕獲句子的語義。未來,通過在印度語言代碼混合文本領(lǐng)域創(chuàng)建大型語料庫,這項(xiàng)任務(wù)可以擴(kuò)展到更精細(xì)的情感水平。

        猜你喜歡
        代碼單詞社交
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        社交距離
        單詞連一連
        你回避社交,真不是因?yàn)閮?nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        創(chuàng)世代碼
        創(chuàng)世代碼
        創(chuàng)世代碼
        創(chuàng)世代碼
        看圖填單詞
        日本最新一区二区三区视频| 国内成+人 亚洲+欧美+综合在线| 亚洲第一页综合图片自拍| 亚洲男人天堂| 亚洲精品99久久久久久| 伊人影院成人在线观看| av日韩一区二区三区四区| 国产精品久线在线观看| 亚洲欧洲中文日韩久久av乱码| 在线观看精品国产福利片87| 亚洲一区二区三区高清视频| 一区二区三区中文字幕脱狱者| 国产专区一线二线三线码 | 久爱www人成免费网站| 美女丝袜美腿玉足视频| 国产精品无码无卡无需播放器| 国内精品久久久久影院一蜜桃| 国产亚洲精品A在线无码| 免费的黄网站精品久久| 少妇爽到高潮免费视频| 亚洲高清乱码午夜电影网| 国产欧美日韩精品a在线观看| 白白色免费视频一区二区| 丰满熟女人妻一区二区三区| 中文字幕乱码亚洲无限码| 999国内精品永久免费观看| 免费的成年私人影院网站| 高清av一区二区三区在线| 高潮精品熟妇一区二区三区| 精品粉嫩av一区二区三区| 成人免费无遮挡在线播放| 丰满岳乱妇久久久| 亚洲乱码一区AV春药高潮| 精品日产一区2区三区| 日本亚洲系列中文字幕| 中文字幕日韩三级片| 免费无码av片在线观看| 亚洲av五月天天堂网| 日本超级老熟女影音播放| 99久久超碰中文字幕伊人| 亚洲av乱码中文一区二区三区 |