亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多種AI算法在新冠疫情文本情緒識(shí)別中的實(shí)踐

        2021-11-17 08:16:12仇建民
        江蘇通信 2021年5期
        關(guān)鍵詞:預(yù)處理機(jī)器準(zhǔn)確率

        仇建民

        中國(guó)電信股份有限公司江蘇分公司

        0 引言

        1 任務(wù)分析

        1.1 任務(wù)背景

        新型冠狀病毒(COVID-19)感染的肺炎疫情牽動(dòng)著全國(guó)人民的心。習(xí)近平總書記指出:要鼓勵(lì)運(yùn)用大數(shù)據(jù)、人工智能、云計(jì)算等數(shù)字技術(shù),在疫情監(jiān)測(cè)分析、病毒溯源、防控救治、資源調(diào)配等方面更好地發(fā)揮支撐作用。為助力疫情防控和疫情之后的經(jīng)濟(jì)社會(huì)恢復(fù)工作,北京市經(jīng)信局主辦了一場(chǎng)科技戰(zhàn)疫公益挑戰(zhàn)賽。為了幫助政府掌握真實(shí)的社會(huì)輿論情況,科學(xué)、高效地做好防控宣傳和輿情引導(dǎo)工作,本賽題針對(duì)疫情相關(guān)話題開(kāi)展網(wǎng)民情緒識(shí)別的任務(wù)。

        1.2 任務(wù)說(shuō)明

        給定微博文本內(nèi)容,設(shè)計(jì)算法對(duì)微博內(nèi)容進(jìn)行情緒識(shí)別,判斷微博內(nèi)容是積極的、消極的還是中性的,是文本三分類任務(wù)。

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)準(zhǔn)備

        2.1.1 數(shù)據(jù)預(yù)處理

        為保證后續(xù)各類算法實(shí)驗(yàn)對(duì)比的公平,數(shù)據(jù)統(tǒng)一進(jìn)行預(yù)處理,后續(xù)各類算法均使用處理后的標(biāo)準(zhǔn)數(shù)據(jù)集。本文使用了以下4種數(shù)據(jù)預(yù)處理方法:(1)數(shù)據(jù)去噪。只保留微博內(nèi)容、情感傾向兩個(gè)字段,并刪除空值、異常值等無(wú)效數(shù)據(jù)。(2)去除標(biāo)點(diǎn)符號(hào)等特殊字符。因微博存在表情等數(shù)據(jù)會(huì)變成特殊字符,故統(tǒng)一刪除字符,只保留中文、英文、數(shù)字,并將多余重復(fù)的空格合并為一個(gè)空格。(3)繁體字轉(zhuǎn)簡(jiǎn)體字。將全部繁體字轉(zhuǎn)換為簡(jiǎn)體字。(4)去除微博中無(wú)意義的詞語(yǔ)。因?yàn)槲⒉﹫?chǎng)景的特殊性,刪除“展開(kāi)全文”“網(wǎng)頁(yè)鏈接”“轉(zhuǎn)發(fā)微博”等微博特定詞匯。

        預(yù)處理完成后,最終的樣本由原始的100 000條文本,縮減為99 373條文本。

        2.1.2 劃分相同的訓(xùn)練集、驗(yàn)證集

        將預(yù)處理完成的數(shù)據(jù)集拆分為訓(xùn)練集(79 498條,占比80%)、驗(yàn)證集(19 875條,占比20%),為確保在后續(xù)的各類算法實(shí)踐中,使用完全相同的訓(xùn)練集和驗(yàn)證集。使用sklearn.model_selection中的train_test_split進(jìn)行訓(xùn)練集和驗(yàn)證集的劃分,通過(guò)設(shè)置隨機(jī)種子確保每個(gè)模型的訓(xùn)練集和驗(yàn)證集保持一致。

        sklearn代碼如下:

        包括聚維酮碘,季銨鹽絡(luò)合碘和三碘氧化合物。聚維酮碘和季銨鹽絡(luò)合碘消毒效果受有機(jī)物影響很大,所以均不能作環(huán)境消毒,但可作飲水、皮膚和器械消毒。只有三碘氧化合物可作環(huán)境和帶動(dòng)物消毒。

        x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2,random_state=1

        2.2 建模及調(diào)優(yōu)

        2.2.1 評(píng)價(jià)指標(biāo)說(shuō)明

        選取19 875條驗(yàn)證集的準(zhǔn)確率(accuracy)作為評(píng)價(jià)指標(biāo)。計(jì)算公式:

        可見(jiàn),準(zhǔn)確率越高,證明模型越好。

        2.2.2 機(jī)器學(xué)習(xí)算法實(shí)踐

        (1)機(jī)器學(xué)習(xí)算法建模、調(diào)優(yōu)。本文在機(jī)器學(xué)習(xí)算法上采用了5種模型組合,分別為:CountVectorizer+MultinomialNB、CountVectorizer+BernoulliNB、TfidfVectorizer+MultinomialNB、TfidfVectorizer+BernoulliN、TfidfVectorizer+LightGBM。

        模型調(diào)優(yōu)思路如下:首先,CountVectorizer、TfidfVectorizer調(diào)優(yōu):通過(guò)設(shè)置ngram_range參數(shù),分別?。?,1)、(1,2)、(1,3),用來(lái)觀察一元模型(unigrams)、二元模型( bigrams)和三元模型(trigrams)。其次,MultinomialNB、BernoulliNB調(diào)優(yōu):通過(guò)窮舉alpha,alpha從0.01開(kāi)始,步長(zhǎng)為0.01,到1結(jié)束,輪詢100次,選擇準(zhǔn)確率最佳的模型。最后,LightGBM調(diào)優(yōu):以驗(yàn)證集的準(zhǔn)確率為指標(biāo),通過(guò)早停(earlystopping)功能獲取準(zhǔn)確率最佳的模型。

        需要說(shuō)明的是:TfidfVectorizer+LightGBM實(shí)踐中,由于筆者算力有限(機(jī)器內(nèi)存較?。?,ngram_range=(1,2)以及ngram_range=(1,3)未能嘗試,這兩個(gè)模型運(yùn)行時(shí)由于內(nèi)存溢出而報(bào)錯(cuò)。

        (2)機(jī)器學(xué)習(xí)算法對(duì)比結(jié)論。以上5種算法的最佳準(zhǔn)確率對(duì)比如圖1所示。從實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:首先,TfidfVectorizer+LightGBM準(zhǔn)確率最佳,為72.88%,且在ngram_range=(1,1)參數(shù)下,LightGBM準(zhǔn)確率顯著超過(guò)MultinomialNB和BernoulliNB。其次,在另一個(gè)算法確定的情況下,TfidfVectorizer的準(zhǔn)確率顯著超過(guò)CountVectorizer,說(shuō)明在文本特征提取上,TfidfVectorizer優(yōu)于CountVectorizer。最后,在另一個(gè)算法確定的情況下,MultinomialNB的準(zhǔn)確率顯著超過(guò)BernoulliNB,說(shuō)明MultinomialNB更合適文本分類場(chǎng)景,BernoulliNB可能更適用于數(shù)據(jù)符合伯努利分布的場(chǎng)景。

        圖1 機(jī)器學(xué)習(xí)算法在此案例中的準(zhǔn)確率對(duì)比

        2.2.3 深度學(xué)習(xí)算法實(shí)踐

        (1)深度學(xué)習(xí)算法建模、調(diào)優(yōu)。

        通過(guò)Word2Vec算法對(duì)數(shù)據(jù)集的語(yǔ)料進(jìn)行訓(xùn)練,設(shè)置詞向量維度為128維,迭代訓(xùn)練15輪,訓(xùn)練完成后得到78 486個(gè)詞匯及詞向量。選取部分詞匯及詞向量,比如“武漢”“肺炎”,通過(guò)相似度匹配,找到相似度Top10的詞匯,發(fā)現(xiàn)基本符合常識(shí)。

        模型調(diào)優(yōu)思路:第一,考慮到雙向序列模型可以考慮整個(gè)句子的信息,即使在句子中間,也可以綜合考慮過(guò)去的信息和將來(lái)的信息,因此在網(wǎng)絡(luò)層使用BiGRU(雙向GRU)代替GRU(Gate Recurrent Unit)。第二,為避免模型過(guò)擬合,超過(guò)2個(gè)epoch驗(yàn)證集的準(zhǔn)確率若無(wú)提升,則將學(xué)習(xí)率減半;超過(guò)4個(gè)epoch驗(yàn)證集的準(zhǔn)確率若無(wú)提升,則earlystopping。

        根據(jù)以上思路,本文在深度學(xué)習(xí)算法上采用了2種模型組合,分別為Word2Vec+BiGRU、BERT(Bidirectional Encoder Representation from Transformers)+BiGRU。

        (2)深度學(xué)習(xí)算法對(duì)比結(jié)論。

        兩種組合模型在訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率分布情況如圖2所示。實(shí)驗(yàn)結(jié)果對(duì)比如圖3所示,可以得出以下結(jié)論:預(yù)訓(xùn)練好的BERT模型在Embedding層的效果顯著優(yōu)于Word2Vec。

        圖2 Word2Vec+BiGRU、BERT+BiGRU實(shí)驗(yàn)結(jié)果

        圖3 深度學(xué)習(xí)算法在此案例中的準(zhǔn)確率對(duì)比

        2.3 實(shí)驗(yàn)結(jié)果匯總對(duì)比

        綜合以上機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法實(shí)踐結(jié)果,匯總7種組合模型,選取每種模型在驗(yàn)證集的最佳準(zhǔn)確率進(jìn)行對(duì)比,結(jié)果如圖4所示。由準(zhǔn)確率可以發(fā)現(xiàn):深度學(xué)習(xí)2種算法的平均準(zhǔn)確率為74.3%,遠(yuǎn)超過(guò)機(jī)器學(xué)習(xí)5種算法的平均準(zhǔn)確率69.7%,且深度學(xué)習(xí)算法最低準(zhǔn)確率為73.5%,也超過(guò)機(jī)器學(xué)習(xí)算法的最高準(zhǔn)確率72.9%。在機(jī)器學(xué)習(xí)算法中,TfidfVectorizer準(zhǔn)確率高于CountVectorizer;MultinomialNB準(zhǔn)確率高于BernoulliNB;LightGBM準(zhǔn)確率高于樸素貝葉斯。深度學(xué)習(xí)算法中,BERT準(zhǔn)確率高于Word2vec。

        圖4 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法在此案例中的準(zhǔn)確率對(duì)比

        3 結(jié)束語(yǔ)

        本文使用了比賽主辦方提供的公開(kāi)數(shù)據(jù),并拆分為訓(xùn)練集和驗(yàn)證集,使用驗(yàn)證集的準(zhǔn)確率作為評(píng)價(jià)指標(biāo),使用7種機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型進(jìn)行文本分類并分別進(jìn)行調(diào)優(yōu),得出以下結(jié)論:(1)在文本分類任務(wù)上,深度學(xué)習(xí)算法相比機(jī)器學(xué)習(xí)算法有較為明顯的優(yōu)勢(shì)。(2)在機(jī)器學(xué)習(xí)算法中:在文本特征提取上,TfidfVectorizer優(yōu)于CountVectorizer;MultinomialNB相比BernoulliNB更合適文本分類場(chǎng)景;LightGBM集成模型分類效果優(yōu)于樸素貝葉斯。(3)在深度學(xué)習(xí)算法中:預(yù)訓(xùn)練好的BERT模型在Embedding層的效果優(yōu)于Word2Vec。(4)綜合以上,BERT+BiGRU準(zhǔn)確率最高,為75.1%,最終選取BERT+BiGRU為預(yù)測(cè)模型。后續(xù)可以BERT+BiGRU模型為基礎(chǔ),在具體的神經(jīng)網(wǎng)絡(luò)層進(jìn)行改進(jìn)調(diào)優(yōu),進(jìn)一步提升文本分類的準(zhǔn)確率。

        猜你喜歡
        預(yù)處理機(jī)器準(zhǔn)確率
        機(jī)器狗
        機(jī)器狗
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        未來(lái)機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        少妇真人直播免费视频| bbbbbxxxxx欧美性| 少妇一区二区三区精选| 国产自拍精品一区在线观看| 久久精品国产视频在热| 日韩另类在线| 亚洲综合原千岁中文字幕| 国产三级黄色免费网站| 色妞色视频一区二区三区四区| 免费人成黄页在线观看视频国产| 亚洲va精品va国产va| 国产自产二区三区精品| 欧美成人在线视频| 99久久综合精品五月天| 午夜亚洲精品视频网站| 丝袜美腿一区二区国产| 无码国产精品一区二区免费模式 | 国产无套粉嫩白浆内精| 国产一区二区黄色录像| 成 人 免费 黄 色 视频| 国产自产av一区二区三区性色| 老熟妇嗷嗷叫91九色| 国产精品白丝久久av网站| 色婷婷综合中文久久一本| 亚洲AV日韩Av无码久久| 中文字幕亚洲在线第一页| 国产精品永久免费| 国产91成人精品亚洲精品| 国产精品成人黄色大片| 亚洲一区二区三区内裤视| 免费无码黄动漫在线观看| 精品国产一区二区三区久久女人| 视频区一区二在线观看| 亚洲国产精品无码专区在线观看| 四虎精品视频| 国产一级r片内射视频播放| 精品久久有码中文字幕| 又色又爽又黄又硬的视频免费观看| 无码高潮久久一级一级喷水| 日本刺激视频一区二区| 久久99精品国产麻豆不卡|