亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于少樣本學(xué)習(xí)的農(nóng)業(yè)領(lǐng)域短文本分類研究

        2022-08-10 08:08:12麻之潤董慧潔
        湖北農(nóng)業(yè)科學(xué) 2022年13期
        關(guān)鍵詞:短文分類樣本

        麻之潤,費 凡,黎 芬,董慧潔,彭 琳

        (1.云南農(nóng)業(yè)大學(xué)大數(shù)據(jù)學(xué)院,昆明 650000;2.綠色農(nóng)產(chǎn)品大數(shù)據(jù)智能信息處理工程研究中心,昆明 650000)

        隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)沉淀了大量的文本數(shù)據(jù)。在農(nóng)業(yè)領(lǐng)域如農(nóng)業(yè)氣象、農(nóng)資商品等,這些文本多以短文本的形式出現(xiàn)。如何對這類文本信息進(jìn)行有效分類,既方便網(wǎng)絡(luò)維護運營者的管理以及發(fā)掘其信息價值,又能夠讓大眾方便快捷地選擇自己感興趣的內(nèi)容,這是文本分類方向研究的熱點問題。

        文本分類任務(wù)是自然語言處理領(lǐng)域的一項基礎(chǔ)且十分重要的工作,是當(dāng)前該領(lǐng)域的研究熱點之一。該任務(wù)主要指根據(jù)已經(jīng)定義好的類別標(biāo)簽對現(xiàn)有的一段文本進(jìn)行標(biāo)注。分類的文本又分為長文本和短文本;和長文本相比,短文本的時效性更強,具有明顯的數(shù)據(jù)稀疏性,同時也存在著高噪聲、高度依賴上下文語境等問題[1],這是現(xiàn)階段短文本分類面臨的難點問題。

        1960—2010 年,研究人員主要基于統(tǒng)計模型來研究文本的分類,如樸素貝葉斯(NB)模型、K 近鄰(KNN)方法、支持向量機(SVM)方法等。Maron[2]研究了一種根據(jù)文檔內(nèi)容自動分類的方法;李靜梅等[3]在假設(shè)特征獨立性的基礎(chǔ)上,就樸素貝葉斯的原理和應(yīng)用等問題進(jìn)行討論,并通過期望值最大法提高了其分類精度。余芳[4]基于web 文本的特征利用樸素貝葉斯算法實現(xiàn)了一個文本分類系統(tǒng),并獲得了很好的分類效果。Cover 等[5]提出了一種最近鄰決策規(guī)則用于文本分類。龐劍鋒[6]提出了一個能夠有效將文本分類算法和反饋方法相結(jié)合的方法,并建立了可行的系統(tǒng)。湛燕[7]基于K-近鄰、K-均值算法,提出了一種學(xué)習(xí)權(quán)值算法可以間接的優(yōu)化聚類結(jié)果。Joachims[8]討論了如何使用支持向量機運用在文本分類任務(wù)中。2009 年,TF-IDF 通過TF 詞頻和IDF 逆文本頻率指數(shù)來評估單詞或者片段短語對一個完整語料庫的影響程度,如果一個陌生詞語在某篇隨機的文章中出現(xiàn)的頻率很高,但是在這個完整語料庫中出現(xiàn)的頻率較低,則其TF-IDF 值較高,即重要程度較高[9]。Mikolov 等[10]提出了新穎的word2vec 模型,用于從龐大數(shù)據(jù)集中計算單詞的連續(xù)矢量表示。Pennington 等[11]提出了一個新的全局對數(shù)線性回歸模型,在多項任務(wù)方面優(yōu)于相關(guān)模型。

        隨后文本分類進(jìn)入從機器學(xué)習(xí)到深度學(xué)習(xí)的快速發(fā)展道路。Kim[12]提出了一種用于文本分析的CNN——TextCNN。Iyyer 等[13]提出了一個簡單的深度神經(jīng)網(wǎng)絡(luò)DAN,與同類模型相比僅需花費少量培訓(xùn)時間就能夠獲得同等的成績。Tai 等[14]提出了一種LSTM 對樹型網(wǎng)絡(luò)拓?fù)涞母爬═ree-LSTM,在一些任務(wù)上強于LSTM。Grave 等[15]探討了一種簡單有效的文本分類方法FastText,并獲得了良好的效果。2017 年,Vaswani 等[16]提出了幾乎僅靠注意力來完成任務(wù)的Transformer 模型,同時提出了可伸縮點積注意力。上述方法雖然在文本特征提取能力方面有了提升,但仍需要大量的文本數(shù)據(jù)作為支撐。

        本研究中的“少樣本”是指維度小、數(shù)量小的樣本[17],短文本指不超過200 個字符的文本[18]。對于文本分類任務(wù),目前常見的方法都需要基于大規(guī)模的人工標(biāo)注數(shù)據(jù)集。對于農(nóng)業(yè)領(lǐng)域的文本,大規(guī)模標(biāo)注數(shù)據(jù)成本很高,而且需要與原來的數(shù)據(jù)一起進(jìn)行重新訓(xùn)練。在圖像領(lǐng)域借助少量樣本對新樣本進(jìn)行分類的技術(shù)發(fā)展比較成熟,文本領(lǐng)域目前沒有廣泛應(yīng)用的成熟技術(shù)[19]。Vinyals 等[20]定義了一個少樣本數(shù)據(jù)集miniImageNet,一共有100 個類別,每個類別有600 個樣本,用于少樣本的研究。Han 等[19]在EMNLP 2018 中提出了一個少樣本的關(guān)系數(shù)據(jù)集,包含64 種關(guān)系用于訓(xùn)練,16 種關(guān)系用于驗證和20 種關(guān)系用于測試,每種關(guān)系包含700 個樣本。本文基于此展開研究,提出的方法可以借助少量的樣本對農(nóng)業(yè)領(lǐng)域的文本進(jìn)行分類。

        1 相關(guān)理論

        1.1 少樣本學(xué)習(xí)

        少 樣 本 學(xué) 習(xí)(Few sample learning,F(xiàn)ew-shot learning,F(xiàn)SL),也稱小樣本學(xué)習(xí)(One sample learn?ing)[21]或單樣本學(xué)習(xí)(One-shot learning),可以追溯到21 世紀(jì)初[22]。這里few-shot 有計量的意思,指少樣本學(xué)習(xí),機器學(xué)習(xí)模型在學(xué)習(xí)了相當(dāng)類別的數(shù)據(jù)后,只需要少量的樣本就能夠快速學(xué)習(xí),對應(yīng)的有單樣本學(xué)習(xí),可看作樣本量為一情況下的一種少樣本學(xué)習(xí)。少樣本學(xué)習(xí)按照使用方法可分為3 種。①模型微調(diào)法。數(shù)據(jù)集分布相似的前提下,在目標(biāo)小數(shù)據(jù)集上對源數(shù)據(jù)集訓(xùn)練好的分類模型進(jìn)行個別層參數(shù)微調(diào),該方法因數(shù)據(jù)集分布不同易產(chǎn)生過擬合的結(jié)果。②數(shù)據(jù)增強法。利用輔助信息增強樣本特征,如添加標(biāo)簽數(shù)據(jù)進(jìn)行樣本數(shù)據(jù)擴增、添加多樣特征進(jìn)行樣本特征空間增強,便于模型提取特征,該方法因增加數(shù)據(jù)信息易引入噪聲數(shù)據(jù)。③遷移學(xué)習(xí)法。在一定關(guān)聯(lián)下,利用學(xué)會的知識和特征遷移到新知識的學(xué)習(xí)。本文主要從遷移學(xué)習(xí)模型方面著手展開少樣本學(xué)習(xí)研究。

        1.2 預(yù)訓(xùn)練模型

        預(yù)訓(xùn)練的思想究其本源是模型的全部參數(shù)不是以往的隨機初始化,而是通過特定任務(wù)(例如語言的模型)進(jìn)行一些預(yù)訓(xùn)練。試驗表明,在大型的完整語料庫中進(jìn)行預(yù)訓(xùn)練(PTMs)能夠習(xí)得通用語言的表示,而這對之后的NLP 具體任務(wù)很有幫助,避免了從最初開始訓(xùn)練新模型。

        預(yù)訓(xùn)練模型自提出后便得到飛速發(fā)展,先后出現(xiàn)了ELMo[23]、ULMFiT[24]、BERT[25]、XLNet[26]等先進(jìn)的預(yù)訓(xùn)練語言模型。其中Devlin 等[25]引入了一種稱為BERT 的表示語言模型,它用Transformer 雙向編碼器表示,目的是聯(lián)合調(diào)節(jié)(jointly conditioning)所有層的左右和上下文,進(jìn)而預(yù)訓(xùn)練其深度雙向的表示,以此證明雙向的預(yù)訓(xùn)練對語言的表示非常重要,同時也證明了預(yù)訓(xùn)練表示的便捷性,減少了眾多復(fù)雜的特定任務(wù)設(shè)計等需求。Transformer 結(jié)構(gòu)模型拋棄了傳統(tǒng)的CNN 和RNN,整個網(wǎng)絡(luò)結(jié)構(gòu)是由Atten?tion 機制完全組成。更準(zhǔn)確地說,Transformer 僅由self-Attention 和Feed Forward Neural Network 組 成。本 質(zhì) 上,Transformer 是 一 個Encoder-Decoder 的 結(jié)構(gòu),其左側(cè)是編碼器,目的是使語料經(jīng)過輸入后能夠生成相應(yīng)的特征向量;右側(cè)是解碼器,其輸入有兩部分構(gòu)成,一部分是左側(cè)編碼器的輸出結(jié)果,另一部分是已經(jīng)預(yù)測的結(jié)果,目的是獲得最終的條件概率。其具體結(jié)構(gòu)如圖1 所示。

        圖1 BERT 中應(yīng)用的Transformer 網(wǎng)絡(luò)

        其中,Attention(Q,K,V):Attention( )

        Q,K,V=softmax,F(xiàn)eed Forward Neural Network 的全連接層第二層線性的激活函數(shù)為FFN( )

        Z=max(0,ZW1+b1)W2+b2

        BERT 模型針對的是英文或字的word 粒度的完形填空學(xué)習(xí)層面,并沒有考慮運用訓(xùn)練數(shù)據(jù)中的詞法、語法結(jié)構(gòu)以及語義的相關(guān)信息,并以此來建模學(xué)習(xí)。相對而言,百度的ERNIE 模型先是對詞和實體等語義單元進(jìn)行掩碼操作,能夠讓模型了解完整語義的表示;ERNIE 用訓(xùn)練數(shù)據(jù)中的詞法、語法的結(jié)構(gòu)以及語義中的相關(guān)信息來統(tǒng)一建模,在語義表示方面較大地提高了其通用表示的能力。BERT 模型和ERNIE 模型的遮掩策略區(qū)別如圖2 所示。

        圖2 BERT 和ERNIE 之間不同的遮掩策略

        2 試驗

        2.1 數(shù)據(jù)獲取

        本試驗數(shù)據(jù)從淘金地-農(nóng)業(yè)網(wǎng)的農(nóng)業(yè)問答板塊問答分類頁面爬取,遵循國家法律與該網(wǎng)站的爬蟲協(xié)議——robots.txt,并保證該數(shù)據(jù)僅用于此次文本分類研究,不外傳與分享,不用于商業(yè)用途。首先分析了該網(wǎng)站的可視化結(jié)構(gòu)與前端代碼,知悉其數(shù)據(jù)傳輸方式為get 方式;再查看代碼,找到其頁面所需要的問答信息的具體標(biāo)簽,判斷該標(biāo)簽是否能準(zhǔn)確地定位到這個問題,判斷該標(biāo)簽的惟一準(zhǔn)確性;然后判斷不同問題頁面實現(xiàn)翻頁的方式方法;最后嘗試爬取單獨頁面并將信息寫入csv 文件中,成功后調(diào)試代碼,逐步實現(xiàn)爬取所有問題頁面的相關(guān)信息并逐行寫入csv 中。利用Scrapy 框架、Urllib、Requests等庫,運用python 編程語言,從html頁面的特定標(biāo)簽中爬取問答分類頁面所有問句對,存入csv 文件中。該問句對分為養(yǎng)殖技術(shù)、糧油種植、蔬菜種植、瓜果種植、藥材種植五大類,又可分為問題集和滿意答案集。

        2.2 數(shù)據(jù)清洗

        數(shù)據(jù)清洗是整個數(shù)據(jù)分析過程中極其重要且不可或缺的一個環(huán)節(jié),是對獲取數(shù)據(jù)進(jìn)行再一次審查與校對核驗的過程,主要為了舍去多余重復(fù)的信息,改正現(xiàn)存的錯誤問題,直至可以獲得一致的數(shù)據(jù)。常見的數(shù)據(jù)清洗步驟分為預(yù)處理階段的數(shù)據(jù)導(dǎo)入與查看、缺失數(shù)據(jù)清洗、格式內(nèi)容清洗、邏輯錯誤清洗、不相關(guān)數(shù)據(jù)清洗和驗證關(guān)聯(lián)性等。本研究共爬取了10 000 多條數(shù)據(jù)對,經(jīng)過分析發(fā)現(xiàn)有部分殘缺值并刪除,部分重復(fù)值經(jīng)過對比后刪除,部分?jǐn)?shù)據(jù)帶有特殊格式和符號經(jīng)正則表達(dá)式刪除。通過上述環(huán)節(jié)對殘缺數(shù)據(jù)、錯誤數(shù)據(jù)、重復(fù)數(shù)據(jù)進(jìn)行審查與刪除,后經(jīng)人工隨機校對,保留了12 433 條問句對。對該數(shù)據(jù)集進(jìn)行分析處理,然后分組,S0 組為5 大類全量數(shù)據(jù)集,S1 組為5 大類等比縮小數(shù)據(jù)集,S2、S3、S4 為繼續(xù)等比例縮減后的5 大類數(shù)據(jù)集。

        隨機從短文本問題集中選取其中的70% 數(shù)據(jù)作為訓(xùn)練集,20% 數(shù)據(jù)作為測試集,10% 數(shù)據(jù)作為驗證集,數(shù)據(jù)集統(tǒng)計如表1 所示。部分問題集訓(xùn)練語料見表2。

        表1 數(shù)據(jù)集統(tǒng)計 (單位:條)

        表2 部分問題集訓(xùn)練語料

        首先將預(yù)處理好的數(shù)據(jù)集輸入基于BERT 和ERNIE 預(yù)訓(xùn)練模型進(jìn)行文本表示,具體過程為:將輸入數(shù)據(jù)轉(zhuǎn)換成嵌入向量X,根據(jù)嵌入向量得到q,k,v3 個向量,分別為每個向量計算score(score=q×k),用score 歸一化操作(),達(dá)到穩(wěn)定的梯度,對score 施加以softmax 激活函數(shù)。再分別取出本數(shù)據(jù)集的表示向量,該向量攜帶了大量的背景信息,具有豐富的表達(dá)能力。最后將這些向量輸入全連接層,經(jīng)過一系列的權(quán)重調(diào)整,得到分類結(jié)果。分類模型結(jié)構(gòu)如圖3 所示。同時,將處理好的數(shù)據(jù)集在決策樹模型上做對比試驗。

        圖3 分類模型結(jié)構(gòu)

        2.3 試驗環(huán)境

        1)試驗硬件。CPU 為Intel Xeon E5-2678 v3,內(nèi)存容量為128G,內(nèi)核為48 核,顯卡為GeForce RTX 3090,顯存容量為24 GB,操作系統(tǒng)為Ubuntu 18.04.5 LTS,Python 版本為3.8,PyTorch 深度學(xué)習(xí)框架,框架版本1.7.1,Cuda 版本為11.0。

        2)參數(shù)設(shè)置。BERT:batch_size=128,pad_size=32,learning_rate=5e-5,hidden_size=768,num_epochs=6;ERNIE:batch_size=128,pad_size=32,learn?ing_rate=5e-5,hidden_size=768,num_epochs=6。

        2.4 評價標(biāo)準(zhǔn)

        本研究從試驗評價指標(biāo)的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值來對決策樹模型基于BERT 模型和ERNIE 模型的農(nóng)業(yè)短文本分類算法的分類結(jié)果展開分析。

        準(zhǔn)確率(Accuracy)指分類器分類正確的樣本與總樣本之比。

        精確率(Precision)也稱為查準(zhǔn)率,指分類正確的正例個數(shù)與分類為正例的實例個數(shù)之比。

        召回率(Recall)也稱為查全率,代表分類正確的個數(shù)與實際正例的個數(shù)之比。

        F-Measure 為精確率和召回率的綜合評價指標(biāo)。

        當(dāng)β=1 時,

        式中,TP代表正例的樣本預(yù)測依然為正例,F(xiàn)P代表負(fù)例的樣本預(yù)測為正例,F(xiàn)N代表正例的樣本預(yù)測為負(fù)例,F(xiàn)P代表負(fù)例的樣本預(yù)測依然為負(fù)例。

        2.5 試驗結(jié)果

        對比試驗結(jié)果見表3。由表3 可以看出,小樣本數(shù)據(jù)集中,隨著數(shù)據(jù)量的變少,不論是傳統(tǒng)模型還是預(yù)訓(xùn)練模型,準(zhǔn)確率、精確率和召回率均存在下降趨勢;而基于ERNIE 預(yù)訓(xùn)練模型的準(zhǔn)確率、F1值處于較高水平,遠(yuǎn)高于同數(shù)據(jù)的決策樹模型。因此,本研究提出的基于BERT 模型和ERNIE 模型的農(nóng)業(yè)短文本分類算法能夠在數(shù)據(jù)量不足的情況下,便捷、有效地識別出文本所屬的農(nóng)業(yè)領(lǐng)域類別。

        表3 對比試驗結(jié)果 (單位:%)

        3 小結(jié)

        本研究在處理農(nóng)業(yè)領(lǐng)域短文本分類任務(wù)時,面對該領(lǐng)域經(jīng)過標(biāo)注的文本數(shù)據(jù)稀缺的現(xiàn)狀,以及對大量無標(biāo)簽數(shù)據(jù)進(jìn)行標(biāo)注又耗費人力物力的問題,構(gòu)建了適用于農(nóng)業(yè)短文本分類的小樣本數(shù)據(jù)集,并根據(jù)數(shù)據(jù)量的大小分成不同的組別;然后構(gòu)建了基于BERT 和ERNIE 預(yù)訓(xùn)練模型的農(nóng)業(yè)短文本分類算法,并與基于決策樹模型的農(nóng)業(yè)短文本分類算法進(jìn)行對比分析。結(jié)果表明,構(gòu)建的農(nóng)業(yè)短文本分類算法能夠在數(shù)據(jù)量不足的情況下依然獲得較高的分類效果。下一步還將在農(nóng)業(yè)領(lǐng)域文本數(shù)據(jù)集的基礎(chǔ)上繼續(xù)完善模型和開發(fā)應(yīng)用系統(tǒng)。

        猜你喜歡
        短文分類樣本
        分類算一算
        用樣本估計總體復(fù)習(xí)點撥
        分類討論求坐標(biāo)
        KEYS
        推動醫(yī)改的“直銷樣本”
        數(shù)據(jù)分析中的分類討論
        Keys
        教你一招:數(shù)的分類
        隨機微分方程的樣本Lyapunov二次型估計
        村企共贏的樣本
        国产对白国语对白| 日本看片一区二区三区| 黄色潮片三级三级三级免费| 日韩精品人成在线播放| 99久久综合精品五月天| 亚洲自拍另类欧美综合| 日韩av最新在线地址| 在线播放av不卡国产日韩| 私人毛片免费高清影视院| 欧美色图中文字幕| 国产成人激情视频在线观看| 男女裸体做爰视频高清| 亚洲av无码一区二区三区观看| 扒开腿狂躁女人爽出白浆| 免费又黄又爽又猛的毛片| 丰满少妇棚拍无码视频| 久久伊人精品色婷婷国产| 免费人成年激情视频在线观看| 亚洲av永久无码精品秋霞电影影院 | 99久久人人爽亚洲精品美女| 久久中文字幕日韩精品| 亚洲精品中文字幕一二三| 精品无人码麻豆乱码1区2区| 国产成人精品一区二区视频| baoyu网址国产最新| 亚洲乱码中文字幕综合久久| 国产精品 人妻互换| 人伦片无码中文字幕| 久久国产精品精品国产色| 国产色系视频在线观看| 巨熟乳波霸若妻在线播放| 免费人成黄页网站在线观看国内| 产美女被爽到高潮免费a| 国产高潮刺激叫喊视频| 久久男人av资源网站无码| 日韩av在线手机免费观看| 国产av夜夜欢一区二区三区| 伊人色综合视频一区二区三区| 人妻少妇无乱码中文字幕| 女人18片毛片60分钟| 99久久精品国产成人综合|