亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于EDA和回譯的導游投訴文本混合增強方法

        2021-04-06 10:55:04余佳雨詹瑾瑜
        計算機技術與發(fā)展 2021年3期
        關鍵詞:分類文本方法

        余佳雨,李 響,詹瑾瑜,江 維,曹 揚,楊 瑞

        (1.電子科技大學 信息與軟件工程學院,四川 成都 610054;2.中電科大數(shù)據(jù)研究院有限公司,貴州 貴陽 550022;3.提升政府治理能力大數(shù)據(jù)應用技術國家工程實驗室,貴州 貴陽 550022)

        0 引 言

        近年來中國經(jīng)濟高速發(fā)展,旅游逐漸成為人們休閑娛樂的選擇之一。隨著游客人數(shù)越來越多、旅游可選地點愈發(fā)豐富,旅游過程中各種糾紛日趨復雜,負面新聞頻發(fā),如宰客、隨意加價、強制消費等導游違規(guī)事件的相關新聞報道[1]。2017年12月黑龍江雪鄉(xiāng)發(fā)生導游用威脅、辱罵手段強制游客參加自費項目事件,甚至打傷了兩位游客;2018年5月10名中國游客在泰芭提雅旅游遭遇中國籍黑導游恐嚇、逼迫購物,經(jīng)歷“大逃亡”的事件;2019年11月福建廈門鼓浪嶼導游威脅游客視頻在網(wǎng)絡熱傳。這些負面的新聞不僅嚴重影響了景區(qū)形象,還暴露出旅游市場存在監(jiān)管漏洞。

        人工處理旅游投訴需要耗費大量人力,因此使用機器學習算法從導游投訴文本數(shù)據(jù)中挖掘出導游違規(guī)事件,輔助旅游監(jiān)管人員工作,為旅游監(jiān)管提供依據(jù),成為一個必然趨勢。然而,由于傳統(tǒng)旅游業(yè)與大數(shù)據(jù)結合過程中存在著信息孤島,導致導游投訴文本數(shù)據(jù)單一、難以獲取等問題。為了改善原始導游投訴數(shù)據(jù)集存在的樣本不平衡和語料不豐富的問題,如何對這些導游投訴文本進行文本增強以滿足導游違規(guī)行為識別需要,是一個迫切需要解決的問題。

        圖像領域的數(shù)據(jù)增強技術已經(jīng)比較成熟,通過對圖像的翻轉、旋轉、鏡像、高斯白噪聲等技巧實現(xiàn)數(shù)據(jù)增強,以幫助訓練更強大的模型,尤其是數(shù)據(jù)集較小的時候。然而在自然語言處理領域,文本數(shù)據(jù)增強技術仍處于探索階段。Wang等人使用文本分類技術對推文分析,在詞嵌入模型中使用K-近鄰算法(KNN)尋找同義詞對推文數(shù)據(jù)進行增強[2]。Sennrich等人使用自己訓練的模型對不完整的語料進行翻譯,將得到的結果和原語料混合得到增強的訓練數(shù)據(jù),在機器翻譯任務上取得了更好的結果[3]。Fadaee等人先替換每個文檔中的稀有詞,再用LSTM語言模型翻譯并校驗去掉不合理的結果,得到增強文本數(shù)據(jù)在WMT15英德翻譯任務上取得了一定的效果[4]。Xie等人引入unigram噪聲(將目標詞替換為根據(jù)unigram分布得出詞)和空白噪聲(將目標詞替換為占位符),在IWSLT 2015的英德翻譯任務上取得了不錯的結果[5]。Hu等人提出了一個結合變分自動編碼器(VAE)和整體屬性識別符的神經(jīng)生成模型,在斯坦福SST數(shù)據(jù)集和IMDB數(shù)據(jù)集的情感分析任務上比之前的方法生成的文本更準確[6]。Yu等人提出了QANet框架,使用了帶有注意力機制的神經(jīng)機器翻譯模型將英文語料翻譯為法文再翻譯回英文以進行訓練文本增強,在自動問答任務的SQuAD數(shù)據(jù)集上取得了更好的結果[7]。Wei等人針對文本分類任務提出了一種EDA(easy data augmentation)文本增強方法[8],該方法在較小的數(shù)據(jù)集上可以顯著提高分類效果并減少過擬合。上述的多數(shù)方法都是在特定任務上進行的,如機器翻譯、機器閱讀理解,雖然在它們之間相互比較有一定困難,但仍然可以在是否需要訓練語言模型和是否需要額外數(shù)據(jù)這兩方面對它們進行對比。對于是否需要訓練語言模型方面,上述大多數(shù)方法都是需要的;對于是否需要額外數(shù)據(jù)方面,文獻[4]的翻譯增強方法、文獻[6]的VAE方法和文獻[7]的回譯方法都是需要的。相比于其他方法,EDA方法的優(yōu)勢在于不需要訓練語言模型并且不需要額外數(shù)據(jù)。因此,該文提出的方法是基于EDA方法和不需要訓練語言模型的回譯方法,具有簡單易用的優(yōu)勢。

        針對導游違規(guī)行為識別中導游投訴文本數(shù)據(jù)樣本不平衡和語料不豐富的問題,該文提出了一種基于EDA和回譯的導游投訴文本混合增強方法,從EDA方法和回譯方法兩個方面得到增強后的導游投訴文本數(shù)據(jù),混合生成新的數(shù)據(jù)集。并將該方法應用到了實際的導游違規(guī)行為識別系統(tǒng)中進行測試和驗證。在實驗中,基于EDA和回譯的導游投訴文本混合增強方法與原始投訴文本數(shù)據(jù)、傳統(tǒng)的EDA文本增強方法、傳統(tǒng)的回譯文本增強方法進行了分析與對比。實驗結果表明,在實際的導游違規(guī)行為識別系統(tǒng)中,該方法相比于其他兩種方法的文本增強效果更好,相比原始數(shù)據(jù)集其準確率提高了7.4%,可以有效地提升導游違規(guī)行為識別系統(tǒng)的準確率。

        1 文本增強方法

        1.1 EDA方法

        傳統(tǒng)文本增強方法都是基于原文本同義詞替換實現(xiàn)的,而EDA方法在此基礎上進行擴充,增加了另外三種方式,共由四種不同方式組成,包括:同義詞替換、同義詞插入、刪除、交換詞語位置。

        具體操作如下:

        (1)同義詞替換:從一段導游投訴文本中隨機選取一個非停用詞,使用近義詞預測工具找到選取詞的同義詞,然后在原句中把選取詞替換為其同義詞。操作對當前投訴文本重復n次。

        (2)同義詞插入:從一段導游投訴文本中隨機選取一個非停用詞,使用近義詞預測工具找到選取詞的可替換的備選詞,將該備選詞插入這段文本某隨機位置。操作重復n次。

        (3)刪除:從一段導游投訴文本中隨機選取一個詞,然后刪除它。操作重復n次。

        (4)交換詞語位置:從一段導游投訴文本中隨機選取兩個不同單詞,然后交換它們的位置。操作重復n次。

        以上四種操作都包含參數(shù)n,它表示對當前投訴文本的操作次數(shù),具體公式為n=αl,操作次數(shù)n由當前導游投訴本文的單詞改變比例α和當前導游投訴本文單詞個數(shù)l決定。此外,對于每條導游投訴文本,文本數(shù)據(jù)增強生成的新的投訴文本條數(shù)為naug,naug為4的倍數(shù),四個操作分別的執(zhí)行次數(shù)均為naug/4。導游投訴文本的EDA增強示例如表1所示,原始的導游投訴文本為“導游黑心變更行程,誘導逛街購物”。

        表1 EDA增強示例圖

        1.2 回譯方法

        回譯是文本數(shù)據(jù)增強的常見方法,回譯顧名思義就是將源語言翻譯為中間語言,再把中間語言翻譯回源語言,中間語言通常選取大語種語言(如英語)。回譯的技術方案有兩種,第一種是使用優(yōu)質語料自行訓練機器翻譯模型,第二種是使用大公司提供的在線翻譯工具或翻譯API,如百度翻譯、谷歌翻譯、有道翻譯等。

        針對第一種技術方案,機器翻譯(MT)是借助機器將一種自然語言文本(源語言)翻譯成另一種自然語言文本(目標語言)[9],機器翻譯方法通常可分成三大類:基于規(guī)則的機器翻譯(RBMT)、統(tǒng)計機器翻譯(SMT)和神經(jīng)機器翻譯(NMT),現(xiàn)在主流且較為成熟的方法是神經(jīng)機器翻譯[10]。雖然NMT方法在機器翻譯上有著優(yōu)異的表現(xiàn),但是它仍存在著以下幾個問題:

        (1)很難尋找到一個合適的數(shù)據(jù)集;

        (2)語料庫對結果的影響很大,即使量級差不多,但不同領域的語料卻能對翻譯效果產(chǎn)生很大的差別;

        (3)超參數(shù)設置對翻譯效果的影響較大;

        (4)訓練所需的時間成本較大,同時訓練規(guī)模較大時需要較大的硬件顯存支持。

        由于上述原因限制,該文采用了第二種方案。

        第二種技術方案是使用大公司提供的翻譯API進行回譯,翻譯方法已經(jīng)被封裝好了,只需要通過API先將中文翻譯為英文,再將英文回譯為中文即可。第二種方案比第一種方案更簡單、快速、節(jié)省資源。該文使用這種方案來實現(xiàn)回譯,對導游投訴文本進行數(shù)據(jù)增強。算法用JavaScript語言編寫,在Node.js環(huán)境運行,參數(shù)為請求翻譯的內(nèi)容、翻譯源語言、譯文語言。第一輪翻譯,將翻譯源語言設置為中文、譯文語言設置為英文;第二輪回譯,將翻譯源語言設置為英文、譯文語言設置為中文。導游投訴文本的回譯增強示例如圖1所示。

        圖1 回譯增強示例

        2 基于EDA和回譯的混合增強方法

        EDA文本增強方法和回譯文本增強方法都是常見的且效果不錯的文本增強方法,但這兩種方法互相獨立。該文將兩種方法結合起來,對導游投訴文本進行混合增強,即將兩種方法得到的增強文本數(shù)據(jù)混合在一起作為新的訓練數(shù)據(jù),以獲得更多的訓練數(shù)據(jù)和文本特征,因此在后續(xù)的導游違規(guī)行為識別任務中可以取得更好的準確率。基于EDA和回譯的混合增強方法將導游投訴文本分別送入EDA模塊和回譯模塊,兩個模塊相互獨立,可以并行執(zhí)行,其組成如圖2所示。

        圖2 基于EDA和回譯的混合增強方法

        針對混合增強方法的EDA模塊,每次迭代將輸入的一條導游投訴文本進行分詞,根據(jù)參數(shù)naug,使四個操作函數(shù)(插入、刪除、同義詞修改、交換詞語位置)分別執(zhí)行naug/4次。例如當naug的值為8時,四個操作函數(shù)分別執(zhí)行2次,1條原始文本便可以生成得到8條新文本。EDA模塊的插入和同義詞修改操作都使用了同義詞預測工具,通過Synonyms中文近義詞工具包來實現(xiàn)。EDA模塊將四種操作得到的增強文本混合并打亂順序作為輸出結果,并結束一次迭代。遍歷所有導游投訴文本,便可以得到增強后的導游違規(guī)投訴語料。同時,考慮到naug參數(shù)對最終增強效果的影響,參數(shù)選取過大可能導致過擬合,因此需要以4為倍數(shù)設置naug參數(shù)并對比不同naug取值的增強效果,從中選取最優(yōu)取值。

        針對混合增強方法的回譯模塊,每次迭代將一條導游投訴文本翻譯源語言設置為中文、譯文語言設置為英文,翻譯得到英文的投訴文本。再將英文投訴文本輸入到回譯流程中,將翻譯源語言設置為英文、譯文語言設置為中文,得到回譯模塊的輸出結果。例如,輸入“隨意更改行程,壓縮游覽時間”這段原始導游投訴文本,經(jīng)過漢譯英回譯模塊,得到中間語句“Feel free to change itinerary and reduce tour time”,接著將中間語句輸入進英譯漢回譯模塊,最終輸出得到回譯文本“隨意更改行程,縮短游覽時間”。1條原始文本可以生成1條新的文本。遍歷所有導游投訴文本,便可以得到增強后的導游違規(guī)投訴語料。

        文中混合增強方法的EDA模塊和回譯模塊可以并行操作,若EDA模塊耗時為t1,回譯模塊耗時為t2,若t1>t2,則文中混合增強方法總耗時為t1,否則總耗時為t2;兩個模塊返回增強后的導游投訴語料后,混合得到最終的導游投訴增強文本。

        3 混合文本增強方法在導游違規(guī)行為識別系統(tǒng)中的應用

        實驗的硬件環(huán)境為一臺CPU為2.9 GHz雙核Intel Core i5、內(nèi)存為8 GB的macOS操作系統(tǒng)計算機,軟件編程語言為Python和JavaScript。

        導游違規(guī)行為識別是一個文本多分類任務,其中導游違規(guī)行為分為五類:

        (1)強迫購物或消費;

        (2)更改或終止行程;

        (3)餐飲或住宿違規(guī);

        (4)導游無資質或無導游證;

        (5)毆打辱罵。

        將Word2Vec[11]作為文本表示,使用梯度提升決策樹(LightGBM[12])分類算法對導游投訴文本進行識別和分類,識別出導游投訴本文最大可能性的導游違規(guī)行為。導游違規(guī)行為識別步驟包括:數(shù)據(jù)收集、數(shù)據(jù)增強、文本預處理、分類器訓練、分類效果評估,如圖3所示。

        3.1 數(shù)據(jù)收集

        導游違規(guī)行為識別的訓練數(shù)據(jù)是有標簽的導游投訴文本,來源于人民網(wǎng)旅游投訴平臺,包含游客對酒店、航空、旅行社、導游等方面的投訴,實驗對平臺中關于導游的投訴文本數(shù)據(jù)進行了爬取,共獲得757條投訴文本,再根據(jù)導游違規(guī)行為類別對投訴文本打標簽。

        圖3 導游違規(guī)行為識別的步驟

        3.2 數(shù)據(jù)增強

        為了驗證基于EDA和回譯的導游投訴文本混合增強方法對提升導游違規(guī)行為識別準確率的有效性,進行了四組實驗,實驗文本數(shù)據(jù)分別采用原投訴數(shù)據(jù)組、EDA文本增強組、回譯文本增強組和文中的混合增強組。實驗還測試了不同參數(shù)對EDA方法增強效果的影響,通過調(diào)整文本增強參數(shù)naug,得到最優(yōu)的增強效果時的參數(shù)取值,并將該參數(shù)取值作為EDA方法的基準。

        3.3 文本預處理

        導游違規(guī)行為識別系統(tǒng)使用了Word2Vec詞嵌入方法作為文本表示方法,可以捕獲詞語的語義和句子中詞語的順序,這些都是離散表示方法(如詞袋模型、N-Gram)不具備的。實驗爬取了“旅游新聞網(wǎng)”的旅游新聞語料,并使用旅游新聞語料構建了面向旅游領域的詞嵌入模型,以得到更為準確的導游違規(guī)行為投訴文本表示信息。

        得到供Word2Vec模型訓練的旅游新聞語料后,對訓練語料使用分詞工具jieba進行分詞,再使用Gensim庫提供的Word2Vec工具進行模型訓練,步驟如下:

        (1)將分詞后的語料轉為one-hot編碼的向量作為輸入;

        (2)根據(jù)參數(shù)進行詞語的遍歷;

        (3)訓練模型得到隱藏層權重矩陣和詞向量。

        3.4 分類器訓練

        導游違規(guī)行為識別系統(tǒng)采用LightGBM分類算法。LightGBM通過基于梯度的單邊采樣(GOSS)排除很大比例的小梯度的樣本來進行信息增益計算,相對于更大梯度的數(shù)據(jù)樣本,小梯度樣本通常在計算信息增益時的作用不大,GOSS的目標是不使用全部數(shù)據(jù)規(guī)模獲得精準的信息增益估計。LightGBM使用獨有特征打包(EFB)將多個獨有特征進行打包以減少特征數(shù)量,找到最優(yōu)的獨有特征進行打包,這是一個NP難的問題,可以用貪心算法達到相當好的近似,既可以有效減少特征數(shù)量,又沒有降低分裂點的決策精度。

        3.5 分類效果評估

        導游違規(guī)行為識別是一個多分類任務,評估分類效果有四個預測結果:TP(真正例)、FP(假正例)、TN(真負例)、FN(假負例),常見的評估指標有精確率(precision)、召回率(recall)、F1-score,其公式分別為:

        (1)

        (2)

        (3)

        F1-score是調(diào)節(jié)精確率和召回率的綜合指標[13],常用于評估二分類問題。在多分類任務中,將n分類的評估拆成n個二分類的評估,常用的評估指標有Macro F1[14](計算每個二分類的F1-score,n個F1-score的平均值即為Macro F1)和Micro F1[15](將n個二分類評價的TP、FP、FN對應相加,計算準確率和召回率,這樣計算得到的F1-score即為Micro F1)。一般而言,Macro F1、Micro F1越高的分類效果越好,而Macro F1受樣本數(shù)量少的類別影響大,考慮到數(shù)據(jù)集存在數(shù)據(jù)不平衡的問題,因此采用Micro F1作為本實驗的評估指標。

        3.6 實驗結果分析

        該實驗首先進行文本增強參數(shù)naug對EDA方法的增強效果評價,以得到最優(yōu)增強效果的naug取值,實驗結果如表2所示。由實驗結果可知,參數(shù)naug從4倍到8倍再到16倍時準確率依次提升,但到32倍時準確率卻低于16倍時的準確率,原因可能是發(fā)生了過擬合。naug取值對文本增強的性能影響如圖4所示,其中的性能提升率是使用數(shù)據(jù)增強方法相對于原始數(shù)據(jù)在導游違規(guī)行為識別的Micro F1值的提升百分比。因此,參數(shù)naug為16時,EDA方法的增強效果最優(yōu),后續(xù)實驗將其作為文中混合文本增強方法的參數(shù)naug取值。

        表2 naug對EDA增強效果的影響

        圖4 naug對EDA文本增強性能提升率的影響

        實驗對四種文本增強方法在導游違規(guī)行為識別的Micro F1指標以及增強后的文本條數(shù)進行了比較,如表3和圖5所示。EDA組、回譯組、混合組比原始投訴數(shù)據(jù)組分別提升了6.2%、5.6%、7.4%,這說明使用文本增強方法對于提升導游違規(guī)行為識別的準確率都是有效的。對比EDA組和回譯組,基于EDA的文本增強方法比基于回譯的文本增強方法在導游違規(guī)行為識別準確率上提升了1.4%,說明EDA方法能夠提供更多特征。對比三種文本增強方法,從實驗結果可知,文中混合增強方法應用于導游違規(guī)行為識別中使準確率達到了87.54%,相對于原始數(shù)據(jù)集精度提升了7.4%,同時也優(yōu)于其他兩種文本增強方法。

        表3 原始數(shù)據(jù)組和三種文本增強方法的實驗結果

        圖5 原始數(shù)據(jù)組與三種文本增強方法的 Micro F1對比

        4 結束語

        使用機器學習、自然語言處理等技術對導游投訴文本進行違規(guī)行為識別,有助于旅游市場的智慧監(jiān)管,節(jié)省了旅游監(jiān)管的人力物力,還可以幫助消費者規(guī)避風險、提高旅游體驗。但導游投訴文本語料單一、獲取困難,針對這一問題,提出了一種基于EDA和回譯的導游投訴文本混合增強方法,從EDA和回譯兩個角度對導游投訴文本進行數(shù)據(jù)增強,并將返回的增強語料進行混合得到最終的增強文本數(shù)據(jù)集,并且在實際的導游違規(guī)行為識別系統(tǒng)中進行了應用與驗證。

        實驗結果表明,該方法比傳統(tǒng)的EDA文本增強方法和回譯文本增強方法具有更好的準確率提升性能,相比原始導游投訴數(shù)集,在導游行為識別準確率上提高了7.4%?;贓DA和回譯的導游投訴文本混合方法適合于數(shù)據(jù)量較少的分類任務,具有較高的實用價值。

        猜你喜歡
        分類文本方法
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产69精品一区二区三区| 久久久国产打桩机| 国内精品伊人久久久久影院对白| 久久噜噜噜| 国产白浆流出一区二区| av影片在线免费观看| 亚洲avav天堂av在线网毛片| 自拍偷自拍亚洲精品播放| 午夜一区二区三区av| 国产一级黄色录像大片| 国产精品泄火熟女| 成年人黄视频大全| 蜜桃视频在线免费观看一区二区| 自拍偷自拍亚洲一区二区| 精品视频手机在线免费观看| 久久精品丝袜高跟鞋| 国产内射999视频一区| 亚洲国产一区二区三区在线视频| 精品中文字幕精品中文字幕 | 亚洲不卡中文字幕无码| 国产午夜精品美女裸身视频69| 一区二区在线观看日本视频| 好男人社区影院www| 五月天综合在线| 国产一区二区三区日韩精品| 国产一区二区自拍刺激在线观看| 大肉大捧一进一出视频出来呀| 日本一区二区啪啪视频| 成人爽a毛片免费网站中国| 成 人片 黄 色 大 片| 抽搐一进一出试看60秒体验区| 91精品国产综合久久青草| 青青草手机在线免费观看视频| 免费观看的av毛片的网站| 国产精品大屁股1区二区三区| 久久精品国产亚洲av夜夜| 中文字幕日韩人妻在线视频 | 午夜短无码| 国产精品高湖呻呤久久av| 国产精品免费av片在线观看| 久久网视频中文字幕综合|