亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞向量模型的95598工單文本挖掘

        2017-12-19 07:57:18國網(wǎng)山東省電力公司電力科學研究院謝季川宗振國劉宏國張春秋
        電子世界 2017年23期
        關(guān)鍵詞:分類文本模型

        國網(wǎng)山東省電力公司電力科學研究院 謝季川 宗振國 劉宏國 張春秋 田 曉

        基于詞向量模型的95598工單文本挖掘

        國網(wǎng)山東省電力公司電力科學研究院 謝季川 宗振國 劉宏國 張春秋 田 曉

        本文結(jié)合電力工單特點,提出運用神經(jīng)網(wǎng)絡語言模型進行文本挖掘,使用word2vec方法對電力工單文本進行訓練,生成電力工單詞向量。在電力工單詞向量的基礎上,作為其他模型的輸入,實現(xiàn)對電力工單進一步的文本挖掘分析,幫助客服人員了解客戶訴求,提供更優(yōu)質(zhì)便捷的服務。

        95598工單;神經(jīng)網(wǎng)絡語言模型;詞向量;文本分類

        1.引言

        95598客服中心作為電網(wǎng)公司與客戶交流的窗口,每天都要處理大量來自客戶的訴求,形成大量的工單文本數(shù)據(jù)。目前,針對電力工單數(shù)據(jù)的文本挖掘已經(jīng)取得進展,但在方法上仍有可以改進之處。本文通過分析電力工單文本挖掘的現(xiàn)狀,結(jié)合前沿技術(shù),提出運用神經(jīng)網(wǎng)絡語言模型對工單文本進行訓練,形成詞向量。在詞向量的基礎上,作為其他模型的輸入,實現(xiàn)進一步的文本挖掘分析,如電力領(lǐng)域詞典、工單分類等功能,幫助客服人員了解客戶訴求,提供更優(yōu)質(zhì)便捷的服務。

        2.電力工單文本挖掘現(xiàn)狀

        當前電力工單文本挖掘(Text Mining)主要有語料分析、文本分類(Text classification)兩方面,如客戶訴求分析、客戶滿意度預測[3],電力標簽特征詞典、工單自動分類[4]。文本挖掘最基礎的環(huán)節(jié)就是文本表示,電力工單的文本表示多采用LDA主題模型進行特征提取。主題模型可以實現(xiàn)有效的降維,發(fā)現(xiàn)文檔的潛在主題,但是主題模型需要大量的樣本進行學習,訓練難度大并且非常耗時,影響了分類的效率[2],而且無法捕捉詞與詞之間的共現(xiàn)關(guān)系。因此本文采用神經(jīng)網(wǎng)絡語言模型進行訓練得到詞向量,在詞向量的基礎上進行相應文本挖掘。

        3.詞向量模型

        詞向量(word embedding)將每個詞映射成一個固定長度的短向量,既能夠降低維度,又能夠把詞與上下文的聯(lián)系體現(xiàn)出來。詞向量可以通過神經(jīng)網(wǎng)絡訓練語言模型可以得到。神經(jīng)網(wǎng)絡語言模型(NNLM)由Bengio 等人于2001年正式提出[6],2013年,Mikolov 等人提出了 CBoW( Continuous Bagof-Words)和 Skip-gram 模型。CBoW的優(yōu)化目標是:給定詞序列w1,w2,w3,…,wt,最大化下式,

        其中,P(wt|wt?c,…wt?1,wt+1…wt+c)采用log-linear(Softmax)模型用于正確分類當前詞,通過用t-n+1…t-1,t+1,…t+n-1的word作為輸入,目標是正確分類得到第t個word。

        而Skip-gram模型相反,通過輸入為當前word,經(jīng)過projection的特征提取去預測該word周圍的C個詞,給定詞序列w1,w2,w3,…,wt,最大化下式:

        其中,c是上下文的大小,P(wt+j|wt)采用softmax方程,vw和vTw為對應的輸入和輸出詞向量。

        本文使用的Word2vec便由Google公司依據(jù)這兩種模型實現(xiàn),在輸出層采用Huffman 編碼計算層次Softmax,具有模型簡單、訓練速度快的特點。

        4.電力工單詞向量

        對電力工單進行文本挖掘,屬于特定領(lǐng)域挖掘,沒有現(xiàn)成的詞向量,因此首先是要訓練生成電力工單領(lǐng)域詞向量。本文使用Word2Vec進行訓練,主要流程有文本預處理、模型訓練、輸出詞向量,其中文本預處理包括工單文本收集、文本分詞兩步,而模型訓練的同時,更新電力特征詞庫反饋提升文本分詞的效果。

        4.1 文本預處理

        在進行模型訓練之前,需要對工單文本進行預處理,主要包含工單文本收集、文本分詞、特征詞庫處理。

        4.1.1 工單文本收集

        目前營銷系統(tǒng)內(nèi)工單主要被分為故障報修、業(yè)務咨詢、服務申請、投訴舉報等12大類,每一大類又分為二級子類、三級子類。

        將工單受理內(nèi)容整理到文本中,每一行代表一個工單。工單受理內(nèi)容主要形式是“問題總結(jié)+描述”,例如“【電能表異?!靠蛻魜黼姺从?,戶號為06157*****的電能表異常顯示?,F(xiàn)申請對電表進行現(xiàn)場檢查,請相關(guān)工作人員核實處理”,為大類為“服務申請”類型的工單受理內(nèi)容。因此下一步進行分詞,需要考慮去除停用詞以及電力領(lǐng)域自身特點。

        4.1.2 文本分詞

        本文分詞屬于特殊領(lǐng)域的分詞,采用jieba分詞對文本工單句子進行分詞,形成電力工單語料庫。在分詞是需要結(jié)合電力領(lǐng)域詞典取得更好效果,同時工單受理內(nèi)容存有大量無用信息,可利用停用詞進行處理。如上面提到的工單文本內(nèi)容直接用jieba分詞后根據(jù)詞性以及停用詞處理后如下“電能表異??蛻?來電反映戶號電能表異常顯示申請電表進行現(xiàn)場檢查相關(guān)工作人員核實處理”,如“現(xiàn)場檢查”屬于電力領(lǐng)域的特殊詞匯可以通過加入電力特征詞典進行處理。前期我們通過專家經(jīng)驗初步形成一個簡單詞典但并不完善,而Word2vec最大的特點恰好就是對于詞性的判斷,在詞向量完成訓練的同時可以根據(jù)結(jié)果不斷對電力工單特征詞典的進行補充。

        4.1.3 模型訓練

        將經(jīng)過分詞處理的工單文本利用Python工具包Gensim中的Word2vec模型進行訓練,Word2vec主要參數(shù)為sg-設置訓練算法,size-特征向量的維度,window-上下文窗口最大距離,alpha-學習速率,min_count-字典做截斷,詞頻小于不計算等。模型訓練完成后,得到vectors.bin這個模型文件。vectors.bin這個文件就是文檔中詞語和其對應的向量,向量維度就是之前設置的,本次設置為50維。結(jié)果如圖1所示:

        圖1 詞向量表示圖

        5.詞向量應用

        在詞向量的基礎上結(jié)合其他方法,進行進一步的文本挖掘,可以應用到電力領(lǐng)域工單詞典構(gòu)建,也可以作為SVM等分類模型的輸出對工單進行分類。

        5.1 電力工單詞典

        電力領(lǐng)域工單詞典前期通過專家經(jīng)驗總結(jié)產(chǎn)生,后面可以通過詞向量找尋與已有詞匯相似的詞補充加入到電力工單詞典中,不斷豐富詞典內(nèi)容。Word2vec本身提供distance的應用,讀取模型文件中每一個詞和其對應的向量,計算所輸入query的詞,與其他所有詞語的cosine相似度,兩個詞相似度超過閾值便被補充到詞典中,不斷豐富點力領(lǐng)域工單詞典內(nèi)容。

        5.2 電力文本工單分類

        電力文本工單分類,屬于監(jiān)督學習。根據(jù)之前人工分類結(jié)果作為依據(jù),構(gòu)建分類模型。因為文本工單分類需以語句為最小單位作為輸入,所以采用根據(jù)詞頻進行賦權(quán)對語句中詞向量相加,來表示句子,構(gòu)造輸入向量,保證向量維度,再結(jié)合SVM進行構(gòu)建多分類文本模型。但是這樣做忽略了單詞之間的排列順序即上下文的影響,在文本短時有不錯效果。為處理可變長度文本的總結(jié)性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一個段落向量以外,這個方法幾乎等同于 Word2Vec。因此可以利用電力工單預料庫,利用Doc2vec進行段落向量,直接作為SVM多分類的輸入進行訓練分類,構(gòu)建分類模型,進行文本工單分類。

        6.結(jié)語

        本文完整描述了運用神經(jīng)網(wǎng)絡語言模型對電力工單文本訓練,形成電力詞向量,并在電力詞向量的基礎上進行更多進一步的文本挖掘的過程,豐富電力文本挖掘分析的方法。但運用詞向量在電力領(lǐng)域進行深入文本挖掘的效果方面,如工單分類的準確率,需要進一步研究與提升。

        [1]閆琰.基于深度學習的文本表示與分類方法研究[D].北京科技大學, 2016.

        [2]馮貴川.基于Word2vec的文本建模及分類研究[D].深圳大學,2016.

        [3]何薇,張劍,于雪霞,吳佐平,張小華,陳晨.基于文本挖掘的電網(wǎng)客戶服務滿意度評價模型[J].電子世界,2017,(07):81+83.

        [4]王震,代巖巖,陳亮,林曉蘭.基于LDA模型的95598熱點業(yè)務工單挖掘分析[J].電子技術(shù)與軟件工程,2016,(22):190-192.

        [5]丁麒,莊志畫,劉東丹.基于文本數(shù)據(jù)挖掘技術(shù)的95598業(yè)務工單主題分析應用[J].電力需求側(cè)管理,2016,18(S1):55-57.

        [6]Bengio Y,Schwenk H,Senécal J S,et al.A neural probabilistic language model[J].Journal of MachineLearning Research,2003, 3(6):1137-1155.

        [7]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.

        [8]Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and theirCompositionality[J].Advances in Neural Information Processing Systems,2013,26:3111-3119.

        猜你喜歡
        分類文本模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        黑人一区二区三区高清视频| 三年在线观看免费大全下载| 亚洲av熟女少妇久久| 久久天堂综合亚洲伊人hd妓女| 亚洲有码转帖| 精品在免费线中文字幕久久| 日本高清无卡一区二区三区| 国产自拍视频在线观看网站| 色偷偷av男人的天堂| 四虎永久在线精品免费观看地址| 亚洲精品高清av在线播放| 天堂网日韩av在线播放一区| 人妻少妇久久久久久97人妻| 处破痛哭a√18成年片免费| 四虎影视国产884a精品亚洲| 日本久久久精品免费免费理论| 久久精品丝袜高跟鞋| 男人扒开女人下面狂躁小视频| 免费国产黄线在线播放| 人妖与人妖免费黄色片| 99久久无码一区人妻| 欧产日产国产精品精品| 亚洲一区二区在线视频播放| 一区二区日本免费观看| 国产精品亚洲色婷婷99久久精品 | 国产av剧情刺激对白| 久久99国产精一区二区三区| 亚洲成人日韩| 18禁美女裸身无遮挡免费网站 | 人妻熟女中文字幕av| 最美女人体内射精一区二区| 亚洲人成无码www久久久| 成人无码激情视频在线观看| 国产一区二区三区的区| 亚洲av无码成人网站在线观看| 亚洲国产精品自拍一区| 黄片午夜免费观看视频国产| 国产区女主播在线观看| 国产成人一区二区三区在线观看| 中文字幕一区韩国三级| 亚洲国产熟女精品传媒|