亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT與Milvus的電力客服識圖智問方法

        2022-10-31 06:28:42國網(wǎng)河南信通公司何軍霞河南九域騰龍信息工程有限公司
        電力設(shè)備管理 2022年17期
        關(guān)鍵詞:文本模型系統(tǒng)

        國網(wǎng)河南信通公司 何軍霞 河南九域騰龍信息工程有限公司 馮 楠 蘇 斌 楊 光

        在電力客服行業(yè)中,隨著人工智能的快速發(fā)展,知識圖譜已經(jīng)廣泛地使用在各個電力系統(tǒng)的客服中,通過系統(tǒng)本體、關(guān)鍵字本體以及問答本體,將不同系統(tǒng)的知識緊密地聯(lián)系在一起,并且可視化的效果也帶來了眼前一亮的效果。通過知識圖譜可基本上解決客服中的各種問題,而且當(dāng)使用者使用一定時間后還可實現(xiàn)推薦的功能,但是在電力行業(yè),復(fù)雜的系統(tǒng)頁面各種操作以及報錯信息,如果使用傳統(tǒng)的知識圖譜問答系統(tǒng),還需要根據(jù)面對的情況按照自己的理解表達(dá)成文本,才能夠使用客服系統(tǒng)。

        于是就出現(xiàn)了識圖智能問答系統(tǒng),針對的知識體系還是同一套,新增了圖片知識節(jié)點,每個圖片都需要和已有的問答對進(jìn)行匹配,使用Milvus 作為向量庫對文本和圖片數(shù)據(jù)進(jìn)行存儲,之所以選擇Milvus,是因為圖片向量生成以及匹配需要一定的時間,而通過向量數(shù)據(jù)庫就可將文本以及圖片向量預(yù)先存儲好,在進(jìn)行向量檢索時的速度就特別快,從而提升了識圖智問的效率。本次研究將提供一種基于BERT+Milvus+OCR 的框架,實現(xiàn)文本、圖片知識的獲取與存儲,以及快速匹配的識圖智問方法。

        1 相關(guān)理論技術(shù)與研究

        Bert(Bidirectional Encoder Representation from Transformers)是一個語言表征模型。以往的語言模型是單向的,或者是把兩個獨立的單向語言模型反向拼接到一起來進(jìn)行預(yù)訓(xùn)練,而Bert 是采用新的Mask 機制(MLM),可使得模型理解上下文的語言表征,一經(jīng)發(fā)布就在11個NLP 任務(wù)中成為SOTA,令人驚訝。該模型有以下主要優(yōu)點:引入Masked LM(帶mask 機制的語言模型訓(xùn)練),以生成深層的雙向語言表征;引入Next Sentence Prediction,更好的服務(wù)問答、推理、句主題關(guān)系等NLP 任務(wù);便于fine-tune,因為在每個模型層中都可獲取到對應(yīng)的狀態(tài),下游任務(wù)根據(jù)不同的模型層疊加可實現(xiàn)各種任務(wù),這就使得在這整個微調(diào)過程當(dāng)中不需要修改模型的特定結(jié)構(gòu)。

        OCR[1](Optical Character Recognition)叫做光學(xué)字符識別。它利用計算機技術(shù)以及光學(xué)技術(shù),讀取紙上印刷或書寫的文字,并將其轉(zhuǎn)換成人們能夠理解、且計算機也能夠接受的格式。圖片文字抽取是計算機視覺任務(wù)之一,也已經(jīng)相對比較成熟,在商業(yè)上也有不少落地項目。

        Milvus 是建立在Annoy、NMSLIB、Faiss 等向量索引庫基礎(chǔ)上的一款向量相似度搜索引擎,其易于使用、可靠、功能強大以及穩(wěn)定。Milvus 集成了一些向量相似計算方法以及向量索引庫,并且對外提供了檢索API,不僅可實現(xiàn)快速的檢索,還能夠?qū)V掉非向量數(shù)據(jù)。當(dāng)數(shù)據(jù)達(dá)到一定規(guī)模、達(dá)到大數(shù)據(jù)概念時,Milvus 也能提供集群解決方案。

        本次研究涉及的是一種基于BERT+Milvus+OCR 圖片文本特征表示庫架構(gòu)的電力客服數(shù)據(jù)識圖智問方法,解決了通過報錯頁面截圖抽取知識及向量快速檢索問答,旨在從電力系統(tǒng)中截取出現(xiàn)提示或者報錯的頁面,以及操作手冊中文本和圖片信息,創(chuàng)建問題集合、答案集合以及向量表示集合,使用Milvus 存儲電力客服知識。

        該方法步驟:收集內(nèi)網(wǎng)郵箱系統(tǒng)的操作手冊、問題手冊及系統(tǒng)頁面截圖;讀取word 文檔數(shù)據(jù),包括問答數(shù)據(jù)以及圖片數(shù)據(jù);對內(nèi)網(wǎng)郵箱系統(tǒng)問答數(shù)據(jù)與圖片實現(xiàn)一一匹配,形成結(jié)構(gòu)化數(shù)據(jù);基于OCR[2]對圖片進(jìn)出文字識別抽??;使用BERT 模型,微調(diào)實現(xiàn)提取內(nèi)網(wǎng)郵箱系統(tǒng)文本數(shù)據(jù)的語義特征;基于SimBert 實現(xiàn)問答對于圖片知識表示的同一空間映射,形成識圖智問語義相似匹配模型;基于Milvus 將文本與圖片特征表示數(shù)據(jù)存儲至向量數(shù)據(jù)庫。該方法可有效地解決從海量的數(shù)據(jù)中快速匹配問答對的問題,提升圖片與文本相似的準(zhǔn)確率,最終提升識圖智問性能。

        隨著計算機的發(fā)展,已從工業(yè)時代進(jìn)入了信息時代。而在這個數(shù)據(jù)滿天飛的時代,如何整理以及有效利用數(shù)據(jù)變得越來越重要。通過整理好的數(shù)據(jù)及自然語言處理技術(shù)的加持,可實現(xiàn)多種多樣的功能,有數(shù)據(jù)分析、數(shù)據(jù)推薦、數(shù)據(jù)推理等落地場景。在電力行業(yè)中,客服系統(tǒng)是其對外的重要窗口,是一個重要的組成部分,為提高客服使用效率和達(dá)標(biāo)質(zhì)量,相關(guān)部門近年來也一直在電力客服的建設(shè)中增加投入。

        傳統(tǒng)電力客服采用的是人工的形式,在面對用戶提問時,人工座席可根據(jù)自己的豐富經(jīng)驗或者查詢對應(yīng)的問題手冊來回答一系列提問題。這也帶來一系列的問題,如簡單問題機械化,復(fù)數(shù)次數(shù)多容易導(dǎo)致出錯;專業(yè)的座席需要時間培養(yǎng);24小時座席在線需要多人參與等問題。隨著自然語言處理技術(shù)的發(fā)展,智能客服很快就衍生出來了,并得到了越來越多的研究與關(guān)注,智能客服可代替人工座席來回答一些簡單、高頻率的問題,這樣有助于減少座席的工作量和去除機械化思維,從而有時間可去解決更復(fù)雜的問題,同時智能客服機器人可輕松實現(xiàn)24小時全天滿狀態(tài)服務(wù)。

        通過以上這些優(yōu)勢,智能客服明顯能夠提高電力行業(yè)客服的效率,并且減輕座席工作壓力,另一方面提高客戶滿意度。在每行每業(yè)融入深度學(xué)習(xí)技術(shù)都可實現(xiàn)一套智能客服系統(tǒng),并且有了一定的行業(yè)規(guī)范標(biāo)準(zhǔn),大致就是通過提取與用戶對話的語義與特征使用文本相似度或者文本分類的方法,在知識庫中匹配到相對應(yīng)的問題與答案,其中知識庫有的使用的是關(guān)系型數(shù)據(jù)庫,而現(xiàn)在流行使用的是知識圖譜來進(jìn)行存儲。

        但是隨著數(shù)據(jù)的多元化,用戶在詢問問題時,大多數(shù)面對的并不是一種文本形式的數(shù)據(jù),比如一個系統(tǒng)的報錯信息提示頁面,如果不熟悉這個系統(tǒng)的話,用戶并不能夠?qū)⑦@樣的信息轉(zhuǎn)換為有效文本形式去詢問智能客服,所以就提出了識圖智問客服系統(tǒng),就是通過上傳一張問題圖片來匹配與之相似的問題,從而達(dá)到問題詢問的功能。

        本研究主要針對電力系統(tǒng)中的內(nèi)網(wǎng)郵箱系統(tǒng),主要整理的是業(yè)務(wù)系統(tǒng)的操作手冊說明書及系統(tǒng)頁面的報錯信息截圖,以達(dá)到在客服中可利用的程度。對于現(xiàn)有的文字智能客服機器人,可很好地從用戶的提問中獲取關(guān)鍵信息,并檢索知識庫,及時反饋給用戶答案。但是在一定場合情況下,用戶通過一張系統(tǒng)頁面截圖來進(jìn)行知識問答,這就需要用到人工智能中更多的算法來實現(xiàn)。針對這類問題,將操作手冊梳理成知識庫,并將文檔中圖片以及系統(tǒng)截圖相匹配,配合文本相似度、OCR 等算法就可實現(xiàn)識圖智問,在用戶面對系統(tǒng)報錯信息頁面時,不需要將其轉(zhuǎn)換成問題話術(shù),直接截圖就可實現(xiàn)問答。

        2 相關(guān)研究及應(yīng)用

        2.1 PaddleOCR 圖片識別文字

        PP-OCR 是PaddlePaddle 提出的一種超輕量級OCR 系統(tǒng),在很多領(lǐng)域都特別實用,是由文本檢測、檢測框校正、文本識別三個部分組成。

        文字檢測器:在圖像中的文本區(qū)域?qū)崿F(xiàn)定位是文本檢測的目的。PP-OCR 中文本檢測器是基于可微分二值化(DB)簡單分割網(wǎng)絡(luò)來實現(xiàn)的,這就使得文字檢測器非常高效。

        方向分類器:在檢測框可更正檢測到的文本之前,需要將文本框轉(zhuǎn)換為水平矩形,以便之后進(jìn)行文本識別。因為檢測幀是通過四個點來組成的,這就使得它可很方便通過幾何變換來實現(xiàn)得到,但是在矯正之后的盒子還可能會被翻轉(zhuǎn)過來,所以需要一個方向分類器來確定方向。如果可確定其中的一個方框是反的,說明就需要進(jìn)行翻轉(zhuǎn)。

        文字識別器:使用CRNN 作為文本識別器,廣泛應(yīng)用在圖像文本識別領(lǐng)域中。CRNN 對特征提取和序列建模進(jìn)行了融合,并且采用了CTC 的損失,所以可有效地避免預(yù)測與標(biāo)注不一致的問題。

        這三種識別器為了提高模型的效率、有效性、能力以及存儲大小,各自采用了一系列的策略來實現(xiàn),分別是:輕頭部、輕骨架、去SE(去除后,模型大小減半)、學(xué)習(xí)率預(yù)熱、余弦學(xué)習(xí)率衰減(文本識別能力得到有效地提高)、FPGM 剪枝;數(shù)據(jù)增強、輕骨架、PACT 量化、輸入分辨率;PACT 量化、輕主干、數(shù)據(jù)增強、正則化參數(shù)、余弦學(xué)習(xí)速率衰減、預(yù)訓(xùn)練模型(ImageNet)、學(xué)習(xí)率預(yù)熱、輕頭部、特征圖解析。

        2.2 BERT 文本相似度

        基于Bert 的文本相似度模型,是在Bert 網(wǎng)絡(luò)的中最后再疊加一層全連接神經(jīng)網(wǎng)絡(luò)。由于預(yù)訓(xùn)練模型需要大量的時間和資源,因此直接使用了開源的權(quán)重,對Bert 進(jìn)行微調(diào),輸入為兩個句子,使用【sep】隔開,輸出層使用Sigmoid 作為激活函數(shù),在整個過程中,不需要修改模型的特定結(jié)構(gòu)。

        圖1 基于Bert 的文本相似度模型

        輸入層:將句子輸入到模型中,兩個句子拼接在一起;字詞列表:相當(dāng)于one-hot,將字與id綁定起來;Bert 層:使用Bert 模型來替代嵌入層,由于Transformer 中Mask 機制,所有Bert 可 更好地融貫句子中上下文語義,這里使用的是768維度的向量表示;輸出層:將經(jīng)過Bert 的句向量【cls】輸入到Sigmoid 層,將變量映射到0,1之間,通過設(shè)置閾值來判定是否相似。

        2.3 BERT+OCR+Milvus 識圖智問框架研究

        本文的識圖智問項目使用Milvu 整體架構(gòu)如圖2所示。

        圖2 Milvu 整體架構(gòu)

        OCR 圖片文字識別服務(wù)搭建,使用paddleocr和flask 來實現(xiàn),此服務(wù)將在這個框架中可自由支配調(diào)用。數(shù)據(jù)前期準(zhǔn)備時,將已有的所有圖片抽取成文本格式進(jìn)行存儲;Bert 句子編碼器服務(wù)搭建,使用falsk 將bert 共同實現(xiàn),將已有所有問題以及圖片信息轉(zhuǎn)化為768位的特征向量,并導(dǎo)入Milvus 中。

        在Milvus 庫中建立系統(tǒng)集合,每個集合代表一個系統(tǒng),而存入的特征向量會分配一個唯一ID,將集合、ID 和對應(yīng)的系統(tǒng)、問題對存儲在neo4j 圖數(shù)據(jù)庫中,圖數(shù)據(jù)庫可很好的可視化問題之間的關(guān)系;用戶輸入一張圖片,系統(tǒng)會將這個圖片通過OCR 模塊轉(zhuǎn)換成文本形式。再通過Bert 模型獲取到文本的向量特征表示,去Milvus 庫中進(jìn)行向量檢索,得到最相似的問答對ID,通過這個ID 去知識圖譜中查找對應(yīng)的答案。

        2.4 向量存儲庫的應(yīng)用

        Milvus 向量數(shù)據(jù)庫可廣泛應(yīng)用在各行各業(yè),并且面對的數(shù)據(jù)量可是百萬級別的,檢索速度快,應(yīng)用場景如下。圖片檢索:以圖搜圖,檢索海量數(shù)據(jù)庫,即時返回相似圖片;視頻檢索:將視頻轉(zhuǎn)為向量存儲至Milvus 中,可實現(xiàn)視頻的相似比對,進(jìn)行實時視頻推薦;音頻檢索:檢索海量語音、音樂、音效和其他音頻數(shù)據(jù),并返回類似的音頻數(shù)據(jù);分子式檢索:快速檢索相似化學(xué)分子結(jié)構(gòu)、子結(jié)構(gòu)等;DNA 序列分類:通過比較相似的DNA 序列,可在短時間內(nèi)對基因進(jìn)行精確分類。

        綜上,隨著互聯(lián)網(wǎng)的發(fā)展,人工智能在客服領(lǐng)域中發(fā)揮的作用越來越重,從最初的簡單檢索到知識圖譜檢索問答,延伸出智能問答推薦以及識圖智問等功能。對用戶來說,智能客服越來越便捷、問答的方式也越來越便捷。本文研究的是針對內(nèi)網(wǎng)郵箱系統(tǒng)實現(xiàn)識圖智問的功能,為電力行業(yè)帶來一些新的發(fā)展思路。在這個云計算、大數(shù)據(jù)、深度學(xué)習(xí)等前沿科技迅速發(fā)展的潮流下,多元化的數(shù)據(jù)也在一步步進(jìn)行融合,這些整合到一塊兒的數(shù)據(jù)可實現(xiàn)更多的功能,在人們生活場景當(dāng)中也有更多落地的方向,相信在未來像這樣多元化數(shù)據(jù)的智能客服研究能夠有更多的突破和創(chuàng)新!

        猜你喜歡
        文本模型系統(tǒng)
        一半模型
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        3D打印中的模型分割與打包
        国产精品自产拍在线观看中文| 亚洲av无码一区二区乱子仑| 国产精品乱一区二区三区| 日本精品网| 亚洲中文字幕高清乱码毛片| 青草久久婷婷亚洲精品| 日韩有码中文字幕在线观看| 欧美日韩国产精品自在自线| 久青草久青草视频在线观看| 99精品成人片免费毛片无码| 国产一区二区精品久久呦| 电驱蚊液可以插一晚上吗| 米奇7777狠狠狠狠视频影院| 看黄网站在线| 少妇被爽到自拍高潮在线观看| 在线观看一区二区三区国产 | 婷婷四虎东京热无码群交双飞视频| 日本午夜精品一区二区三区电影 | 人妻少妇精品系列一区二区| 色偷偷亚洲精品一区二区| 亚洲一区二区三区少妇| 少妇被粗大的猛进出69影院| 国产乱人伦在线播放| 911香蕉视频| 亚洲一区二区三区在线观看蜜桃| 美女视频在线观看网址大全| 99久久无色码中文字幕人妻蜜柚| 丰满人妻在公车被猛烈进入电影| 亚洲国产剧情在线精品视| 日本高清一区二区三区色| 久久精品国产亚洲av麻豆会员| 幻女bbwxxxx在线视频| 国产黄色片在线观看| 免费在线观看一区二区| 亚洲国产一区中文字幕| 精品久久久久久综合日本| 久久99精品国产麻豆宅宅| 最好看2019高清中文字幕视频| 国产一级r片内射免费视频| 麻神在线观看免费观看| 亚洲欧美综合区自拍另类|