亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合領(lǐng)域特征知識(shí)圖譜的電網(wǎng)客服問(wèn)答系統(tǒng)

        2020-02-19 14:10:12彭云竹
        關(guān)鍵詞:語(yǔ)義文本方法

        譚 剛,陳 聿,彭云竹

        國(guó)網(wǎng)重慶市電力公司 信息通信分公司,重慶401120

        1 引言

        伴隨云計(jì)算基礎(chǔ)設(shè)施和人工智能技術(shù)的不斷成熟完善,以知識(shí)圖譜(KG)[1]為基礎(chǔ)的智能問(wèn)答系統(tǒng)逐漸應(yīng)用在電力服務(wù)等生產(chǎn)環(huán)境。問(wèn)答系統(tǒng)(QA)通過(guò)從生產(chǎn)系統(tǒng)各類數(shù)據(jù)中抽取實(shí)體、斷言等語(yǔ)義知識(shí),構(gòu)建領(lǐng)域知識(shí)庫(kù),將用戶提問(wèn)的自然語(yǔ)言轉(zhuǎn)化為知識(shí)庫(kù)中描述的實(shí)體和斷言,進(jìn)而優(yōu)化頭實(shí)體的查詢算法,提供智能問(wèn)答服務(wù)。智能問(wèn)答系統(tǒng)面向企業(yè)和個(gè)人客戶,在設(shè)備日常運(yùn)維、電力知識(shí)科普、突發(fā)事件應(yīng)急指南等方面挖掘現(xiàn)有知識(shí),為客戶提供自助服務(wù)[2]。該系統(tǒng)作為人工服務(wù)系統(tǒng)的有效補(bǔ)充,可以降低電網(wǎng)客服的人力投入和出錯(cuò)概率,對(duì)簡(jiǎn)單問(wèn)題和經(jīng)常性事件提供標(biāo)準(zhǔn)解決方案,保障服務(wù)質(zhì)量,因此一個(gè)經(jīng)過(guò)良好設(shè)計(jì)的智能問(wèn)答系統(tǒng)能夠以較低開(kāi)銷維持客戶群體,對(duì)實(shí)現(xiàn)電網(wǎng)服務(wù)的信息化、自動(dòng)化及智能化具有重要意義。

        然而,在智能電網(wǎng)客服應(yīng)用場(chǎng)景中,由于封閉性強(qiáng)、軟硬件及對(duì)應(yīng)業(yè)務(wù)更新頻繁、技術(shù)棧差異大等因素導(dǎo)致知識(shí)圖譜的構(gòu)建、維護(hù)、更新存在較大的局限性。一方面,當(dāng)前的知識(shí)圖譜研究針對(duì)固定的訓(xùn)練樣本,通過(guò)詞法與語(yǔ)法切分、關(guān)聯(lián)序列挖掘、問(wèn)題模板分類等技術(shù)手段,能夠滿足有限樣本空間下的自動(dòng)問(wèn)答需求,但不能應(yīng)對(duì)電力知識(shí)圖譜不斷更新的場(chǎng)景;另一方面,現(xiàn)有問(wèn)答系統(tǒng)會(huì)引入知識(shí)圖譜之外的網(wǎng)頁(yè)搜索和文檔、問(wèn)題檢索等其他文本信息以形成開(kāi)放知識(shí)庫(kù),從而擴(kuò)大了所屬實(shí)體和斷言集合的檢索空間,存在檢索錯(cuò)誤高、結(jié)果不準(zhǔn)確等問(wèn)題。

        因此,根據(jù)智能電網(wǎng)客服實(shí)際業(yè)務(wù)特點(diǎn),整合KG的構(gòu)建方法和各類優(yōu)化技術(shù),以構(gòu)建企業(yè)級(jí)智能電網(wǎng)客服問(wèn)答系統(tǒng),是當(dāng)前國(guó)家電網(wǎng)信息化建設(shè)的重要任務(wù)之一。現(xiàn)有基于知識(shí)圖譜的問(wèn)答系統(tǒng)距離電力行業(yè)的落地應(yīng)用仍然有較大距離?;谧匀徽Z(yǔ)言處理的方法(神經(jīng)網(wǎng)絡(luò)、主題模型等)雖然能夠較好應(yīng)對(duì)上下文語(yǔ)義、語(yǔ)言模糊性等問(wèn)題,但沒(méi)有考慮到電網(wǎng)生產(chǎn)環(huán)境的如下實(shí)際問(wèn)題:

        (1)領(lǐng)域知識(shí)圖譜構(gòu)建的可行性與擴(kuò)展性:通過(guò)神經(jīng)網(wǎng)絡(luò)[3]、對(duì)話模型[4]等方法可以提取問(wèn)題中的有效信息提升KG構(gòu)建、檢索效率,其均是在開(kāi)源固定數(shù)據(jù)集上優(yōu)化評(píng)價(jià)指標(biāo),但未考慮對(duì)電網(wǎng)領(lǐng)域封閉、動(dòng)態(tài)的支撐,沒(méi)有有效的方法去利用現(xiàn)有電網(wǎng)各個(gè)孤立系統(tǒng)中的知識(shí)。

        (2)智能問(wèn)答系統(tǒng)服務(wù)的可用性:智能問(wèn)答系統(tǒng)通過(guò)上下文語(yǔ)義關(guān)聯(lián)[5]、網(wǎng)頁(yè)搜索[6]和外部文本[7]等方法能夠彌補(bǔ)KG知識(shí)量不足的問(wèn)題,但缺乏外部知識(shí)和KG的自動(dòng)整合方法,導(dǎo)致線上服務(wù)運(yùn)行運(yùn)維成本較高、客戶滿意度不穩(wěn)定等問(wèn)題。

        據(jù)此,本文提出一種基于融合領(lǐng)域特征知識(shí)圖譜的智能電網(wǎng)問(wèn)答系統(tǒng)(HDKG-QA),本系統(tǒng)首先提出基于注意力和雙相連接的LSTM模型的實(shí)體/斷言識(shí)別方法,達(dá)到自然語(yǔ)言簡(jiǎn)單問(wèn)題表達(dá)模糊性精確識(shí)別的效果;然后設(shè)計(jì)基于主題比較的語(yǔ)義增強(qiáng)方法,考慮二乘損失和主題模型損失,將領(lǐng)域知識(shí)映射為本地KG,支撐服務(wù)知識(shí)庫(kù)的線上更新,同時(shí)使用啟發(fā)式規(guī)則查詢,結(jié)合問(wèn)題特征和KG狀態(tài)進(jìn)行候選集排序,更容易選到最佳答案;最后定期執(zhí)行ILP優(yōu)化策略,考慮用戶滿意度和服務(wù)成本,定期更新部分本地KG,達(dá)到以較低的響應(yīng)延遲支持高質(zhì)量服務(wù)。其中,LSTM模型和增強(qiáng)語(yǔ)義方法能夠?qū)崿F(xiàn)KG的構(gòu)建及擴(kuò)展,具備靈活線上服務(wù)能力;啟發(fā)式規(guī)則和ILP優(yōu)化策略能夠支撐智能問(wèn)答系統(tǒng)中KG的檢索和更新,保障系統(tǒng)的可用性。本系統(tǒng)的這些關(guān)鍵方法能夠有效解決電網(wǎng)生產(chǎn)環(huán)境中上述的兩個(gè)實(shí)際問(wèn)題,提供企業(yè)級(jí)的解決方案。

        2 HDKG-QA總體設(shè)計(jì)

        本文面向智能電網(wǎng)領(lǐng)域,以自然語(yǔ)言表達(dá)的中文簡(jiǎn)單問(wèn)題為輸入,以匹配問(wèn)題的答案為輸出,總體設(shè)計(jì)如圖1所示,該設(shè)計(jì)自上而下依次分為六個(gè)層次,上層的輸出作為下層的輸入,形成模型訓(xùn)練、線上服務(wù)和KG更新等為一體的整體解決方案,各層的關(guān)鍵設(shè)計(jì)和層次關(guān)系如下六個(gè)方面所示:

        (1)問(wèn)題輸入層:該層用于接收不同途徑、不同系統(tǒng)界面的用戶提問(wèn),并通過(guò)統(tǒng)一的負(fù)載轉(zhuǎn)發(fā)和身份認(rèn)證把問(wèn)題文本傳輸?shù)较乱粚?。該層特點(diǎn)是不同用戶對(duì)同一類問(wèn)題可能有不同表述。例如圖1中如“電表嗡嗡響是怎么回事?”這一問(wèn)題也可以表示成“電表異常聲響的原因是?電表嗡嗡響該怎么辦?”等,各個(gè)用戶有不同的問(wèn)題意圖或期望答案,本層轉(zhuǎn)發(fā)的問(wèn)題具有一定的模糊性。

        (2)LSTM識(shí)別層:該層接收問(wèn)題輸入層轉(zhuǎn)發(fā)后的問(wèn)題文本,通過(guò)分詞、雙向連接、注意力權(quán)重等層次將問(wèn)題文本中的實(shí)體/斷言識(shí)別出來(lái),作為系統(tǒng)傾向分析層的查詢條件。該識(shí)別層核心通過(guò)雙向LSTM連接和注意力權(quán)重設(shè)置克服上層文本的模糊性,能夠根據(jù)目標(biāo)向量輸出較為精確的識(shí)別結(jié)果,識(shí)別結(jié)果能夠反映提問(wèn)用戶的核心關(guān)注點(diǎn)。

        (3)系統(tǒng)傾向分析層:該層將LSTM中識(shí)別出的實(shí)體/斷言向量作為輸入,分別在電網(wǎng)各個(gè)子系統(tǒng)中進(jìn)行關(guān)鍵字查詢,尋找本領(lǐng)域環(huán)境下和問(wèn)題關(guān)聯(lián)的所有相關(guān)文本,并將匹配度最高的文本作為下一層輸入。該層可以充分利用現(xiàn)有電網(wǎng)各類系統(tǒng)(呼叫、工單、自主服務(wù)、應(yīng)急班組等)的歷史數(shù)據(jù),構(gòu)建基于主題建模的系統(tǒng)傾向分析模型,通過(guò)最大似然估計(jì)和最小二乘損失結(jié)合的方法輸出最佳匹配的系統(tǒng)及外部文本。

        圖1 HDKG-QA整體設(shè)計(jì)

        (4)KG構(gòu)建層:該層同樣使用LSTM提取上層匹配的外部文本中的實(shí)體/斷言向量,在圖數(shù)據(jù)庫(kù)中增強(qiáng)原有KG,新增KG的邊和點(diǎn)如圖1中KG構(gòu)建層中的紅色部分,構(gòu)建的整體KG作為下層的查詢數(shù)據(jù)庫(kù)。該層提供了一種KG與外部文本的整合方法,能夠在系統(tǒng)服務(wù)時(shí)實(shí)現(xiàn)KG的自動(dòng)更新,從而可以不斷提高KG的知識(shí)量及對(duì)應(yīng)表達(dá)能力。

        (5)啟發(fā)查詢層:該層根據(jù)實(shí)體/斷言向量查詢KG構(gòu)建層更新后的全局KG,得到一個(gè)答案候選集,通過(guò)計(jì)數(shù)方法和余弦相似度2個(gè)啟發(fā)式規(guī)則進(jìn)行答案排序,以給客戶提供排序最高的答案,同時(shí)記錄本次回答的相關(guān)狀態(tài)信息。該層的啟發(fā)式規(guī)則分別考慮問(wèn)題本身和KG整體情況,有更高概率提供知識(shí)能力內(nèi)的最優(yōu)答案。

        (6)定期更新層:該層可以定期拉取并歸一化啟發(fā)查詢層中所有問(wèn)題的狀態(tài)信息,將響應(yīng)時(shí)間和用戶滿意度在證書(shū)線性規(guī)劃(ILP)模型中進(jìn)行量化表示,達(dá)到以最小的KG更新成本來(lái)保障問(wèn)題回答的較高滿意度。

        根據(jù)上述六個(gè)核心層次的設(shè)計(jì),設(shè)計(jì)實(shí)驗(yàn)重點(diǎn)驗(yàn)證LSTM+增強(qiáng)語(yǔ)義的方法能夠有效提升問(wèn)題答案的準(zhǔn)確度、召回率等指標(biāo);驗(yàn)證主題模型最大似然估計(jì)方法和最小二乘損失方法的集成使用能否準(zhǔn)確定位最佳匹配的外部文本;驗(yàn)證啟發(fā)式答案候選集排序規(guī)則能夠有效提升最佳答案的發(fā)現(xiàn)概率;驗(yàn)證定期更新策略能否減少KG的更新成本,同時(shí)保持一定的答案質(zhì)量。

        3 關(guān)鍵技術(shù)

        3.1 基于注意力和雙向連接的LSTM

        為了克服電網(wǎng)客服問(wèn)答系統(tǒng)中問(wèn)題描述模糊性的問(wèn)題,LSTM識(shí)別層(如圖1所示)充分利用簡(jiǎn)單問(wèn)題中的語(yǔ)序和關(guān)鍵詞匯等文本信息,能夠避免傳統(tǒng)頭實(shí)體或斷言查找方法(語(yǔ)義分析,手工標(biāo)注等)在本場(chǎng)景下的低準(zhǔn)確度。通過(guò)如下所示的形式化語(yǔ)義來(lái)描述本文使用的LSTM模型。

        input:a lstm model M and a question sqi

        輸入數(shù)據(jù):一個(gè)中文表示的簡(jiǎn)單問(wèn)題sqi(不需要復(fù)雜推理規(guī)則);

        為了應(yīng)對(duì)電網(wǎng)領(lǐng)域的各類問(wèn)題,LSTM主要使用雙向連接的循環(huán)網(wǎng)絡(luò)層(RNN-Layer)和一個(gè)注意力層(A-Layer)。這兩個(gè)層次的方法原理如下所示:

        在LSTM識(shí)別層中首先進(jìn)行分詞操作,將一個(gè)長(zhǎng)度是L的問(wèn)題作為輸入,本模型根據(jù)預(yù)定義好的分詞方法[8]及工具[9],將L個(gè)元素映射為輸入詞向量{xj},j=1,2,…,L,然后使用雙向LSTM學(xué)習(xí)前項(xiàng)隱狀態(tài)序列(h1,h2,…,hL)和后向隱狀態(tài)序列(h1,h2,…,hL),后向序的計(jì)算過(guò)程如式(1)~(5)所示:

        其中,fj、ij、oj分別代表遺忘門(mén)、輸入門(mén)和輸出門(mén)激活向量;cj是單元狀態(tài)向量;σ是sigmoid函數(shù);tanh是雙切余弦函數(shù);ο代表Hadamard乘積;本模型連接前向和后向向量并最終得到:hj=[h0:j;hj:0]。

        接著,本模型設(shè)置權(quán)重連接層層參數(shù),在詞向量{xj},j=1,2,…,L中,第jth個(gè)詞的注意力權(quán)重表示為αj,其計(jì)算過(guò)程如式(6)和(7)所示:

        最后,本模型通過(guò)注意力權(quán)重αj,狀態(tài)序列hj和特定詞xj形成一個(gè)隱藏狀態(tài)sj=[xj;αjhj],權(quán)重連接層計(jì)算這個(gè)隱藏狀態(tài)sj得到針對(duì)第jth個(gè)次的輸出rj∈Rd×1,實(shí)體/斷言根據(jù)這個(gè)數(shù)據(jù)通過(guò)均值計(jì)算得到,如公式(8)所示:

        權(quán)重向量ω,偏向值設(shè)置都是基于電網(wǎng)客服智能問(wèn)答系統(tǒng)在實(shí)施階段人工標(biāo)注的訓(xùn)練問(wèn)題和對(duì)應(yīng)答案,最后輸出兩個(gè)目標(biāo)向量,構(gòu)成LSTM的輸出。

        3.2 基于主題比較的語(yǔ)義增強(qiáng)

        為了克服電網(wǎng)客服問(wèn)答系統(tǒng)用戶(企業(yè)、個(gè)體戶、家庭等)不同主題傾向的差異性需求,系統(tǒng)傾向分析層(如圖1所示)通過(guò)主題相似度的比較,可以選擇具有最大傾向性的系統(tǒng)并得到與斷言/實(shí)體相關(guān)的增強(qiáng)文本,通過(guò)LSTM模型識(shí)別實(shí)體斷言,可實(shí)現(xiàn)對(duì)全局KG的構(gòu)建,構(gòu)建后的結(jié)果如圖1中KG構(gòu)建層所示。預(yù)期增強(qiáng)手段能夠充分利用電網(wǎng)各個(gè)系統(tǒng)的外部知識(shí),提供在線方法動(dòng)態(tài)更新KG的知識(shí)庫(kù),為KG的長(zhǎng)期穩(wěn)定運(yùn)維提供支撐。系統(tǒng)傾向分析主要基于主題模型上的最大似然估計(jì)和最小二乘損失估計(jì),具體方法原理如下所示:

        首先,主題模型(TM)作為一種典型的分析文本的概率方法,在HDKG-QA中使用針對(duì)兩類文本:一類是圖數(shù)據(jù)V,對(duì)應(yīng)構(gòu)建KG訓(xùn)練集的問(wèn)題及答案;另外一類是以LSTM處理后的用戶提問(wèn)作為查詢條件(系統(tǒng)已有的基礎(chǔ)查詢接口)的各系統(tǒng)查詢結(jié)果集合D,是無(wú)格式文本。選擇針對(duì)特定問(wèn)題(斷言/實(shí)體對(duì))的最大匹配查詢結(jié)果即是增強(qiáng)文本。

        然后,通過(guò)概率隱語(yǔ)義分析來(lái)刻畫(huà)主題分布,即PLSA[10]。在N篇文本構(gòu)成的查詢結(jié)果結(jié)合D中,每一個(gè)的文本di∈{d1,d2,…,dN}由多個(gè)未被觀測(cè)到的主題變量zk∈{z1,z2,…,zK}構(gòu)成,每個(gè)主題變量有多個(gè)不同的詞匯wj∈{w1,w2,…,wM}。文檔-詞匯聯(lián)合概率分布(d,w)如式(9)表示:

        式中,P(wj|zk)表示一個(gè)單詞wj在一個(gè)主題zk中出現(xiàn)的概率,P(zk|di)表示一個(gè)主題zk在一個(gè)文檔di中出現(xiàn)的概率。隱主題模型的分布參數(shù)可以通過(guò)對(duì)文檔集合的最大似然估計(jì)計(jì)算,如式(10)所示:

        L(D)的估計(jì)可以通過(guò)經(jīng)典EM算法[11]實(shí)現(xiàn)。但單一PLSA算法并沒(méi)有文檔集合屬于相似主題的約束,P(zk|di)也會(huì)隨著知識(shí)量的不斷膨脹而線性增長(zhǎng)。其他TM方法如LDA也沒(méi)有提供文檔之間語(yǔ)義關(guān)系的描述。接著,為了有效比較兩類文本的相似性,本文基于PLSA提出基于KG的主題相似度計(jì)算方法,一般來(lái)講,KG中的一個(gè)實(shí)體e∈V如果屬于一個(gè)特定問(wèn)題及對(duì)應(yīng)答案的主題(4.2節(jié)的計(jì)算結(jié)果),它所連接的其他尾實(shí)體也有很大概率屬于同一主題,通過(guò)公式(11)來(lái)表達(dá)實(shí)體和主題之間的相似關(guān)系:

        式(12)定義了KG和查詢結(jié)果集合的最小二乘損失,其中Dp?D,表達(dá)結(jié)果集中的一部分和KG的匹配程度;P(zk|eh)的計(jì)算過(guò)程與P(zk|di)類似,都可以使用EM算法;w(eh|et)代表在KG中一對(duì)頭尾實(shí)體相連的權(quán)重,其計(jì)算公式如式(12)所示:

        式中,P(Wpredicate(eh,et))代表兩個(gè)實(shí)體通過(guò)特定語(yǔ)義關(guān)系相連的概率,兩個(gè)實(shí)體相連具有不同的路徑,例如電表可以通過(guò)嗡嗡響的狀態(tài)判斷是否合格,也可以根據(jù)質(zhì)量表現(xiàn)判斷是否合格。

        最后,基于L(D)和Rv(G),可以寫(xiě)成基于對(duì)數(shù)的最大似然估計(jì)形式,選擇最大傾向結(jié)果集構(gòu)建本地KG,如式(13)所示:

        式中通過(guò)λ作為偏向參數(shù)平衡主題模型和最小二乘損失,如果λ=0,最小化就等同于最大可能性主題對(duì)應(yīng)的結(jié)果集,反之如果λ=1,最小化最小化等于選擇和現(xiàn)有KG中實(shí)體/斷言對(duì)應(yīng)主題分布最相近的結(jié)果集,通過(guò)設(shè)置恰當(dāng)?shù)摩酥担ɡ纾?.5),可以充分利用外部文本和KG的兩類語(yǔ)義知識(shí)。最終形成如圖1所示KG構(gòu)建層中的、面向特定主題的整體KG知識(shí)庫(kù),作為答案的檢索范圍。主題比較需要通過(guò)接口適配的方式實(shí)現(xiàn)問(wèn)答系統(tǒng)和現(xiàn)有系統(tǒng)的兼容,達(dá)到“高內(nèi)聚低耦合”的設(shè)計(jì)目標(biāo)。

        3.3 啟發(fā)規(guī)則查詢

        為了有效查詢?nèi)諯G,避免低效圖搜索算法帶來(lái)的非最優(yōu)答案,啟發(fā)查詢層(如圖1所示)的啟發(fā)式規(guī)則在候選集排序過(guò)程中引入相應(yīng)規(guī)則,根據(jù)問(wèn)題和全局KG狀態(tài)從候選集中選最優(yōu)結(jié)果作為答案,本節(jié)設(shè)計(jì)的規(guī)則不改變檢索算法,只作為排序的依據(jù)。

        首先,通過(guò)經(jīng)典例子證明啟發(fā)式規(guī)則對(duì)結(jié)果的影響。以圖1中的問(wèn)題為例,和“嗡嗡響”關(guān)聯(lián)的候選集主要有以下幾個(gè):{1.松動(dòng),替換線圈;2.孔大,調(diào)整軸承;3.如果距離大于1 m,且屬于供電局,通知電力公司;……}。通過(guò)候選集的各個(gè)語(yǔ)義信息和本地KG與全局KG的關(guān)系,發(fā)現(xiàn)答案3更符合問(wèn)題意圖,且其文本內(nèi)容較為豐富,因此放在候選集的首位。

        然后,給出兩條規(guī)則的具體定義。啟發(fā)規(guī)則的設(shè)置需要符合問(wèn)題本身和全局KG的狀態(tài),據(jù)此設(shè)置啟發(fā)規(guī)則,如下所示:

        (1)候選答案歷史計(jì)數(shù):通過(guò)統(tǒng)計(jì)歷史系統(tǒng)的問(wèn)題及答案,電網(wǎng)客服的問(wèn)題呈現(xiàn)出相對(duì)聚集的特征,針對(duì)“設(shè)備異?!薄ⅰ熬o急服務(wù)”、“簡(jiǎn)單自查”等常規(guī)問(wèn)題較多,答案也相近。通過(guò)記錄每個(gè)KG查詢結(jié)果被做成最優(yōu)答案的次數(shù)和文本的豐富程度,就可以作為一個(gè)重要的候選排序指標(biāo)。

        (2)文本相似度:在一個(gè)問(wèn)題的提出與回答上下文,涉及到問(wèn)題本身Qi、增強(qiáng)語(yǔ)義的查詢結(jié)果Aj和每個(gè)候選答案Ck三個(gè)文本,最優(yōu)答案往往和問(wèn)題及增強(qiáng)語(yǔ)義具有一定的相似性,通過(guò)將三類文本中的每個(gè)詞匯同樣映射為4.2節(jié)中的詞向量{xj},j=1,2,…,L,分別計(jì)算候選答案Ck和其他兩類文本的向量余弦相似度,因此,選擇和兩類文本相似度之和作為另外一個(gè)排序指標(biāo)。

        上述兩個(gè)啟發(fā)查詢規(guī)則作為初始階段的默認(rèn)規(guī)則,其實(shí)現(xiàn)采用熱插拔的方式,能夠調(diào)整規(guī)則閾值、新增刪除規(guī)則等操作。

        3.4 KG定期更新策略

        為了以較低的KG更新成本保障答案的準(zhǔn)確性,定期更新層(如圖1所示)使用ILP求解結(jié)果定期合并外部知識(shí),以支撐全局KG的不斷擴(kuò)展和其質(zhì)量的不斷提升。ILP模型將用戶滿意度和相應(yīng)時(shí)間依次進(jìn)行量化和歸一化,求解出每一個(gè)問(wèn)題對(duì)應(yīng)的KG是否更新,即可平衡KG成本和服務(wù)質(zhì)量。ILP模型的描述如下所示。

        首先,設(shè)置一組更新選擇操作,如集合(14)所示:

        需要maximize如式(15)所示的目標(biāo)函數(shù):

        其中,KGL代表一段時(shí)間內(nèi)每個(gè)問(wèn)題本地KG的集合。

        uDi代表更新結(jié)果,是一個(gè)簡(jiǎn)單的符號(hào)函數(shù),如果更新對(duì)應(yīng)的KGi就設(shè)置為1,否則置為0。

        uSi?[0,100]?uSi?Z+表示用戶打分,在系統(tǒng)內(nèi)測(cè)階段鼓勵(lì)用戶實(shí)際打分。

        tlstm、taugment、tquery分別代表在LSTM、增強(qiáng)語(yǔ)義和啟發(fā)查詢階段的處理時(shí)間,通過(guò)時(shí)間來(lái)衡量存儲(chǔ)維護(hù)成本。

        M代表時(shí)間縮小系數(shù),N代表放大系數(shù),在不同系統(tǒng)配置下需要調(diào)整。

        然后通過(guò)設(shè)置上述優(yōu)化目標(biāo)和約束條件,尋找符合最大化用戶滿意度和最小化維護(hù)成本的更新選擇。實(shí)際優(yōu)化效果取決于兩個(gè)縮放系數(shù)和不同時(shí)間QA系統(tǒng)累積的KGL數(shù)量。定期更新策略采用單獨(dú)運(yùn)行的實(shí)現(xiàn)方式,不與用戶的線上問(wèn)答發(fā)生干擾。

        3.5 HDKG-QA核心算法

        根據(jù)上述的LSTM模型,語(yǔ)義增強(qiáng)方法、啟發(fā)式規(guī)則以及ILP模型,形成本系統(tǒng)的核心問(wèn)題回答算法,具體如算法1所示。

        在算法1中,首先進(jìn)行LSTM訓(xùn)練過(guò)程,針對(duì)每個(gè)問(wèn)題的實(shí)體進(jìn)行識(shí)別訓(xùn)練以最小化實(shí)體識(shí)別損失(第1~6行);針對(duì)每個(gè)問(wèn)題的斷言進(jìn)行識(shí)別訓(xùn)練以最小化斷言識(shí)別損失(第7~12行);然后根據(jù)訓(xùn)練后的LSTM模型和輸入問(wèn)題輸出實(shí)體和斷言(第14行);根據(jù)LSTM輸出進(jìn)行遺留系統(tǒng)進(jìn)行查詢,得到各個(gè)系統(tǒng)的增強(qiáng)型文本(第15行);根據(jù)主題模型和二乘損失計(jì)算最大相似文本,并構(gòu)建本地KG(第16~19行);使用啟發(fā)式規(guī)則排序答案候選集,并將答案反饋給客戶(第20~25行);定期執(zhí)行全局KG的更新(第26~37行);在此過(guò)程中,遍歷周期內(nèi)的所有問(wèn)題并初始化ILP輸入(第28~32行);最后執(zhí)行ILP求解并根據(jù)結(jié)果合并部分本地KG(第33、34行)。

        算法1 HDKG-QA核心算法

        輸入:Gj,實(shí)體和斷言的集合:P,E,標(biāo)注用戶提問(wèn)的新的簡(jiǎn)單問(wèn)題集合Q。

        輸出:簡(jiǎn)單問(wèn)題Q目標(biāo)實(shí)體h*和斷言?*

        /*LSTM訓(xùn)練過(guò)程*/

        1.for Qiin Q do

        2. L=splitWords(Qi)

        3. setInputs(L tokens in Qi,? of Qi)

        5. update({W},w,,bq)

        6.end for

        7.for Qiin Q do

        8.L=splitWords(Qi)

        9. setInputs(L tokens in Qi,h of Qi)

        11. update(matrics,bias)

        12.end for

        /*問(wèn)題回答過(guò)程*/

        13.In predicate learning model,input(Qt)→

        14.In head entity learning model,input(Qt)→

        16.for textiin {texti}

        18.end for

        20.for Ciin {candidiatei}

        21.setCounts(candidatei)

        22.setCosSimilarity(Qi,Aj,Ci)

        23.end for

        24.quickSort({candidiatei},{similarityi},{countsi})

        25.return compact(C0)

        /*基于ILP的全局更新過(guò)程*/

        26.for pointiin periods do

        27.if pointi%interval==0 do

        28. for QAiin QAgdo

        29. setTime(QAi.timeSet)

        30. setUs(QAi.uS)

        31. ILPInput(QAi)

        32. end for

        33. ILPResolver({QAi))

        34. Update({QAi},uDi==1)

        35.end if

        36.increment(pointi)

        37.end for

        4 實(shí)驗(yàn)

        本章給出HDKG-QA框架關(guān)鍵的實(shí)驗(yàn)驗(yàn)證環(huán)境及結(jié)果,包括企業(yè)數(shù)據(jù)集、度量指標(biāo)和基準(zhǔn)測(cè)試方法,最后給出性能表現(xiàn)的原因分析。本章實(shí)驗(yàn)設(shè)計(jì)重點(diǎn)回答以下三個(gè)問(wèn)題:

        (1)相較于單一使用LSTM模型來(lái)獲取頭實(shí)體/斷言的方法,使用語(yǔ)義增強(qiáng)方法能否有效提升問(wèn)題回答的準(zhǔn)確率,召回率和F1指標(biāo)。

        (2)以及相較于單個(gè)規(guī)則,使用多個(gè)啟發(fā)式組合能夠帶來(lái)多少問(wèn)題回答指標(biāo)的提升。

        (3)ILP方法相較于全量更新策略,能否更好地平衡用戶滿意度和響應(yīng)時(shí)間。

        4.1 實(shí)驗(yàn)設(shè)置

        首先,本文通過(guò)對(duì)遺留系統(tǒng)的信息提取,綜合使用SQL查詢、適配API等方法,集中收集國(guó)網(wǎng)重慶市電力公司信息通信分公司的2018年1月~12月的真實(shí)業(yè)務(wù)數(shù)據(jù),人工標(biāo)注、篩選、過(guò)濾文本并構(gòu)建KG,訓(xùn)練LSTM。數(shù)據(jù)集信息如表1所示。

        表1 智能電網(wǎng)KG數(shù)據(jù)集

        然后需要定義具體的評(píng)價(jià)指標(biāo),傳統(tǒng)準(zhǔn)確率、召回率和F1只針對(duì)二分問(wèn)題統(tǒng)計(jì)數(shù)量,或者通過(guò)定義實(shí)體數(shù)量匹配度情況定義,本文進(jìn)行擴(kuò)展,同時(shí)考慮實(shí)體和斷言的匹配度,三個(gè)指標(biāo)如公式(16)所示:

        4.2 語(yǔ)義增強(qiáng)的實(shí)體斷言識(shí)別

        參數(shù)設(shè)置:LSTM激活函數(shù)如4.1節(jié)所示選用ReLU函數(shù),利用正則化對(duì)關(guān)系共享權(quán)重參數(shù)進(jìn)行約束,懲罰值設(shè)為0.2×10-5,設(shè)置注意力層的dropout rate為0.3,權(quán)重連接層的為0.4,在訓(xùn)練集上對(duì)超參數(shù)就行優(yōu)化;4.3節(jié)中的偏向參數(shù)分別設(shè)置為(0,0.25,0.5,0.75,1.0)五種情況(通過(guò)LSTM+偏向參數(shù)表示)。實(shí)驗(yàn)對(duì)比了五種情況下各種指標(biāo)的平均值。

        實(shí)驗(yàn)結(jié)果:按照上述設(shè)置對(duì)比LSTM模型(在測(cè)試集訓(xùn)練完畢后),通過(guò)定義相關(guān)系統(tǒng)根據(jù)實(shí)體和斷言的查詢接口,選擇最近的五條查詢結(jié)果中的文本作為增強(qiáng)語(yǔ)義,在不同偏向參數(shù)設(shè)置對(duì)實(shí)體斷言精確度、召回率和準(zhǔn)確度的影響,在驗(yàn)證集上進(jìn)行實(shí)驗(yàn),其對(duì)比結(jié)果如表2所示。

        表2 語(yǔ)義增強(qiáng)效果

        結(jié)果分析:由表2的結(jié)果可得,對(duì)同一個(gè)數(shù)據(jù)集和LSTM模型,基于主題建模和最小二乘損失的外部語(yǔ)義增強(qiáng)方法能夠提升LSTM的性能,最好能提升17%的精確度,15%的召回率和6.6%的F1,同時(shí)不同偏向參數(shù)的設(shè)置對(duì)結(jié)果也有3%左右的影響,說(shuō)明遺留系統(tǒng)的主題模型并不能完全刻畫(huà)相關(guān)問(wèn)題及答案,外部語(yǔ)義選擇兩個(gè)相似度維度也能夠客服單一主題模型的不足。

        4.3 啟發(fā)式規(guī)則的答案排序

        參數(shù)設(shè)置:第一種計(jì)數(shù)方法記為count,第二種相似度方法記為cos,隨機(jī)排序的結(jié)果(將檢索到符合規(guī)則的第一個(gè)結(jié)果返回)記為random,對(duì)測(cè)試集上相關(guān)實(shí)體斷言、本地KG的查詢結(jié)果按照上述三種規(guī)則進(jìn)行排序,分別測(cè)試實(shí)際效果。

        實(shí)驗(yàn)結(jié)果:實(shí)驗(yàn)比較了單個(gè)啟發(fā)式策略和多個(gè)策略對(duì)排序結(jié)果的影響,通過(guò)輸出答案和標(biāo)準(zhǔn)答案中的實(shí)體斷言分布情況考察提升效果,實(shí)驗(yàn)結(jié)果如表3所示。

        表3 啟發(fā)式規(guī)則增強(qiáng)效果

        結(jié)果分析:兩個(gè)啟發(fā)式規(guī)則的聯(lián)合使用能得到比單一規(guī)則更好的效果,基于規(guī)則的排序相較于隨機(jī)選擇方法其準(zhǔn)確度,召回率和F1分別有8%、3%和2%的提升,實(shí)驗(yàn)結(jié)果表明通過(guò)啟發(fā)式規(guī)則,能在LSTM和增強(qiáng)型語(yǔ)義準(zhǔn)確識(shí)別實(shí)體、斷言的基礎(chǔ)上進(jìn)一步提升表現(xiàn)。

        4.4 啟發(fā)式規(guī)則的答案排序

        參數(shù)設(shè)置:根據(jù)本系統(tǒng)配置將式(15)中的參數(shù)設(shè)置為:M=100,N=10,將準(zhǔn)確度放大10倍作為模擬的用戶打分,隨機(jī)選取訓(xùn)練集50%的數(shù)據(jù)模擬一周內(nèi)的用戶提問(wèn),再隨機(jī)選取50%模擬第二周的用戶提問(wèn)。

        實(shí)驗(yàn)結(jié)果:實(shí)驗(yàn)比較了全量更新策略和ILP策略在上述兩周的平均問(wèn)題準(zhǔn)確度和平均回答時(shí)間(ms)兩個(gè)維度的變化,結(jié)果如表4所示。

        表4 語(yǔ)義增強(qiáng)效果

        結(jié)果分析:由表4的結(jié)果可得,在第一周兩種方法的模型一致,因此平均準(zhǔn)確度和回答時(shí)間保持一致;但在采用不同的更新策略之后,雖然ILP方法帶來(lái)準(zhǔn)確度的微量下降(0.1%),但平均問(wèn)題回答時(shí)間相交全量提升了9%,說(shuō)明答案檢索的空間相對(duì)集中,能夠以更低的成本保障服務(wù)質(zhì)量。

        5 相關(guān)工作

        當(dāng)前基于知識(shí)圖譜的問(wèn)答系統(tǒng)相關(guān)技術(shù)研究,在智能電網(wǎng)信息通信領(lǐng)域落地并進(jìn)行企業(yè)級(jí)實(shí)現(xiàn)時(shí),仍存在諸多問(wèn)題。本章從KG的理論、策略和算法研究,以及國(guó)內(nèi)電力行業(yè)關(guān)于知識(shí)圖譜和問(wèn)答系統(tǒng)的應(yīng)用、改造與實(shí)踐等兩個(gè)方面展開(kāi)討論,分析領(lǐng)域特征約束下智能電網(wǎng)問(wèn)答系統(tǒng)面臨的主要問(wèn)題。

        基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義信息挖掘:針對(duì)在QA-KG中斷言的自然語(yǔ)言表達(dá)方式具有多樣性的挑戰(zhàn)[3],KEQA[12]提出了一種基于LSTM語(yǔ)義感知的頭實(shí)體和斷言的發(fā)現(xiàn)方法和基于聯(lián)合距離度量的答案候選集度量方法,以解決表達(dá)語(yǔ)義含糊的問(wèn)題。針對(duì)交互式問(wèn)答系統(tǒng)的語(yǔ)義上下文信息不完整的挑戰(zhàn),CAN[13]基于GRU模型為問(wèn)題、輸入和答案三個(gè)關(guān)鍵組件構(gòu)造深層升級(jí)網(wǎng)絡(luò),以感知上下文交互信息。這些方法雖然能夠提升問(wèn)答系統(tǒng)的準(zhǔn)確度指標(biāo),但由于模型訓(xùn)練依賴于有限數(shù)據(jù)集,缺少模型和KG在線更新方法,單一模型難以在業(yè)務(wù)需求頻繁變化的智能電網(wǎng)客服問(wèn)答場(chǎng)景下直接使用。

        基于KG外知識(shí)庫(kù)的語(yǔ)義增強(qiáng):為了應(yīng)對(duì)有限KG知識(shí)不足的挑戰(zhàn),相關(guān)研究通過(guò)引入外部文本知識(shí)來(lái)增強(qiáng)上下文語(yǔ)義,從而提高查詢結(jié)果的準(zhǔn)確性,特別是通過(guò)實(shí)體和斷言的增強(qiáng)來(lái)回答KG中未包含知識(shí)的問(wèn)題。FreeBase[4]通過(guò)網(wǎng)頁(yè)檢索結(jié)果與KG互聯(lián)實(shí)現(xiàn)預(yù)期增強(qiáng);Text2KB[7]將網(wǎng)頁(yè)搜索、社區(qū)問(wèn)答和普通文本作為外知識(shí)庫(kù);DB-pedia[14]使用背景知識(shí)庫(kù),基于主題建模實(shí)現(xiàn)跨知識(shí)庫(kù)檢索。以上方法能夠在一定程度上緩解KG知識(shí)量匱乏的問(wèn)題,但外部知識(shí)庫(kù)由于可靠性差、答案正確性波動(dòng)大,且引入額外開(kāi)銷較多,導(dǎo)致只能在開(kāi)放環(huán)境下使用,不能滿足智能電網(wǎng)客服問(wèn)答對(duì)準(zhǔn)確性和可靠性的需求。

        面向復(fù)雜問(wèn)題回答的定制化KG模型:有效回答復(fù)雜問(wèn)題往往涉及到多個(gè)實(shí)體和斷言的分析以及較長(zhǎng)的檢索鏈,使用簡(jiǎn)單問(wèn)題檢索的方法回答不能得到較高滿意度。QUINT[15]自動(dòng)生成問(wèn)題模板,用于刻畫(huà)KG中問(wèn)題和答案的映射關(guān)系;CKB[4]通過(guò)定義關(guān)鍵要素形成對(duì)話模型,引導(dǎo)用戶補(bǔ)全語(yǔ)義信息以得到精確回答;TAQA[5]提出N元組斷言模型來(lái)應(yīng)對(duì)復(fù)雜問(wèn)題中形容詞、動(dòng)詞、介詞等引入的復(fù)雜語(yǔ)義約束。復(fù)雜問(wèn)題回答系統(tǒng)成本較高,且需要對(duì)應(yīng)用場(chǎng)景進(jìn)行深度定制,在智能電網(wǎng)客服問(wèn)答系統(tǒng)應(yīng)用初期難以達(dá)到人工服務(wù)的效費(fèi)比。

        面向特定場(chǎng)景的KG-QA:不同于神經(jīng)網(wǎng)絡(luò)、外部知識(shí)庫(kù)等通用問(wèn)答系統(tǒng)中的通用關(guān)鍵技術(shù),seq2seq[16]架構(gòu)面向簡(jiǎn)單問(wèn)題大數(shù)據(jù)集,基于KG和問(wèn)題的交疊方法進(jìn)行二者的連接,復(fù)制和切分;TEQUILA[17]面向時(shí)間敏感的復(fù)雜問(wèn)題,提出KG模型檢測(cè)和轉(zhuǎn)換方法以消除時(shí)間隱含約束。智能電網(wǎng)客服問(wèn)答系統(tǒng)根據(jù)電網(wǎng)客服特征抽取啟發(fā)式規(guī)則,以輔助優(yōu)化KG-QA。

        基于知識(shí)圖譜的電力行業(yè)應(yīng)用:國(guó)內(nèi)知識(shí)圖譜、問(wèn)答系統(tǒng)及行業(yè)應(yīng)用的代表性工作如文獻(xiàn)[18-22],主要研究基于WSDL語(yǔ)言的KG構(gòu)建方法、大數(shù)據(jù)計(jì)算與存儲(chǔ)框架的關(guān)鍵實(shí)施技術(shù)和領(lǐng)域特征不明顯的優(yōu)化技術(shù)。這些應(yīng)用沒(méi)有充分利用電網(wǎng)領(lǐng)域的深層特征,不能有效集成遺留系統(tǒng),其運(yùn)行成本較高,工作價(jià)值和運(yùn)行效益不突出。

        6 總結(jié)與展望

        本文提出了HDKG-QA,一種融合領(lǐng)域知識(shí)的知識(shí)圖譜智能電網(wǎng)問(wèn)答系統(tǒng),使用基于LSTM的注意力模型克服電力問(wèn)題表達(dá)的模糊性,使用基于主題比較的增強(qiáng)語(yǔ)義方法構(gòu)建本地KG,擴(kuò)展全局KG的知識(shí)量,利用電網(wǎng)各類遺留系統(tǒng)的知識(shí),使用啟發(fā)方法進(jìn)一步提升答案質(zhì)量;同時(shí)針對(duì)KG在智能電網(wǎng)生產(chǎn)環(huán)境下的動(dòng)態(tài)更新問(wèn)題,提出ILP更新策略兼顧更新成本和服務(wù)質(zhì)量。

        猜你喜歡
        語(yǔ)義文本方法
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對(duì)
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚(yú)
        認(rèn)知范疇模糊與語(yǔ)義模糊
        奇米影视777撸吧| 日本免费三级一区二区| 人妻少妇精品专区性色anvn| 男女做爰高清免费视频网站| 最近免费中文字幕| 精品一区二区三区在线视频观看 | 开心激情站开心激情网六月婷婷| 国产精品亚洲综合久久| 看久久久久久a级毛片| 亚洲国产成人精品无码区99| 久久久久久久尹人综合网亚洲 | 在线无码中文字幕一区| 亚洲精品久久久久久久久av无码| 亚洲αⅴ无码乱码在线观看性色| 麻豆成人久久精品二区三区91 | 亚洲av一区二区网址| 国产毛片黄片一区二区三区| 欧美黑吊大战白妞| 欧美伊人亚洲伊人色综| 人妻露脸国语对白字幕| 新婚少妇无套内谢国语播放| 亚洲国产无套无码av电影| 91精品国产91久久久无码色戒 | 国产伦精品一区二区三区免费| 国产69口爆吞精在线视频喝尿| 精品黑人一区二区三区久久hd| 免费无码一区二区三区a片百度| 初尝黑人嗷嗷叫中文字幕| 国产在线观看网址不卡一区| 精品亚洲一区二区三区四区五 | 99久久伊人精品综合观看| 动漫在线无码一区| 国产精品美女主播在线| 亚洲国产精品无码久久久| 亚洲av成人一区二区三区av| 日本一区二区久久精品亚洲中文无 | 亚洲精品久久| 无码熟妇人妻AV影音先锋| 青青视频在线播放免费的| 国产激情艳情在线看视频| 国产精品亚洲一区二区无码|