融合領(lǐng)域特征知識(shí)圖譜的電網(wǎng)客服問(wèn)答系統(tǒng)

2020-02-19 14:10:12彭云竹

計(jì)算機(jī)工程與應(yīng)用 2020年3期

譚剛，陳聿，彭云竹

國(guó)網(wǎng)重慶市電力公司信息通信分公司，重慶401120

1 引言

伴隨云計(jì)算基礎(chǔ)設(shè)施和人工智能技術(shù)的不斷成熟完善，以知識(shí)圖譜（KG）[1]為基礎(chǔ)的智能問(wèn)答系統(tǒng)逐漸應(yīng)用在電力服務(wù)等生產(chǎn)環(huán)境。問(wèn)答系統(tǒng)（QA）通過(guò)從生產(chǎn)系統(tǒng)各類數(shù)據(jù)中抽取實(shí)體、斷言等語(yǔ)義知識(shí)，構(gòu)建領(lǐng)域知識(shí)庫(kù)，將用戶提問(wèn)的自然語(yǔ)言轉(zhuǎn)化為知識(shí)庫(kù)中描述的實(shí)體和斷言，進(jìn)而優(yōu)化頭實(shí)體的查詢算法，提供智能問(wèn)答服務(wù)。智能問(wèn)答系統(tǒng)面向企業(yè)和個(gè)人客戶，在設(shè)備日常運(yùn)維、電力知識(shí)科普、突發(fā)事件應(yīng)急指南等方面挖掘現(xiàn)有知識(shí)，為客戶提供自助服務(wù)[2]。該系統(tǒng)作為人工服務(wù)系統(tǒng)的有效補(bǔ)充，可以降低電網(wǎng)客服的人力投入和出錯(cuò)概率，對(duì)簡(jiǎn)單問(wèn)題和經(jīng)常性事件提供標(biāo)準(zhǔn)解決方案，保障服務(wù)質(zhì)量，因此一個(gè)經(jīng)過(guò)良好設(shè)計(jì)的智能問(wèn)答系統(tǒng)能夠以較低開(kāi)銷維持客戶群體，對(duì)實(shí)現(xiàn)電網(wǎng)服務(wù)的信息化、自動(dòng)化及智能化具有重要意義。

然而，在智能電網(wǎng)客服應(yīng)用場(chǎng)景中，由于封閉性強(qiáng)、軟硬件及對(duì)應(yīng)業(yè)務(wù)更新頻繁、技術(shù)棧差異大等因素導(dǎo)致知識(shí)圖譜的構(gòu)建、維護(hù)、更新存在較大的局限性。一方面，當(dāng)前的知識(shí)圖譜研究針對(duì)固定的訓(xùn)練樣本，通過(guò)詞法與語(yǔ)法切分、關(guān)聯(lián)序列挖掘、問(wèn)題模板分類等技術(shù)手段，能夠滿足有限樣本空間下的自動(dòng)問(wèn)答需求，但不能應(yīng)對(duì)電力知識(shí)圖譜不斷更新的場(chǎng)景；另一方面，現(xiàn)有問(wèn)答系統(tǒng)會(huì)引入知識(shí)圖譜之外的網(wǎng)頁(yè)搜索和文檔、問(wèn)題檢索等其他文本信息以形成開(kāi)放知識(shí)庫(kù)，從而擴(kuò)大了所屬實(shí)體和斷言集合的檢索空間，存在檢索錯(cuò)誤高、結(jié)果不準(zhǔn)確等問(wèn)題。

因此，根據(jù)智能電網(wǎng)客服實(shí)際業(yè)務(wù)特點(diǎn)，整合KG的構(gòu)建方法和各類優(yōu)化技術(shù)，以構(gòu)建企業(yè)級(jí)智能電網(wǎng)客服問(wèn)答系統(tǒng)，是當(dāng)前國(guó)家電網(wǎng)信息化建設(shè)的重要任務(wù)之一。現(xiàn)有基于知識(shí)圖譜的問(wèn)答系統(tǒng)距離電力行業(yè)的落地應(yīng)用仍然有較大距離?；谧匀徽Z(yǔ)言處理的方法（神經(jīng)網(wǎng)絡(luò)、主題模型等）雖然能夠較好應(yīng)對(duì)上下文語(yǔ)義、語(yǔ)言模糊性等問(wèn)題，但沒(méi)有考慮到電網(wǎng)生產(chǎn)環(huán)境的如下實(shí)際問(wèn)題：

（1）領(lǐng)域知識(shí)圖譜構(gòu)建的可行性與擴(kuò)展性：通過(guò)神經(jīng)網(wǎng)絡(luò)[3]、對(duì)話模型[4]等方法可以提取問(wèn)題中的有效信息提升KG構(gòu)建、檢索效率，其均是在開(kāi)源固定數(shù)據(jù)集上優(yōu)化評(píng)價(jià)指標(biāo)，但未考慮對(duì)電網(wǎng)領(lǐng)域封閉、動(dòng)態(tài)的支撐，沒(méi)有有效的方法去利用現(xiàn)有電網(wǎng)各個(gè)孤立系統(tǒng)中的知識(shí)。

（2）智能問(wèn)答系統(tǒng)服務(wù)的可用性：智能問(wèn)答系統(tǒng)通過(guò)上下文語(yǔ)義關(guān)聯(lián)[5]、網(wǎng)頁(yè)搜索[6]和外部文本[7]等方法能夠彌補(bǔ)KG知識(shí)量不足的問(wèn)題，但缺乏外部知識(shí)和KG的自動(dòng)整合方法，導(dǎo)致線上服務(wù)運(yùn)行運(yùn)維成本較高、客戶滿意度不穩(wěn)定等問(wèn)題。

據(jù)此，本文提出一種基于融合領(lǐng)域特征知識(shí)圖譜的智能電網(wǎng)問(wèn)答系統(tǒng)（HDKG-QA），本系統(tǒng)首先提出基于注意力和雙相連接的LSTM模型的實(shí)體/斷言識(shí)別方法，達(dá)到自然語(yǔ)言簡(jiǎn)單問(wèn)題表達(dá)模糊性精確識(shí)別的效果；然后設(shè)計(jì)基于主題比較的語(yǔ)義增強(qiáng)方法，考慮二乘損失和主題模型損失，將領(lǐng)域知識(shí)映射為本地KG，支撐服務(wù)知識(shí)庫(kù)的線上更新，同時(shí)使用啟發(fā)式規(guī)則查詢，結(jié)合問(wèn)題特征和KG狀態(tài)進(jìn)行候選集排序，更容易選到最佳答案；最后定期執(zhí)行ILP優(yōu)化策略，考慮用戶滿意度和服務(wù)成本，定期更新部分本地KG，達(dá)到以較低的響應(yīng)延遲支持高質(zhì)量服務(wù)。其中，LSTM模型和增強(qiáng)語(yǔ)義方法能夠?qū)崿F(xiàn)KG的構(gòu)建及擴(kuò)展，具備靈活線上服務(wù)能力；啟發(fā)式規(guī)則和ILP優(yōu)化策略能夠支撐智能問(wèn)答系統(tǒng)中KG的檢索和更新，保障系統(tǒng)的可用性。本系統(tǒng)的這些關(guān)鍵方法能夠有效解決電網(wǎng)生產(chǎn)環(huán)境中上述的兩個(gè)實(shí)際問(wèn)題，提供企業(yè)級(jí)的解決方案。

2 HDKG-QA總體設(shè)計(jì)

本文面向智能電網(wǎng)領(lǐng)域，以自然語(yǔ)言表達(dá)的中文簡(jiǎn)單問(wèn)題為輸入，以匹配問(wèn)題的答案為輸出，總體設(shè)計(jì)如圖1所示，該設(shè)計(jì)自上而下依次分為六個(gè)層次，上層的輸出作為下層的輸入，形成模型訓(xùn)練、線上服務(wù)和KG更新等為一體的整體解決方案，各層的關(guān)鍵設(shè)計(jì)和層次關(guān)系如下六個(gè)方面所示：

（1）問(wèn)題輸入層：該層用于接收不同途徑、不同系統(tǒng)界面的用戶提問(wèn)，并通過(guò)統(tǒng)一的負(fù)載轉(zhuǎn)發(fā)和身份認(rèn)證把問(wèn)題文本傳輸?shù)较乱粚?。該層特點(diǎn)是不同用戶對(duì)同一類問(wèn)題可能有不同表述。例如圖1中如“電表嗡嗡響是怎么回事？”這一問(wèn)題也可以表示成“電表異常聲響的原因是？電表嗡嗡響該怎么辦？”等，各個(gè)用戶有不同的問(wèn)題意圖或期望答案，本層轉(zhuǎn)發(fā)的問(wèn)題具有一定的模糊性。

（2）LSTM識(shí)別層：該層接收問(wèn)題輸入層轉(zhuǎn)發(fā)后的問(wèn)題文本，通過(guò)分詞、雙向連接、注意力權(quán)重等層次將問(wèn)題文本中的實(shí)體/斷言識(shí)別出來(lái)，作為系統(tǒng)傾向分析層的查詢條件。該識(shí)別層核心通過(guò)雙向LSTM連接和注意力權(quán)重設(shè)置克服上層文本的模糊性，能夠根據(jù)目標(biāo)向量輸出較為精確的識(shí)別結(jié)果，識(shí)別結(jié)果能夠反映提問(wèn)用戶的核心關(guān)注點(diǎn)。

（3）系統(tǒng)傾向分析層：該層將LSTM中識(shí)別出的實(shí)體/斷言向量作為輸入，分別在電網(wǎng)各個(gè)子系統(tǒng)中進(jìn)行關(guān)鍵字查詢，尋找本領(lǐng)域環(huán)境下和問(wèn)題關(guān)聯(lián)的所有相關(guān)文本，并將匹配度最高的文本作為下一層輸入。該層可以充分利用現(xiàn)有電網(wǎng)各類系統(tǒng)（呼叫、工單、自主服務(wù)、應(yīng)急班組等）的歷史數(shù)據(jù)，構(gòu)建基于主題建模的系統(tǒng)傾向分析模型，通過(guò)最大似然估計(jì)和最小二乘損失結(jié)合的方法輸出最佳匹配的系統(tǒng)及外部文本。

圖1 HDKG-QA整體設(shè)計(jì)

（4）KG構(gòu)建層：該層同樣使用LSTM提取上層匹配的外部文本中的實(shí)體/斷言向量，在圖數(shù)據(jù)庫(kù)中增強(qiáng)原有KG，新增KG的邊和點(diǎn)如圖1中KG構(gòu)建層中的紅色部分，構(gòu)建的整體KG作為下層的查詢數(shù)據(jù)庫(kù)。該層提供了一種KG與外部文本的整合方法，能夠在系統(tǒng)服務(wù)時(shí)實(shí)現(xiàn)KG的自動(dòng)更新，從而可以不斷提高KG的知識(shí)量及對(duì)應(yīng)表達(dá)能力。

（5）啟發(fā)查詢層：該層根據(jù)實(shí)體/斷言向量查詢KG構(gòu)建層更新后的全局KG，得到一個(gè)答案候選集，通過(guò)計(jì)數(shù)方法和余弦相似度2個(gè)啟發(fā)式規(guī)則進(jìn)行答案排序，以給客戶提供排序最高的答案，同時(shí)記錄本次回答的相關(guān)狀態(tài)信息。該層的啟發(fā)式規(guī)則分別考慮問(wèn)題本身和KG整體情況，有更高概率提供知識(shí)能力內(nèi)的最優(yōu)答案。

（6）定期更新層：該層可以定期拉取并歸一化啟發(fā)查詢層中所有問(wèn)題的狀態(tài)信息，將響應(yīng)時(shí)間和用戶滿意度在證書(shū)線性規(guī)劃（ILP）模型中進(jìn)行量化表示，達(dá)到以最小的KG更新成本來(lái)保障問(wèn)題回答的較高滿意度。

根據(jù)上述六個(gè)核心層次的設(shè)計(jì)，設(shè)計(jì)實(shí)驗(yàn)重點(diǎn)驗(yàn)證LSTM+增強(qiáng)語(yǔ)義的方法能夠有效提升問(wèn)題答案的準(zhǔn)確度、召回率等指標(biāo)；驗(yàn)證主題模型最大似然估計(jì)方法和最小二乘損失方法的集成使用能否準(zhǔn)確定位最佳匹配的外部文本；驗(yàn)證啟發(fā)式答案候選集排序規(guī)則能夠有效提升最佳答案的發(fā)現(xiàn)概率；驗(yàn)證定期更新策略能否減少KG的更新成本，同時(shí)保持一定的答案質(zhì)量。

3 關(guān)鍵技術(shù)

3.1 基于注意力和雙向連接的LSTM

為了克服電網(wǎng)客服問(wèn)答系統(tǒng)中問(wèn)題描述模糊性的問(wèn)題，LSTM識(shí)別層（如圖1所示）充分利用簡(jiǎn)單問(wèn)題中的語(yǔ)序和關(guān)鍵詞匯等文本信息，能夠避免傳統(tǒng)頭實(shí)體或斷言查找方法（語(yǔ)義分析，手工標(biāo)注等）在本場(chǎng)景下的低準(zhǔn)確度。通過(guò)如下所示的形式化語(yǔ)義來(lái)描述本文使用的LSTM模型。

input：a lstm model M and a question sqi

輸入數(shù)據(jù)：一個(gè)中文表示的簡(jiǎn)單問(wèn)題sqi（不需要復(fù)雜推理規(guī)則）；

為了應(yīng)對(duì)電網(wǎng)領(lǐng)域的各類問(wèn)題，LSTM主要使用雙向連接的循環(huán)網(wǎng)絡(luò)層（RNN-Layer）和一個(gè)注意力層（A-Layer）。這兩個(gè)層次的方法原理如下所示：

在LSTM識(shí)別層中首先進(jìn)行分詞操作，將一個(gè)長(zhǎng)度是L的問(wèn)題作為輸入，本模型根據(jù)預(yù)定義好的分詞方法[8]及工具[9]，將L個(gè)元素映射為輸入詞向量{xj},j=1,2,…,L，然后使用雙向LSTM學(xué)習(xí)前項(xiàng)隱狀態(tài)序列(h1,h2,…,hL)和后向隱狀態(tài)序列(h1,h2,…,hL)，后向序的計(jì)算過(guò)程如式（1）～（5）所示：

其中，fj、ij、oj分別代表遺忘門(mén)、輸入門(mén)和輸出門(mén)激活向量；cj是單元狀態(tài)向量；σ是sigmoid函數(shù)；tanh是雙切余弦函數(shù)；ο代表Hadamard乘積；本模型連接前向和后向向量并最終得到：hj=[h0:j;hj:0]。

接著，本模型設(shè)置權(quán)重連接層層參數(shù)，在詞向量{xj},j=1,2,…,L中，第jth個(gè)詞的注意力權(quán)重表示為αj，其計(jì)算過(guò)程如式（6）和（7）所示：

最后，本模型通過(guò)注意力權(quán)重αj，狀態(tài)序列hj和特定詞xj形成一個(gè)隱藏狀態(tài)sj=[xj;αjhj]，權(quán)重連接層計(jì)算這個(gè)隱藏狀態(tài)sj得到針對(duì)第jth個(gè)次的輸出rj∈Rd×1，實(shí)體/斷言根據(jù)這個(gè)數(shù)據(jù)通過(guò)均值計(jì)算得到，如公式（8）所示：

權(quán)重向量ω，偏向值設(shè)置都是基于電網(wǎng)客服智能問(wèn)答系統(tǒng)在實(shí)施階段人工標(biāo)注的訓(xùn)練問(wèn)題和對(duì)應(yīng)答案，最后輸出兩個(gè)目標(biāo)向量，構(gòu)成LSTM的輸出。

3.2 基于主題比較的語(yǔ)義增強(qiáng)

為了克服電網(wǎng)客服問(wèn)答系統(tǒng)用戶（企業(yè)、個(gè)體戶、家庭等）不同主題傾向的差異性需求，系統(tǒng)傾向分析層（如圖1所示）通過(guò)主題相似度的比較，可以選擇具有最大傾向性的系統(tǒng)并得到與斷言/實(shí)體相關(guān)的增強(qiáng)文本，通過(guò)LSTM模型識(shí)別實(shí)體斷言，可實(shí)現(xiàn)對(duì)全局KG的構(gòu)建，構(gòu)建后的結(jié)果如圖1中KG構(gòu)建層所示。預(yù)期增強(qiáng)手段能夠充分利用電網(wǎng)各個(gè)系統(tǒng)的外部知識(shí)，提供在線方法動(dòng)態(tài)更新KG的知識(shí)庫(kù)，為KG的長(zhǎng)期穩(wěn)定運(yùn)維提供支撐。系統(tǒng)傾向分析主要基于主題模型上的最大似然估計(jì)和最小二乘損失估計(jì)，具體方法原理如下所示：

首先，主題模型（TM）作為一種典型的分析文本的概率方法，在HDKG-QA中使用針對(duì)兩類文本：一類是圖數(shù)據(jù)V，對(duì)應(yīng)構(gòu)建KG訓(xùn)練集的問(wèn)題及答案；另外一類是以LSTM處理后的用戶提問(wèn)作為查詢條件（系統(tǒng)已有的基礎(chǔ)查詢接口）的各系統(tǒng)查詢結(jié)果集合D，是無(wú)格式文本。選擇針對(duì)特定問(wèn)題（斷言/實(shí)體對(duì)）的最大匹配查詢結(jié)果即是增強(qiáng)文本。

然后，通過(guò)概率隱語(yǔ)義分析來(lái)刻畫(huà)主題分布，即PLSA[10]。在N篇文本構(gòu)成的查詢結(jié)果結(jié)合D中，每一個(gè)的文本di∈{d1,d2,…,dN}由多個(gè)未被觀測(cè)到的主題變量zk∈{z1,z2,…,zK}構(gòu)成，每個(gè)主題變量有多個(gè)不同的詞匯wj∈{w1,w2,…,wM}。文檔-詞匯聯(lián)合概率分布(d,w)如式（9）表示：

式中，P(wj|zk)表示一個(gè)單詞wj在一個(gè)主題zk中出現(xiàn)的概率，P(zk|di)表示一個(gè)主題zk在一個(gè)文檔di中出現(xiàn)的概率。隱主題模型的分布參數(shù)可以通過(guò)對(duì)文檔集合的最大似然估計(jì)計(jì)算，如式（10）所示：

L(D)的估計(jì)可以通過(guò)經(jīng)典EM算法[11]實(shí)現(xiàn)。但單一PLSA算法并沒(méi)有文檔集合屬于相似主題的約束，P(zk|di)也會(huì)隨著知識(shí)量的不斷膨脹而線性增長(zhǎng)。其他TM方法如LDA也沒(méi)有提供文檔之間語(yǔ)義關(guān)系的描述。接著，為了有效比較兩類文本的相似性，本文基于PLSA提出基于KG的主題相似度計(jì)算方法，一般來(lái)講，KG中的一個(gè)實(shí)體e∈V如果屬于一個(gè)特定問(wèn)題及對(duì)應(yīng)答案的主題（4.2節(jié)的計(jì)算結(jié)果），它所連接的其他尾實(shí)體也有很大概率屬于同一主題，通過(guò)公式（11）來(lái)表達(dá)實(shí)體和主題之間的相似關(guān)系：

式（12）定義了KG和查詢結(jié)果集合的最小二乘損失，其中Dp?D，表達(dá)結(jié)果集中的一部分和KG的匹配程度；P(zk|eh)的計(jì)算過(guò)程與P(zk|di)類似，都可以使用EM算法；w(eh|et)代表在KG中一對(duì)頭尾實(shí)體相連的權(quán)重，其計(jì)算公式如式（12）所示：

式中，P(Wpredicate(eh,et))代表兩個(gè)實(shí)體通過(guò)特定語(yǔ)義關(guān)系相連的概率，兩個(gè)實(shí)體相連具有不同的路徑，例如電表可以通過(guò)嗡嗡響的狀態(tài)判斷是否合格，也可以根據(jù)質(zhì)量表現(xiàn)判斷是否合格。

最后，基于L(D)和Rv(G)，可以寫(xiě)成基于對(duì)數(shù)的最大似然估計(jì)形式，選擇最大傾向結(jié)果集構(gòu)建本地KG，如式（13）所示：

式中通過(guò)λ作為偏向參數(shù)平衡主題模型和最小二乘損失，如果λ=0，最小化就等同于最大可能性主題對(duì)應(yīng)的結(jié)果集，反之如果λ=1，最小化最小化等于選擇和現(xiàn)有KG中實(shí)體/斷言對(duì)應(yīng)主題分布最相近的結(jié)果集，通過(guò)設(shè)置恰當(dāng)?shù)摩酥担ɡ纾?.5），可以充分利用外部文本和KG的兩類語(yǔ)義知識(shí)。最終形成如圖1所示KG構(gòu)建層中的、面向特定主題的整體KG知識(shí)庫(kù)，作為答案的檢索范圍。主題比較需要通過(guò)接口適配的方式實(shí)現(xiàn)問(wèn)答系統(tǒng)和現(xiàn)有系統(tǒng)的兼容，達(dá)到“高內(nèi)聚低耦合”的設(shè)計(jì)目標(biāo)。

3.3 啟發(fā)規(guī)則查詢

為了有效查詢?nèi)諯G，避免低效圖搜索算法帶來(lái)的非最優(yōu)答案，啟發(fā)查詢層（如圖1所示）的啟發(fā)式規(guī)則在候選集排序過(guò)程中引入相應(yīng)規(guī)則，根據(jù)問(wèn)題和全局KG狀態(tài)從候選集中選最優(yōu)結(jié)果作為答案，本節(jié)設(shè)計(jì)的規(guī)則不改變檢索算法，只作為排序的依據(jù)。

首先，通過(guò)經(jīng)典例子證明啟發(fā)式規(guī)則對(duì)結(jié)果的影響。以圖1中的問(wèn)題為例，和“嗡嗡響”關(guān)聯(lián)的候選集主要有以下幾個(gè)：{1.松動(dòng)，替換線圈；2.孔大，調(diào)整軸承；3.如果距離大于1 m，且屬于供電局，通知電力公司；……}。通過(guò)候選集的各個(gè)語(yǔ)義信息和本地KG與全局KG的關(guān)系，發(fā)現(xiàn)答案3更符合問(wèn)題意圖，且其文本內(nèi)容較為豐富，因此放在候選集的首位。

然后，給出兩條規(guī)則的具體定義。啟發(fā)規(guī)則的設(shè)置需要符合問(wèn)題本身和全局KG的狀態(tài)，據(jù)此設(shè)置啟發(fā)規(guī)則，如下所示：

（1）候選答案歷史計(jì)數(shù)：通過(guò)統(tǒng)計(jì)歷史系統(tǒng)的問(wèn)題及答案，電網(wǎng)客服的問(wèn)題呈現(xiàn)出相對(duì)聚集的特征，針對(duì)“設(shè)備異?！薄ⅰ熬o急服務(wù)”、“簡(jiǎn)單自查”等常規(guī)問(wèn)題較多，答案也相近。通過(guò)記錄每個(gè)KG查詢結(jié)果被做成最優(yōu)答案的次數(shù)和文本的豐富程度，就可以作為一個(gè)重要的候選排序指標(biāo)。

（2）文本相似度：在一個(gè)問(wèn)題的提出與回答上下文，涉及到問(wèn)題本身Qi、增強(qiáng)語(yǔ)義的查詢結(jié)果Aj和每個(gè)候選答案Ck三個(gè)文本，最優(yōu)答案往往和問(wèn)題及增強(qiáng)語(yǔ)義具有一定的相似性，通過(guò)將三類文本中的每個(gè)詞匯同樣映射為4.2節(jié)中的詞向量{xj},j=1,2,…,L，分別計(jì)算候選答案Ck和其他兩類文本的向量余弦相似度，因此，選擇和兩類文本相似度之和作為另外一個(gè)排序指標(biāo)。

上述兩個(gè)啟發(fā)查詢規(guī)則作為初始階段的默認(rèn)規(guī)則，其實(shí)現(xiàn)采用熱插拔的方式，能夠調(diào)整規(guī)則閾值、新增刪除規(guī)則等操作。

3.4 KG定期更新策略

為了以較低的KG更新成本保障答案的準(zhǔn)確性，定期更新層（如圖1所示）使用ILP求解結(jié)果定期合并外部知識(shí)，以支撐全局KG的不斷擴(kuò)展和其質(zhì)量的不斷提升。ILP模型將用戶滿意度和相應(yīng)時(shí)間依次進(jìn)行量化和歸一化，求解出每一個(gè)問(wèn)題對(duì)應(yīng)的KG是否更新，即可平衡KG成本和服務(wù)質(zhì)量。ILP模型的描述如下所示。

首先，設(shè)置一組更新選擇操作，如集合（14）所示：

需要maximize如式（15）所示的目標(biāo)函數(shù)：

其中，KGL代表一段時(shí)間內(nèi)每個(gè)問(wèn)題本地KG的集合。

uDi代表更新結(jié)果，是一個(gè)簡(jiǎn)單的符號(hào)函數(shù)，如果更新對(duì)應(yīng)的KGi就設(shè)置為1，否則置為0。

uSi?[0,100]?uSi?Z+表示用戶打分，在系統(tǒng)內(nèi)測(cè)階段鼓勵(lì)用戶實(shí)際打分。

tlstm、taugment、tquery分別代表在LSTM、增強(qiáng)語(yǔ)義和啟發(fā)查詢階段的處理時(shí)間，通過(guò)時(shí)間來(lái)衡量存儲(chǔ)維護(hù)成本。

M代表時(shí)間縮小系數(shù)，N代表放大系數(shù)，在不同系統(tǒng)配置下需要調(diào)整。

然后通過(guò)設(shè)置上述優(yōu)化目標(biāo)和約束條件，尋找符合最大化用戶滿意度和最小化維護(hù)成本的更新選擇。實(shí)際優(yōu)化效果取決于兩個(gè)縮放系數(shù)和不同時(shí)間QA系統(tǒng)累積的KGL數(shù)量。定期更新策略采用單獨(dú)運(yùn)行的實(shí)現(xiàn)方式，不與用戶的線上問(wèn)答發(fā)生干擾。

3.5 HDKG-QA核心算法

根據(jù)上述的LSTM模型，語(yǔ)義增強(qiáng)方法、啟發(fā)式規(guī)則以及ILP模型，形成本系統(tǒng)的核心問(wèn)題回答算法，具體如算法1所示。

在算法1中，首先進(jìn)行LSTM訓(xùn)練過(guò)程，針對(duì)每個(gè)問(wèn)題的實(shí)體進(jìn)行識(shí)別訓(xùn)練以最小化實(shí)體識(shí)別損失（第1～6行）；針對(duì)每個(gè)問(wèn)題的斷言進(jìn)行識(shí)別訓(xùn)練以最小化斷言識(shí)別損失（第7～12行）；然后根據(jù)訓(xùn)練后的LSTM模型和輸入問(wèn)題輸出實(shí)體和斷言（第14行）；根據(jù)LSTM輸出進(jìn)行遺留系統(tǒng)進(jìn)行查詢，得到各個(gè)系統(tǒng)的增強(qiáng)型文本（第15行）；根據(jù)主題模型和二乘損失計(jì)算最大相似文本，并構(gòu)建本地KG（第16～19行）；使用啟發(fā)式規(guī)則排序答案候選集，并將答案反饋給客戶（第20～25行）；定期執(zhí)行全局KG的更新（第26～37行）；在此過(guò)程中，遍歷周期內(nèi)的所有問(wèn)題并初始化ILP輸入（第28～32行）；最后執(zhí)行ILP求解并根據(jù)結(jié)果合并部分本地KG（第33、34行）。

算法1 HDKG-QA核心算法

輸入：Gj，實(shí)體和斷言的集合：P,E，標(biāo)注用戶提問(wèn)的新的簡(jiǎn)單問(wèn)題集合Q。

輸出：簡(jiǎn)單問(wèn)題Q目標(biāo)實(shí)體h*和斷言?*

/*LSTM訓(xùn)練過(guò)程*/

1.for Qiin Q do

2. L=splitWords(Qi)

3. setInputs（L tokens in Qi，? of Qi）

5. update({W},w,,bq)

6.end for

7.for Qiin Q do

8.L=splitWords(Qi)

9. setInputs（L tokens in Qi，h of Qi）

11. update(matrics,bias)

12.end for

/*問(wèn)題回答過(guò)程*/

13.In predicate learning model，input(Qt)→

14.In head entity learning model，input(Qt)→

16.for textiin {texti}

18.end for

20.for Ciin {candidiatei}

21.setCounts(candidatei)

22.setCosSimilarity(Qi，Aj，Ci)

23.end for

24.quickSort({candidiatei}，{similarityi}，{countsi})

25.return compact(C0)

/*基于ILP的全局更新過(guò)程*/

26.for pointiin periods do

27.if pointi%interval==0 do

28. for QAiin QAgdo

29. setTime(QAi.timeSet)

30. setUs(QAi.uS)

31. ILPInput(QAi)

32. end for

33. ILPResolver({QAi))

34. Update({QAi}，uDi==1)

35.end if

36.increment(pointi)

37.end for

4 實(shí)驗(yàn)

本章給出HDKG-QA框架關(guān)鍵的實(shí)驗(yàn)驗(yàn)證環(huán)境及結(jié)果，包括企業(yè)數(shù)據(jù)集、度量指標(biāo)和基準(zhǔn)測(cè)試方法，最后給出性能表現(xiàn)的原因分析。本章實(shí)驗(yàn)設(shè)計(jì)重點(diǎn)回答以下三個(gè)問(wèn)題：

（1）相較于單一使用LSTM模型來(lái)獲取頭實(shí)體/斷言的方法，使用語(yǔ)義增強(qiáng)方法能否有效提升問(wèn)題回答的準(zhǔn)確率，召回率和F1指標(biāo)。

（2）以及相較于單個(gè)規(guī)則，使用多個(gè)啟發(fā)式組合能夠帶來(lái)多少問(wèn)題回答指標(biāo)的提升。

（3）ILP方法相較于全量更新策略，能否更好地平衡用戶滿意度和響應(yīng)時(shí)間。

4.1 實(shí)驗(yàn)設(shè)置

首先，本文通過(guò)對(duì)遺留系統(tǒng)的信息提取，綜合使用SQL查詢、適配API等方法，集中收集國(guó)網(wǎng)重慶市電力公司信息通信分公司的2018年1月～12月的真實(shí)業(yè)務(wù)數(shù)據(jù)，人工標(biāo)注、篩選、過(guò)濾文本并構(gòu)建KG，訓(xùn)練LSTM。數(shù)據(jù)集信息如表1所示。

表1 智能電網(wǎng)KG數(shù)據(jù)集

然后需要定義具體的評(píng)價(jià)指標(biāo)，傳統(tǒng)準(zhǔn)確率、召回率和F1只針對(duì)二分問(wèn)題統(tǒng)計(jì)數(shù)量，或者通過(guò)定義實(shí)體數(shù)量匹配度情況定義，本文進(jìn)行擴(kuò)展，同時(shí)考慮實(shí)體和斷言的匹配度，三個(gè)指標(biāo)如公式（16）所示：

4.2 語(yǔ)義增強(qiáng)的實(shí)體斷言識(shí)別

參數(shù)設(shè)置：LSTM激活函數(shù)如4.1節(jié)所示選用ReLU函數(shù)，利用正則化對(duì)關(guān)系共享權(quán)重參數(shù)進(jìn)行約束，懲罰值設(shè)為0.2×10-5，設(shè)置注意力層的dropout rate為0.3，權(quán)重連接層的為0.4，在訓(xùn)練集上對(duì)超參數(shù)就行優(yōu)化；4.3節(jié)中的偏向參數(shù)分別設(shè)置為（0，0.25，0.5，0.75，1.0）五種情況（通過(guò)LSTM+偏向參數(shù)表示）。實(shí)驗(yàn)對(duì)比了五種情況下各種指標(biāo)的平均值。

實(shí)驗(yàn)結(jié)果：按照上述設(shè)置對(duì)比LSTM模型（在測(cè)試集訓(xùn)練完畢后），通過(guò)定義相關(guān)系統(tǒng)根據(jù)實(shí)體和斷言的查詢接口，選擇最近的五條查詢結(jié)果中的文本作為增強(qiáng)語(yǔ)義，在不同偏向參數(shù)設(shè)置對(duì)實(shí)體斷言精確度、召回率和準(zhǔn)確度的影響，在驗(yàn)證集上進(jìn)行實(shí)驗(yàn)，其對(duì)比結(jié)果如表2所示。

表2 語(yǔ)義增強(qiáng)效果

結(jié)果分析：由表2的結(jié)果可得，對(duì)同一個(gè)數(shù)據(jù)集和LSTM模型，基于主題建模和最小二乘損失的外部語(yǔ)義增強(qiáng)方法能夠提升LSTM的性能，最好能提升17%的精確度，15%的召回率和6.6%的F1，同時(shí)不同偏向參數(shù)的設(shè)置對(duì)結(jié)果也有3%左右的影響，說(shuō)明遺留系統(tǒng)的主題模型并不能完全刻畫(huà)相關(guān)問(wèn)題及答案，外部語(yǔ)義選擇兩個(gè)相似度維度也能夠客服單一主題模型的不足。

4.3 啟發(fā)式規(guī)則的答案排序

參數(shù)設(shè)置：第一種計(jì)數(shù)方法記為count，第二種相似度方法記為cos，隨機(jī)排序的結(jié)果（將檢索到符合規(guī)則的第一個(gè)結(jié)果返回）記為random，對(duì)測(cè)試集上相關(guān)實(shí)體斷言、本地KG的查詢結(jié)果按照上述三種規(guī)則進(jìn)行排序，分別測(cè)試實(shí)際效果。

實(shí)驗(yàn)結(jié)果：實(shí)驗(yàn)比較了單個(gè)啟發(fā)式策略和多個(gè)策略對(duì)排序結(jié)果的影響，通過(guò)輸出答案和標(biāo)準(zhǔn)答案中的實(shí)體斷言分布情況考察提升效果，實(shí)驗(yàn)結(jié)果如表3所示。

表3 啟發(fā)式規(guī)則增強(qiáng)效果

結(jié)果分析：兩個(gè)啟發(fā)式規(guī)則的聯(lián)合使用能得到比單一規(guī)則更好的效果，基于規(guī)則的排序相較于隨機(jī)選擇方法其準(zhǔn)確度，召回率和F1分別有8%、3%和2%的提升，實(shí)驗(yàn)結(jié)果表明通過(guò)啟發(fā)式規(guī)則，能在LSTM和增強(qiáng)型語(yǔ)義準(zhǔn)確識(shí)別實(shí)體、斷言的基礎(chǔ)上進(jìn)一步提升表現(xiàn)。

4.4 啟發(fā)式規(guī)則的答案排序

參數(shù)設(shè)置：根據(jù)本系統(tǒng)配置將式（15）中的參數(shù)設(shè)置為：M=100，N=10，將準(zhǔn)確度放大10倍作為模擬的用戶打分，隨機(jī)選取訓(xùn)練集50%的數(shù)據(jù)模擬一周內(nèi)的用戶提問(wèn)，再隨機(jī)選取50%模擬第二周的用戶提問(wèn)。

實(shí)驗(yàn)結(jié)果：實(shí)驗(yàn)比較了全量更新策略和ILP策略在上述兩周的平均問(wèn)題準(zhǔn)確度和平均回答時(shí)間（ms）兩個(gè)維度的變化，結(jié)果如表4所示。

表4 語(yǔ)義增強(qiáng)效果

結(jié)果分析：由表4的結(jié)果可得，在第一周兩種方法的模型一致，因此平均準(zhǔn)確度和回答時(shí)間保持一致；但在采用不同的更新策略之后，雖然ILP方法帶來(lái)準(zhǔn)確度的微量下降（0.1%），但平均問(wèn)題回答時(shí)間相交全量提升了9%，說(shuō)明答案檢索的空間相對(duì)集中，能夠以更低的成本保障服務(wù)質(zhì)量。

5 相關(guān)工作

當(dāng)前基于知識(shí)圖譜的問(wèn)答系統(tǒng)相關(guān)技術(shù)研究，在智能電網(wǎng)信息通信領(lǐng)域落地并進(jìn)行企業(yè)級(jí)實(shí)現(xiàn)時(shí)，仍存在諸多問(wèn)題。本章從KG的理論、策略和算法研究，以及國(guó)內(nèi)電力行業(yè)關(guān)于知識(shí)圖譜和問(wèn)答系統(tǒng)的應(yīng)用、改造與實(shí)踐等兩個(gè)方面展開(kāi)討論，分析領(lǐng)域特征約束下智能電網(wǎng)問(wèn)答系統(tǒng)面臨的主要問(wèn)題。

基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義信息挖掘：針對(duì)在QA-KG中斷言的自然語(yǔ)言表達(dá)方式具有多樣性的挑戰(zhàn)[3]，KEQA[12]提出了一種基于LSTM語(yǔ)義感知的頭實(shí)體和斷言的發(fā)現(xiàn)方法和基于聯(lián)合距離度量的答案候選集度量方法，以解決表達(dá)語(yǔ)義含糊的問(wèn)題。針對(duì)交互式問(wèn)答系統(tǒng)的語(yǔ)義上下文信息不完整的挑戰(zhàn)，CAN[13]基于GRU模型為問(wèn)題、輸入和答案三個(gè)關(guān)鍵組件構(gòu)造深層升級(jí)網(wǎng)絡(luò)，以感知上下文交互信息。這些方法雖然能夠提升問(wèn)答系統(tǒng)的準(zhǔn)確度指標(biāo)，但由于模型訓(xùn)練依賴于有限數(shù)據(jù)集，缺少模型和KG在線更新方法，單一模型難以在業(yè)務(wù)需求頻繁變化的智能電網(wǎng)客服問(wèn)答場(chǎng)景下直接使用。

基于KG外知識(shí)庫(kù)的語(yǔ)義增強(qiáng)：為了應(yīng)對(duì)有限KG知識(shí)不足的挑戰(zhàn)，相關(guān)研究通過(guò)引入外部文本知識(shí)來(lái)增強(qiáng)上下文語(yǔ)義，從而提高查詢結(jié)果的準(zhǔn)確性，特別是通過(guò)實(shí)體和斷言的增強(qiáng)來(lái)回答KG中未包含知識(shí)的問(wèn)題。FreeBase[4]通過(guò)網(wǎng)頁(yè)檢索結(jié)果與KG互聯(lián)實(shí)現(xiàn)預(yù)期增強(qiáng)；Text2KB[7]將網(wǎng)頁(yè)搜索、社區(qū)問(wèn)答和普通文本作為外知識(shí)庫(kù)；DB-pedia[14]使用背景知識(shí)庫(kù)，基于主題建模實(shí)現(xiàn)跨知識(shí)庫(kù)檢索。以上方法能夠在一定程度上緩解KG知識(shí)量匱乏的問(wèn)題，但外部知識(shí)庫(kù)由于可靠性差、答案正確性波動(dòng)大，且引入額外開(kāi)銷較多，導(dǎo)致只能在開(kāi)放環(huán)境下使用，不能滿足智能電網(wǎng)客服問(wèn)答對(duì)準(zhǔn)確性和可靠性的需求。

面向復(fù)雜問(wèn)題回答的定制化KG模型：有效回答復(fù)雜問(wèn)題往往涉及到多個(gè)實(shí)體和斷言的分析以及較長(zhǎng)的檢索鏈，使用簡(jiǎn)單問(wèn)題檢索的方法回答不能得到較高滿意度。QUINT[15]自動(dòng)生成問(wèn)題模板，用于刻畫(huà)KG中問(wèn)題和答案的映射關(guān)系；CKB[4]通過(guò)定義關(guān)鍵要素形成對(duì)話模型，引導(dǎo)用戶補(bǔ)全語(yǔ)義信息以得到精確回答；TAQA[5]提出N元組斷言模型來(lái)應(yīng)對(duì)復(fù)雜問(wèn)題中形容詞、動(dòng)詞、介詞等引入的復(fù)雜語(yǔ)義約束。復(fù)雜問(wèn)題回答系統(tǒng)成本較高，且需要對(duì)應(yīng)用場(chǎng)景進(jìn)行深度定制，在智能電網(wǎng)客服問(wèn)答系統(tǒng)應(yīng)用初期難以達(dá)到人工服務(wù)的效費(fèi)比。

面向特定場(chǎng)景的KG-QA：不同于神經(jīng)網(wǎng)絡(luò)、外部知識(shí)庫(kù)等通用問(wèn)答系統(tǒng)中的通用關(guān)鍵技術(shù)，seq2seq[16]架構(gòu)面向簡(jiǎn)單問(wèn)題大數(shù)據(jù)集，基于KG和問(wèn)題的交疊方法進(jìn)行二者的連接，復(fù)制和切分；TEQUILA[17]面向時(shí)間敏感的復(fù)雜問(wèn)題，提出KG模型檢測(cè)和轉(zhuǎn)換方法以消除時(shí)間隱含約束。智能電網(wǎng)客服問(wèn)答系統(tǒng)根據(jù)電網(wǎng)客服特征抽取啟發(fā)式規(guī)則，以輔助優(yōu)化KG-QA。

基于知識(shí)圖譜的電力行業(yè)應(yīng)用：國(guó)內(nèi)知識(shí)圖譜、問(wèn)答系統(tǒng)及行業(yè)應(yīng)用的代表性工作如文獻(xiàn)[18-22]，主要研究基于WSDL語(yǔ)言的KG構(gòu)建方法、大數(shù)據(jù)計(jì)算與存儲(chǔ)框架的關(guān)鍵實(shí)施技術(shù)和領(lǐng)域特征不明顯的優(yōu)化技術(shù)。這些應(yīng)用沒(méi)有充分利用電網(wǎng)領(lǐng)域的深層特征，不能有效集成遺留系統(tǒng)，其運(yùn)行成本較高，工作價(jià)值和運(yùn)行效益不突出。

6 總結(jié)與展望

本文提出了HDKG-QA，一種融合領(lǐng)域知識(shí)的知識(shí)圖譜智能電網(wǎng)問(wèn)答系統(tǒng)，使用基于LSTM的注意力模型克服電力問(wèn)題表達(dá)的模糊性，使用基于主題比較的增強(qiáng)語(yǔ)義方法構(gòu)建本地KG，擴(kuò)展全局KG的知識(shí)量，利用電網(wǎng)各類遺留系統(tǒng)的知識(shí)，使用啟發(fā)方法進(jìn)一步提升答案質(zhì)量；同時(shí)針對(duì)KG在智能電網(wǎng)生產(chǎn)環(huán)境下的動(dòng)態(tài)更新問(wèn)題，提出ILP更新策略兼顧更新成本和服務(wù)質(zhì)量。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放