王耀輝,楊 帆,陳 帥
(1.東北電力大學(xué) 媒體系,吉林 吉林132012;2.東北電力大學(xué) 信息工程學(xué)院,吉林 吉林132012)
電力隱性知識泛指存在于電力相關(guān)從業(yè)人員頭腦中的,不易顯性化的解決問題的方法、訣竅等個性化知識,甚至有時電力隱性知識的擁有者都沒有意識到自己具有某種隱性知識。傳統(tǒng)的師傅帶徒弟、干中學(xué)等隱性知識學(xué)習(xí)方式,由于員工的流動性,容易造成知識未經(jīng)傳承即消亡的現(xiàn)象,而組會討論等隱性知識共享方式又存在耗時耗物、靈活性差等劣勢。電力虛擬社區(qū)的發(fā)展為解決隱性知識共享提供了新途徑,電力相關(guān)從業(yè)人員可以在虛擬社區(qū)[1-2]中發(fā)布問題,而隱性知識的擁有者則可以采取回答問題的方式將自己的隱性知識共享,通過這種形式,電力虛擬社區(qū)中積累了大量的電力隱性知識。
在實際的電力虛擬社區(qū)中,開放性的交流方式是十分自由的,對隱性知識質(zhì)量有著非常重要影響的評論信息良莠不齊,并且充斥著相當(dāng)數(shù)量的商業(yè)廣告。這些因素使電力隱性知識淹沒于大量的無用信息中,快速獲得適用性好的隱性知識面臨嚴(yán)重問題。所以過濾電力虛擬社區(qū)中的無效信息,從中提取出有價值的隱性知識,對電力隱性知識的挖掘、檢索以及共享有著重要的意義。
針對上述情況,本文深入研究了電力虛擬社區(qū)中問答模式的特點,提出一種面向電力虛擬社區(qū)的隱性知識收集方法。該方法以向量空間模型[3-4]為基礎(chǔ),根據(jù)問答模式的特點,以社區(qū)中的討論主題為基本單位,將主題內(nèi)的討論內(nèi)容表示成主題描述、應(yīng)用情景描述、專業(yè)性描述和評價描述四維向量形式,以此完成主題文本的量化,使電力隱性知識收集轉(zhuǎn)化為文本向量二分類問題。然后采用遺傳支持向量機(GASVM)對數(shù)量化的主題文本進行分類,得到的正類主題文本即為電力隱性知識,從而完成隱性知識的收集。最后,在捕獲的1980個電力虛擬社區(qū)主題文本(進行了人工標(biāo)記)中進行實驗,實驗結(jié)果表明,本文提出的方法獲得了較好的正確率。
向量空間模型中,使用TF/IDF作為詞權(quán)重的計算方法,根據(jù)文本集的特征向量空間,將文本表示成空間向量形式,從而完成文本的量化。然而虛擬社區(qū)中的主題文本屬性分類問題(內(nèi)部是否含有解決問題的隱性知識)與一般意義上的文本分類不同。主題文本是否包含隱性知識和全部文檔集合無關(guān),主要與其內(nèi)部的主題-答案匹配情況、答案質(zhì)量、主題-答案專業(yè)性,以及評論信息這四個因素有關(guān)。換言之,以這四個指標(biāo)為元素構(gòu)建的新向量可以表示主題文本的特性。因此將這四個指標(biāo)數(shù)量化,即完成了一個主題文本的量化表示,從而完成了機器學(xué)習(xí)方法的原始數(shù)據(jù)準(zhǔn)備,以使用機器學(xué)習(xí)方法挖掘出其中的模式,完成有效主題文本的甄別。
本文中的主題描述是指在電力虛擬社區(qū)的一個主題文本中,問題的關(guān)鍵詞在回答中的出現(xiàn)情況,也可以視為答案與問題的契合程度。本文采用變形的ITC方法計算主題描述的權(quán)重。記主題描述的權(quán)重為Wt,則其計算公式如下:
式(1)中,fik表示第k條答案中與主題中同時出現(xiàn)的第i個關(guān)鍵詞的詞頻,l表示關(guān)鍵詞總個數(shù),λk表示第k條答案的文本長度。公式中的F(k)=k/k+(1),因為答案的數(shù)量越多,對解決主題中的問題就越有幫助,所以使用收斂函數(shù)F(k)控制答案數(shù)目對主題描述的影響。為弱化詞頻、文本長度以及答案條數(shù)對主題描述權(quán)重的影響,公式中使用常用對數(shù)形式來弱化詞頻差異以及文本長度差異的影響。
應(yīng)用情景描述主要表示答案的質(zhì)量。一個好的答案通常包含一定數(shù)量的詞頻大于1的關(guān)鍵詞。記應(yīng)用情景描述的權(quán)重為WS,WS的計算公式與Wt的計算公式相同,只是公式中的參數(shù)fik含義為答案內(nèi)的關(guān)鍵詞詞頻,顯然fik>1。
在專業(yè)領(lǐng)域問題中,領(lǐng)域詞匯的含量對于衡量問答的專業(yè)性具有重要意義,電力虛擬社區(qū)主題文本中,尤其在文本較短,關(guān)鍵詞重復(fù)率極低的情況下,電力專業(yè)詞匯的種類對機器隱性知識分類的準(zhǔn)確率具有關(guān)鍵性作用。記專業(yè)性描述的權(quán)重為Wm,影響主題文本專業(yè)性的因素包括專業(yè)詞匯的種類和文本的長度,Wm的計算公式如下:
式中,k表示主題文本中出現(xiàn)的專業(yè)詞匯種類的數(shù)目,λk表示第k條答案的文本長度,λ0表示問題的文本長度。
在評判答案的質(zhì)量時,評論信息十分重要,通常一個好的問答模式都會有一些諸如“謝謝了”、“頂”、“學(xué)習(xí)了”、“受教”等字眼的積極評論,所以評論描述對隱性知識的分類也具有重要的影響。記評論描述的權(quán)重為Wc,Wc的計算同樣使用1.3中的公式,區(qū)別在于k表示的是主題文本中的積極評論數(shù)目。
由于電力隱性知識是屬于特定領(lǐng)域的知識,其內(nèi)包含了大量的領(lǐng)域詞匯,使用傳統(tǒng)的分詞軟件進行文本分詞效果十分不理想,因此本文根據(jù)滑動窗口的思想設(shè)計了一種可以不分詞的關(guān)鍵詞抽取算法[5-7]。在本算法中,使用了電力專業(yè)詞匯表和漢語停用詞表。
圖1是一個比較典型的電力虛擬社區(qū)主題文本,展示了其主要的特性,我們的關(guān)鍵詞抽取算法、主題文本向量表示以及后期的分類都是建立在對這種類型的文本處理基礎(chǔ)之上的。我們將整個電力隱性知識主題文本記為topic,圖中虛線間隔的為不同帖子,所以將 topic 表示為 topic={T,A1,A2,…,An},其中T表示標(biāo)題與標(biāo)題中的問題的并集,即為文本討論的主題帖子,A1到An統(tǒng)一表示不同的帖子(在處理之前我們將這些帖子暫視為答案)。
為了提高算法的運行效率,降低問題處理的復(fù)雜度,在進行關(guān)鍵詞抽取核心算法之前,先進行下列預(yù)處理步驟:
圖1 電力虛擬社區(qū)主題文本
(1)在捕獲的電力虛擬社區(qū)主題文本的帖子中,依據(jù)文本長度和積極評論字眼,分離出積極評論帖子,記錄其總數(shù),作為Wc的計算依據(jù);
(2)如果T中沒有出現(xiàn)任何疑問詞或者問號,則將標(biāo)題作為問題,將T中的問題部分劃入A中;(這種情況下,T可能為作者的知識分享)
(3)比較Ai和Ai+1是否相同,如果相同則去除其中的一個。(去除冗余的重復(fù)帖子)
在本文中,滑動窗口的初始值為2,下面給出關(guān)鍵詞抽取核心算法:
將問題(主題帖子)記為字符串Q,答案記為字符串A,A=A1∪A2∪…∪An(n為字符串A中答案個數(shù),即為回帖數(shù)),具體算法描述如下:
算法1:主題描述關(guān)鍵詞抽取算法
輸入:問題Q,答案A
輸出:關(guān)鍵詞序列 key_list[k]
1)key_list[k]=NULL,buffer=NULL;
2)對所有的Ak進行如下操作;
3)window1指向Q的起始位置;window2指向Ak的起始位置;兩個窗口的大小都設(shè)為s=2;
4)ifwindow1=window2 thenbuffer={window1,1};key_list[k]=key_list[k]∪ buffer;window2 向后滑動s個字符,如果未滑動越界,則轉(zhuǎn)4,若越界,則轉(zhuǎn)6;
elsewindow2向后滑動1個字符,未滑動越界,則轉(zhuǎn)4;若越界,則轉(zhuǎn)5;
5)window1和window2大小都置為s=2;window2置回Ai的起始位置;window1向后滑動一個字符,如果滑動越界,轉(zhuǎn)7,掃描key_list[k],如果window1中字符串出現(xiàn)在key_list[k]中,則window1向后滑動一個字符,如果滑動越界,轉(zhuǎn)7,否則轉(zhuǎn)4;
6)window1和window2的大小同時增加1,如果窗口越界,則轉(zhuǎn)5;window2置回Ai的起始位置,轉(zhuǎn)4;
7)if key_list[k]!=NULL then掃描key_list[k],去除包含停用詞的關(guān)鍵詞;統(tǒng)計相同關(guān)鍵詞詞頻;關(guān)鍵詞 key[i]的詞頻 fik=fik-fxk;//其中 key[x]為真包含 key[i]最小詞,fxk為 key[x]的詞頻;如果key[i]的 fik=0,則刪除 key[i];
8.key_list[k]中的關(guān)鍵詞及其詞頻即為我們要抽取的主題描述關(guān)鍵詞信息。
算法2:應(yīng)用情景描述關(guān)鍵詞抽取算法
輸入:答案A
輸出:關(guān)鍵詞序列 key_list[k]
算法2中的主要過程與算法1類似,主要區(qū)別在于,算法2中window2初始時指向window1的結(jié)束位置,置回時也指向window1的結(jié)束位置。同樣的在key_list[k]中的關(guān)鍵詞及其詞頻即為我們要抽取的應(yīng)用情景描述關(guān)鍵詞信息。
算法3:電力專業(yè)詞匯提取算法
輸入:問題Q,答案A
輸出:主題文本中的電力專業(yè)詞匯種類sum
此算法只需取出電力專業(yè)詞匯表中的詞匯,在主題文本中進行查找,不計重復(fù),算出種類sum即可。同時,我們在算法3中完成各帖子文本長度的計算。
至此,上節(jié)公式中出現(xiàn)的參數(shù)我們都可以由本節(jié)中的算法計算出具體值,帶入相應(yīng)公式中,就可以求出Wt、WS、Wm、Wc的值,從而完成了電力虛擬社區(qū)中主題文本的量化表示。
本文將GASVM作為分類工具,一方面,SVM在文本分類中具有良好的性能,尤其適用于二分類,另一方面,使用遺傳算法尋優(yōu),可以提升分類的準(zhǔn)確率。
SVM中,優(yōu)化目標(biāo)和約束項表示為:
其中C為懲罰因子。
最優(yōu)分類函數(shù)為:
其中 K(x,xi)為核函數(shù),RBF是最經(jīng)常使用的核函數(shù),關(guān)于兩個樣本x,xi,它們的RBF核可表示為某“輸入空間”的特征向量,定義如下:可看做兩個特征向量的平方歐幾里得距離。σ是自由參數(shù)。一種等價定義是設(shè)一個新的參數(shù)γ,其表達式為則
由上述分析可知,優(yōu)化SVM分類性能的關(guān)鍵在于C和γ的尋優(yōu),在本文的分類算法中,選取了遺傳算法來完成C與γ的尋優(yōu)工作。
實驗數(shù)據(jù)集為使用火車采集器從北極星電力虛擬社區(qū)論壇中捕獲的1980個電力主題文本,通過人工完成這些問題的標(biāo)記,標(biāo)記的方式為主題文本是否包含解決主題問題的隱性知識,包含則標(biāo)記為1,否則標(biāo)記為0。由于沒有公認(rèn)的數(shù)據(jù)集,所以實驗建立在假設(shè)這些人工標(biāo)記的文本全部被正確標(biāo)記基礎(chǔ)上。
選取數(shù)據(jù)集中的1000個文本作為訓(xùn)練集,980個文本為測試集,本文采用的平衡數(shù)據(jù)集差異的方法是5倍交叉驗證。文中使用正確率作為性能度量指標(biāo)。
本文實驗中SVM的核函數(shù)分別采用了線性核函數(shù)、多項式核函數(shù)、RBF核函數(shù)和Sigmoid核函數(shù)進行實驗對比,表1顯示了SVM中不同核函數(shù)用于電力虛擬社區(qū)主題文本的平均正確率。
表1 SVM不同核函數(shù)分類的正確率
由實驗結(jié)果可以看出,SVM中選用RBF核函數(shù)在正確率上性能較好。我們使用遺傳算法對其進行優(yōu)化,將RBF核函數(shù)進行訓(xùn)練后得到的正確率作為遺傳算法的適應(yīng)度函數(shù),并將遺傳算法的最大遺傳代數(shù)設(shè)置為20。遺傳支持向量機的進化過程如圖2所示。
從圖2中可以看出,采用RBF核函數(shù)的SVM在遺傳算法的優(yōu)化下,正確率提升到了將近90%,此時C=4.875 239e+02,γ =7.992 195e+00。
圖2 GASVM的進化過程
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,尤其是當(dāng)前移動互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,如電力虛擬社區(qū)這樣的知識交流平臺必將面臨數(shù)據(jù)量的急劇增長,這將直接導(dǎo)致電力隱性知識向虛擬社區(qū)匯集,從而使虛擬社區(qū)成為挖掘電力隱性知識的天然平臺。本文針對此趨勢,根據(jù)電力虛擬社區(qū)中隱性知識性質(zhì)難辨、無用信息多等問題,提出了面向電力虛擬社區(qū)的隱性知識收集方法,設(shè)計了主題文本的向量空間表示方法和基于滑動窗口的關(guān)鍵詞抽取方法,完成了電力主題文本的量化表示,最后采用遺傳支持向量機完成了主題文本(即隱性知識)的分類。實驗結(jié)果表明,本文提出的方法能夠完成電力虛擬社區(qū)中的隱性知識收集,過濾了大量無效信息,并取得了良好的正確率性能。
[1]趙捧未,馬琳,秦春秀.虛擬社區(qū)研究綜述[J].情報理論與實踐,2013,36(7):119-123.
[2]鄭雪麗.虛擬社區(qū)國外研究綜述[J].圖書館學(xué)研究,2012(18):2-5.
[3]陸玉昌,魯明羽,李凡,等.向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J].計算機研究與發(fā)展,2002,39(10):1205-1209.
[4]劉少輝,董明楷,張???,等.一種基于向量空間模型的多層次文本分類方法[J].中文信息學(xué)報,2002,16(3):8-14,26.
[5]王素格,宋曉雷,李紅霞.基于領(lǐng)域知識的問答對自動提取方法[J].計算機工程與應(yīng)用,2010,46(19):214-216,223.
[6]江華,蘇曉光.無詞典中文高頻詞快速抽取算法[J].知識組織與知識管理,2012,(3):50-53.
[7]黃九鳴,吳泉源,劉春陽,等.短文本信息流的無監(jiān)督會話抽取技術(shù)[J].軟件學(xué)報,2012,23(4):735-747.