董露露
(安徽廣播電視大學(xué) 成教在線服務(wù)中心,安徽 合肥 230022)
?
基于網(wǎng)絡(luò)數(shù)據(jù)的企業(yè)知識(shí)圖譜可視化
董露露
(安徽廣播電視大學(xué) 成教在線服務(wù)中心,安徽 合肥 230022)
[摘要]對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行可視化分析具有非常大的商業(yè)價(jià)值和現(xiàn)實(shí)意義。首先采用經(jīng)典的力引導(dǎo)算法構(gòu)建知識(shí)網(wǎng)絡(luò),然后在網(wǎng)絡(luò)可視化的基礎(chǔ)上進(jìn)行集合可視化,針對(duì)集合路徑交叉過多的問題,引入集合因子,最后以中國(guó)平安集團(tuán)數(shù)據(jù)為案例進(jìn)行可視化分析。分析表明,所提方法能有效提高企業(yè)知識(shí)可視化效果。
[關(guān)鍵詞]信息可視化;網(wǎng)絡(luò)數(shù)據(jù);企業(yè)知識(shí)圖譜
1引言
如今,互聯(lián)網(wǎng)已經(jīng)成為信息的主要來源之一。企業(yè)自身、競(jìng)爭(zhēng)企業(yè)及合作企業(yè)等可以對(duì)龐大的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘,分析潛在的商業(yè)價(jià)值,甚至能通過基于網(wǎng)絡(luò)的各種平臺(tái)直接影響客戶,客戶同樣可以從網(wǎng)絡(luò)數(shù)據(jù)中獲取信息來了解公司的方方面面,以達(dá)到指導(dǎo)和決定投資的目的[1]。為了對(duì)知識(shí)做有效地積累沉淀、分析推演及利用[2],人們提出很多知識(shí)分析的方法。Prusak等[3]首先提出利用知識(shí)圖譜表示企業(yè)數(shù)據(jù)及知識(shí)關(guān)系,從而為企業(yè)提供知識(shí)服務(wù)。知識(shí)圖譜是實(shí)體和實(shí)體間關(guān)系的集合,其本質(zhì)是一種揭示實(shí)體知識(shí)之間的語義網(wǎng)絡(luò)圖[4]。由于企業(yè)內(nèi)部信息是保密的,而基于網(wǎng)絡(luò)的新聞事件等信息相對(duì)全面,因此企業(yè)可以利用網(wǎng)絡(luò),結(jié)合知識(shí)圖譜,建立更加精確、更深層次的企業(yè)知識(shí)圖譜,從而為客戶或企業(yè)提供查詢、分析、分享和過濾等服務(wù)[5]。
企業(yè)知識(shí)圖譜給出了企業(yè)相關(guān)人物、事件及它們之間的關(guān)系,它不是現(xiàn)有知識(shí)系統(tǒng)、數(shù)據(jù)倉庫和其他數(shù)據(jù)存儲(chǔ)管理的替代品,而是它們連接和交互的橋梁。它最明顯的好處,在于能夠幫助企業(yè)自身進(jìn)行規(guī)劃和管理,同時(shí)幫助企業(yè)供應(yīng)商、客戶及投資人等了解公司狀況。然而,構(gòu)建企業(yè)知識(shí)圖譜也面臨著諸多挑戰(zhàn),如知識(shí)沖突不一致或缺乏與外部數(shù)據(jù)語義聯(lián)接等。
本文構(gòu)建了簡(jiǎn)單企業(yè)知識(shí)圖譜,并對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行可視化研究,將集合因子引入到力引導(dǎo)布局以加強(qiáng)屬于同一集合元素間的布局關(guān)系,減少集合可視化中的集合路徑交叉。
2企業(yè)知識(shí)圖譜構(gòu)建
2.1基于力引導(dǎo)算法的網(wǎng)絡(luò)可視化
由于知識(shí)圖譜搜索是基于實(shí)體關(guān)系的,因此可將知識(shí)圖譜構(gòu)建成網(wǎng)絡(luò)圖,其中圖的節(jié)點(diǎn)為知識(shí)圖譜中的實(shí)體,節(jié)點(diǎn)之間的連接表示實(shí)體之間的關(guān)系[6]。已經(jīng)有很多構(gòu)建網(wǎng)絡(luò)圖的算法,如引導(dǎo)布局、地圖布局等。其中力引導(dǎo)布局能充分揭示網(wǎng)絡(luò)整體結(jié)構(gòu),力引導(dǎo)算法是網(wǎng)絡(luò)圖可視化中主流的布局算法,因此本文選擇力引導(dǎo)算法進(jìn)行企業(yè)知識(shí)圖譜可視化分析。
基于力引導(dǎo)的算法作為彈簧理論算法的一類典型,被廣泛應(yīng)用于描述企業(yè)網(wǎng)絡(luò)等關(guān)系型信息圖。該算法將整個(gè)網(wǎng)絡(luò)看作一個(gè)物理系統(tǒng)[7],系統(tǒng)中的每個(gè)節(jié)點(diǎn)都可以看成是一個(gè)帶有一定能量的放電粒子,粒子與粒子之間存在某種庫侖斥力,使它們兩兩相互排斥。同時(shí),粒子間被“邊”所牽連,這些邊產(chǎn)生類似彈簧的胡克引力,又緊緊牽制著“邊”兩端的粒子。在粒子間斥力和引力的不斷作用下,粒子們從隨機(jī)無序的初態(tài)不斷發(fā)生位移,逐漸趨于平衡有序的終態(tài)。整個(gè)物理系統(tǒng)的能量不斷消耗,經(jīng)過數(shù)次迭代,粒子之間幾乎不再發(fā)生相對(duì)位移,系統(tǒng)達(dá)到穩(wěn)定平衡狀態(tài),最終理想的網(wǎng)絡(luò)圖也基本繪制完成。算法步驟如下:
步驟1. 隨機(jī)分布初始節(jié)點(diǎn)位置;
步驟2. 計(jì)算每次迭代局部區(qū)域內(nèi)兩兩節(jié)點(diǎn)間的斥力所產(chǎn)生的單位位移(一般為正值);
步驟3. 計(jì)算每次迭代每條邊的引力對(duì)兩端節(jié)點(diǎn)所產(chǎn)生的單位位移(一般為負(fù)值);
步驟4. 調(diào)整步驟 2、3 中的斥力和引力系數(shù);
步驟5. 累加經(jīng)過步驟 2、3 計(jì)算得到的所有節(jié)點(diǎn)的單位位移;
步驟6. 迭代 n 次,直至達(dá)到理想效果。
由Stanley Wasserman和Katherine Faust基于社會(huì)數(shù)據(jù)的網(wǎng)絡(luò)分析可知,識(shí)別網(wǎng)絡(luò)中與節(jié)點(diǎn)關(guān)系緊密的子集是網(wǎng)絡(luò)分析主要關(guān)注的問題之一。對(duì)知識(shí)圖譜網(wǎng)絡(luò)的緊密子集進(jìn)行分析能夠幫助企業(yè)分析其生態(tài)結(jié)構(gòu),幫助公眾了解相應(yīng)集合的結(jié)構(gòu)及其與其它集合的關(guān)系等,因此可在網(wǎng)絡(luò)圖基礎(chǔ)上應(yīng)用相關(guān)技術(shù)進(jìn)行集合可視分析。
2.2力引導(dǎo)初始布局中引入集合因子
平行坐標(biāo)系是最基礎(chǔ)、最常用的可視化分析方法之一。為了減少集合可視化中的集合路徑交叉及圖節(jié)點(diǎn)的交叉,我們?cè)噲D將網(wǎng)絡(luò)圖節(jié)點(diǎn)按照屬性分類并進(jìn)行平行坐標(biāo)系布局,并把數(shù)據(jù)項(xiàng)相同的屬性布局到一個(gè)坐標(biāo)軸上。
根據(jù)數(shù)據(jù)集識(shí)別核心集合個(gè)數(shù),將核心集合中的節(jié)點(diǎn)分布到各集合對(duì)應(yīng)的平行坐標(biāo)軸上。節(jié)點(diǎn)在平行坐標(biāo)系上的布局依然按照作用力方法,屬于同一個(gè)集合的節(jié)點(diǎn)之間存在著引力和斥力,若節(jié)點(diǎn)相似度較高則布局應(yīng)鄰近,比如同一集合的兩個(gè)節(jié)點(diǎn)都與特定集合中的關(guān)鍵節(jié)點(diǎn)相連接,則將它們鄰近布局;不同集合的節(jié)點(diǎn)之間只存在引力作用。在考慮節(jié)點(diǎn)權(quán)重情況下,權(quán)重越大對(duì)不同集合(不同坐標(biāo)系)中節(jié)點(diǎn)的引力就越大,從而使得與之相連的節(jié)點(diǎn)更傾向于權(quán)重大的節(jié)點(diǎn)。如圖1,白色節(jié)點(diǎn)由于收到力的平衡作用處于灰色節(jié)點(diǎn)平分線偏下的位置。
2.3構(gòu)建企業(yè)知識(shí)圖譜
企業(yè)知識(shí)圖譜是利用網(wǎng)絡(luò)上各種媒體、組織及個(gè)人發(fā)布、共享的數(shù)據(jù)建立的,由6個(gè)模塊組成,分別為搜索、企業(yè)綜合信息、相關(guān)企業(yè)、企業(yè)知識(shí)網(wǎng)絡(luò)、詳細(xì)信息和企業(yè)事件時(shí)間線,其框架如圖2所示。搜索模塊可根據(jù)現(xiàn)有知識(shí)庫及網(wǎng)絡(luò)信息搜索為其他模塊提供信息;企業(yè)綜合信息模塊提供企業(yè)基本信息,例如成立時(shí)間、核心業(yè)務(wù)類型等;相關(guān)企業(yè)模塊主要顯示相關(guān)企業(yè);企業(yè)知識(shí)網(wǎng)絡(luò)模塊是企業(yè)知識(shí)圖譜系統(tǒng)的核心模塊,它是由企業(yè)相關(guān)知識(shí)節(jié)點(diǎn)組成的關(guān)系網(wǎng)絡(luò),可以從中發(fā)現(xiàn)企業(yè)、產(chǎn)品、顧客、供應(yīng)商等之間的關(guān)系;企業(yè)事件時(shí)間線模塊提供企業(yè)重大事件熱度隨時(shí)間變化的情況,并可與企業(yè)知識(shí)網(wǎng)絡(luò)進(jìn)行交互來展示與事件相關(guān)的知識(shí)節(jié)點(diǎn)分布;詳細(xì)信息模塊則是進(jìn)行網(wǎng)絡(luò)或時(shí)間線交互時(shí)對(duì)應(yīng)的詳細(xì)信息。
3案例研究及結(jié)果分析
本研究以“中國(guó)平安集團(tuán)”為關(guān)鍵詞爬取從2014年1月到2015年4月的數(shù)據(jù),按照搜索熱度篩選出關(guān)注度較高的事件,并進(jìn)一步提取出事件新聞中的實(shí)體及實(shí)體關(guān)系,建立企業(yè)知識(shí)圖譜。
圖3為平安集團(tuán)企業(yè)知識(shí)圖譜系統(tǒng)。左側(cè)為企業(yè)相關(guān)信息,其中,上部為企業(yè)知識(shí)匯總,中部為與平安相關(guān)聯(lián)的企業(yè)。中間核心部分為企業(yè)知識(shí)圖譜可視化結(jié)果。右側(cè)為知識(shí)圖譜中知識(shí)節(jié)點(diǎn)的詳細(xì)信息。企業(yè)知識(shí)圖譜中較關(guān)注的知識(shí)節(jié)點(diǎn)為相關(guān)企業(yè)、顧客、相關(guān)任務(wù)及品牌等,因此本文主要對(duì)以上知識(shí)進(jìn)行可視分析。其中的核心節(jié)點(diǎn)為中國(guó)平安昆山支行和上海平安保潔服務(wù)公司,第一核心集合為平安及其相關(guān)公司,其次是地域和組織等,根據(jù)與同一節(jié)點(diǎn)相連接的同類節(jié)點(diǎn)鄰近布局原則,將建筑工程意外險(xiǎn)等險(xiǎn)種作為產(chǎn)品與中國(guó)平安昆山支行關(guān)聯(lián),據(jù)此可得出平安的客戶主要有房產(chǎn)開發(fā)與建筑公司、物流公司和生產(chǎn)型企業(yè),蘭州同信汽車服務(wù)有限公司通過車輛保險(xiǎn)與中國(guó)平安相關(guān)聯(lián)。底部使用不等距折線圖來表達(dá)企業(yè)相關(guān)的新聞、輿論事件隨時(shí)間變化的熱度變化。圖4中間核心部分是在企業(yè)知識(shí)圖網(wǎng)絡(luò)布局上進(jìn)行的集合可視化分析結(jié)果。對(duì)比圖3和圖4可以看出,在關(guān)系網(wǎng)絡(luò)布局基礎(chǔ)上進(jìn)行的集合可視化有助于理解信息分類及分布。
圖5為知識(shí)圖譜交互示意圖,如選中“曹斌(經(jīng)理)”節(jié)點(diǎn)后,其相關(guān)節(jié)點(diǎn)也會(huì)被放大,同時(shí)系統(tǒng)右側(cè)面板將提供該節(jié)點(diǎn)相關(guān)信息。圖6展示了事件交互操作,點(diǎn)擊時(shí)間點(diǎn)時(shí),系統(tǒng)會(huì)彈框顯示事件相關(guān)信息等。如事件“平安銀行前員工涉嫌民間集資,金額或上億”影響最高,相關(guān)知識(shí)節(jié)點(diǎn)為平安銀行松江新城支行、客戶經(jīng)理、上海市銀行同業(yè)公會(huì)、上海銀監(jiān)會(huì)、民間集資和平安銀行寧波分行,其中上海市銀行同業(yè)公會(huì)和上海銀監(jiān)會(huì)為相應(yīng)的監(jiān)管部門,平安銀行寧波支行也曾發(fā)生過類似的案例,因此都與之相關(guān)聯(lián)。
由上述分析可知,建立企業(yè)知識(shí)圖譜并進(jìn)行集合可視化具有如下優(yōu)勢(shì):首先可以快速了解公司基本信息,如業(yè)務(wù)類型、公司性質(zhì)等,其次能夠根據(jù)企業(yè)知識(shí)圖譜中的節(jié)點(diǎn)關(guān)系了解平安集團(tuán)相關(guān)公司、相關(guān)人物、相關(guān)地域、相關(guān)產(chǎn)品及其客戶等信息,最后可以追蹤查看企業(yè)相關(guān)事件及其在知識(shí)圖譜中涉及到的知識(shí)節(jié)點(diǎn)。
4結(jié)束語
企業(yè)知識(shí)圖譜在數(shù)據(jù)分析與挖掘方面具有重要作用。為了更清晰地表達(dá)屬于同一集合的信息及集合間的相互關(guān)系,本文在網(wǎng)絡(luò)圖布局基礎(chǔ)上進(jìn)行集合可視化,使用集合路徑連接集合中的各節(jié)點(diǎn),針對(duì)集合路徑之間的交叉問題,進(jìn)一步引入集合因素,提供相應(yīng)的交互,實(shí)現(xiàn)簡(jiǎn)單的企業(yè)知識(shí)圖譜,并進(jìn)行可視化及結(jié)果分析,挖掘出企業(yè)、地域、人物及產(chǎn)品等之間的關(guān)系及企業(yè)的事件發(fā)展與時(shí)間的關(guān)系。未來,我們將完善企業(yè)知識(shí)圖譜構(gòu)建方法及可視化方法,進(jìn)行更深入的知識(shí)分析,以挖掘更豐富更有價(jià)值的信息。
[參考文獻(xiàn)]
[1]金貴陽, 呂福在, 項(xiàng)占琴. 基于知識(shí)圖譜和語義網(wǎng)絡(luò)技術(shù)的企業(yè)信息集成方法[J]. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014, 44(2): 250-255.
[2]張志強(qiáng), 冷伏海, 劉清, 等. 知識(shí)分析及其應(yīng)用發(fā)展趨勢(shì)研究[J]. 情報(bào)科學(xué), 2010, 28(7):1100-1107.
[3]Davenport T H, Prusak L. Working knowledge: How organizations manage what they know[M]. Boston: Harvard Business Press, 1998: 196-223.
[4]杜亞軍, 吳越. 微博知識(shí)圖譜構(gòu)建方法研究[J]. 西華大學(xué)學(xué)報(bào)(自然科學(xué)版) , 2015, 34(1): 27-35.
[5]邱均平, 呂紅. 基于知識(shí)圖譜的國(guó)內(nèi)知識(shí)管理發(fā)展研究[J]. 情報(bào)學(xué)報(bào), 2013, 32(5): 548-560.
[6]Pechsiri C, Piriyakul R. Explanation knowledge graph construction through causality extraction from texts[J]. Journal of Computer Science and Technology, 2010, 25(5): 1055-1070.
[7]田一鳴, 陸陽, 葛方振, 等. 虛擬力引導(dǎo)蟻群算法的WSN全局控制鏈路實(shí)現(xiàn)策略[J]. 計(jì)算機(jī)研究與發(fā)展, 2010, 47(Suppl.): 26-30.
[收稿日期]2016-01-19
[基金項(xiàng)目]安徽省教育廳自然科學(xué)基金重點(diǎn)項(xiàng)目“基于翻譯模型和網(wǎng)絡(luò)挖掘相結(jié)合的命名實(shí)體翻譯方法研究”(項(xiàng)目編號(hào):KJ2014A081);安徽省高等教育振興計(jì)劃重大教學(xué)改革研究項(xiàng)目“成人高等教育遠(yuǎn)程化教學(xué)模式改革網(wǎng)上教學(xué)支持服務(wù)體系的構(gòu)建與實(shí)踐”(項(xiàng)目編號(hào):2014zdjy192)
[作者簡(jiǎn)介]董露露(1991-),女,安徽阜陽人,助教,碩士。研究方向:數(shù)據(jù)挖掘、信息檢索。
[中圖分類號(hào)]TP391
[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1674-2273(2016)03-0028-03