范存慶 余軍合 戰(zhàn)洪飛 王 瑞
(寧波大學機械工程與力學學院,浙江 寧波 315211)
產(chǎn)業(yè)集群是推動區(qū)域經(jīng)濟發(fā)展的重要形式,產(chǎn)業(yè)集群中包含企業(yè)、人員、機構等眾多主體,各主體之間都有直接或間接的復雜關系,構成龐大的網(wǎng)絡結(jié)構。隨著大數(shù)據(jù)技術的發(fā)展,通過獲取產(chǎn)業(yè)集群相關數(shù)據(jù),構建產(chǎn)業(yè)集群網(wǎng)絡結(jié)構,從微觀的角度研究產(chǎn)業(yè)集群的發(fā)展規(guī)律,更能詳細研究產(chǎn)業(yè)集群的內(nèi)部演化規(guī)律。知識圖譜是研究網(wǎng)絡結(jié)構數(shù)據(jù)的有效工具,其本質(zhì)是一個能對現(xiàn)實世界中事物之間的關系進行直觀映射的語義網(wǎng)絡,可以利用知識圖譜理論方法來研究產(chǎn)業(yè)集群的內(nèi)部結(jié)構。知識圖譜作為大數(shù)據(jù)技術的重要組成部分,現(xiàn)在已經(jīng)被廣泛應用[1]。
車金立等構建了軍事裝備知識圖譜,用于實現(xiàn)軍事裝備領域的知識問答[2];在煤礦安全領域,劉鵬等將知識圖譜結(jié)合Lattice LSTM模型和語義相似度計算,提出了一種自然語言知識查詢方法,從而提高了煤礦安全信息資源整合[3];杜志強等圍繞自然災害事件、災害應急任務等4個要素,結(jié)合本體建模方法和條件隨機場模型構建了洪澇災害應急知識圖譜,根據(jù)數(shù)據(jù)關聯(lián),實現(xiàn)對相關數(shù)據(jù)節(jié)點的推薦應用,為提高自然災害應急響應研究提供了理論方法基礎[4];Rotmensch等提出了一種使用基本概念從大規(guī)模電子病歷中提取醫(yī)學信息并自動構建高質(zhì)量健康知識圖譜的方法[5];Fang等將計算機視覺算法和本體模型相結(jié)合,開發(fā)出建筑安全知識圖譜,可依照安全法規(guī)自動識別建筑工地的安全隱患[6];Xiao等采用BiLSTM+CRF模型從大量文獻中提取氣象模擬知識并結(jié)合Neo4j圖數(shù)據(jù)庫構建氣象模擬知識圖譜,實現(xiàn)氣象模擬知識的結(jié)構化存儲和集成[7]。
本文選取寧波地區(qū)的注塑機產(chǎn)業(yè)集群作為研究對象,提出構建產(chǎn)業(yè)集群知識圖譜的整體框架,構建產(chǎn)業(yè)集群本體模型,并從互聯(lián)網(wǎng)平臺獲取數(shù)據(jù),構建注塑機產(chǎn)業(yè)集群知識圖譜,探索產(chǎn)業(yè)集群知識圖譜的應用。
產(chǎn)業(yè)集群相關數(shù)據(jù)包括企業(yè)基本信息、專利信息、產(chǎn)品信息和人員需求信息等,這些數(shù)據(jù)包括結(jié)構化數(shù)據(jù)和非結(jié)構化數(shù)據(jù),良莠不齊且數(shù)據(jù)量大,并非所有數(shù)據(jù)都可以用于構建知識圖譜。因此構建產(chǎn)業(yè)集群知識圖譜需要先明確產(chǎn)業(yè)集群的本體模型,根據(jù)建模結(jié)果從海量的數(shù)據(jù)中抽取相應的實體和關系,構建產(chǎn)業(yè)集群知識圖譜。本文提出的整體框架如圖1所示。
圖1 產(chǎn)業(yè)集群知識圖譜整體框架圖
數(shù)據(jù)獲取與預處理:數(shù)據(jù)的來源主要有天眼查之類的企業(yè)信息網(wǎng)站、企業(yè)專利庫及招聘網(wǎng)站等,通過數(shù)據(jù)挖掘等手段進行獲取,并對獲取數(shù)據(jù)進行預處理,為信息抽取做準備。
本體建模和知識抽?。好鞔_集群中企業(yè)、人員、產(chǎn)品等實體的屬性以及各個實體之間的關系,構建產(chǎn)業(yè)集群的本體模型;根據(jù)本體模型從已有數(shù)據(jù)中抽取相關的企業(yè)實體、產(chǎn)品實體,同時抽取實體關系,構建知識圖譜。
知識存儲和可視化:在將數(shù)據(jù)轉(zhuǎn)化成結(jié)構化數(shù)據(jù)基礎上,抽取實體及其屬性以及關系,構造“實體-關系-實體”三元組。傳統(tǒng)的關系型數(shù)據(jù)庫難以直觀描述這種三元組關系,因此本文選用圖數(shù)據(jù)庫Neo4j存儲知識圖譜三元組。Neo4j可以直觀反應實體之間的關系,并且利用Cypher圖數(shù)據(jù)庫查詢語句可以對知識圖譜進行高效的增刪改查。
知識圖譜應用:產(chǎn)業(yè)集群知識圖譜從數(shù)據(jù)層面描述了產(chǎn)業(yè)集群的物理關系。通過知識圖譜圖結(jié)構分析方法和深度學習方法,對產(chǎn)業(yè)集群相關問題進行研究。
研究選擇自頂向下的構建方式,先構建產(chǎn)業(yè)集群本體模型,再根據(jù)模型從數(shù)據(jù)中抽取相關實體和關系。
產(chǎn)業(yè)集群知識圖譜建模側(cè)重于構建知識圖譜的本體模型,明確產(chǎn)業(yè)集群知識圖譜中出現(xiàn)的實體概念和關系,實體概念可以理解為實體的類,關系是指對象之間的二元關系。其中實體概念一共包括6個:企業(yè)、人員、產(chǎn)品、地區(qū)、知識資源和科研院校。
企業(yè)類實體概念。企業(yè)是產(chǎn)業(yè)集群的主體,定義企業(yè)實體概念為{label;name;size;address;industry;time},中括號中是該實體的屬性。其中l(wèi)abel代表此類實體類別,比如“企業(yè)”;name代表企業(yè)名稱,比如“富**機械制造有限公司”;size代表企業(yè)規(guī)模,選取企業(yè)參保人數(shù)作為企業(yè)規(guī)模的衡量標準;address代表企業(yè)所屬地區(qū),比如“北侖區(qū)”;industry代表企業(yè)所屬行業(yè),比如“通用設備制造業(yè)”;time代表企業(yè)成立時間,單位是年,如“2013”。
產(chǎn)品類實體概念。產(chǎn)品是產(chǎn)業(yè)集群經(jīng)營活動的體現(xiàn),也是產(chǎn)業(yè)集群的主體之一,定義產(chǎn)品實體概念為{label;name;class;frequency;function;price}。其中l(wèi)abel代表此類實體的類別,如“產(chǎn)品”;name代表產(chǎn)品名稱,如“注塑機”;class代表產(chǎn)品類別,如“生產(chǎn)設備”;frequency代表產(chǎn)品在集群中出現(xiàn)的頻次;function代表產(chǎn)品功能,如“加工塑料制品”;price代表產(chǎn)品價格。
人員類實體概念。人員是產(chǎn)業(yè)集群中知識資源的載體,將人員實體概念定義為{label;age;sex;education;skill;post}。其中l(wèi)abel代表此類實體的類別;age代表人員年齡;sex代表人員性別;education代表人員學歷;skill代表人員技能;post代表人員崗位。人員類概念分為法人、研究人員及職工。
其他實體概念。地區(qū)類實體概念主要描述空間信息,用于關聯(lián)企業(yè)業(yè)務活動。知識資源類實體概念主要描述產(chǎn)業(yè)集群的技術層面信息,包括專利、論文和技能等??蒲性盒n悓嶓w概念是集群中區(qū)別于企業(yè)的另一類機構實體,是論文等知識資源的主要輸出單元。
在對產(chǎn)業(yè)集群知識圖譜中的實體概念進行建?;A上,需要對實體間關系進行建模。關系包括實體間的二元關系以及實體和屬性之間的關系。由于產(chǎn)業(yè)集群數(shù)據(jù)中有大部分結(jié)構化數(shù)據(jù),其中的關聯(lián)關系比較明確,方便對關系進行建模。結(jié)合前述步驟所建模的實體類概念,使用protégé工具構建出完整的產(chǎn)業(yè)集群知識圖譜模式層及其實體類概念、實體關系和實體屬性如圖2、圖3所示。
圖2 產(chǎn)業(yè)集群知識圖譜模式層概念關系
圖3 產(chǎn)業(yè)集群知識圖譜模式層概念及其關系
在本體建?;A上,可以從已有的數(shù)據(jù)中抽取相關的實體和關系,組成三元組,構建知識圖譜。
企業(yè)實體及其關系抽?。浩髽I(yè)基本信息主要存儲在結(jié)構化數(shù)據(jù)中,由于結(jié)構化數(shù)據(jù)質(zhì)量較高,具有規(guī)范的模式,對于結(jié)構化數(shù)據(jù)采用直接映射和基于規(guī)則的抽取方式。根據(jù)知識圖譜建模部分所構建的企業(yè)本體模型,從數(shù)據(jù)庫中提取“企業(yè)名稱”字段作為name屬性,“參保人數(shù)”字段作為size屬性,“所屬區(qū)縣”字段作為address屬性,“所屬行業(yè)”字段作為industry屬性,“成立日期”字段作為time屬性,一共抽取到1 958個企業(yè)實體,部分“企業(yè)”實體數(shù)據(jù)如表1所示。
表1 企業(yè)實體數(shù)據(jù)(部分)
企業(yè)-企業(yè)關系的地理臨近由企業(yè)地址計算得出,經(jīng)過數(shù)據(jù)預處理階段,每一個企業(yè)的地址都是唯一的,可以在地圖上準確定位。結(jié)合百度地圖開發(fā)平臺API,將企業(yè)地址轉(zhuǎn)換為經(jīng)緯度進而計算出企業(yè)之間的相對距離,計算公式為:
(1)
計算出所有企業(yè)兩兩之間的距離之后,將距離小于500m的兩個企業(yè)設定為具有“地理臨近”關系,并且將實際距離設置為該關系的權重。表2為部分企業(yè)關系數(shù)據(jù)。
表2 企業(yè)間關系數(shù)據(jù)(部分)
產(chǎn)品實體抽?。寒a(chǎn)品信息主要存儲在非結(jié)構化文本中,然而由于這部分數(shù)據(jù)沒有規(guī)范模式,因此使用BERT+BiLSTM+CRF模型進行實體識別。該模型有3個模塊組成,第一個模塊是BERT模塊,負責將輸入的文本轉(zhuǎn)換成字向量輸入到下一模塊;第二層是BiLSTM模塊,負責提取上下文語義特征并將結(jié)果輸入第三模塊;第三模塊是CRF,負責對第二模塊輸出結(jié)果進行解碼,對輸入文本進行序列標注。
將文本輸入該模型之前,需要先對文本進行標注,目前,常見的中文標注體系有三種:BMES、BIO和BIOES,本文采用的是BIO標注體系。標注對象是文本中的產(chǎn)品名稱,B-PRO代表命名實體開始的字符,I-PRO代表命名實體剩余的字符,O代表非命名實體的字符。
選取了1 000家企業(yè)的經(jīng)營范圍文本數(shù)據(jù)進行標注,訓練該模型。標注方法采用自動化標注和人工標注相結(jié)合的方式,最終一共標注了3 698個句子,將已標注的數(shù)據(jù)集按照7∶3的比例劃分為訓練集和測試集。實驗評價指標采用準確率P,召回率R和F1值進行實體識別的效果評價。為了對比該模型的效果,選取BiLSTM+CRF模型和Word2Vec+BiLSTM+CRF模型進行對比實驗,結(jié)果如表3所示。
表3 實驗結(jié)果對比
結(jié)果證明BERT+BiLSTM+CRF在實體識別中效果較好。最終通過該模型抽取產(chǎn)品實體859個,以企業(yè)為單位將抽取到的產(chǎn)品名稱存儲在結(jié)構化數(shù)據(jù)中,并統(tǒng)計所有產(chǎn)品在所有企業(yè)出現(xiàn)的頻次,基于構建的產(chǎn)品實體模型創(chuàng)建產(chǎn)品節(jié)點,其中產(chǎn)品名稱作為name屬性,產(chǎn)品頻次作為frequency屬性。
企業(yè)-產(chǎn)品和產(chǎn)品-產(chǎn)品關系抽?。和ㄟ^分詞發(fā)現(xiàn),企業(yè)和產(chǎn)品之間的關系包括“制造”“批發(fā)”“提供”3種。因此,產(chǎn)品和企業(yè)的關系采用直接映射的方式構建,其中“制造”“批發(fā)”兩個關鍵詞在對企業(yè)經(jīng)營范圍文本進行分詞時保留,然后直接與抽取到的產(chǎn)品進行匹配,構建“企業(yè)-制造/批發(fā)-產(chǎn)品”三元組。對于服務類型的產(chǎn)品,比如“倉儲”“貨物運輸”等,和企業(yè)的關系為“提供”,構建“企業(yè)-提供-產(chǎn)品”三元組。
將兩種產(chǎn)品出現(xiàn)在同一家企業(yè)的共現(xiàn)關系定義為產(chǎn)品-產(chǎn)品關系,關系名稱為“同屬于”。此外,構建產(chǎn)品的共現(xiàn)矩陣,比如“注塑機”和“塑料制品”在一家企業(yè)同時出現(xiàn)則計數(shù)1,如果在另一家企業(yè)又同時出現(xiàn)則計數(shù)加1,將兩種產(chǎn)品的共現(xiàn)頻次經(jīng)過歸一化后的數(shù)值作為“同屬于”關系的權重,權重越大,產(chǎn)品關聯(lián)越強,反之越弱。
由于數(shù)據(jù)來源多樣,存在同一個實體在不同數(shù)據(jù)源中表述不一致的問題,造成實體冗余,降低了知識圖譜的質(zhì)量。為解決這一問題,需要進行實體對齊。針對不同實體使用基于匹配規(guī)則和基于相似度兩種方式進行實體對齊。對于企業(yè)實體,使用基于匹配規(guī)則的知識融合,即建立企業(yè)名稱庫,將抽取的實體統(tǒng)一匹配到名稱庫中,將表述統(tǒng)一。
對于產(chǎn)品實體,由于產(chǎn)品數(shù)量多,而且同一產(chǎn)品的表述遠不止兩種,因此提出基于語義相似度的知識融合。使用BERT輸出的產(chǎn)品詞向量,計算兩個產(chǎn)品向量的余弦相似度,計算公式為:
(2)
其中x,y為兩個詞的詞向量,計算出的余弦相似度越接近1,兩個詞越相似,越接近0,兩個詞越不相似。本文設置語義相似度的閾值為0.7,即余弦相似度大于等于0.7的詞判定為相似詞,將兩者對應的實體進行融合。
經(jīng)過知識融合,最終構建的圖譜一共有實體2 596個,包括“企業(yè)”和“產(chǎn)品”;關系38 965個,包括“地理臨近”“制造”“批發(fā)”“提供”“同屬于”。將所有三元組全部存入Neo4j數(shù)據(jù)庫中,其部分結(jié)果可視化結(jié)果如圖4所示。
圖4 產(chǎn)業(yè)集群知識圖譜(局部)
企業(yè)之間的業(yè)務配套往往和地理位置的臨近緊密關聯(lián),即在地理位置上臨近的企業(yè)之間有較多的業(yè)務往來,反之,有較多業(yè)務往來的企業(yè)地理位置較臨近。企業(yè)之間的業(yè)務往來可以從產(chǎn)品體現(xiàn)。
注塑機生產(chǎn)企業(yè)涉及的行業(yè)較多,上游企業(yè)包括鋼材、冶金鑄造等機械類零部件生產(chǎn)加工行業(yè),以及液壓零件、電子儀器儀表、電子元器件等傳動類和控制類零部件加工行業(yè)。下游企業(yè)則包括塑料建材、汽車配件、家用電器和物流、包裝材料以及其他普通塑料制品行業(yè)。
使用Cypher圖數(shù)據(jù)庫查詢語言可以精確查詢節(jié)點和關系信息,如圖5所示。選取“富**機械制造公司”為例,查詢其2跳關系的節(jié)點及關系,可以發(fā)現(xiàn)作為主機廠,“富**機械制造公司”周邊分布著物流公司,下游業(yè)務公司比如塑料制品企業(yè),以及上游公司比如機械零件制造企業(yè),整個集群依托地理位置臨近形成,可以看出它們的相對位置充分利用了地理環(huán)境優(yōu)勢,方便開展企業(yè)業(yè)務,各個企業(yè)之間的業(yè)務相互配套,形成制造系統(tǒng)。
圖5 注塑機某主機廠地理臨近企業(yè)分布
本文將知識圖譜和產(chǎn)業(yè)集群相結(jié)合,通過獲取互聯(lián)網(wǎng)平臺中企業(yè)相關數(shù)據(jù),經(jīng)過數(shù)據(jù)預處理、知識圖譜建模、知識抽取和知識融合構建了寧波市注塑機產(chǎn)業(yè)集群知識圖譜,并將其存入Neo4j圖數(shù)據(jù)庫,使用Cypher圖數(shù)據(jù)庫查詢語言查詢注塑機主機廠周邊企業(yè),發(fā)現(xiàn)集群依托地理臨近形成業(yè)務配套。
本文提出了產(chǎn)業(yè)集群知識圖譜構建的整體框架,構建了產(chǎn)業(yè)集群知識圖譜本體模型,并用注塑機集群驗證其可行性,但目前所構建的知識圖譜由于數(shù)據(jù)的不全,構建不夠全面,知識節(jié)點粒度較大,僅是宏觀層面的產(chǎn)業(yè)集群知識圖譜。接下來將要收集更多數(shù)據(jù),豐富該圖譜,構建產(chǎn)業(yè)集群技術層面、人員層面等多維度知識圖譜,將本體模型所涉及的實體和關系補全,進一步研究企業(yè)的各個方面的關聯(lián)性。