亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        產(chǎn)業(yè)集群知識圖譜構建方法研究

        2022-07-10 14:36:44范存慶余軍合戰(zhàn)洪飛
        科技與經(jīng)濟 2022年3期
        關鍵詞:產(chǎn)品模型企業(yè)

        范存慶 余軍合 戰(zhàn)洪飛 王 瑞

        (寧波大學機械工程與力學學院,浙江 寧波 315211)

        產(chǎn)業(yè)集群是推動區(qū)域經(jīng)濟發(fā)展的重要形式,產(chǎn)業(yè)集群中包含企業(yè)、人員、機構等眾多主體,各主體之間都有直接或間接的復雜關系,構成龐大的網(wǎng)絡結(jié)構。隨著大數(shù)據(jù)技術的發(fā)展,通過獲取產(chǎn)業(yè)集群相關數(shù)據(jù),構建產(chǎn)業(yè)集群網(wǎng)絡結(jié)構,從微觀的角度研究產(chǎn)業(yè)集群的發(fā)展規(guī)律,更能詳細研究產(chǎn)業(yè)集群的內(nèi)部演化規(guī)律。知識圖譜是研究網(wǎng)絡結(jié)構數(shù)據(jù)的有效工具,其本質(zhì)是一個能對現(xiàn)實世界中事物之間的關系進行直觀映射的語義網(wǎng)絡,可以利用知識圖譜理論方法來研究產(chǎn)業(yè)集群的內(nèi)部結(jié)構。知識圖譜作為大數(shù)據(jù)技術的重要組成部分,現(xiàn)在已經(jīng)被廣泛應用[1]。

        車金立等構建了軍事裝備知識圖譜,用于實現(xiàn)軍事裝備領域的知識問答[2];在煤礦安全領域,劉鵬等將知識圖譜結(jié)合Lattice LSTM模型和語義相似度計算,提出了一種自然語言知識查詢方法,從而提高了煤礦安全信息資源整合[3];杜志強等圍繞自然災害事件、災害應急任務等4個要素,結(jié)合本體建模方法和條件隨機場模型構建了洪澇災害應急知識圖譜,根據(jù)數(shù)據(jù)關聯(lián),實現(xiàn)對相關數(shù)據(jù)節(jié)點的推薦應用,為提高自然災害應急響應研究提供了理論方法基礎[4];Rotmensch等提出了一種使用基本概念從大規(guī)模電子病歷中提取醫(yī)學信息并自動構建高質(zhì)量健康知識圖譜的方法[5];Fang等將計算機視覺算法和本體模型相結(jié)合,開發(fā)出建筑安全知識圖譜,可依照安全法規(guī)自動識別建筑工地的安全隱患[6];Xiao等采用BiLSTM+CRF模型從大量文獻中提取氣象模擬知識并結(jié)合Neo4j圖數(shù)據(jù)庫構建氣象模擬知識圖譜,實現(xiàn)氣象模擬知識的結(jié)構化存儲和集成[7]。

        本文選取寧波地區(qū)的注塑機產(chǎn)業(yè)集群作為研究對象,提出構建產(chǎn)業(yè)集群知識圖譜的整體框架,構建產(chǎn)業(yè)集群本體模型,并從互聯(lián)網(wǎng)平臺獲取數(shù)據(jù),構建注塑機產(chǎn)業(yè)集群知識圖譜,探索產(chǎn)業(yè)集群知識圖譜的應用。

        1 產(chǎn)業(yè)集群知識圖譜整體框架設計

        產(chǎn)業(yè)集群相關數(shù)據(jù)包括企業(yè)基本信息、專利信息、產(chǎn)品信息和人員需求信息等,這些數(shù)據(jù)包括結(jié)構化數(shù)據(jù)和非結(jié)構化數(shù)據(jù),良莠不齊且數(shù)據(jù)量大,并非所有數(shù)據(jù)都可以用于構建知識圖譜。因此構建產(chǎn)業(yè)集群知識圖譜需要先明確產(chǎn)業(yè)集群的本體模型,根據(jù)建模結(jié)果從海量的數(shù)據(jù)中抽取相應的實體和關系,構建產(chǎn)業(yè)集群知識圖譜。本文提出的整體框架如圖1所示。

        圖1 產(chǎn)業(yè)集群知識圖譜整體框架圖

        數(shù)據(jù)獲取與預處理:數(shù)據(jù)的來源主要有天眼查之類的企業(yè)信息網(wǎng)站、企業(yè)專利庫及招聘網(wǎng)站等,通過數(shù)據(jù)挖掘等手段進行獲取,并對獲取數(shù)據(jù)進行預處理,為信息抽取做準備。

        本體建模和知識抽?。好鞔_集群中企業(yè)、人員、產(chǎn)品等實體的屬性以及各個實體之間的關系,構建產(chǎn)業(yè)集群的本體模型;根據(jù)本體模型從已有數(shù)據(jù)中抽取相關的企業(yè)實體、產(chǎn)品實體,同時抽取實體關系,構建知識圖譜。

        知識存儲和可視化:在將數(shù)據(jù)轉(zhuǎn)化成結(jié)構化數(shù)據(jù)基礎上,抽取實體及其屬性以及關系,構造“實體-關系-實體”三元組。傳統(tǒng)的關系型數(shù)據(jù)庫難以直觀描述這種三元組關系,因此本文選用圖數(shù)據(jù)庫Neo4j存儲知識圖譜三元組。Neo4j可以直觀反應實體之間的關系,并且利用Cypher圖數(shù)據(jù)庫查詢語句可以對知識圖譜進行高效的增刪改查。

        知識圖譜應用:產(chǎn)業(yè)集群知識圖譜從數(shù)據(jù)層面描述了產(chǎn)業(yè)集群的物理關系。通過知識圖譜圖結(jié)構分析方法和深度學習方法,對產(chǎn)業(yè)集群相關問題進行研究。

        2 產(chǎn)業(yè)集群知識圖譜構建

        研究選擇自頂向下的構建方式,先構建產(chǎn)業(yè)集群本體模型,再根據(jù)模型從數(shù)據(jù)中抽取相關實體和關系。

        2.1 產(chǎn)業(yè)集群知識圖譜本體建模

        產(chǎn)業(yè)集群知識圖譜建模側(cè)重于構建知識圖譜的本體模型,明確產(chǎn)業(yè)集群知識圖譜中出現(xiàn)的實體概念和關系,實體概念可以理解為實體的類,關系是指對象之間的二元關系。其中實體概念一共包括6個:企業(yè)、人員、產(chǎn)品、地區(qū)、知識資源和科研院校。

        企業(yè)類實體概念。企業(yè)是產(chǎn)業(yè)集群的主體,定義企業(yè)實體概念為{label;name;size;address;industry;time},中括號中是該實體的屬性。其中l(wèi)abel代表此類實體類別,比如“企業(yè)”;name代表企業(yè)名稱,比如“富**機械制造有限公司”;size代表企業(yè)規(guī)模,選取企業(yè)參保人數(shù)作為企業(yè)規(guī)模的衡量標準;address代表企業(yè)所屬地區(qū),比如“北侖區(qū)”;industry代表企業(yè)所屬行業(yè),比如“通用設備制造業(yè)”;time代表企業(yè)成立時間,單位是年,如“2013”。

        產(chǎn)品類實體概念。產(chǎn)品是產(chǎn)業(yè)集群經(jīng)營活動的體現(xiàn),也是產(chǎn)業(yè)集群的主體之一,定義產(chǎn)品實體概念為{label;name;class;frequency;function;price}。其中l(wèi)abel代表此類實體的類別,如“產(chǎn)品”;name代表產(chǎn)品名稱,如“注塑機”;class代表產(chǎn)品類別,如“生產(chǎn)設備”;frequency代表產(chǎn)品在集群中出現(xiàn)的頻次;function代表產(chǎn)品功能,如“加工塑料制品”;price代表產(chǎn)品價格。

        人員類實體概念。人員是產(chǎn)業(yè)集群中知識資源的載體,將人員實體概念定義為{label;age;sex;education;skill;post}。其中l(wèi)abel代表此類實體的類別;age代表人員年齡;sex代表人員性別;education代表人員學歷;skill代表人員技能;post代表人員崗位。人員類概念分為法人、研究人員及職工。

        其他實體概念。地區(qū)類實體概念主要描述空間信息,用于關聯(lián)企業(yè)業(yè)務活動。知識資源類實體概念主要描述產(chǎn)業(yè)集群的技術層面信息,包括專利、論文和技能等??蒲性盒n悓嶓w概念是集群中區(qū)別于企業(yè)的另一類機構實體,是論文等知識資源的主要輸出單元。

        在對產(chǎn)業(yè)集群知識圖譜中的實體概念進行建?;A上,需要對實體間關系進行建模。關系包括實體間的二元關系以及實體和屬性之間的關系。由于產(chǎn)業(yè)集群數(shù)據(jù)中有大部分結(jié)構化數(shù)據(jù),其中的關聯(lián)關系比較明確,方便對關系進行建模。結(jié)合前述步驟所建模的實體類概念,使用protégé工具構建出完整的產(chǎn)業(yè)集群知識圖譜模式層及其實體類概念、實體關系和實體屬性如圖2、圖3所示。

        圖2 產(chǎn)業(yè)集群知識圖譜模式層概念關系

        圖3 產(chǎn)業(yè)集群知識圖譜模式層概念及其關系

        2.2 實體抽取和關系抽取

        在本體建?;A上,可以從已有的數(shù)據(jù)中抽取相關的實體和關系,組成三元組,構建知識圖譜。

        企業(yè)實體及其關系抽?。浩髽I(yè)基本信息主要存儲在結(jié)構化數(shù)據(jù)中,由于結(jié)構化數(shù)據(jù)質(zhì)量較高,具有規(guī)范的模式,對于結(jié)構化數(shù)據(jù)采用直接映射和基于規(guī)則的抽取方式。根據(jù)知識圖譜建模部分所構建的企業(yè)本體模型,從數(shù)據(jù)庫中提取“企業(yè)名稱”字段作為name屬性,“參保人數(shù)”字段作為size屬性,“所屬區(qū)縣”字段作為address屬性,“所屬行業(yè)”字段作為industry屬性,“成立日期”字段作為time屬性,一共抽取到1 958個企業(yè)實體,部分“企業(yè)”實體數(shù)據(jù)如表1所示。

        表1 企業(yè)實體數(shù)據(jù)(部分)

        企業(yè)-企業(yè)關系的地理臨近由企業(yè)地址計算得出,經(jīng)過數(shù)據(jù)預處理階段,每一個企業(yè)的地址都是唯一的,可以在地圖上準確定位。結(jié)合百度地圖開發(fā)平臺API,將企業(yè)地址轉(zhuǎn)換為經(jīng)緯度進而計算出企業(yè)之間的相對距離,計算公式為:

        (1)

        計算出所有企業(yè)兩兩之間的距離之后,將距離小于500m的兩個企業(yè)設定為具有“地理臨近”關系,并且將實際距離設置為該關系的權重。表2為部分企業(yè)關系數(shù)據(jù)。

        表2 企業(yè)間關系數(shù)據(jù)(部分)

        產(chǎn)品實體抽?。寒a(chǎn)品信息主要存儲在非結(jié)構化文本中,然而由于這部分數(shù)據(jù)沒有規(guī)范模式,因此使用BERT+BiLSTM+CRF模型進行實體識別。該模型有3個模塊組成,第一個模塊是BERT模塊,負責將輸入的文本轉(zhuǎn)換成字向量輸入到下一模塊;第二層是BiLSTM模塊,負責提取上下文語義特征并將結(jié)果輸入第三模塊;第三模塊是CRF,負責對第二模塊輸出結(jié)果進行解碼,對輸入文本進行序列標注。

        將文本輸入該模型之前,需要先對文本進行標注,目前,常見的中文標注體系有三種:BMES、BIO和BIOES,本文采用的是BIO標注體系。標注對象是文本中的產(chǎn)品名稱,B-PRO代表命名實體開始的字符,I-PRO代表命名實體剩余的字符,O代表非命名實體的字符。

        選取了1 000家企業(yè)的經(jīng)營范圍文本數(shù)據(jù)進行標注,訓練該模型。標注方法采用自動化標注和人工標注相結(jié)合的方式,最終一共標注了3 698個句子,將已標注的數(shù)據(jù)集按照7∶3的比例劃分為訓練集和測試集。實驗評價指標采用準確率P,召回率R和F1值進行實體識別的效果評價。為了對比該模型的效果,選取BiLSTM+CRF模型和Word2Vec+BiLSTM+CRF模型進行對比實驗,結(jié)果如表3所示。

        表3 實驗結(jié)果對比

        結(jié)果證明BERT+BiLSTM+CRF在實體識別中效果較好。最終通過該模型抽取產(chǎn)品實體859個,以企業(yè)為單位將抽取到的產(chǎn)品名稱存儲在結(jié)構化數(shù)據(jù)中,并統(tǒng)計所有產(chǎn)品在所有企業(yè)出現(xiàn)的頻次,基于構建的產(chǎn)品實體模型創(chuàng)建產(chǎn)品節(jié)點,其中產(chǎn)品名稱作為name屬性,產(chǎn)品頻次作為frequency屬性。

        企業(yè)-產(chǎn)品和產(chǎn)品-產(chǎn)品關系抽?。和ㄟ^分詞發(fā)現(xiàn),企業(yè)和產(chǎn)品之間的關系包括“制造”“批發(fā)”“提供”3種。因此,產(chǎn)品和企業(yè)的關系采用直接映射的方式構建,其中“制造”“批發(fā)”兩個關鍵詞在對企業(yè)經(jīng)營范圍文本進行分詞時保留,然后直接與抽取到的產(chǎn)品進行匹配,構建“企業(yè)-制造/批發(fā)-產(chǎn)品”三元組。對于服務類型的產(chǎn)品,比如“倉儲”“貨物運輸”等,和企業(yè)的關系為“提供”,構建“企業(yè)-提供-產(chǎn)品”三元組。

        將兩種產(chǎn)品出現(xiàn)在同一家企業(yè)的共現(xiàn)關系定義為產(chǎn)品-產(chǎn)品關系,關系名稱為“同屬于”。此外,構建產(chǎn)品的共現(xiàn)矩陣,比如“注塑機”和“塑料制品”在一家企業(yè)同時出現(xiàn)則計數(shù)1,如果在另一家企業(yè)又同時出現(xiàn)則計數(shù)加1,將兩種產(chǎn)品的共現(xiàn)頻次經(jīng)過歸一化后的數(shù)值作為“同屬于”關系的權重,權重越大,產(chǎn)品關聯(lián)越強,反之越弱。

        2.3 知識融合

        由于數(shù)據(jù)來源多樣,存在同一個實體在不同數(shù)據(jù)源中表述不一致的問題,造成實體冗余,降低了知識圖譜的質(zhì)量。為解決這一問題,需要進行實體對齊。針對不同實體使用基于匹配規(guī)則和基于相似度兩種方式進行實體對齊。對于企業(yè)實體,使用基于匹配規(guī)則的知識融合,即建立企業(yè)名稱庫,將抽取的實體統(tǒng)一匹配到名稱庫中,將表述統(tǒng)一。

        對于產(chǎn)品實體,由于產(chǎn)品數(shù)量多,而且同一產(chǎn)品的表述遠不止兩種,因此提出基于語義相似度的知識融合。使用BERT輸出的產(chǎn)品詞向量,計算兩個產(chǎn)品向量的余弦相似度,計算公式為:

        (2)

        其中x,y為兩個詞的詞向量,計算出的余弦相似度越接近1,兩個詞越相似,越接近0,兩個詞越不相似。本文設置語義相似度的閾值為0.7,即余弦相似度大于等于0.7的詞判定為相似詞,將兩者對應的實體進行融合。

        經(jīng)過知識融合,最終構建的圖譜一共有實體2 596個,包括“企業(yè)”和“產(chǎn)品”;關系38 965個,包括“地理臨近”“制造”“批發(fā)”“提供”“同屬于”。將所有三元組全部存入Neo4j數(shù)據(jù)庫中,其部分結(jié)果可視化結(jié)果如圖4所示。

        圖4 產(chǎn)業(yè)集群知識圖譜(局部)

        3 產(chǎn)業(yè)集群知識圖譜分析

        企業(yè)之間的業(yè)務配套往往和地理位置的臨近緊密關聯(lián),即在地理位置上臨近的企業(yè)之間有較多的業(yè)務往來,反之,有較多業(yè)務往來的企業(yè)地理位置較臨近。企業(yè)之間的業(yè)務往來可以從產(chǎn)品體現(xiàn)。

        注塑機生產(chǎn)企業(yè)涉及的行業(yè)較多,上游企業(yè)包括鋼材、冶金鑄造等機械類零部件生產(chǎn)加工行業(yè),以及液壓零件、電子儀器儀表、電子元器件等傳動類和控制類零部件加工行業(yè)。下游企業(yè)則包括塑料建材、汽車配件、家用電器和物流、包裝材料以及其他普通塑料制品行業(yè)。

        使用Cypher圖數(shù)據(jù)庫查詢語言可以精確查詢節(jié)點和關系信息,如圖5所示。選取“富**機械制造公司”為例,查詢其2跳關系的節(jié)點及關系,可以發(fā)現(xiàn)作為主機廠,“富**機械制造公司”周邊分布著物流公司,下游業(yè)務公司比如塑料制品企業(yè),以及上游公司比如機械零件制造企業(yè),整個集群依托地理位置臨近形成,可以看出它們的相對位置充分利用了地理環(huán)境優(yōu)勢,方便開展企業(yè)業(yè)務,各個企業(yè)之間的業(yè)務相互配套,形成制造系統(tǒng)。

        圖5 注塑機某主機廠地理臨近企業(yè)分布

        4 總結(jié)與展望

        本文將知識圖譜和產(chǎn)業(yè)集群相結(jié)合,通過獲取互聯(lián)網(wǎng)平臺中企業(yè)相關數(shù)據(jù),經(jīng)過數(shù)據(jù)預處理、知識圖譜建模、知識抽取和知識融合構建了寧波市注塑機產(chǎn)業(yè)集群知識圖譜,并將其存入Neo4j圖數(shù)據(jù)庫,使用Cypher圖數(shù)據(jù)庫查詢語言查詢注塑機主機廠周邊企業(yè),發(fā)現(xiàn)集群依托地理臨近形成業(yè)務配套。

        本文提出了產(chǎn)業(yè)集群知識圖譜構建的整體框架,構建了產(chǎn)業(yè)集群知識圖譜本體模型,并用注塑機集群驗證其可行性,但目前所構建的知識圖譜由于數(shù)據(jù)的不全,構建不夠全面,知識節(jié)點粒度較大,僅是宏觀層面的產(chǎn)業(yè)集群知識圖譜。接下來將要收集更多數(shù)據(jù),豐富該圖譜,構建產(chǎn)業(yè)集群技術層面、人員層面等多維度知識圖譜,將本體模型所涉及的實體和關系補全,進一步研究企業(yè)的各個方面的關聯(lián)性。

        猜你喜歡
        產(chǎn)品模型企業(yè)
        一半模型
        企業(yè)
        企業(yè)
        企業(yè)
        重要模型『一線三等角』
        敢為人先的企業(yè)——超惠投不動產(chǎn)
        云南畫報(2020年9期)2020-10-27 02:03:26
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        2015產(chǎn)品LOOKBOOK直擊
        Coco薇(2015年1期)2015-08-13 02:23:50
        新產(chǎn)品
        玩具(2009年10期)2009-11-04 02:33:14
        日本a级片一区二区三区| 国产鲁鲁视频在线播放| 四虎影视国产884a精品亚洲| 国产又湿又爽又猛的视频| 美女视频黄是免费| a级国产乱理伦片在线播放| 中文字幕在线日韩| 五月停停开心中文字幕| 国语对白福利在线观看| 香港三级精品三级在线专区| 日韩AV无码一区二区三区不卡毛片| 黑人一区二区三区啪啪网站| 国产精品日韩经典中文字幕| 最新亚洲人成网站在线观看| 爱a久久片| 美女一区二区三区在线观看视频| 国产剧情一区二区三区在线| 色妞ww精品视频7777| 久久精品国产亚洲AV高清特级| 亚洲国产综合久久精品| 曰韩少妇内射免费播放| 亚洲精华国产精华液的福利| 美女超薄透明丝袜美腿| 免费国产不卡在线观看| 亚洲精品中文幕一区二区| 亚洲永久精品ww47| 免费大学生国产在线观看p| 中文字幕乱码亚洲一区二区三区| 精品国产性色无码av网站| 久久精品国产精品青草色艺| 亚洲在线视频一区二区| 国产精品女老熟女一区二区久久夜| 日韩亚洲av无码一区二区三区| 91精品啪在线看国产网站| 蜜乳一区二区三区亚洲国产| 国产成人亚洲综合无码品善网| 亚洲香蕉视频| 久久熟女精品—区二区蜜臀| 亚洲av色欲色欲www | 亚洲av成人一区二区三区av| 亚洲二区三区在线播放|