亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        城市大腦知識(shí)圖譜構(gòu)建及應(yīng)用研究

        2022-06-17 09:09:42馬亞中張聰聰徐大鵬梅一多孫興雷趙志賓王靜宇
        中文信息學(xué)報(bào) 2022年4期
        關(guān)鍵詞:論元本體圖譜

        馬亞中,張聰聰,徐大鵬,梅一多,孫興雷,趙志賓,王靜宇

        (中關(guān)村科學(xué)城城市大腦股份有限公司,北京 100081)

        0 引言

        城市大腦是誕生在中國(guó)的原創(chuàng)科技成果,也是城市建設(shè)和前沿科技領(lǐng)域的熱點(diǎn),迄今為止,全國(guó)已經(jīng)有數(shù)百個(gè)城市宣布建設(shè)城市大腦。相較于智慧城市側(cè)重城市垂直領(lǐng)域產(chǎn)業(yè)升級(jí),城市大腦著眼于全面的城市智能化建設(shè),即從感知智能到認(rèn)知智能的升級(jí)。研究指出[1],城市神經(jīng)元網(wǎng)絡(luò)和城市云反射弧將是城市大腦建設(shè)的重點(diǎn)。

        在5G、大數(shù)據(jù)、人工智能、工業(yè)互聯(lián)網(wǎng)等新一輪科技浪潮的推動(dòng)下,大規(guī)模物聯(lián)網(wǎng)傳感器部署到城市中,涵蓋智能生活、智能制造、智能交通、智能治理等領(lǐng)域(圖1),領(lǐng)域內(nèi)設(shè)備網(wǎng)絡(luò)組成了城市當(dāng)中的感知物聯(lián)網(wǎng)系統(tǒng),服務(wù)城市設(shè)施智能化升級(jí)和領(lǐng)域智慧化建設(shè)。

        圖1 智慧城市中的物聯(lián)網(wǎng)

        城市物聯(lián)網(wǎng)設(shè)備運(yùn)行按照領(lǐng)域進(jìn)行劃分、部署、聯(lián)網(wǎng)和管理,建設(shè)往往有較為完整的接入平臺(tái)和應(yīng)用系統(tǒng)[2],提供數(shù)據(jù)采集、上傳和分析等功能,如利用物聯(lián)網(wǎng)建立醫(yī)療監(jiān)控系統(tǒng)對(duì)病人的健康狀況進(jìn)行監(jiān)測(cè)[3]。在物聯(lián)網(wǎng)設(shè)備運(yùn)行過程中,會(huì)產(chǎn)生大量數(shù)字、文本、圖片、音視頻等多種形式數(shù)據(jù),然而設(shè)備與周邊環(huán)境之間、不同領(lǐng)域設(shè)備之間存在信息無法打通、跨領(lǐng)域缺乏統(tǒng)一規(guī)范等問題,導(dǎo)致數(shù)據(jù)資源無法有效利用。

        城市大腦的建設(shè)運(yùn)營(yíng)是解決上述問題的有效方法。其建設(shè)理念是將城市中的各類設(shè)備、城市部件、法規(guī)政策、事件等要素以一定的方式存儲(chǔ)并接入到城市大腦中,實(shí)現(xiàn)城市神經(jīng)元到城市大腦的連接,構(gòu)建城市級(jí)知識(shí)庫(kù),滿足城市管理和市民服務(wù)的需要[4]。

        知識(shí)圖譜技術(shù)將是融合城市多源異構(gòu)數(shù)據(jù)的重要技術(shù)手段。知識(shí)圖譜以資源描述框架(Resource Description Framework,RDF)[5]的形式對(duì)知識(shí)體系和實(shí)例數(shù)據(jù)進(jìn)行統(tǒng)一表示,實(shí)現(xiàn)對(duì)多源異構(gòu)數(shù)據(jù)的集成和融合。知識(shí)圖譜同物聯(lián)網(wǎng)技術(shù)一樣,在智慧安防、智慧醫(yī)療、智慧交通等各城市領(lǐng)域中具有廣泛的應(yīng)用[6]。

        城市大腦知識(shí)圖譜具備以下意義: ①通過將城市治理、社會(huì)服務(wù)、城市事件、民生事件、多領(lǐng)域、多部門領(lǐng)域知識(shí)等多源數(shù)據(jù)接入知識(shí)圖譜,形成廣泛的城市大腦知識(shí)圖譜; ②基于城市大腦知識(shí)圖譜,通過運(yùn)用圖計(jì)算、圖匹配、社區(qū)發(fā)現(xiàn)等算法充分挖掘數(shù)據(jù)節(jié)點(diǎn)之間的關(guān)系,實(shí)現(xiàn)對(duì)知識(shí)的發(fā)現(xiàn)、表示、推理和認(rèn)識(shí)[7],有利于解決城市中的疑難問題; ③突出城市物聯(lián)網(wǎng)本體和城市事件概念,有效解決知識(shí)圖譜構(gòu)建中的知識(shí)可獲取問題,增強(qiáng)了知識(shí)圖譜更新與應(yīng)用中的主動(dòng)性; ④以城市大腦知識(shí)圖譜為支撐的人工智能有助于解決目前人工智能在城市安防、政務(wù)領(lǐng)域中存在的可解釋、安全和依賴大數(shù)據(jù)等方面的問題?;趯?duì)當(dāng)前技術(shù)發(fā)展和城市大腦建設(shè)實(shí)際情況分析,目標(biāo)是建設(shè)可落地的城市大腦知識(shí)圖譜,圍繞該目標(biāo),該文的主要工作有4個(gè)方面:

        (1) 圍繞城市大腦建設(shè)需求和當(dāng)前技術(shù)發(fā)展,提出基于物聯(lián)網(wǎng)oneM2M[8]本體(Ontology)模型 的知識(shí)圖譜構(gòu)建思路。

        (2) 在物聯(lián)網(wǎng)本體基礎(chǔ)上,設(shè)計(jì)滿足城市大腦的知識(shí)圖譜模型和本體構(gòu)建方法。

        (3) 以城市事件(Event)為例,分析并設(shè)計(jì)了一種事件聯(lián)合抽取語(yǔ)言模型,相較單模型時(shí)效和精度都有一定的提高。

        (4) 對(duì)城市大腦知識(shí)圖譜的主要應(yīng)用進(jìn)行了較深入的分析與探究。

        1 城市大腦知識(shí)圖譜模型

        1.1 知識(shí)圖譜概念

        知識(shí)圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體間的復(fù)雜關(guān)系,邏輯上可以分為概念層和數(shù)據(jù)層。概念層屬于本體集合,本體是對(duì)具有相同屬性事物的概括和抽象,數(shù)據(jù)層是指以三元組為表現(xiàn)形式的客觀事實(shí)集合。根據(jù)建設(shè)順序又分為自頂向下型和自底向上型兩種模式,前者適用于場(chǎng)景較為固定、行業(yè)邏輯可量化的領(lǐng)域,后者適用于復(fù)雜場(chǎng)景下的圖譜構(gòu)建,實(shí)際應(yīng)用中通常是自頂向下的知識(shí)工程和自底向上的知識(shí)學(xué)習(xí)方法相結(jié)合。

        本體模型和實(shí)體數(shù)據(jù)庫(kù)是知識(shí)圖譜的核心,常見的知識(shí)圖譜DBpedia[9]、YAGO[10]、NELL[11]和KnowledgeVault[12]本體模型、數(shù)據(jù)層的定義滿足三元組準(zhǔn)則。知識(shí)圖譜本體OKG包括實(shí)體類型C(E)、屬性類型C(A)以及關(guān)系類型C(R),具體表示如式(1)所示。

        OKG={C(E),C)(R),C(A)}

        (1)

        oneM2M[8]利用知識(shí)圖譜中的類、屬性和關(guān)系概念來設(shè)計(jì)物聯(lián)網(wǎng)本體,解決了不同設(shè)備服務(wù)層之間的通信和互操作,主要類型包括物體(Thing)、設(shè)備(Device)、服務(wù)(Service)、功能(Function)等(圖2) 。物體(Thing)是系統(tǒng)中可以被辨別的實(shí)體,例如,用oneM2M標(biāo)準(zhǔn)對(duì)建筑物類建模,每一個(gè)建筑物都是物體實(shí)例,物體擁有客體屬性(hasThingProperty),如房間具有溫度屬性,臨近的建筑之間也會(huì)相連接(hasThingRelation)。物體無法直接與周圍環(huán)境進(jìn)行通信,如果它承載的某部分可以與環(huán)境以電子信息方式進(jìn)行交互,則這類物體稱為設(shè)備(Device)。基于物聯(lián)網(wǎng)本體構(gòu)建的知識(shí)圖譜可以較容易地接入和管理城市物聯(lián)網(wǎng)設(shè)備。

        圖2 oneM2M本體示意圖

        1.2 城市大腦知識(shí)圖譜設(shè)計(jì)

        物聯(lián)網(wǎng)協(xié)議設(shè)計(jì)存在多個(gè)標(biāo)準(zhǔn),如oneM2M、LWM2M、FIWARE等,不同的標(biāo)準(zhǔn)之間存在兼容性問題[13],無法借助某一標(biāo)準(zhǔn)納入所有的設(shè)備。以知識(shí)圖譜作為物聯(lián)網(wǎng)本體的上層概念可以解決不同標(biāo)準(zhǔn)的設(shè)備信息互通問題。城市大腦知識(shí)圖譜除了關(guān)于物聯(lián)網(wǎng)設(shè)備的類型描述,還有運(yùn)行狀態(tài)、地理信息、維護(hù)人信息、廠商信息等。在物聯(lián)網(wǎng)知識(shí)圖譜概念上接入城市要素[14],可以使其滿足城市復(fù)雜場(chǎng)景下的知識(shí)圖譜本體。

        城市作為復(fù)雜系統(tǒng),無法設(shè)計(jì)出滿足所有事物的本體系統(tǒng),但基本上屬于“人”“物”“事”范疇。這里的“人”包括自然人、組織和部門等各類主體,“物”包括地址、樓宇、物聯(lián)網(wǎng)設(shè)備等客觀存在,“事”包括城市事件、規(guī)章制度、新聞等。將“人”“物”“事”為核心的城市要素融入物聯(lián)網(wǎng)本體系統(tǒng)可以得到覆蓋城市基本概念的知識(shí)本體,在此基礎(chǔ)上延伸出9類城市本體,包括: 設(shè)備(Device)、服務(wù)(Service)、功能(Function)、部件(Thing)、管理(Management)、事件(Event)、區(qū)域(Area)、領(lǐng)域(Field)和規(guī)則(Rule),具體如圖3所示。

        圖3 城市大腦知識(shí)圖譜本體

        部件(Thing)代表了城市中可識(shí)別的實(shí)體概念,oneM2M中Thing是相對(duì)于物聯(lián)網(wǎng)設(shè)備存在的實(shí)體概念,城市部件可以無設(shè)備關(guān)聯(lián)。部件可以與其他實(shí)體概念具有關(guān)系,例如,道路井蓋作為部件,承載了位移傳感器,城市中的部件還具有所屬區(qū)域、管理者等屬性。

        設(shè)備(Device)是一類可進(jìn)行信息交互的實(shí)體概念,包括城市中的硬件、軟件、無線傳感器和執(zhí)行器等。設(shè)備可以相互連接到網(wǎng)絡(luò)并能夠傳輸數(shù)據(jù),無須人工干預(yù)即可自動(dòng)在對(duì)象或人員之間進(jìn)行數(shù)據(jù)傳輸。

        服務(wù)(Service)屬于物聯(lián)網(wǎng)概念,即設(shè)備所能提供的服務(wù)能力,例如,安裝在井蓋上面的傳感器設(shè)備可以提供實(shí)時(shí)的井蓋狀態(tài)監(jiān)測(cè)服務(wù)。

        功能(Function)屬于物聯(lián)網(wǎng)概念,即設(shè)備所發(fā)揮的有利作用,例如,當(dāng)井蓋發(fā)生異常時(shí)傳感器具有異常報(bào)警、異常數(shù)據(jù)上傳等功能。

        管理(Management)即城市中管理者的角色概念,屬于城市治理的主要組成,其主要關(guān)系包含對(duì)城市事件的處理、規(guī)章制度的制定與遵守、部件的管理與維護(hù)等。例如,消防人員具有對(duì)轄區(qū)內(nèi)消防通道的管理和突發(fā)消防事件的處置職責(zé)。

        規(guī)章(Rule)包括與部件、設(shè)備和管理者相關(guān)的領(lǐng)域規(guī)則、行業(yè)規(guī)范、規(guī)章流程等概念。如火警傳感器報(bào)警將通過規(guī)則啟動(dòng)相應(yīng)預(yù)案,包括消防出警流程、處置流程等信息。

        區(qū)域(Area)表示城市地址信息和行政區(qū)劃,城市中的事件、部件、設(shè)備等一般具有關(guān)聯(lián)地址,通過區(qū)域本體之間從空間維度上進(jìn)行關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)對(duì)部件的POI分析。區(qū)域具有子類(Subclass),如區(qū)縣、街道(鄉(xiāng)、鎮(zhèn))、社區(qū)、小區(qū)等類,區(qū)域?qū)傩灾邪臻g地理坐標(biāo)信息,實(shí)現(xiàn)地圖可落點(diǎn)。

        事件(Event)表示城市當(dāng)中發(fā)生的各類事件集合,反映了外部條件的變化,可以是客觀條件變化如暴雨暴雪、揚(yáng)沙天氣,或城市治理事件如渣土車超載,突發(fā)事件如疫情防控等。事件具有地點(diǎn)、領(lǐng)域等要素,設(shè)備(Device)可以對(duì)事件進(jìn)行監(jiān)測(cè)。

        領(lǐng)域(Field)概念主要涉及設(shè)備(Device)、事件(Event)、管理(Management)、規(guī)章(Rule)等本體,通過領(lǐng)域關(guān)系可以縮小本體范圍,例如,通過對(duì)事件劃分領(lǐng)域?qū)崿F(xiàn)與規(guī)章和管理的關(guān)聯(lián)。通過領(lǐng)域概念容易實(shí)現(xiàn)領(lǐng)域知識(shí)圖譜(Domain-specific Knowledge Graph,DKG)的擴(kuò)展[15]。

        根據(jù)式(1),實(shí)體概念集合可以表示為C(E)={E(Device),E(Service),E(Function),…,E(Rule)},關(guān)系概念集合表示為C(R)={occourIn,triggerTo,handdleOn,referTo,belongTo, installOn, …}。兩個(gè)實(shí)體間既可以有單向關(guān)系,也可以是雙向關(guān)系或多種關(guān)系,如事件與部件之間的關(guān)系用triggerTo表示,事件可以觸發(fā)相關(guān)的部件及其附屬設(shè)備變化,如暴雪天氣事件引發(fā)道路的結(jié)冰,使得道路結(jié)冰傳感器發(fā)生變化,同時(shí)部件及傳感器對(duì)事件具有監(jiān)測(cè)(Monitor)關(guān)系。管理(Management)與規(guī)章制度(Rule)之間存在參考(referTo)關(guān)系,同時(shí)管理也可以制定(drawUp)相應(yīng)的規(guī)章制度。

        1.3 城市大腦知識(shí)圖譜接入

        采用自頂向下的知識(shí)工程設(shè)計(jì)方法可快速形成城市知識(shí)圖譜本體(圖3)。依據(jù)本體接入多源知識(shí),包括知識(shí)抽取、本體學(xué)習(xí)融合、數(shù)據(jù)融合、質(zhì)量評(píng)價(jià)、更新本體。接入的數(shù)據(jù)一般來源于多部門、多渠道,數(shù)據(jù)形式包括物聯(lián)網(wǎng)數(shù)據(jù)、文本數(shù)據(jù)、視頻音頻等。

        多源知識(shí)圖譜融合方法分為基于多領(lǐng)域知識(shí)圖譜的融合方法和基于多源異構(gòu)數(shù)據(jù)的融合方法[15],將不同領(lǐng)域的知識(shí)圖譜融合是快速構(gòu)建知識(shí)圖譜的重要方法,不同領(lǐng)域知識(shí)圖譜的融合方法包括概念融合、實(shí)體對(duì)齊、屬性對(duì)齊和屬性值融合等步驟;基于多源異構(gòu)數(shù)據(jù)的融合方法包括基于非結(jié)構(gòu)化抽取、結(jié)構(gòu)化映射的知識(shí)抽取和基于已有圖譜的知識(shí)推理以及知識(shí)準(zhǔn)確率評(píng)估等步驟。

        通過對(duì)接入的子本體、領(lǐng)域本體進(jìn)行學(xué)習(xí)、消歧,實(shí)現(xiàn)知識(shí)概念的融合,通過質(zhì)量評(píng)價(jià)對(duì)融合結(jié)果糾正,最終形成知識(shí)圖譜并更新本體,自下而上的消息知識(shí)接入流程如圖4所示。在自下而上的過程中,可以實(shí)現(xiàn)本體動(dòng)態(tài)完善流程,最終形成城市場(chǎng)景下的知識(shí)本體。

        圖4 自下而上的多源知識(shí)接入流程圖

        知識(shí)學(xué)習(xí)采用自下而上子本體互相疊加形成完整本體,更加符合城市大腦知識(shí)圖譜建設(shè)流程。因此,若將i個(gè)類型本體定義為Ai則包含所有本體S(OKG)的定義如式(2)所示。

        (2)

        2 城市大腦知識(shí)圖譜構(gòu)建實(shí)例

        2.1 實(shí)例構(gòu)建

        以北京市海淀區(qū)城市智能物聯(lián)網(wǎng)設(shè)備和屬地信息要素作為數(shù)據(jù)來源,構(gòu)建服務(wù)城市管理和治理的知識(shí)圖譜。海淀區(qū)作為信息化和智能化較高的區(qū)域,在電子政務(wù)、社會(huì)管理等方面具有較規(guī)范化的數(shù)據(jù),以物聯(lián)網(wǎng)數(shù)據(jù)為例,目前具有20多類物聯(lián)網(wǎng)設(shè)備,涉及環(huán)保、市政、消防、安全等領(lǐng)域,相關(guān)數(shù)據(jù)信息主要為結(jié)構(gòu)化數(shù)據(jù),如設(shè)備、功能、區(qū)域等;部分為半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),如城市事件、政策法規(guī)等。在數(shù)據(jù)特點(diǎn)上,城市中的概念存在較多層級(jí),即相同類型節(jié)點(diǎn)具有子類或父類,利用概念層級(jí)(level)對(duì)每類進(jìn)行劃分,以消防為例,消防傳感器概念具有子類(Subclass of)關(guān)系,其管理者消防隊(duì)具有子部門關(guān)系(Subpart of),示意如圖5所示,實(shí)體形式如表1所示。

        圖5 消防層級(jí)示例

        2.2 事件抽取

        事件屬于重要的城市要素,對(duì)地震、火災(zāi)、交通擁堵等事件從知識(shí)圖譜和事理角度分析,建立事件、地點(diǎn)、主體、管理等本體之間的關(guān)系,有助于城市問題的深度挖掘和治理。本例中數(shù)據(jù)來自市民熱線,來源渠道包括電話記錄、微博、微信等,文本結(jié)構(gòu)以非結(jié)構(gòu)化為主。事件抽取是該類數(shù)據(jù)轉(zhuǎn)換為知識(shí)圖譜的關(guān)鍵步驟。

        事件抽取包括兩類任務(wù)[16]: 一類是事件識(shí)別,另一類是事件論元角色抽取,Chen等[17]提出基于DMCNN(動(dòng)態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)),該方法利用管線式(pipeline)的事件抽取方案,即對(duì)觸發(fā)詞、論元的檢測(cè)與識(shí)別分步進(jìn)行,后者依賴于前者的預(yù)測(cè)結(jié)果,這種方法容易產(chǎn)生級(jí)聯(lián)錯(cuò)誤。Liu等[18]認(rèn)為觸發(fā)詞與檢測(cè)事件無關(guān),提出基于注意力機(jī)制的類型感知偏向神經(jīng)網(wǎng)絡(luò)(TBNNAM),根據(jù)目標(biāo)事件類型對(duì)句子的表示進(jìn)行編碼。實(shí)驗(yàn)結(jié)果證明該方法與使用帶注釋的觸發(fā)器方法相比具有明顯優(yōu)勢(shì)。

        該文對(duì)事件類型識(shí)別、論元角色及論元抽取建立聯(lián)合抽取任務(wù),解決了觸發(fā)詞稀缺和級(jí)聯(lián)錯(cuò)誤問題,基于論元的抽取結(jié)果可以更好地融入知識(shí)圖譜。對(duì)信件建模分析其所屬類型,對(duì)應(yīng)圖譜中的領(lǐng)域(Field)(表1),類別和論元預(yù)先設(shè)計(jì),事件類型劃分為消防通道-占用、河道水質(zhì)-傾倒垃圾、橋梁-超重超載等,論元角色包括傾倒者、發(fā)生地點(diǎn)、時(shí)間名稱等,并在原文中對(duì)論元進(jìn)行標(biāo)注,如表2所示。

        表1 知識(shí)圖譜實(shí)體分類體系

        表2 信件數(shù)據(jù)示例

        對(duì)事件類別(Event type)建立文本分類任務(wù),論元(Argument)和角色(Role)建立序列標(biāo)注任務(wù),其中論元為文本中存在連續(xù)標(biāo)注詞,角色為標(biāo)注類別,針對(duì)二者建立多任務(wù)聯(lián)合抽取模型。

        2.3 算法設(shè)計(jì)

        以RoBERTa作為預(yù)訓(xùn)練模型對(duì)事件進(jìn)行聯(lián)合抽取實(shí)驗(yàn),RoBERTa模型[19]在模型結(jié)構(gòu)上對(duì)BERT模型進(jìn)行了改進(jìn),預(yù)訓(xùn)練階段采用更多的訓(xùn)練樣本、更大的批處理量和更長(zhǎng)的訓(xùn)練時(shí)間,并去除了針對(duì)NSP(Next Sentence Prediction)句子理解的訓(xùn)練設(shè)計(jì)。RoBERTa-WWM在預(yù)訓(xùn)練階段使用分詞器對(duì)樣本數(shù)據(jù)進(jìn)行分詞,對(duì)組成同一個(gè)詞的漢字全部進(jìn)行遮掩,即全詞遮掩(Whole Word Masking,WWM)[20]。

        序列標(biāo)注一般采用神經(jīng)網(wǎng)絡(luò)(LSTM、BERT)對(duì)每個(gè)字符(token)進(jìn)行BIO+標(biāo)簽的分類學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)觀測(cè)序列特征,但并不能很好地考慮觀測(cè)序列依賴關(guān)系,加入條件隨機(jī)場(chǎng)CRF(Conditional Random Field)能夠?qū)τ^測(cè)序列建模[21],更好地預(yù)測(cè)序列標(biāo)注中的標(biāo)簽順序。假定句子長(zhǎng)度為T,句子序列為X=(x1,x2,…,xT),對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽序列為Y=(y1,y2,…,yT),該某一觀測(cè)序列概率分?jǐn)?shù)定義如式(3)所示。

        (3)

        其中,A為CRF層的轉(zhuǎn)移矩陣,表示標(biāo)簽間的轉(zhuǎn)移分?jǐn)?shù),Ayi,yi +1表示從標(biāo)簽Ayi到標(biāo)簽Ayi,yi +1的轉(zhuǎn)移分?jǐn)?shù),y0和yT+1表示句子的開始與結(jié)束標(biāo)簽,Pi,yi表示i個(gè)字符對(duì)應(yīng)標(biāo)簽yi的分?jǐn)?shù),對(duì)標(biāo)簽序列Y的總概率如式(4)所示。

        (4)

        進(jìn)一步對(duì)p(Y|X)取負(fù)對(duì)數(shù),得到訓(xùn)練中優(yōu)化目標(biāo),以YX表示輸入序列X所對(duì)應(yīng)的所有可能標(biāo)簽,序列標(biāo)注的損失函數(shù)如式(5)所示。

        (5)

        事件類別即文本分類任務(wù),采用Transformer Encoder對(duì)文本編碼,以[CLS]字符輸出表征文本的類別,與事件類別標(biāo)簽做交叉熵?fù)p失,分類損失函數(shù)表示為如式(6)所示。

        (6)

        其中,M為事件類別數(shù)量,則聯(lián)合損失函數(shù)如式(7)所示。

        Ltotal=Largu+Ltype

        (7)

        通過對(duì)單模型構(gòu)造不同任務(wù)的聯(lián)合損失函數(shù),實(shí)現(xiàn)聯(lián)合抽取模型的整體結(jié)構(gòu),如圖6所示。

        圖6 聯(lián)合抽取模型結(jié)構(gòu)

        2.4 實(shí)驗(yàn)結(jié)果對(duì)比及分析

        本實(shí)驗(yàn)數(shù)據(jù)經(jīng)過處理,選取事件類型52種,選取角色(Role)3種,即地點(diǎn)、主體、事件,約5萬條文本數(shù)據(jù),按照8∶1∶1劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集,一臺(tái)Tesla V100 GPU進(jìn)行加速訓(xùn)練,RoBERTa預(yù)訓(xùn)練語(yǔ)言模型采用哈工大-訊飛研究室發(fā)布的RoBERTa-wwm-ext[20],設(shè)計(jì)了4組實(shí)驗(yàn): 單任務(wù)論元識(shí)別采用RoBERTa+CRF模型,單任務(wù)事件分類采用RoBERTa 進(jìn)行分類微調(diào),事件類別和論元采用基于RoBERTa的聯(lián)合抽取模型(見圖6)進(jìn)行實(shí)驗(yàn)對(duì)比,進(jìn)一步采用RoBERTa-large模型與RoBERTa對(duì)比效果,以精準(zhǔn)度(Precision,P)、召回率(Recall,R)、F1值(F1-score,F1)作為評(píng)價(jià)指標(biāo),表3為不同模型抽取測(cè)試集結(jié)果。

        表3 不同模型比較表 (單位: %)

        從結(jié)果可以看到,聯(lián)合抽取模型較單任務(wù)事件分類任務(wù)F1從85.2%提升到85.6%,較單任務(wù)論元識(shí)別F1值從81.0%提升到83.7%,聯(lián)合抽取模型對(duì)于論元識(shí)別有較大提高,對(duì)于事件類別識(shí)別稍有提高。分析原因是聯(lián)合任務(wù)可以使得不同任務(wù)間相互促進(jìn),參數(shù)共享實(shí)現(xiàn)任務(wù)之間相互約束,提高泛化能力,減少模型級(jí)聯(lián)錯(cuò)誤傳遞并提高推理速度。相同條件下,利用更大的預(yù)訓(xùn)練模型RoBERTa-wwm-ext-large對(duì)事件分類和論元抽取,結(jié)果較RoBERTa Joint model分別提升1.4%和1.1%,具有較明顯的提升。相對(duì)基礎(chǔ)模型,更大的預(yù)訓(xùn)練模型的層數(shù)和隱藏層維度、 注意力頭(attention head) 數(shù)都有增加,因此具有更強(qiáng)的知識(shí)學(xué)習(xí)和遷移能力。同時(shí),由于參數(shù)的增加推理速度較前者變慢,在實(shí)際使用中需要根據(jù)業(yè)務(wù)場(chǎng)景和需求進(jìn)行權(quán)衡。

        3 城市大腦知識(shí)圖譜應(yīng)用

        知識(shí)圖譜構(gòu)建完成后存儲(chǔ)于存儲(chǔ)圖數(shù)據(jù)庫(kù)Nebula Graph中,便于后續(xù)對(duì)圖數(shù)據(jù)進(jìn)一步探索和挖掘。數(shù)據(jù)庫(kù)可以通過整合不同維度信息,對(duì)事件、知識(shí)、政策等進(jìn)行同源性、關(guān)聯(lián)性分析,實(shí)現(xiàn)對(duì)城市知識(shí)數(shù)據(jù)的有效利用和挖掘。

        3.1 案件智能化處理中的應(yīng)用

        城市大腦知識(shí)圖譜在案件智能處理中將發(fā)揮重要作用,示例如圖7所示。當(dāng)占用消防車道事件發(fā)生,消防通道傳感器(Device)的功能(Function)記錄相關(guān)信息,服務(wù)(Service)將記錄占用者信息并報(bào)警,將占用車車牌等詳細(xì)信息反饋給案件管理(Management),管理者再根據(jù)地址區(qū)域(Area)、規(guī)章(Rule)等信息對(duì)違章停車事件快速干預(yù)處理,做到未訴先辦。與此同時(shí),市民熱線投訴消防通道占用,通過事件抽取模型將非結(jié)構(gòu)化文本抽取出事件的地址(Area)、事件類型(Field)和主體等信息,綜合二者確立案件派發(fā)處理人。管理方面將會(huì)參考(referTo)相關(guān)規(guī)章制度(Rule)執(zhí)行相應(yīng)的操作。

        圖7 案件智能化處理應(yīng)用示例

        3.2 結(jié)合物聯(lián)網(wǎng)的應(yīng)用

        物聯(lián)網(wǎng)本體屬于城市大腦知識(shí)圖譜頂層設(shè)計(jì)的一部分,因此可以接入相關(guān)設(shè)備數(shù)據(jù),這使得設(shè)備和被監(jiān)測(cè)對(duì)象在知識(shí)圖譜層面具有宏觀語(yǔ)義關(guān)聯(lián),從而發(fā)現(xiàn)更深層的關(guān)聯(lián)關(guān)系和應(yīng)用。通過接入動(dòng)態(tài)的物聯(lián)網(wǎng)數(shù)據(jù),知識(shí)圖譜具有了主動(dòng)發(fā)現(xiàn)和解決問題的可能。例如對(duì)河道水質(zhì)的監(jiān)控,通常是通過水質(zhì)傳感器監(jiān)測(cè),而城市大腦知識(shí)圖譜可以根據(jù)區(qū)域(Area)內(nèi)有毒有害、水量、井蓋等多種傳感器(Thing)信息和相關(guān)事件輿情、水系及管理者信息,綜合利用多傳感器和知識(shí)推理算法,實(shí)現(xiàn)對(duì)河道水質(zhì)的監(jiān)控和綜合處置。

        3.3 結(jié)合GIS的應(yīng)用

        城市知識(shí)圖譜利用強(qiáng)大靈活的知識(shí)表示能力,將空間數(shù)據(jù)和非空間數(shù)據(jù)結(jié)合,通過加入空間實(shí)體的坐標(biāo)和邊界,可以實(shí)現(xiàn)空間的推理,在地址實(shí)體消歧和地址標(biāo)準(zhǔn)化推薦方面具有重要應(yīng)用。具體地,在涉及地理信息的智能對(duì)話中,市民可能會(huì)咨詢“北京可以接種疫苗的三甲級(jí)醫(yī)療機(jī)構(gòu)都在哪些地方?”,管理人員想了解“北京市由鐵路局負(fù)責(zé)的下穿鐵路的橋都在哪里”,通過知識(shí)圖譜語(yǔ)義問答(KBQA)和GIS的結(jié)合,將位置和相應(yīng)屬性綜合返回,實(shí)現(xiàn)知識(shí)和地圖的可訪問及互操作,為市民和管理者提供便利。另外,借助知識(shí)圖譜,地理人工智能(GeoAI)在城市交通和人口遷徙數(shù)據(jù)的關(guān)系挖掘和智能化應(yīng)用中發(fā)揮重要作用。

        4 結(jié)語(yǔ)

        該文利用城市物聯(lián)網(wǎng)本體概念,以城市要素為基礎(chǔ),提出一種覆蓋全面、層次分明的城市大腦知識(shí)圖譜(CBKG)構(gòu)建方法,并設(shè)計(jì)聯(lián)合學(xué)習(xí)模型對(duì)城市事件進(jìn)行抽取,取得較好效果,討論了城市大腦知識(shí)圖譜的潛在應(yīng)用價(jià)值。同時(shí),也認(rèn)識(shí)到構(gòu)建覆蓋城市方方面面的知識(shí)圖譜還存在困難,比如如何處理城市級(jí)數(shù)據(jù)能力、數(shù)據(jù)時(shí)效性、平衡安全性和數(shù)據(jù)接入公平性、大數(shù)據(jù)標(biāo)注等方面都存在較多問題。

        未來我們將繼續(xù)對(duì)城市大腦知識(shí)圖譜生命周期進(jìn)行探索,借助NLP領(lǐng)域預(yù)訓(xùn)練模型、圖神經(jīng)網(wǎng)絡(luò)等技術(shù),優(yōu)化圖譜的構(gòu)建過程。利用人工智能、多傳感器融合、GIS等技術(shù)探索大規(guī)模城市級(jí)知識(shí)圖譜的應(yīng)用,進(jìn)一步支撐城市智能化治理和精細(xì)化服務(wù)。

        猜你喜歡
        論元本體圖譜
        Abstracts and Key Words
        繪一張成長(zhǎng)圖譜
        對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        成分重量和粵方言雙及物結(jié)構(gòu)的論元語(yǔ)序
        基于論元結(jié)構(gòu)和題元指派對(duì)漢語(yǔ)處置義“把”字句的句法語(yǔ)義分析
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        英語(yǔ)中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        一本大道无码人妻精品专区| 男人的av天堂狠狠操| 欧美国产日产一区二区| 欧美成人免费高清视频 | 18禁黄无遮挡免费网站| 91九色极品探花内射| 日本边添边摸边做边爱喷水| 亚洲欧美日韩精品久久| 亚洲学生妹高清av| 欧美日韩国产另类在线观看| 综合成人亚洲网友偷自拍| 精品亚洲国产成人蜜臀av| 男男车车的车车网站w98免费| 国产肉体XXXX裸体784大胆| 国产视频免费一区二区| 天天做天天爱夜夜爽毛片毛片| 无码成人aaaaa毛片| 国产一区免费观看| 日本女同伦理片在线观看| 91久久偷偷做嫩模影院| 国产亚洲欧美精品久久久| 国产成人综合亚洲精品| 国产成人精品三上悠亚久久| 性感人妻一区二区三区| 少妇人妻精品一区二区三区视| 亚洲人成人无码www| 野花在线无码视频在线播放| 日韩AV无码一区二区三区不卡毛片| 日韩偷拍一区二区三区视频| 亚洲一区二区三区精品久久av| 久久久久久欧美精品se一二三四 | 久久久久久人妻精品一区百度网盘| 日韩色久悠悠婷婷综合| 久久久免费看少妇高潮| 国产精品毛片久久久久久久| 中文字幕久久久久久久系列| 日韩精品一区二区亚洲专区| 国产七十六+老熟妇| 成人在线激情网| 一本色道久久88综合亚精品| 亚洲国产精品无码久久一线 |