亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于政務(wù)微博的自然災(zāi)害知識(shí)圖譜構(gòu)建

        2024-03-18 04:20:13王志宇劉雨薇
        現(xiàn)代情報(bào) 2024年3期
        關(guān)鍵詞:知識(shí)可視化政務(wù)微博自然災(zāi)害

        王志宇 劉雨薇

        關(guān)鍵詞:政務(wù)微博:自然災(zāi)害;LDA主題模型;知識(shí)圖譜:知識(shí)可視化

        自然災(zāi)害是當(dāng)今世界人類最為關(guān)注的全球性問題之一,人類社會(huì)面臨著很多自然災(zāi)害的威脅。如何有效做好防災(zāi)、減災(zāi)、救災(zāi)工作,最大限度地降低自然災(zāi)害造成的財(cái)產(chǎn)損失和人員傷亡,是目前普遍關(guān)注的焦點(diǎn)之一。據(jù)《應(yīng)急管理部發(fā)布2022年全國(guó)自然災(zāi)害基本情況》顯示,2022年我國(guó)各類自然災(zāi)害共造成1.12億人次受災(zāi),因?yàn)?zāi)死亡失蹤554人,緊急轉(zhuǎn)移安置242.8萬人次,直接經(jīng)濟(jì)損失2386.5億元。在此情形下,分析災(zāi)害信息,加強(qiáng)對(duì)自然災(zāi)害的管理顯得尤為重要。面對(duì)自然災(zāi)害事件,社交媒體往往承擔(dān)著信息交流平臺(tái)的作用,現(xiàn)如今,微博已經(jīng)成為推動(dòng)我國(guó)社會(huì)公共事件爆發(fā)式傳播的重要力量,政務(wù)微博作為國(guó)家機(jī)關(guān)發(fā)布政務(wù)信息的平臺(tái),在政務(wù)信息傳遞及與用戶的交流中發(fā)揮重要作用,能發(fā)布關(guān)于災(zāi)害事件的第一手信息,是人們了解災(zāi)害事件的重要平臺(tái)。但由于各個(gè)政務(wù)平臺(tái)發(fā)布的信息較為分散,用戶要了解某一災(zāi)害事件的全貌還需要從多種渠道獲取信息,且內(nèi)容信息冗余度比較高,這樣不僅不利于用戶閱讀,而且也不利于政務(wù)機(jī)關(guān)對(duì)災(zāi)害事件的信息資源進(jìn)行管理與利用。知識(shí)圖譜的概念是由谷歌公司于2012年首次提出的,知識(shí)圖譜通過對(duì)數(shù)據(jù)整合與規(guī)范,向人們提供有價(jià)值的結(jié)構(gòu)化信息,已被廣泛應(yīng)用于信息搜索、自動(dòng)問答、決策分析等領(lǐng)域,是推動(dòng)數(shù)據(jù)價(jià)值挖掘和支撐智能信息服務(wù)的重要基礎(chǔ)技術(shù)。因此,將知識(shí)圖譜技術(shù)應(yīng)用在政務(wù)微博發(fā)布的關(guān)于自然災(zāi)害事件的信息組織與可視化利用中,對(duì)研究政務(wù)微博關(guān)于災(zāi)害事件的信息組織與開發(fā)具有重要意義。

        1相關(guān)研究

        一方面,結(jié)合政務(wù)微博與自然災(zāi)害事件信息展開的相關(guān)學(xué)術(shù)研究,首先集中于微博輿情方面,例如,安璐等以政務(wù)微博的博文及評(píng)論數(shù)據(jù)為研究對(duì)象,通過構(gòu)建政務(wù)微博輿情引導(dǎo)能力評(píng)價(jià)指標(biāo)體系,對(duì)突發(fā)事件情境下的輿情引導(dǎo)能力進(jìn)行成熟度診斷,研究影響輿情引導(dǎo)效果的關(guān)鍵因素。劉曉娟等以政務(wù)微博的新冠肺炎疫情信息為例,分析了信息公開與輿情演化之間的關(guān)系;其次,也有學(xué)者對(duì)政務(wù)微博災(zāi)害事件的信息特征進(jìn)行分析,如翟冉冉等采用內(nèi)容分析法對(duì)政務(wù)微博的突發(fā)公共事件回應(yīng)樣本的規(guī)律和特征進(jìn)行分析,從而為政府網(wǎng)絡(luò)輿情的應(yīng)對(duì)工作提供理論參考。楊光等以《人民日?qǐng)?bào)》發(fā)布的河南省暴雨信息為例,探究其發(fā)布信息的極值特征、發(fā)布特征與關(guān)鍵詞特征,研究政務(wù)微博在重大公共事件中發(fā)布信息的特點(diǎn)和規(guī)律:最后,部分學(xué)者結(jié)合系統(tǒng)模型對(duì)微博災(zāi)害信息進(jìn)行識(shí)別與抽取,Basu M等提出了識(shí)別與提取微博平臺(tái)發(fā)布的內(nèi)容流中對(duì)災(zāi)后救援有用信息的方法。YunH W構(gòu)建了災(zāi)害事件檢測(cè)系統(tǒng),并展示從Twitter數(shù)據(jù)中檢測(cè)目標(biāo)災(zāi)害事件的方法。Ye P等構(gòu)建了一個(gè)考慮信息多顆粒性和動(dòng)態(tài)特性的臺(tái)風(fēng)事件信息模型,能夠全面檢測(cè)臺(tái)風(fēng)事件過程中任意時(shí)空節(jié)點(diǎn)上的不同對(duì)象的信息。

        另一方面,圍繞知識(shí)圖譜在圖情檔領(lǐng)域開展的相關(guān)研究中,學(xué)者們更集中于將知識(shí)圖譜技術(shù)應(yīng)用在領(lǐng)域中實(shí)現(xiàn)知識(shí)的細(xì)?;诰?。在圖書館領(lǐng)域,彭博構(gòu)建了網(wǎng)絡(luò)文物信息資源知識(shí)圖譜,實(shí)現(xiàn)信息資源中的文物實(shí)體關(guān)系抽取、文物知識(shí)抽取與文物命名實(shí)體識(shí)別等應(yīng)用研究。陳海玉等以徽州文書為例,構(gòu)建了徽州文書知識(shí)圖譜,實(shí)現(xiàn)文書知識(shí)信息的可視化呈現(xiàn)與檢索。沈旺等構(gòu)建了面向梅蘭芳的民國(guó)報(bào)紙知識(shí)圖譜,實(shí)現(xiàn)面向梅蘭芳的知識(shí)挖掘。在情報(bào)領(lǐng)域,王阮等構(gòu)建了口述記憶資源知識(shí)圖譜模型,實(shí)現(xiàn)了口述記憶資源的實(shí)例可視化展示與多維語義查詢。宋雪雁等構(gòu)建了清代祭祀禮器知識(shí)圖譜,清晰地呈現(xiàn)了清代祭祀禮器間的知識(shí)關(guān)聯(lián)。高晨翔等構(gòu)建了基于主題劃分的區(qū)域政務(wù)微博知識(shí)圖譜,實(shí)現(xiàn)區(qū)域政務(wù)微博內(nèi)容的知識(shí)組織與可視化展示。在檔案領(lǐng)域,趙雪芹等構(gòu)建了可視化的工程檔案知識(shí)圖譜,實(shí)現(xiàn)工程檔案數(shù)據(jù)知識(shí)層面的數(shù)據(jù)融合與集成。舒忠梅等構(gòu)建了中大記“疫”檔案知識(shí)圖譜.實(shí)現(xiàn)抗疫專題檔案實(shí)體的知識(shí)關(guān)聯(lián)與推理。

        綜上所述,對(duì)于結(jié)合政務(wù)微博與自然災(zāi)害事件的研究,學(xué)者們多集中于對(duì)微博輿情和信息特征等方面,雖然有學(xué)者對(duì)微博災(zāi)害信息的識(shí)別與抽取進(jìn)行研究,但較少結(jié)合本體、知識(shí)圖譜等技術(shù)實(shí)現(xiàn)對(duì)微博災(zāi)害信息的知識(shí)組織與可視化,相關(guān)研究成果中關(guān)于社交平臺(tái)信息的知識(shí)組織與挖掘方面的研究仍有一定的探索空間。因此,結(jié)合知識(shí)圖譜技術(shù),對(duì)微博平臺(tái)的自然災(zāi)害信息進(jìn)行知識(shí)的深層組織與挖掘成為當(dāng)下該課題研究的重要趨勢(shì)。基于已有研究成果,本研究首先使用LDA主題模型對(duì)微博平臺(tái)的災(zāi)害信息進(jìn)行主題劃分,再利用知識(shí)圖譜技術(shù),對(duì)各主題下的內(nèi)容進(jìn)行知識(shí)組織與知識(shí)圖譜的可視化展示,深入挖掘每個(gè)主題下各信息之間所隱藏的知識(shí),分析組織機(jī)構(gòu)發(fā)布信息的規(guī)律與特點(diǎn),從而實(shí)現(xiàn)對(duì)政務(wù)信息資源的高效利用,加強(qiáng)用戶對(duì)災(zāi)害事件的了解,同時(shí)對(duì)政府機(jī)關(guān)加強(qiáng)災(zāi)害事件的管理、保障社會(huì)安全和促進(jìn)國(guó)家經(jīng)濟(jì)平穩(wěn)發(fā)展具有重要現(xiàn)實(shí)意義和科學(xué)意義。

        2政務(wù)微博的特性及知識(shí)圖譜的適用性

        知識(shí)圖譜技術(shù)在信息的組織與應(yīng)用中使用較為廣泛,包括對(duì)媒體信息的組織與探索。而對(duì)于該技術(shù)是否可以應(yīng)用于政務(wù)微博災(zāi)害事件的知識(shí)組織,還需要結(jié)合政務(wù)微博的特性進(jìn)行探討。

        2.1政務(wù)微博的特性

        政務(wù)微博是指由黨政機(jī)構(gòu)或者黨政機(jī)構(gòu)官員開通的經(jīng)過實(shí)名認(rèn)證的發(fā)布政務(wù)信息、促進(jìn)政府信息公開、加強(qiáng)官民交流、塑造新型政府、加強(qiáng)公共服務(wù)等內(nèi)容的微博。政務(wù)微博具有內(nèi)容形式多樣化、信息總量大與信息動(dòng)態(tài)性的特點(diǎn),將知識(shí)圖譜技術(shù)應(yīng)用在政務(wù)微博資源時(shí)要充分考慮政務(wù)微博的特性,使自然災(zāi)害知識(shí)圖譜的構(gòu)建能夠適應(yīng)其特性。

        首先,政務(wù)微博資源具有內(nèi)容豐富性的特點(diǎn)。政務(wù)微博資源中,形式上不僅包含文本形式,還具有圖片、視頻等多種形式;內(nèi)容上不僅有實(shí)事報(bào)道、政務(wù)公開與解讀等內(nèi)容,還包括知識(shí)科普、勵(lì)志名言等。這些資源雖然有利于政務(wù)信息的傳播與利用,但是這些信息資源都是非結(jié)構(gòu)化的信息,內(nèi)容復(fù)雜且形式多樣,不利于信息的組織與開發(fā)。

        其次,政務(wù)微博具有信息及時(shí)性的特點(diǎn)。政務(wù)微博能夠?qū)崟r(shí)跟進(jìn)動(dòng)態(tài),發(fā)布具體的政務(wù)信息,尤其在遇到突發(fā)事件時(shí),政府會(huì)在第一時(shí)間通過政務(wù)微博發(fā)布相關(guān)信息,并持續(xù)跟進(jìn)事件的進(jìn)展,滿足公眾的知情需求,為用戶提供公開暢通的信息渠道,及時(shí)了解事件的過程,既有利于提升政府行政的透明度,保障公眾的知情權(quán),也有利于為突發(fā)事件的處理與后續(xù)工作開展提供必要的幫助。

        最后,政務(wù)微博具有文本簡(jiǎn)潔性的特點(diǎn)。微博網(wǎng)站對(duì)微博字?jǐn)?shù)有著一定的限制,這就決定微博比其他媒體的文本篇幅要小。政務(wù)微博是由政府部門發(fā)布的政務(wù)信息,以簡(jiǎn)潔的語言傳達(dá)緊要的信息,有利于用戶快速便捷地查看政務(wù)信息,迅速掌握政務(wù)信息的主要內(nèi)容。

        2.2知識(shí)圖譜在自然災(zāi)害事件微博資源中的適用性

        將知識(shí)圖譜技術(shù)應(yīng)用在政務(wù)微博發(fā)布的自然災(zāi)害事件信息組織中,一是能夠?qū)崿F(xiàn)自然災(zāi)害事件微博資源的知識(shí)挖掘。自然災(zāi)害事件的微博資源包含文本、圖片等多種形式,每種形式的微博資源都涵蓋大量數(shù)據(jù),而現(xiàn)有的微博資源的組織方式不能全面揭示微博資源的多元化知識(shí)。因此.知識(shí)圖譜技術(shù)的應(yīng)用能夠?qū)崿F(xiàn)對(duì)自然災(zāi)害事件微博資源的細(xì)?;槿∨c加工組織,從而實(shí)現(xiàn)自然災(zāi)害事件微博資源的有序化、條理化、系統(tǒng)化的知識(shí)組織,為用戶提供結(jié)構(gòu)化知識(shí)。二是能夠?qū)崿F(xiàn)自然災(zāi)害事件微博資源的知識(shí)關(guān)聯(lián)與聚合。自然災(zāi)害事件微博資源的發(fā)布來源、發(fā)布形式、發(fā)布內(nèi)容雖然不同,但其中存在較強(qiáng)的關(guān)聯(lián)性,將知識(shí)圖譜技術(shù)應(yīng)用于自然災(zāi)害事件微博資源的知識(shí)組織與可視化中,能夠直觀體現(xiàn)其關(guān)聯(lián)關(guān)系,建立能夠提供語義檢索的知識(shí)圖譜,使自然災(zāi)害事件微博資源的知識(shí)體系更加智能。三是能夠?qū)崿F(xiàn)自然災(zāi)害事件微博資源的動(dòng)態(tài)更新。由于微博的及時(shí)性與動(dòng)態(tài)性的特點(diǎn),當(dāng)自然災(zāi)害事件發(fā)生時(shí)要將新發(fā)布的微博資源及時(shí)補(bǔ)充到知識(shí)體系中,因此需要對(duì)補(bǔ)充的微博資源進(jìn)行實(shí)體和關(guān)系的抽取,為知識(shí)圖譜添加新的節(jié)點(diǎn)和關(guān)系,實(shí)現(xiàn)知識(shí)圖譜的動(dòng)態(tài)更新。

        3研究設(shè)計(jì)

        3.1構(gòu)建流程

        本研究采用自上而下的方式構(gòu)建知識(shí)圖譜,整體的構(gòu)建流程分成4個(gè)步驟,分別為數(shù)據(jù)采集與主題劃分、概念層的構(gòu)建、數(shù)據(jù)層的構(gòu)建、應(yīng)用層的實(shí)現(xiàn)。首先,使用爬蟲技術(shù)爬取政務(wù)微博賬號(hào)發(fā)布的自然災(zāi)害事件的微博資源組成數(shù)據(jù)源,并使用LDA主題建模對(duì)數(shù)據(jù)源進(jìn)行主題聚類,劃分微博主題;其次,通過對(duì)數(shù)據(jù)源的主題內(nèi)容進(jìn)行分析,確定知識(shí)圖譜模式層的本體類目及屬性關(guān)系定義,使用Protege本體構(gòu)建工具構(gòu)建自然災(zāi)害知識(shí)圖譜的本體;第三,在數(shù)據(jù)層,對(duì)數(shù)據(jù)源進(jìn)行預(yù)處理后,對(duì)微博資源的實(shí)體、關(guān)系進(jìn)行抽取,規(guī)范化處理后形成微博三元組語料庫(kù),將微博三元組語料庫(kù)導(dǎo)人Protege工具構(gòu)建的本體中,導(dǎo)出owl文件轉(zhuǎn)換成RDF三元組文件進(jìn)行RDF序列化后,形成微博關(guān)聯(lián)數(shù)據(jù)集;最后,將RDF三元組存人Ne04j圖數(shù)據(jù)庫(kù)中實(shí)現(xiàn)知識(shí)圖譜可視化,并使用Ne04j圖數(shù)據(jù)庫(kù)的Cypher語句實(shí)現(xiàn)對(duì)自然災(zāi)害知識(shí)圖譜的語義檢索,整體的構(gòu)建流程如圖1所示。

        3.2數(shù)據(jù)采集

        森林火災(zāi)作為世界八大災(zāi)害之一,持續(xù)燃燒的森林火災(zāi)嚴(yán)重威脅人類社會(huì)的生命財(cái)產(chǎn)和生態(tài)安全。近年來,森林火災(zāi)事故頻發(fā),為有效防控森林火災(zāi),本研究選取微博平臺(tái)政務(wù)部門官方發(fā)布的“森林火災(zāi)”主題相關(guān)資源作為數(shù)據(jù)源進(jìn)行組織與分析,使用Python程序采集相關(guān)數(shù)據(jù),采集的時(shí)間范圍為近一年,即2022年6月25-2023年6月14日,采集檢索詞為“森林火災(zāi)”,獲取字段包括微博發(fā)布者名稱、微博發(fā)布者網(wǎng)址、發(fā)布時(shí)間、發(fā)布內(nèi)容等數(shù)據(jù),通過對(duì)這些數(shù)據(jù)進(jìn)行人工篩選,只保留政務(wù)微博發(fā)布的信息資源,如“四川消防”“甘肅森林消防”等政務(wù)微博,并去除政務(wù)微博信息資源中重復(fù)及無價(jià)值的信息,最終選定1061條有效數(shù)據(jù),為后續(xù)知識(shí)圖譜的實(shí)現(xiàn)建立數(shù)據(jù)基礎(chǔ)。

        3.3主題劃分

        獲取數(shù)據(jù)后,首先對(duì)數(shù)據(jù)內(nèi)容進(jìn)行分析。本文構(gòu)建的自然災(zāi)害知識(shí)圖譜需要按照主題分類的方式,展示自然災(zāi)害信息的各個(gè)類別以及類別之間的關(guān)聯(lián),因此,首先要使用LDA主題建模對(duì)微博資源進(jìn)行主題劃分。LDA模型是David M B等于2003年在潛語義分析LSA和概率潛語義分析PLSA的基礎(chǔ)之上提出的一種主題模型,采用非監(jiān)督的機(jī)器學(xué)習(xí)方法,能有效地提取大規(guī)模文檔集和語料庫(kù)中的隱含主題,具有良好的降維能力、建模能力及擴(kuò)展性。LDA模型中文檔被表示為潛在主題的隨機(jī)混合,每個(gè)主題都是以詞語的分布為特征,因此,該模型包括3個(gè)層次,分別為文檔、主題和詞匯,在一篇文檔中生成單詞的概率為“文檔一主題”和“主題一單詞”的聯(lián)合概率分布,每個(gè)詞的生成概率如式(1)所示,其中w、t和d分別表示詞匯、主題和文檔。

        對(duì)于微博內(nèi)容這類短文本,使用LDA主題建??梢院芎玫貙?duì)文本內(nèi)容進(jìn)行向量化來計(jì)算文本間的相似度,更好地挖掘文本中的隱含主題。

        本文通過困惑度(Perplexity)評(píng)價(jià)指標(biāo)確定微博信息的最優(yōu)主題數(shù),在概率語言模型中,困惑度是用來評(píng)估語言模型優(yōu)劣的指標(biāo),較小的困惑度意味著模型對(duì)新文本有較好的預(yù)測(cè)作用。本文設(shè)置最大主題數(shù)為7,得到的主題數(shù)對(duì)應(yīng)困惑度的值如圖2所示。通過圖2可知,當(dāng)主題數(shù)為4時(shí)出現(xiàn)拐點(diǎn),結(jié)合文本內(nèi)容的分析,選取4作為微博主題數(shù)值最為合適。確定主題數(shù)后,計(jì)算每個(gè)主題和每個(gè)主題下主題詞的概率矩陣,完成對(duì)微博文本的主題劃分,并抽取每個(gè)主題對(duì)應(yīng)的TF-IDF值前十的高頻詞,如表1所示。

        為更準(zhǔn)確地分析劃分后的主題數(shù)據(jù),對(duì)部分?jǐn)?shù)據(jù)的主題進(jìn)行人工調(diào)整,最終確定4個(gè)主題對(duì)應(yīng)的主題名稱,分別為防災(zāi)常識(shí)、防災(zāi)措施、災(zāi)情預(yù)測(cè)和災(zāi)情通報(bào)。通過LDA主題建模對(duì)微博內(nèi)容進(jìn)行主題聚類,為后續(xù)知識(shí)圖譜的構(gòu)建厘清了脈絡(luò),有利于實(shí)現(xiàn)對(duì)微博內(nèi)容的進(jìn)一步挖掘。

        4自然災(zāi)害知識(shí)圖譜的構(gòu)建

        4.1自然災(zāi)害知識(shí)圖譜模式層的構(gòu)建

        模式層的構(gòu)建是知識(shí)圖譜構(gòu)建的核心,在構(gòu)建知識(shí)圖譜的模式層時(shí),首先要對(duì)數(shù)據(jù)源的內(nèi)容結(jié)構(gòu)及其關(guān)聯(lián)關(guān)系進(jìn)行梳理,確定本體類目及類目之間的關(guān)系。本文通過對(duì)數(shù)據(jù)源的內(nèi)容進(jìn)行分析后,圍繞自然災(zāi)害知識(shí)的組織與管理,參考借鑒自然災(zāi)害領(lǐng)域的知識(shí)概念,選擇復(fù)用DCMI Terms、FOAF本體以及自建本體詞表(FMO)的方式,實(shí)現(xiàn)自然災(zāi)害微博資源類目的構(gòu)建。本文將微博文本內(nèi)容進(jìn)行主題劃分后,首先進(jìn)行模式層主題類目的構(gòu)建,主題類目下共包含4個(gè)主題子類,具體構(gòu)建的內(nèi)容如圖3所示。

        圖4中展示本體構(gòu)建全部類目及屬性關(guān)系,共包含25個(gè)類目,其中“主題”和“機(jī)構(gòu)”兩個(gè)類目復(fù)用DC本體,“發(fā)布者”類目復(fù)用FOAF本體,其他類目使用自建本體詞表(FMO)進(jìn)行描述。對(duì)劃分的4個(gè)主題,包括常識(shí)類信息、災(zāi)情類信息、預(yù)測(cè)類信息和措施類信息,每個(gè)主題的類目進(jìn)行具體劃分,盡可能地從災(zāi)害信息中提取更詳盡的知識(shí)信息,有望對(duì)政府機(jī)構(gòu)、消防領(lǐng)域及相關(guān)群體在制定決策、了解災(zāi)害信息方面提供更多幫助。

        其中,關(guān)于對(duì)象屬性共設(shè)置3個(gè)類別,分別為子類(subClassof)、動(dòng)作類(actionClassof)及具有類(hasClassof),具體構(gòu)建的關(guān)系如表2所示,同時(shí)對(duì)個(gè)別類目設(shè)置數(shù)據(jù)屬性,具體概念及屬性如表3所示。

        根據(jù)前文構(gòu)建的類目及關(guān)系,借助Protege本體建模工具實(shí)現(xiàn)自然災(zāi)害知識(shí)本體的程序化,其具體結(jié)構(gòu)可視化如圖5所示。

        4.2自然災(zāi)害知識(shí)圖譜數(shù)據(jù)層的構(gòu)建

        數(shù)據(jù)層的構(gòu)建主要基于已經(jīng)構(gòu)建的模式層,通過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,進(jìn)行實(shí)體關(guān)系三元組的抽取,具體的構(gòu)建過程如下:

        4.2.1數(shù)據(jù)預(yù)處理

        本文采集了微博平臺(tái)的微博發(fā)布者名稱、微博發(fā)布者網(wǎng)址、發(fā)布時(shí)間、發(fā)布內(nèi)容等數(shù)據(jù),由于微博文本帶有符號(hào)、標(biāo)簽、超鏈接等內(nèi)容,因此需要對(duì)文本數(shù)據(jù)進(jìn)行清洗。首先使用Python的外部庫(kù)Jieba中文分詞工具對(duì)微博文本內(nèi)容進(jìn)行分詞處理、停用詞的過濾和詞性標(biāo)注,其次根據(jù)火災(zāi)消防領(lǐng)域的知識(shí)概念,創(chuàng)建自定義詞典,加入相關(guān)的專有名詞以提高數(shù)據(jù)分詞的準(zhǔn)確率。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,形成微博文本語料庫(kù)。

        4.2.2實(shí)體抽取

        本文根據(jù)概念層定義的本體結(jié)構(gòu),分別對(duì)每一主題下的語料庫(kù)進(jìn)行命名實(shí)體識(shí)別,實(shí)現(xiàn)各類目實(shí)體的抽取。命名實(shí)體識(shí)別是指識(shí)別語料庫(kù)中具有特定語義的實(shí)體,包括人名、地名、組織名等實(shí)體。本文使用哈爾濱工業(yè)大學(xué)語言技術(shù)平臺(tái)(LanguageTechnology Platform,LTP)提供的模型對(duì)微博語料庫(kù)進(jìn)行命名實(shí)體識(shí)別,LTP模型不僅能很好地實(shí)現(xiàn)分詞,而且能有效地識(shí)別文本中地名、人名、組織機(jī)構(gòu)名等命名實(shí)體。由于本文是以政務(wù)微博發(fā)布的森林火災(zāi)事件為研究對(duì)象,該事件中會(huì)涉及大量的組織、地點(diǎn)、人物和機(jī)構(gòu),因此,使用LTP模型對(duì)微博語料庫(kù)進(jìn)行命名實(shí)體識(shí)別,可以提高實(shí)體關(guān)系三元組的精確度,獲取到的部分實(shí)體結(jié)果如表4所示。

        4.2.3關(guān)系抽取

        本研究使用基于依存句法分析與語義角色標(biāo)注的方法進(jìn)行實(shí)體關(guān)系三元組的抽取。依存關(guān)系語法認(rèn)為謂語中的動(dòng)詞是句子的中心,其他成分與動(dòng)詞有直接或間接的關(guān)系,依存句法分析通過分析句子中詞匯之間的關(guān)系確定句子的句法結(jié)構(gòu),包括主謂關(guān)系(SBV)、動(dòng)賓關(guān)系(VOB)、定中關(guān)系(ATT)等。語義角色標(biāo)注是淺層語義分析的一種重要實(shí)現(xiàn)方式,該方法并不對(duì)整個(gè)語句做詳細(xì)的語義分析,而只是標(biāo)注句子中給定謂詞的語義角色,語義角色描述了一個(gè)謂詞和它的參數(shù)之間的關(guān)系,對(duì)表面的句法構(gòu)架進(jìn)行抽象。語義角色標(biāo)注方法是以句子的謂詞為中心,分析句子的其他成分和謂詞之間的關(guān)系,即分析句子的謂詞一論元結(jié)構(gòu),并用語義角色來描述這些結(jié)構(gòu)關(guān)系。

        本文首先使用依存句法分析句子的關(guān)系類型,利用依存句法分析對(duì)句子中的動(dòng)賓關(guān)系以及并列關(guān)系進(jìn)行提取,再使用語義角色標(biāo)注獲取微博語料中的主語和核心謂詞,主語作為該句的施事者,以核心謂詞為出發(fā)點(diǎn),根據(jù)依存句法分析的結(jié)果,對(duì)句子的賓語即受事者進(jìn)行識(shí)別與提取,組成實(shí)體關(guān)系三元組。圖6展示基于LTP對(duì)采集的微博文本信息進(jìn)行依存句法分析與語義角色標(biāo)注的過程,在該圖中,“聯(lián)合”這一謂語動(dòng)詞為該句中的根詞項(xiàng),各個(gè)詞項(xiàng)之間的鍵值對(duì)表示各個(gè)詞項(xiàng)之間的依存關(guān)系,首先找尋與“聯(lián)合”謂詞存在動(dòng)賓關(guān)系(VOB)的詞語,即“大隊(duì)”,而“大隊(duì)”和“救援隊(duì)”存在并列關(guān)系(C00);再找尋與“聯(lián)合”謂詞存在并列關(guān)系(C00)的詞語“開展”作為句子謂詞,找尋動(dòng)賓關(guān)系(VOB),即“活動(dòng)”。因此,“高新區(qū)應(yīng)急管理局”作為本句的施事者(標(biāo)記為A0),根據(jù)依存句法分析的動(dòng)賓關(guān)系及并列關(guān)系,提取受事者組成的實(shí)體關(guān)系三元組為(高新區(qū)應(yīng)急管理局,聯(lián)合,高新區(qū)消防大隊(duì))、(高新區(qū)應(yīng)急管理局,聯(lián)合,藍(lán)天救援隊(duì))、(高新區(qū)應(yīng)急管理局,開展,應(yīng)急教學(xué)活動(dòng))。

        4.2.4數(shù)據(jù)融合

        通過對(duì)數(shù)據(jù)的實(shí)體關(guān)系三元組抽取后,將抽取的三元組中不重要的內(nèi)容刪除,并將表述不清、不完整的數(shù)據(jù)補(bǔ)充完整,對(duì)內(nèi)容表述重復(fù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,人工調(diào)整部分三元組數(shù)據(jù)。首先是部分?jǐn)?shù)據(jù)不完整的問題,通過查詢相關(guān)信息補(bǔ)充完整數(shù)據(jù),例如21日、28日等日期信息不完整,補(bǔ)充為“2022年8月21日”“2022年8月28日”以及“瀘州市”“宣漢縣”等機(jī)構(gòu)名稱不完整,補(bǔ)充為“瀘州市人民政府”“宣漢縣森林防滅火指揮部”等:其次是發(fā)布的應(yīng)急措施名稱不同但內(nèi)容相同的問題,即內(nèi)容表述重復(fù)性的問題,例如“森林防滅火巡查工作”“巡防森林火情”和“巡邏防護(hù)工作”都為森林防火巡查的措施,可以將這些措施名稱融合為“森林防滅火巡查工作”。最終將獲取的三元組數(shù)據(jù)實(shí)例批量導(dǎo)入Protege構(gòu)建的本體中,并將導(dǎo)出的owl文件轉(zhuǎn)換成RDF文件,實(shí)現(xiàn)RDF序列化。

        5自然災(zāi)害知識(shí)圖譜的應(yīng)用

        本研究使用Ne04j圖數(shù)據(jù)庫(kù)及Cypher查詢語句實(shí)現(xiàn)知識(shí)圖譜的檢索與可視化,構(gòu)建的知識(shí)圖譜能夠從宏觀及微觀層面反映出主題下各類目實(shí)體之間的語義關(guān)聯(lián)關(guān)系。最終形成的知識(shí)圖譜共包含657個(gè)實(shí)體節(jié)點(diǎn)和755個(gè)關(guān)聯(lián)關(guān)系,呈現(xiàn)的圖譜如圖7所示。

        在知識(shí)圖譜的可視化方面,從宏觀角度來看,自然災(zāi)害知識(shí)圖譜中,共包含防災(zāi)措施、災(zāi)情通報(bào)、災(zāi)情預(yù)測(cè)和防災(zāi)常識(shí)4個(gè)主題的圖譜,圖7展示了各主題的發(fā)布者以及主題下的類目信息。首先,綠色節(jié)點(diǎn)為發(fā)布者節(jié)點(diǎn),從4個(gè)主題的發(fā)布者數(shù)量來看,發(fā)布者發(fā)布防災(zāi)常識(shí)、災(zāi)情通報(bào)以及防災(zāi)措施主題數(shù)量較多,體現(xiàn)各地政府十分重視森林火災(zāi)的防控以及預(yù)防工作,關(guān)于森林火災(zāi)的微博內(nèi)容發(fā)布得較為全面,但較多的發(fā)布者只集中于發(fā)布其中某一主題的相關(guān)內(nèi)容,涵蓋較多主題的發(fā)布者較少。從微觀角度來看,自然災(zāi)害知識(shí)圖譜共包含4個(gè)主題,在這4個(gè)主題圖譜中,防災(zāi)措施主題圖譜展示了應(yīng)急機(jī)構(gòu)針對(duì)森林火災(zāi)事件所發(fā)布的應(yīng)急措施:災(zāi)情通報(bào)主題圖譜展示了森林火災(zāi)發(fā)生的地點(diǎn)與災(zāi)害時(shí)間、災(zāi)害起因、救災(zāi)組織、救火方式等關(guān)聯(lián)關(guān)系:防災(zāi)常識(shí)主題圖譜展示了預(yù)防常識(shí)和逃生常識(shí)的相關(guān)知識(shí):災(zāi)情預(yù)測(cè)主題圖譜展示了相關(guān)機(jī)構(gòu)發(fā)布的可能引起災(zāi)害事件發(fā)生的天氣以及社會(huì)環(huán)境預(yù)警信息。以災(zāi)情預(yù)測(cè)主題為例,使用Cypher語句對(duì)其進(jìn)行展示,可以看到該主題關(guān)聯(lián)了很多相關(guān)的天氣及社會(huì)環(huán)境預(yù)警信息節(jié)點(diǎn),如圖8所示。

        在圖8中可以了解到災(zāi)情預(yù)測(cè)這一主題發(fā)布的天氣預(yù)警信息包含“深圳市森林火險(xiǎn)黃色預(yù)警”“蕉嶺縣森林火險(xiǎn)紅色預(yù)警”等森林火險(xiǎn)預(yù)警信息,以及“江西省高溫紅色預(yù)警”“衢州市干旱黃色預(yù)警”等高溫干旱預(yù)警信息;社會(huì)環(huán)境預(yù)警信息包含“野炊、吸煙等違規(guī)用火”以及“進(jìn)山人數(shù)激增”等內(nèi)容。通過獲取天氣以及社會(huì)環(huán)境預(yù)警信息,能夠及時(shí)了解導(dǎo)致災(zāi)害事件發(fā)生的因素,并對(duì)可能發(fā)生的災(zāi)害事件進(jìn)行監(jiān)測(cè),從而對(duì)災(zāi)害事件的防范起到一定的輔助作用。

        在知識(shí)圖譜檢索方面,自然災(zāi)害主題知識(shí)圖譜可以通過Cypher語句實(shí)現(xiàn)相關(guān)節(jié)點(diǎn)及關(guān)系的查詢與檢索,如對(duì)災(zāi)害發(fā)生地點(diǎn)節(jié)點(diǎn)“內(nèi)蒙古錫林郭勒盟東烏珠穆沁旗薩麥蘇木北部”進(jìn)行查詢,使用Cypher查詢語句“match

        data=(na:‘FMO:Dis-aster_location{uri:“內(nèi)蒙古錫林郭勒盟東烏珠穆沁旗薩麥蘇木北部”})-[r]->( nb) return data”得到的查詢結(jié)果如圖9所示,可以了解到該地點(diǎn)發(fā)生的災(zāi)害事件類型、災(zāi)害發(fā)生級(jí)別、災(zāi)害發(fā)生時(shí)間和結(jié)束時(shí)間、災(zāi)害起因以及受災(zāi)范圍等信息。

        從知識(shí)圖譜的查詢過程與可視化結(jié)果可以看出,知識(shí)圖譜的檢索功能可以幫助用戶便捷地檢索與查閱關(guān)鍵主題詞的相關(guān)信息,不僅節(jié)省了用戶翻看微博的時(shí)間,而且大大提高了用戶查詢?yōu)暮π畔⒌男?。另外,?duì)微博資源進(jìn)行主題劃分能夠使信息以更準(zhǔn)確精練的方式被提取利用,不僅能夠協(xié)助政府機(jī)構(gòu)全面了解災(zāi)害事件微博信息發(fā)布的核心內(nèi)容與主題類別,進(jìn)一步提高信息的利用率與信息查詢的準(zhǔn)確度,同時(shí)也可以幫助政府機(jī)構(gòu)了解災(zāi)害事件微博發(fā)布的規(guī)律與特點(diǎn),為其完善災(zāi)害事件的管理與預(yù)防、發(fā)布后續(xù)的微博信息提供較為重要的參考與支持價(jià)值。

        6總結(jié)

        本文以“森林火災(zāi)”事件為例,構(gòu)建了基于政務(wù)微博的自然災(zāi)害知識(shí)圖譜,首先將微博信息進(jìn)行LDA主題劃分,再通過本體構(gòu)建、數(shù)據(jù)預(yù)處理、實(shí)體關(guān)系抽取、數(shù)據(jù)融合等過程提取RDF三元組,最終通過Ne04j圖數(shù)據(jù)庫(kù)實(shí)現(xiàn)自然災(zāi)害知識(shí)圖譜的構(gòu)建,同日寸對(duì)知識(shí)圖譜的可視化與檢索的過程進(jìn)行實(shí)證。本研究將離散的微博信息整合成主題清晰、關(guān)聯(lián)性強(qiáng)的可視化知識(shí),進(jìn)一步挖掘隱含主題并將相關(guān)主題的信息聚合在一起,梳理各主題下所包含的類目信息,實(shí)現(xiàn)了從分散信息到關(guān)聯(lián)知識(shí)的轉(zhuǎn)化。對(duì)災(zāi)害信息進(jìn)行可視化知識(shí)組織,不僅可以幫助政府部門、消防組織等做好決策部署與政策工作安排,還可以滿足社會(huì)用戶的相關(guān)信息需求,為多元主體提供知識(shí)服務(wù),同時(shí)對(duì)保障社會(huì)安全和促進(jìn)國(guó)家經(jīng)濟(jì)平穩(wěn)發(fā)展具有重要現(xiàn)實(shí)意義和科學(xué)意義。鑒于本文對(duì)微博信息選取研究的數(shù)據(jù)量相對(duì)有限,在今后的調(diào)查研究中可以再選取微信、網(wǎng)媒等信息資源豐富的數(shù)據(jù)量,進(jìn)一步擴(kuò)大自然災(zāi)害知識(shí)圖譜的主題與實(shí)體節(jié)點(diǎn),從而加強(qiáng)數(shù)據(jù)之間的關(guān)聯(lián)程度,更好地實(shí)現(xiàn)防災(zāi)信息的開發(fā)與利用,提升自然災(zāi)害知識(shí)圖譜的利用價(jià)值。

        猜你喜歡
        知識(shí)可視化政務(wù)微博自然災(zāi)害
        思維可視化在教學(xué)《函數(shù)的圖象》中的應(yīng)用
        小學(xué)低段語文教學(xué)中知識(shí)可視化的策略探析
        小學(xué)低段語文教學(xué)方法探析
        基于生態(tài)位理論的中國(guó)電子政務(wù)發(fā)展研究
        區(qū)域發(fā)展存在的問題及其思考
        東方教育(2016年3期)2016-12-14 21:03:13
        我國(guó)政務(wù)微博參與公共管理的問題及對(duì)策研究
        巧用政務(wù)微博,回應(yīng)民眾關(guān)切
        人民論壇(2016年27期)2016-10-14 13:11:06
        三年困難時(shí)期的背景原因分析與思考
        海運(yùn)平安險(xiǎn)承保范圍爭(zhēng)議探析
        山體崩塌的成因及防治措施
        人妻中文字幕日韩av| 伊人婷婷色香五月综合缴激情| 精品久久久久久午夜| 97超碰国产一区二区三区| 精品亚洲一区二区三区四| a级毛片成人网站免费看| 久久无码一一区| 97国产精品麻豆性色| 日韩在线精品视频一区| s级爆乳玩具酱国产vip皮裤| 成人亚洲性情网站www在线观看 | 久久国产香蕉一区精品天美| av在线免费观看麻豆| 男人和女人做爽爽视频| 麻豆乱码国产一区二区三区| 黑人一区二区三区在线| 国产三级黄色大片在线免费看 | 精品亚洲成a人片在线观看| 国产精品国产三级农村妇女| av毛片一区二区少妇颜射| 91精品国产色综合久久| 公和我做好爽添厨房中文字幕| 秋霞鲁丝片av无码| 毛片无遮挡高清免费久久| 精品女人一区二区三区| 国产熟妇疯狂4p交在线播放| 中文字幕一区二区三区人妻少妇| 中文字幕亚洲无线码在一区| 日本高清不卡一区二区三区| 日本在线一区二区三区视频观看| 亚洲精品无码专区| 成年人黄视频大全| 国产精品亚洲精品日韩动图| 中文有码亚洲制服av片| 五十路熟妇高熟无码视频| 无码精品一区二区三区免费16| 亚洲精品成人一区二区三区| 国产av一区二区三区天堂综合网| 国产乱人伦精品一区二区| h动漫尤物视频| 亚洲高清国产一区二区|