亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        突發(fā)公共衛(wèi)生事件語料庫研究

        2015-12-06 09:23:00陳安琪
        安全 2015年1期
        關鍵詞:案例庫詞頻語料

        王 強 陳安琪

        1.北京市科學技術情報研究所 2.研究院競爭情報與創(chuàng)新評估重點實驗室

        突發(fā)公共衛(wèi)生事件是指突然發(fā)生,造成或者可能造成社會公眾健康嚴重損害的重大傳染病疫情、群體性不明原因疾病、重大食物和職業(yè)中毒以及其他嚴重影響公眾健康的事件。隨著生物技術、化學技術和核技術在工農(nóng)業(yè)、醫(yī)療衛(wèi)生、科學研究和軍事上應用的日益廣泛,我國許多新發(fā)、再發(fā)傳染病及不明原因的疾病頻繁暴發(fā),化學污染、中毒和放射事故逐年增多,同時,因森林開發(fā)、興修水庫帶來地理景觀改變,全球氣候變暖、生態(tài)改變等自然、人為因素造成的突發(fā)公共衛(wèi)生事件也在不斷增加,這都必然會給國家在政治和經(jīng)濟上造成損失,對人民的身體和精神帶來嚴重威脅。

        互聯(lián)網(wǎng)作為一種新媒體形式,已經(jīng)成為信息發(fā)布和獲取的主要渠道之一,隨著我國對公共衛(wèi)生事件重視程度的不斷提高和信息透明度的不斷增強,突發(fā)公共衛(wèi)生事件的進展情況已經(jīng)能夠比較及時的發(fā)布到網(wǎng)絡媒體,使相關網(wǎng)絡信息隨著公共衛(wèi)生事件的進展而不斷傳播,因此對網(wǎng)絡信息及其傳播模式的分析,是揭示和發(fā)現(xiàn)公共衛(wèi)生事件發(fā)生發(fā)展規(guī)律,事件之間的轉換、耦合、衍生、次生等關系和條件的重要手段。

        語料庫(Corpus)是語料的倉庫或者語料的集合[1],作為突發(fā)公共衛(wèi)生事件語料庫指的是為研究突發(fā)公共衛(wèi)生事件而專門收集的、有一定結構的、有代表性的、可以被計算機程序檢索的、具有一定規(guī)模的專業(yè)語料的集合。構建突發(fā)公共衛(wèi)生事件語料庫,對探索突發(fā)公共衛(wèi)生事件互聯(lián)網(wǎng)文本的語言特征,揭示突發(fā)公共衛(wèi)生事件網(wǎng)絡信息的傳播宏觀模式和微觀模式,辨析網(wǎng)絡突發(fā)公共衛(wèi)生事件的信息真?zhèn)?,探索特殊情境下網(wǎng)民情緒波動情況及不同語境環(huán)境下受眾的群體特征為政府和相關部門提供科學的應急措施和防范計劃等都具有重要意義。

        1 語料庫建設內容

        1.1 突發(fā)公共衛(wèi)生事件生語料庫

        通過網(wǎng)絡爬蟲在互聯(lián)網(wǎng)上采集與突發(fā)公共衛(wèi)生事件相關的新聞報道、評論、博客等文本信息形成計算機可存儲的數(shù)字化生語料庫。建立的生語料庫應滿足真實性、代表性、平衡性三大目標。即,在生語料庫中應包含規(guī)范運用的語言樣本,如:網(wǎng)絡媒體新聞,也包含非規(guī)范運用的語言樣本,如:評論、留言、博客等。

        1.2 突發(fā)公共衛(wèi)生事件語料庫

        對生語料庫進行進一步的加工和處理,將語料分為與突發(fā)公共衛(wèi)生事件相關和無關的兩類語料,最終完成突發(fā)公共衛(wèi)生事件語料庫的構建。存儲在該語料庫中的語料是經(jīng)過標注的,結構化或半結構化的語料。同時該語料庫還保存著每一語料樣本的元數(shù)據(jù),如:標題、作者、發(fā)布時間、消息來源和發(fā)布網(wǎng)站名等信息。最終,該語料庫內的記錄應能支持針對突發(fā)公共衛(wèi)生事件網(wǎng)絡信息語言特征的結構的分析。

        1.3 突發(fā)公共衛(wèi)生事件案例庫

        該案例庫主要存儲了互聯(lián)網(wǎng)上與國內重大突發(fā)公共衛(wèi)生事件相關的結構化和半結構化的信息,其包含近百個國內重大突發(fā)公共衛(wèi)生事件案例。該案例庫案例主要來自于國內主流門戶網(wǎng)站針對突發(fā)公共衛(wèi)生事件所組織的新聞專題而構成,其不僅存儲首次在互聯(lián)網(wǎng)上出現(xiàn)的重大突發(fā)公共衛(wèi)生事件文本和數(shù)據(jù)記錄,還應存儲同一事件的后續(xù)報道文本和數(shù)據(jù)記錄,以及由該事件導致的新興相關事件文本和數(shù)據(jù)記錄。

        2 語料庫系統(tǒng)技術路線

        本項目的最終成果將包括三庫一集,即:突發(fā)公共衛(wèi)生事件生語料庫、突發(fā)公共衛(wèi)生事件語料庫、突發(fā)公共衛(wèi)生事件數(shù)據(jù)集、突發(fā)公共衛(wèi)生事件案例庫。其中,突發(fā)公共衛(wèi)生事件生語料庫及數(shù)據(jù)集是其它兩個庫的基礎,庫中包含的語料信息絕大部分是另外兩個庫及數(shù)據(jù)集的輸入。突發(fā)公共衛(wèi)生事件語料庫主要是在文本挖掘,文本分類技術基礎上進行構建,突發(fā)公共衛(wèi)生事件數(shù)據(jù)集則是突發(fā)公共衛(wèi)生事件網(wǎng)絡文本數(shù)據(jù)抽取的主要工作,它集成了語料庫語料的元數(shù)據(jù)和文本發(fā)布者、地理信息,時間信息等屬性數(shù)據(jù)。案例庫則是在獲取的門戶網(wǎng)站突發(fā)事件專題新聞語料基礎上,通過對事件新聞標題進行提取,進而在博客和論壇上進一步采集事件數(shù)據(jù),利用文本相似度計算技術對的語料進一步的深加工而形成的。

        3 語料庫系統(tǒng)功能結構

        本突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)以數(shù)據(jù)采集模塊作為支撐從而形成最初的生語料庫及數(shù)據(jù)集。通過文本處理工具集分別對生語料及數(shù)據(jù)集進行加工從而形成過濾、清洗及轉換后的數(shù)據(jù)集、案例庫和法定傳染病語料庫。最后,最上層的分析及展示工具集根據(jù)處理好的2庫1集提供的數(shù)據(jù)對數(shù)據(jù)進行統(tǒng)計及展示。具體的系統(tǒng)結構如圖1。系統(tǒng)功能主要由前后兩個平臺實現(xiàn),前臺主要用于展示經(jīng)過抽取、清洗和轉換、分類好的語料及與語料相關聯(lián)的數(shù)據(jù)集。后臺則包含了基礎管理,傳染病生語料庫管理、案例庫管理三大管理模塊。

        圖1 突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)架構圖

        3.1 前臺展示平臺

        突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)的展示平臺采用分層處理及工具集成的方式對語料庫系統(tǒng)的語料及數(shù)據(jù)進行展示,如圖2。

        圖2 突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)分類體系

        (1)前臺展示分類體系。

        展示部分包含兩個不同體系的內容,一部分為法定傳染病監(jiān)測,該部分內容主要針對《中華人民共和國傳染病防治法》[2]中列出的甲、乙、丙類共39個傳染病構建關鍵詞表,并通過網(wǎng)絡爬蟲、數(shù)據(jù)過濾、和文本分類技術對抓取的網(wǎng)絡生語料進行清洗和分類而得到。另一部分則是重大突發(fā)公共衛(wèi)生事件語料,該部分新聞語料主要來自于主流門戶網(wǎng)站對突發(fā)公共衛(wèi)生事件所組織的新聞專題,同時通過對新聞專題下的新聞標題進行處理,構建了重大突發(fā)公共衛(wèi)生事件博客、論壇抓取任務列表,并通過抓取構建了初級的重點突發(fā)公共衛(wèi)生事件博客、論壇生語料庫,隨后在此生語料庫基礎上,通過文本相似度計算技術對生語料進行提純,進而得到博客、論壇案例庫語料。并且為了讓后續(xù)基于語料庫的信息傳播研究能根據(jù)不同類型的事件進行分析,還要根據(jù)專家建議將案例庫語料根據(jù)其所代表的事件類型,進一步細分為了法定傳染病事件、食品安全事件、醫(yī)藥衛(wèi)生事件、環(huán)境污染事件和其他突發(fā)事件共五個類別。

        (2)事件級別的語料展示(含法定傳染病)。

        基于事件級別的語料展示包含話題發(fā)布趨勢、信息來源分布、事件新聞列表、新聞媒體排行、事件博客列表、事件帖子列表、意見領袖排行、關鍵詞排行、議題一致性分析、情感趨勢分析和地理分布11個數(shù)據(jù)分析展示模塊。

        話題發(fā)布趨勢模塊。話題發(fā)布趨勢模塊包含信息增量趨勢展示和信息累計趨勢展示兩個展示子模塊,信息增量趨勢模塊主要是基于事件發(fā)生的時間軸根據(jù)一定的時間區(qū)間動態(tài)的反應該時間區(qū)間內的信息增量,通過對比不同媒介信息增量了解一定時間區(qū)段內不同網(wǎng)絡媒介對事件的反應強度。信息累計趨勢則是呈現(xiàn)在一定時間區(qū)段類事件信息增長的累計趨勢。通過對比不同網(wǎng)絡媒介網(wǎng)絡信息累計增長量,可以有效觀測不同網(wǎng)絡媒介平臺信息傳播的相互影響趨勢及評估網(wǎng)絡信息傳播效果。

        信息來源分布模塊。信息來源分布模塊通過統(tǒng)計同一事件下新聞、博客、論壇三個信息源的信息發(fā)布趨勢從另一個角度反映了不同媒介對突發(fā)公共衛(wèi)生事件的反映強度。

        事件新聞、博客、論壇列表。對突發(fā)公共衛(wèi)生事件新聞、博客及論壇列表的展現(xiàn)均按事件發(fā)生的時間升序排列。一方面,通過并列方式顯示不同信息來源的信息可以讓研究人員了解不同媒體平臺下信息的整體發(fā)布情況,了解平臺之間信息的轉換、耦合、衍生、次生等關系。另一方面,該列表還集成了數(shù)據(jù)集中該信息的屬性數(shù)據(jù),如信息來源、評論量、閱讀量、相似信息數(shù),給研究人員從海量信息中獲取關鍵數(shù)據(jù)提供了參考依據(jù)。最后,該列表也是進入原子級別語料展示及分析的接口。

        新聞媒體排行。新聞媒體排行模塊是對新聞語料進一步挖掘的結果,其主要展示了某一事件(傳染?。┫?,報道該事件最多前10位媒體網(wǎng)站該模塊可以幫助研究人員了解突發(fā)公共衛(wèi)生事件下的主要新聞信息發(fā)布平臺。

        意見領袖排行。意見領袖排行模塊的數(shù)據(jù)基礎是論壇帖子語料及帖子評論語料。由于采集的論壇帖子語料總數(shù)達到27萬條,考慮到系統(tǒng)的負荷及確保數(shù)據(jù)的代表性、有效性和有用性,對帖子評論的采集是基于回帖量大于30這個閾值進行的。意見領袖排行統(tǒng)計的是突發(fā)公共衛(wèi)生事件論壇評論數(shù)據(jù)中發(fā)表帖子數(shù)量和評論數(shù)量最多的網(wǎng)絡用戶。選取發(fā)文量最多的前10位網(wǎng)絡用戶進行展現(xiàn)。意見領袖排行可以反映公共衛(wèi)生事件中的積極的利益相關者。

        關鍵詞排行。關鍵詞排行模塊對三大信息源的語料進行了抽取,本項目分詞工具動態(tài)加載了搜狗細胞詞庫中的醫(yī)學詞庫和機構詞庫詞表共286559個詞條,利用這些詞條及分詞工具我們對三大信息源的語料進行了切詞,去停用詞,并對最終分詞結果及每篇文章詞的詞頻進行了統(tǒng)計。選取在三大信息源語料中出現(xiàn)次數(shù)最多10個詞展現(xiàn)在排行列表內。關鍵詞排行從詞的角度反映了突發(fā)事件發(fā)生發(fā)展過程中的熱點。

        議題一致性分析。議題一致性分析是對關鍵詞排行的擴展。其對三大信息源語料單篇文章的詞頻進行了分別統(tǒng)計選取出在各信息源中出現(xiàn)次數(shù)最多的10個關鍵詞進行展現(xiàn),其后對各來源的關鍵詞進行了合并,選取詞頻出現(xiàn)最多的10個關鍵詞,并通過展示界面反映出不同網(wǎng)絡媒介中關鍵詞詞頻數(shù)量的異同。議題一致性分析可以考察不同媒介在同一事件中論點的異同。

        情感趨勢分析。情感趨勢分析模塊利用文本情感計算開源工具包對三大信息源中的詞進行了情感傾向計算,同時該模塊也對文本中的否定詞及否定句進行了情感傾向反轉。

        地理分布。地理分布模塊是對語料庫語料資源地名抽取后統(tǒng)計的結果。地理分布模塊有助于分析突發(fā)事件所涉及的地域范圍,為監(jiān)測事件動態(tài)發(fā)展過程提供參考。

        (3)原子級別的語料展示(含法定傳染病)。

        原子級別的語料展示除了語料還原以外,還提供了單一文本的關鍵詞詞頻統(tǒng)計,論壇帖子評論情感識別,單一帖子意見領袖識別、意見領袖言論匯總及言論情感值計算等分析工具。

        新聞語料展示。新聞語料展示功能包括原文文本重現(xiàn)、情感傾向識別及關鍵詞詞頻統(tǒng)計功能。該頁面可以提供支持項目突發(fā)公共衛(wèi)生事件網(wǎng)絡傳播模式有關突發(fā)公共衛(wèi)生事件主題詞表構建及相關語料詞性、詞頻、語義等語言學特征的研究。

        博客語料展示。博客語料展示功能包括原文文本重現(xiàn)、情感傾向識別及關鍵詞詞頻統(tǒng)計功能。該頁面可以提供支持項目突發(fā)公共衛(wèi)生事件網(wǎng)絡傳播模式有關突發(fā)公共衛(wèi)生事件主題詞表構建及相關語料詞性、詞頻、語義等語言學特征的研究。

        論壇語料展示。論壇語料展示功能包括原文文本重現(xiàn)、情感傾向識別、回帖情感傾向分布、意見領袖排行及關鍵詞詞頻統(tǒng)計功能。該頁面除了提供支持項目突發(fā)公共衛(wèi)生事件網(wǎng)絡傳播模式有關突發(fā)公共衛(wèi)生事件主題詞表構建及相關語料詞性、詞頻、語義等語言學特征的研究外,還對考察大眾傳播的效果,收集大眾傳播的反饋,理解突發(fā)公共衛(wèi)生信息在群體傳播和人際傳播中的形式、特點及過程提供支持。

        意見領袖信息匯總。意見領袖信息匯總包括意見領袖發(fā)布信息匯總及意見領袖發(fā)布信息的情感傾向識別及情感傾向分布。意見領袖信息匯總反映了某一事件下意見領袖在論壇帖子總發(fā)布的言論信息,并對其每一條言論信息進行了情感傾向識別及統(tǒng)計了言論的情感傾向分布。該頁面可以幫組研究人員了解突發(fā)公共衛(wèi)生事件中最積極的利益相關者的主要訴求及情感趨向。

        3.2 后臺管理平臺

        突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)后臺包括基礎管理、案例庫管理和法定傳染病語料管理三大模塊,如圖3。

        (1)基礎管理。

        基礎管理模塊包含主題領域管理、分類管理、站點注冊、列表任務采集及系統(tǒng)命令五大功能。主題領域管理是為構建某一領域的語料庫而設計的,他可以根據(jù)需要建立和新建不同主題領域的語料庫,本系統(tǒng)中目前只有突發(fā)公共衛(wèi)生事件該主題領域的語料。

        圖3 突發(fā)公共衛(wèi)生事件語料庫系統(tǒng)結構圖

        分類管理是對主題領域下的類別的管理,它包括增刪查該四個基本的類別管理功能。當設計好一個主題領域后可以在該頁面下為預采集的文本設定類別及管理該類別下的關鍵詞表。關鍵詞表也具備基本的增刪查改功能。

        站點注冊包括對爬取站點管理及爬取任務列表生成功能,該模塊主要由管理人員負責管理。

        列表采集模塊提供爬取任務執(zhí)行狀態(tài)的查詢功能,可完成爬取任務的添加、刪除和修改工作。

        系統(tǒng)命令則集成了從文本抓取、文本去重、文本預處理、文本相似度計算、文本分類、實體抽取等眾多數(shù)據(jù)抽取、分析和處理功能的模塊。系統(tǒng)管理員可以在系統(tǒng)頁面下通過配置相應的系統(tǒng)參數(shù)完成生語料的加工、分類工作。

        (2)案例庫管理。

        案例庫管理包括案例事件管理、案例新聞管理、案例博客管理、案例論壇管理4個部分。各部分都提供了對各自頁面內容的增刪查改功能。

        (3)法定傳染病語料管理。

        傳染病語料管理主要包含生語料庫管理、生語料標注平臺和分類語料管理三部分。生語料庫的管理主要包括新聞、博客、論壇生語料的增刪查改功能。并提供了鏈接至網(wǎng)絡原始文本的地址。

        語料標注平臺主要是對生語料進行標注,生成用于訓練分類器的訓練文本集。同時,為了減少標注人員的標注勞動量,該平臺也具備語料檢索功能。

        分類語料庫的管理包括對新聞、博客和論壇分類語料的管理,各管理頁面均提供了基本的增刪查改功能,并同了鏈接至網(wǎng)絡原始文本的地址。

        4 結束語

        本語料庫是面向任務的,采用目標驅動的方式進行構建。由于本語料庫主要用于提供突發(fā)公共衛(wèi)生事件傳播模式的研究,因此本系統(tǒng)不但具有傳統(tǒng)語料庫的功能,同時還對研究突發(fā)公共衛(wèi)生事件傳播模式進行了支撐設計,通過對已有的傳播學理論的消化并結合目前網(wǎng)絡輿情研究的成熟技術,將一些可量化的語料分析方法,信息傳播分析方法及文本挖掘工具也都集成到了語料庫系統(tǒng)中,使得系統(tǒng)可以根據(jù)不同的研究目的,而提供智能化的語料分析工具,輔助領域專家完成相關領域的研究工作。

        本系統(tǒng)提供了多種分析工具配合多種分析方法,對同一突發(fā)事件利用多種工具,從多種角度來探索事件信息在互聯(lián)網(wǎng)中的傳播路徑及信息擴散范圍。系統(tǒng)提供的分析工具的多樣性,使得用戶可以從多角度來觀察突發(fā)公共衛(wèi)生事件的整個演化過程,并可以利用不同工具的互補性來驗證分析的準確性。與此同時,本文構建的語料庫盡管從語料內容看是面向突發(fā)公共衛(wèi)生事件,但語料庫建設框架、系統(tǒng)技術路線和功能結構并不存在領域依賴性,這些內容對于自然災害、事故災難和社會安全相關事件語料庫建設同樣具有借鑒意義。

        [1]俞士汶,段慧明,朱學鋒,等. 北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學報,2002,16(5):49-64

        [2]全國人民代表大會常務委員會.中華人民共和國傳染病防治法[M].北京:法律出版社,2013

        猜你喜歡
        案例庫詞頻語料
        心血管外科教學案例庫的建設及應用研究
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        國內首個海事司法案例庫正式上線
        水上消防(2021年4期)2021-11-05 08:51:50
        基于實踐應用的基坑工程設計案例庫建設研究
        內蒙古教育(2021年2期)2021-02-12 01:15:38
        MTI朝鮮語同聲傳譯教學案例庫建設研究
        基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實語料在翻譯教學中的應用
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        《苗防備覽》中的湘西語料
        偷拍区亚洲区一区二区| 亚洲精品无码久久久久牙蜜区| 116美女极品a级毛片| 亚洲VA欧美VA国产VA综合| 亚洲伊人伊成久久人综合| 大桥未久av一区二区三区| 人妻丰满熟妇av无码区hd| 无码一区二区三区AV免费换脸| 国产av一区二区三区国产福利| 日韩人妖视频一区二区| 成人综合网站| 精品十八禁免费观看| 一区二区三区在线免费av| 爆操丝袜美女在线观看| 香蕉人人超人人超碰超国产| 欧美亚洲午夜| 国产美女冒白浆视频免费| 久久精品国产亚洲夜色av网站| 亚洲av成人无码网站…| 五月天综合社区| 日本久久视频在线观看| 人妻精品久久久久中文字幕| 久久精品人妻一区二区三区| 超级碰碰人妻中文字幕| 东北老熟女被弄的嗷嗷叫高潮| 亚洲成av人的天堂在线观看| 日韩中文字幕欧美亚洲第一区| 亚洲av第一区综合激情久久久| 日本一二三区在线观看视频| 污污内射在线观看一区二区少妇 | 五月婷婷激情六月| 久久精品国产亚洲av豆腐| 深夜福利啪啪片| 亚洲国产中文在线二区三区免 | 蜜桃视频中文在线观看| 日本一区二区三区亚洲| 亚洲人成网址在线播放| 视频国产精品| 亚洲精品在线一区二区| 女局长白白嫩嫩大屁股| 狠狠色狠狠色综合日日92|