,,,,,
醫(yī)療衛(wèi)生行業(yè)是關(guān)乎家庭幸福的重大民生工程,醫(yī)療問(wèn)題是網(wǎng)民最為關(guān)注的熱點(diǎn)之一。在我國(guó)醫(yī)療衛(wèi)生改革與發(fā)展的過(guò)程中,體制性矛盾、醫(yī)療糾紛和突發(fā)公共衛(wèi)生事件都會(huì)引發(fā)大小不一、影響各異的輿情事件;同時(shí),互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展以及網(wǎng)民數(shù)量劇增所致的信息快速、廣泛傳播,進(jìn)一步加劇了醫(yī)療衛(wèi)生事件在全國(guó)范圍內(nèi)的影響力和爆發(fā)力,使醫(yī)療衛(wèi)生互聯(lián)網(wǎng)輿情總體呈現(xiàn)觸點(diǎn)多、燃點(diǎn)低、熱度高的特點(diǎn),更加多發(fā)易發(fā)[1]。尤其是一些負(fù)面輿情的持續(xù)發(fā)酵,激化了醫(yī)患矛盾,引發(fā)了醫(yī)藥衛(wèi)生行業(yè)的形象危機(jī),進(jìn)而屢陷輿論漩渦[2-3]。
在全國(guó)醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情井噴、相關(guān)部門對(duì)互聯(lián)網(wǎng)輿情管控難度劇增的態(tài)勢(shì)下,除了需要在制度、管理等方面逐步完善以外,也需要充分利用現(xiàn)有的信息技術(shù),及時(shí)地發(fā)現(xiàn)和處理這些輿情事件。做好互聯(lián)網(wǎng)輿情信息的監(jiān)測(cè),及時(shí)、科學(xué)應(yīng)對(duì),已成為相關(guān)醫(yī)療機(jī)構(gòu)和政府部門的工作重點(diǎn)[4-5]。基于此我們?cè)O(shè)計(jì)并開(kāi)發(fā)了醫(yī)療衛(wèi)生行業(yè)的互聯(lián)網(wǎng)輿情監(jiān)測(cè)預(yù)警信息系統(tǒng),結(jié)合具有衛(wèi)生行業(yè)背景的專業(yè)輿情分析師的人工處理分析和研判,開(kāi)展行業(yè)輿情監(jiān)測(cè)分析工作,為行政管理機(jī)構(gòu)及醫(yī)療計(jì)生單位對(duì)互聯(lián)網(wǎng)輿情的全面掌控和有效應(yīng)對(duì)提供專業(yè)可信的依據(jù)。系統(tǒng)的架構(gòu)和功能實(shí)現(xiàn)介紹如下。
本項(xiàng)目開(kāi)發(fā)的醫(yī)療衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)主要實(shí)現(xiàn)互聯(lián)網(wǎng)信息獲取、互聯(lián)網(wǎng)信息處理、輿情分析、輔助決策支持4個(gè)方面功能。其中互聯(lián)網(wǎng)輿情信息獲取的快與準(zhǔn)、內(nèi)容分析的確定性、輿情研判的準(zhǔn)確性、輿情響應(yīng)的及時(shí)性、信息跟蹤的及時(shí)性等目標(biāo)的實(shí)現(xiàn),是本系統(tǒng)開(kāi)發(fā)技術(shù)的關(guān)鍵點(diǎn)和輿情分析研究的主要著力點(diǎn)[6]。
互聯(lián)網(wǎng)輿情的來(lái)源十分復(fù)雜,包括新聞網(wǎng)站、論壇、博客等,主要表現(xiàn)形式為動(dòng)態(tài)網(wǎng)頁(yè),具有主題發(fā)散、形式多樣、時(shí)效性強(qiáng)等特點(diǎn)?;ヂ?lián)網(wǎng)信息獲取的目的就是要采集和提取這些動(dòng)態(tài)網(wǎng)頁(yè)中的非結(jié)構(gòu)化信息。
新聞、論壇帖子、博文等頁(yè)面包含有效信息,同時(shí)也包含垃圾信息,因此在輿情分析前必須去偽存真。網(wǎng)絡(luò)信息的處理目的是對(duì)頁(yè)面內(nèi)容進(jìn)行過(guò)濾,并提煉成概要信息,便于查詢和檢索。再經(jīng)過(guò)人工的二次審核,確保保留信息的準(zhǔn)確性,以提升輿情分析的準(zhǔn)確性和科學(xué)性。
網(wǎng)民討論的話題極為發(fā)散,如何從海量信息中找到熱點(diǎn)、敏感話題,并對(duì)其趨勢(shì)變化進(jìn)行追蹤,成為公共衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的重點(diǎn)。系統(tǒng)需要從實(shí)時(shí)采集到的數(shù)據(jù)中篩選出重要的敏感信息,及時(shí)推送給有關(guān)部門以達(dá)到預(yù)警的目的。對(duì)于持續(xù)追蹤的輿情,系統(tǒng)可自動(dòng)生成相應(yīng)圖表,并進(jìn)行人工分析,最終形成準(zhǔn)確、專業(yè)、全面的輿情分析報(bào)告。
醫(yī)療衛(wèi)生互聯(lián)網(wǎng)輿情監(jiān)測(cè)系統(tǒng)需為相關(guān)部門的決策服務(wù),因此需要將各種輿情分析結(jié)果接入個(gè)人工作平臺(tái),服務(wù)于實(shí)際工作。
系統(tǒng)架構(gòu)遵循先進(jìn)性、可靠性、安全性、標(biāo)準(zhǔn)化、成熟性、適用性、可擴(kuò)展性原則,按層次架構(gòu)進(jìn)行設(shè)計(jì),每層之間通過(guò)松散藕合的方式相互通信,從下而上分別由采集模塊、過(guò)濾模塊、分析模塊、應(yīng)用系統(tǒng)組成(圖1)。
圖1 醫(yī)療衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)架構(gòu)
網(wǎng)絡(luò)輿情散布于網(wǎng)絡(luò)的各個(gè)部分,如新聞、論壇、微信、微博、博客等。這些信息實(shí)時(shí)更新,動(dòng)態(tài)變化。信息獲取的目標(biāo)是對(duì)相關(guān)信息進(jìn)行采集,對(duì)已有數(shù)據(jù)進(jìn)行周期性的更新以獲取其最新的轉(zhuǎn)發(fā)和評(píng)論狀態(tài)。采集的信息源以及采集頻率都可以根據(jù)用戶需要,進(jìn)行定制化配置,靈活性強(qiáng)。用戶還可自定義特定主題或事件,如“莆田系”,從而對(duì)特定主題或事件進(jìn)行專題監(jiān)測(cè)和追蹤,并由系統(tǒng)生成專題報(bào)道。由于不同數(shù)據(jù)源的格式千差萬(wàn)別,在獲取信息前要對(duì)每個(gè)站點(diǎn)進(jìn)行采集配置,以確保能夠及時(shí)準(zhǔn)確從網(wǎng)頁(yè)中采集標(biāo)題、內(nèi)容、作者、發(fā)文時(shí)間等內(nèi)容,并格式化存儲(chǔ)以方便之后的量化統(tǒng)計(jì)分析。
由于互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量參差不齊,各種垃圾信息(如廣告)充斥其中,智能的垃圾文識(shí)別算法可有效過(guò)濾廣告等無(wú)用信息。然后,可根據(jù)每個(gè)角色自身業(yè)務(wù)需求,進(jìn)一步將這些數(shù)據(jù)分門別類,最終實(shí)現(xiàn)根據(jù)不同的需求呈現(xiàn)不同的數(shù)據(jù)。
信息分析模塊能實(shí)現(xiàn)輿情信息自動(dòng)提取摘要,自動(dòng)識(shí)別與主題相關(guān)的內(nèi)容并自動(dòng)聚類,對(duì)信息內(nèi)容進(jìn)行正負(fù)面情感傾向性分析。除了及時(shí)篩選出重要的輿情信息之外,還要能識(shí)別出熱點(diǎn)話題,并根據(jù)該話題事件輿情信息的各個(gè)維度,包括人群分布、媒體分布、時(shí)間趨勢(shì)、地域分布、觀點(diǎn)分類等的統(tǒng)計(jì)及對(duì)數(shù)據(jù)的有效組織、分類,從多方面分析輿情信息的具體分布情況,從而分析事件的整體發(fā)展趨勢(shì)和現(xiàn)狀,以及網(wǎng)民對(duì)事件的觀點(diǎn)傾向。
系統(tǒng)采用跨平臺(tái)的JAVA技術(shù),使采集系統(tǒng)可以在各種操作系統(tǒng)上運(yùn)行。同時(shí),為了解決數(shù)據(jù)量大引發(fā)的擴(kuò)展性問(wèn)題,底層數(shù)據(jù)的存儲(chǔ)和分發(fā)采用hadoop的相關(guān)技術(shù)實(shí)現(xiàn),機(jī)器學(xué)習(xí)相關(guān)的算法采用weka實(shí)現(xiàn)。
采集器構(gòu)架(圖1)不但可以采集普通采集器所能實(shí)現(xiàn)的簡(jiǎn)單的網(wǎng)頁(yè)采集,還可以執(zhí)行網(wǎng)頁(yè)上的動(dòng)態(tài)腳本(如javascript,ajax等),以得到普通采集方式通過(guò)抓取靜態(tài)頁(yè)面無(wú)法獲取的信息。
3.1.1 動(dòng)態(tài)網(wǎng)頁(yè)的采集
越來(lái)越多的網(wǎng)站采用了動(dòng)態(tài)頁(yè)面技術(shù)(即javascript、ajax等),典型的如博客、微博等網(wǎng)站,通過(guò)普通的靜態(tài)頁(yè)面只能采集到部分信息,甚至采集不到真正的頁(yè)面內(nèi)容。本系統(tǒng)的采集器內(nèi)采用了頁(yè)面動(dòng)態(tài)構(gòu)建技術(shù),可以使采集到的頁(yè)面執(zhí)行頁(yè)面動(dòng)態(tài)腳本得到與普通瀏覽器完全一致的頁(yè)面內(nèi)容。
3.1.2 采集范圍廣泛
目前采集器的采集目標(biāo)包括微信公眾號(hào)、新聞、論壇、博客、微博、RSS等各種類型的站點(diǎn)。除了采集系統(tǒng)所設(shè)的目標(biāo)網(wǎng)站外,還能獲取各大搜索引擎的內(nèi)容,以獲取采集目標(biāo)站點(diǎn)外的信息作為重要補(bǔ)充。由于系統(tǒng)包含各目標(biāo)站點(diǎn)類型的配置信息,除了普通網(wǎng)絡(luò)采集器能夠采集到的網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)更新時(shí)間、網(wǎng)頁(yè)內(nèi)容外,最大特點(diǎn)是可以根據(jù)此配置信息自動(dòng)解析出普通網(wǎng)頁(yè)中輿情處理的結(jié)構(gòu)化信息,如標(biāo)題、內(nèi)容、發(fā)表時(shí)間、閱讀數(shù)、回復(fù)量、最新回復(fù)時(shí)間等。系統(tǒng)有定時(shí)的網(wǎng)站格式分析及監(jiān)測(cè),在網(wǎng)站結(jié)構(gòu)改變時(shí),能夠及時(shí)調(diào)整系統(tǒng)針對(duì)站點(diǎn)的配置設(shè)定以及時(shí)獲取正確的信息。采集系統(tǒng)除了采用常規(guī)的關(guān)鍵詞采集外,還能夠?qū)χ付ǖ恼军c(diǎn)實(shí)現(xiàn)全采集,即地毯式搜索,不遺漏任何輿情信息。另外,系統(tǒng)也能夠采集某些需要登錄才能看到內(nèi)容的網(wǎng)站,如某些論壇和微博站點(diǎn),并且能夠采取各種措施有效繞過(guò)網(wǎng)站的反爬蟲技術(shù)實(shí)現(xiàn)輿情采集。
信息過(guò)濾模塊主要包括文章去重,垃圾文過(guò)濾和輿情預(yù)警3個(gè)部分。
3.2.1 文章去重
互聯(lián)網(wǎng)中存在大量的重復(fù)頁(yè)面,統(tǒng)計(jì)表明系統(tǒng)所采集的數(shù)據(jù)中有超過(guò)50%的重復(fù)。檢測(cè)重復(fù)頁(yè)面對(duì)于減少重復(fù)工作量,提高數(shù)據(jù)質(zhì)量至關(guān)重要。同時(shí),由于每天采集的文章量巨大,要實(shí)時(shí)計(jì)算每篇文章是否是近似重復(fù)文章對(duì)算法的計(jì)算速度具有很高的要求。因此系統(tǒng)采用了TF-IDF,I-match[7-8],Shingling[9-10]和Jaccard Index相結(jié)合的方式計(jì)算,對(duì)每篇文檔進(jìn)行分詞,找出所有的停用詞,停用詞后面的連續(xù)兩個(gè)非停用詞詞串作為代表這篇文檔的詞串;計(jì)算所有這些詞串的IDF,去掉IDF太大和太小的詞串;利用I-match算法[7-8]計(jì)算和已經(jīng)有的文檔是否相似,如果相似則該篇文檔的計(jì)算結(jié)束,如果不相似則對(duì)每篇文檔計(jì)算其選取詞串的TFIDF,然后根據(jù)LSH計(jì)算是否和已經(jīng)有的文檔相似;對(duì)每篇文檔利用Shingling方法[9-10]計(jì)算其是否和已有文檔相似;對(duì)于任何可能相似的情況進(jìn)一步計(jì)算所有詞串的Jaccard Index來(lái)過(guò)濾掉假陽(yáng)性。
3.2.2 垃圾文過(guò)濾
網(wǎng)絡(luò)所采集的大量文章中,很多都和醫(yī)療衛(wèi)生不相關(guān)。本系統(tǒng)采用weka文本分類技術(shù)對(duì)每篇采集的文本進(jìn)行分類,可以將和醫(yī)療相關(guān)的文章篩選出來(lái),過(guò)濾掉垃圾文。這一步篩選至關(guān)重要,其準(zhǔn)確性直接影響到后續(xù)數(shù)據(jù)分析中統(tǒng)計(jì)的正確性。
3.2.3 輿情預(yù)警
系統(tǒng)通過(guò)關(guān)鍵詞匹配的方式從醫(yī)療衛(wèi)生相關(guān)的信息中過(guò)濾出敏感的輿情事件。為此,我們收集整理了和醫(yī)療衛(wèi)生相關(guān)的負(fù)面詞庫(kù),其中包括諸如“醫(yī)鬧”“醫(yī)患”“單獨(dú)兩孩”等詞。然后在系統(tǒng)過(guò)濾的基礎(chǔ)上,通過(guò)人工研判識(shí)別的方式篩選出重要信息,并根據(jù)信息的重要性和緊急程度,分成一般、重要、緊急3個(gè)級(jí)別,通過(guò)WEB端、PC端和手機(jī)客戶端等方式推送預(yù)警,以確保用戶能隨時(shí)隨地及時(shí)掌握最新重要輿情。
圍繞過(guò)濾之后的數(shù)據(jù),系統(tǒng)會(huì)進(jìn)行多方位的分析。其中分析技術(shù)包括熱點(diǎn)識(shí)別、熱詞發(fā)現(xiàn)、傾向性分析、地域識(shí)別、趨勢(shì)分析和媒體分析等。基于這些分析結(jié)果,系統(tǒng)可通過(guò)圖形化的方式展示,具有較好的可視化效果。
3.3.1 熱點(diǎn)事件
系統(tǒng)根據(jù)新聞熱點(diǎn)、關(guān)鍵詞、專題等信息進(jìn)行熱度分析,考慮了信息來(lái)源、所處網(wǎng)頁(yè)位置、轉(zhuǎn)載、點(diǎn)擊、評(píng)論、回復(fù)和報(bào)道率等關(guān)鍵因素,對(duì)這些因素進(jìn)行綜合排名,并支持以半小時(shí)為間隔的任意時(shí)間段進(jìn)行統(tǒng)計(jì)分析,同時(shí)提供1天、3天、7天等時(shí)間序列的符合用戶精確度要求的分類熱點(diǎn)排行。此外,系統(tǒng)還可以對(duì)熱點(diǎn)信息進(jìn)行持續(xù)追蹤,并通過(guò)趨勢(shì)分析圖和傳播鏈分析圖等技術(shù)幫助用戶了解熱點(diǎn)事件的報(bào)道趨勢(shì)以及來(lái)龍去脈,幫助用戶更好地對(duì)輿情進(jìn)行研判。
3.3.2 熱詞發(fā)現(xiàn)
系統(tǒng)在不斷更新的信息中尋找一定時(shí)期熱度較高的短語(yǔ),如人名、地名、機(jī)構(gòu)名和其他常見(jiàn)短語(yǔ)。很多網(wǎng)絡(luò)熱詞是詞典中未收錄的新詞語(yǔ),因此計(jì)算熱詞的時(shí)候,系統(tǒng)主要考慮兩個(gè)方面,一是出現(xiàn)的頻率信息越多,熱度越高;二是歷史波動(dòng)信息曲線越陡,熱度越高。
3.3.3 傾向性分析
情感傾向性分析具有極強(qiáng)的行業(yè)領(lǐng)域依賴性[11]。本系統(tǒng)通過(guò)建立面向衛(wèi)生行業(yè)領(lǐng)域的情感詞典,對(duì)輿情進(jìn)行觀點(diǎn)傾向性分析,自動(dòng)分析文章的傾向性為正面、負(fù)面還是中性,從而為輿情處理提供重要的分析依據(jù)。在實(shí)現(xiàn)上,本系統(tǒng)同樣采用weka技術(shù)實(shí)現(xiàn)文本的傾向性分類。
3.3.4 地域識(shí)別
系統(tǒng)采用了實(shí)體名識(shí)別技術(shù),對(duì)其中的地域名詞進(jìn)行識(shí)別,并且將每一個(gè)地域名詞歸類到全國(guó)的地域?qū)蛹?jí)上,從而實(shí)現(xiàn)全國(guó)范圍內(nèi)的地域識(shí)別。
我們?cè)O(shè)計(jì)開(kāi)發(fā)的輿情監(jiān)測(cè)系統(tǒng)可實(shí)現(xiàn)7×24小時(shí)不間斷采集互聯(lián)網(wǎng)信息,通過(guò)系統(tǒng)智能過(guò)濾、強(qiáng)大的分析功能配合人工精細(xì)化服務(wù)的研判分析,及時(shí)有效地從互聯(lián)網(wǎng)上篩選出醫(yī)療衛(wèi)生行業(yè)相關(guān)的輿情事件并進(jìn)行預(yù)警、專題追蹤和趨勢(shì)分析,同時(shí)通過(guò)Web端、PC輿情助手和手機(jī)客戶端,確保用戶隨時(shí)隨地都能準(zhǔn)確有效地掌握最新輿情動(dòng)態(tài)并做出有效應(yīng)對(duì)。和其他輿情分析系統(tǒng)相比,本系統(tǒng)采集的數(shù)據(jù)源更廣,數(shù)據(jù)分類更智能,數(shù)據(jù)分析更完備,結(jié)合人工分析服務(wù),使輿情研判和預(yù)警更加精準(zhǔn)。但實(shí)際運(yùn)行過(guò)程中尚存在一些需要完善的地方,主要包括以下3個(gè)方面。
一是輿情事件的分析。一件輿情事件可能涉及到幾百至上百萬(wàn)的文章,如何將每篇文章自動(dòng)準(zhǔn)確地歸類于某一事件尚需進(jìn)一步探索。雖然通過(guò)關(guān)鍵詞等方式可以解決大部分問(wèn)題,但是有很多長(zhǎng)尾文章不能簡(jiǎn)單地通過(guò)關(guān)鍵詞的方式過(guò)濾。
二是傾向性分析。由于自然語(yǔ)言處理的復(fù)雜性,對(duì)于一個(gè)事件的正負(fù)面評(píng)價(jià)以及網(wǎng)民評(píng)論傾向性分析并不是一件容易的事情,需要不斷完善系統(tǒng)中傾向性分類器的精度。
三是境外外語(yǔ)輿情監(jiān)測(cè)功能欠缺[12]。主要存在聯(lián)通不暢、語(yǔ)言不支持、抓取不及時(shí)等短板,需加強(qiáng)境外站點(diǎn)的配置、語(yǔ)種語(yǔ)料庫(kù)等設(shè)置。