姜浩然* 周 萍 楊肖光
1.遼寧社會科學(xué)院社會學(xué)所 遼寧沈陽 110031
2.復(fù)旦大學(xué)公共衛(wèi)生學(xué)院國家衛(wèi)生健康委衛(wèi)生技術(shù)評估重點實驗室 上海 200032
“健康中國”是當(dāng)前中國重點推進的國家級戰(zhàn)略。健康中國的內(nèi)涵極為豐富,涉及從微觀層面的健康生活方式、健康服務(wù),到宏觀層面的健康保障、健康環(huán)境、健康產(chǎn)業(yè)以及健康治理體系等各個方面[1],帶動了全國范圍內(nèi)圍繞健康議題而開展的各項政治、經(jīng)濟和社會活動。健康中國建設(shè)的進程也為各級各類新聞媒體所持續(xù)關(guān)注。自十八屆五中全會提出“推進健康中國建設(shè)”理念,到2016年8月全國衛(wèi)生與健康大會召開及中央政治局審議通過《“健康中國2030”規(guī)劃》,再到十九大正式提出“實施健康中國戰(zhàn)略”,其間累積的大量媒體報道信息,為全景式的認(rèn)識這一國家重大政策的實施進程提供了潛在的可能性。
新聞媒體是重要的信息載體、意見表達渠道和公共溝通平臺。媒體在及時、準(zhǔn)確記錄事件的發(fā)生的同時,也反映了社會對于特定問題的態(tài)度。同時,媒體也承載著輿論導(dǎo)向的功能,在推行政策的過程中,政府也會有意識的利用媒體進行宣傳和倡導(dǎo)。[2]在互聯(lián)網(wǎng)與大數(shù)據(jù)時代,隨著文本數(shù)據(jù)挖掘技術(shù)的突破,媒體報道的量化分析已引起研究者的重視,并廣泛應(yīng)用于各個領(lǐng)域,如金融、農(nóng)業(yè)、環(huán)境等。[3]然而,在衛(wèi)生與健康領(lǐng)域,媒體報道相關(guān)研究分析多停留在新聞傳播學(xué)的角度開展的媒體報道內(nèi)容分析。[4]為數(shù)不多的基于量化的輿情分析[5]則以報道頻次、時間分布、關(guān)鍵詞詞頻等描述方法為主,對新聞文本信息挖掘的深度有限,也一定程度上影響了分析效果。
本文將利用文本挖掘(text-mining)的手段,對2016—2017年部分綜合性新聞媒體關(guān)于健康中國的報道進行挖掘與分析,探索媒體報道健康中國的內(nèi)容、領(lǐng)域、總體性特點,進而從一個新的視角了解健康中國的政策導(dǎo)向、實施進展和重點領(lǐng)域,為政府有關(guān)部門更好的推進健康中國戰(zhàn)略提供參考。
1.1.1 數(shù)據(jù)采集
利用自編R語言程序,從國內(nèi)有影響力的門戶網(wǎng)站、重點報刊數(shù)字版等渠道采集部分綜合性新聞報道文本。具體來源是:從新浪、搜狐、鳳凰、騰訊、網(wǎng)易、人民網(wǎng)、新華網(wǎng)、中國新聞網(wǎng)等門戶網(wǎng)站的新聞頻道采集時政新聞、社會新聞、財經(jīng)新聞以及新聞評論欄目的全部新聞;從財新網(wǎng)、新京報網(wǎng)、澎湃新聞網(wǎng)三個重要的綜合性媒體網(wǎng)站采集各子欄目新聞;同時采集了人民日報、光明日報、中國青年報三家重點報刊數(shù)字版的全部新聞,并去除國際新聞、娛樂新聞、體育新聞、廣告等欄目。新聞采集時間范圍為2016年1月1日—2017年12月31日。共獲取新聞文本總數(shù)5 343 966篇。需指出的是,本文數(shù)據(jù)來源全部為綜合性新聞媒體,并未納入《健康報》、《健康時報》等專業(yè)健康媒體。部分由于網(wǎng)站限制采集原因,同時也考慮到專業(yè)健康媒體可能會對數(shù)據(jù)整體分布造成影響。
1.1.2 數(shù)據(jù)篩選、過濾與分詞
采集到的原始新聞文本保留“標(biāo)題”、“發(fā)布時間”、“來源”和“正文”四個字段作為分析的基礎(chǔ)數(shù)據(jù)。首先以詞典規(guī)則的方法[6]篩選出與健康中國相關(guān)的媒體報道①詞典規(guī)則法即根據(jù)若干關(guān)鍵詞在文檔中出現(xiàn)的頻次與位置賦分,并以特定閾值為限進行文本篩選或歸類的方法。,具體方法是:
(1)篩選出標(biāo)題和正文中出現(xiàn)“健康中國、全民健康、健康融入所有政策”中任意一個關(guān)鍵詞的報道文本,作為初篩結(jié)果,共計13 630篇新聞。
(2)根據(jù)“健康中國、全民健康、健康融入所有政策”三個關(guān)鍵詞在新聞報道中的出現(xiàn)位置,對初篩新聞進行打分。經(jīng)人工測試后確定的賦值規(guī)則為:如果任意關(guān)鍵詞出現(xiàn)在標(biāo)題位置則權(quán)重為6,出現(xiàn)在文本首段權(quán)重為3、非首段的首句權(quán)重2、非首段非首句權(quán)重0.6,按出現(xiàn)次數(shù)加權(quán)后加總得出主題得分。
(3)由于部分報道可能間或出現(xiàn)上述關(guān)鍵詞,但其報道本身與健康領(lǐng)域無關(guān)(如財經(jīng)新聞),故本文擬定了若干健康領(lǐng)域的關(guān)鍵詞②健康領(lǐng)域關(guān)鍵詞為:醫(yī)療、醫(yī)保、衛(wèi)生、醫(yī)藥、醫(yī)院、醫(yī)生、健康、疾病、治病、醫(yī)藥、醫(yī)療保險、醫(yī)療保障、健身、健康產(chǎn)業(yè)、養(yǎng)老、醫(yī)改、病人、患者、衛(wèi)計委、診療、醫(yī)務(wù)、醫(yī)學(xué)、壽命、控?zé)?、吸煙、食品安全、殘疾、中醫(yī)、老年、疾控、老齡、慢病、慢性病、疫苗、疫情、用藥、防治、保健。,這些領(lǐng)域詞表中的任一詞在正文中出現(xiàn)一次計0.05分,加總后作為領(lǐng)域得分。主題得分與領(lǐng)域得分相加得到文檔總分。經(jīng)作者人工判斷并討論后,確定得分2.5分以上的入選,共計10 308篇。
(4)由于熱點新聞可能會被不同的網(wǎng)站多次轉(zhuǎn)發(fā),故本文利用文本相似度計算的方法[7],對新聞?wù)倪M行了去重處理,剩余新聞6 999篇。作為文本分析的數(shù)據(jù)源。
1.1.3 文本分詞及預(yù)處理
對于6 999篇報道,在保留標(biāo)題、發(fā)布時間、來源字段不變的前提下,利用R語言jiebaR工具包[8]將新聞?wù)倪M行分詞處理。分詞工具中加入自編詞庫,避免一些專有詞匯(如“健康融入所有政策”)被錯誤拆分。分詞后的文本去掉“的、我”等單字停用詞、數(shù)字和英文字母,詞語最小長度保留為兩字,最終形成用于描述分析和主題模型分析所用的語料數(shù)據(jù)。
1.2.1 文本詞頻分布的描述分析
數(shù)據(jù)分析同樣使用R語言相關(guān)工具包完成。首先描述新聞在月度時間序列的分布情況,以及媒體來源統(tǒng)計,對本文所分析的新聞文本集合進行整體描述。文本關(guān)鍵詞及其詞頻識別與計算是文本挖掘內(nèi)容的重要方法[9],本文利用詞頻—逆文檔頻率(TF-IDF)方法[10]篩選出新聞文本中的高頻關(guān)鍵詞,并描述高頻詞的時間序列分布情況,以此發(fā)現(xiàn)媒體報道健康中國的聚焦點及其隨時間的進展變化。
1.2.2 基于LDA主題模型(Topic Model)的文本挖掘
本文運用主題模型(Topic Model)方法對6 999份已經(jīng)分詞的文本進行自動分類,嘗試發(fā)現(xiàn)健康中國相關(guān)新聞報道中不同側(cè)重點和方向。主題模型(topic-model)[11]是文本挖掘的重要進展,可以通過無監(jiān)督類機器學(xué)習(xí)算法,依據(jù)給定的主題數(shù)量對文檔進行自動分類。該模型假設(shè),整個文檔集合中存在若干個主題(topic),每一個特定主題由文檔中包含的詞匯以不同的概率定義出來,而每一篇特定文檔(document)中與某個主題的相關(guān)程度也是不一樣的。模型擬合的結(jié)果之一是展示某一特定主題所關(guān)聯(lián)的高頻詞及其從屬于該主題的概率,通過列舉高概率詞語組合,可以判斷出該主題的內(nèi)容。[12]此外,主題模型的擬合還可以實現(xiàn)按主題將文檔聚類的效果。本文選擇主題模型中最為常用的LDA(Latent Dirichlet allocation)模型[12],利用 R語言 topicmodels工具包作為具體工具,對新聞?wù)Z料進行主題識別。主題數(shù)量在運行模型前由研究者自行確定。盡管在理論上可以用 perplexity[13]或 coherence[14]指標(biāo)評估主題區(qū)分效果,進而確定合適的主題數(shù)量,但在實際研究中,通常做法是參考相關(guān)指標(biāo),通過人工審讀方式確定主題數(shù)量。故本文將在參照perplexity指標(biāo)的基礎(chǔ)上,以人工判斷的方式,選擇分類效果最好的主題數(shù)量作為結(jié)果,詳見結(jié)果部分。
2.1.1 時間趨勢分布
圖1是2016年1月—2017年12月關(guān)于健康中國報道數(shù)量的時間分布趨勢(以未去重的13 630篇新聞計算),從中可以看到,健康中國的報道力度與全國“兩會”、全國衛(wèi)生與健康大會、中共十九大等事件密切相關(guān)。
圖1 月度健康中國相關(guān)新聞報道量分布
2.1.2 報道來源分布
從媒體來源上看,經(jīng)過去重的6 999篇報道來自超過500家國內(nèi)信息來源,形式以報紙和新聞網(wǎng)站為主,同時也有少量來自政府網(wǎng)站、新媒體、自媒體的信息被報紙和網(wǎng)站所轉(zhuǎn)載。表1列舉了報道超過50篇以上的媒體名稱。
本文統(tǒng)計了健康中國報道的關(guān)鍵詞及其分布情況,以原始詞頻和TF-IDF加權(quán)得分分別統(tǒng)計。原始詞頻,即特定詞語在報道正文中出現(xiàn)的次數(shù),能夠在一定程度上表現(xiàn)出新聞報道用語的特點。表2是前32位原始詞頻表,圖2是相應(yīng)的前60位的原始詞云圖,可以看到,“健康”與“發(fā)展”是涉及最多的詞語,而“推進”、“建設(shè)”、“改革”、“促進”、“實現(xiàn)”、“加快”等表示政府行動的詞語也頻繁出現(xiàn)。
而TF-IDF得分則能夠反映出詞語在報道文本中的相對重要程度,能夠更好的反映出報道的主題和聚焦點。表3是TF-IDF得分前32位的高頻詞表,圖3是與之相應(yīng)的前60位的高頻詞TFIDF得分的詞云圖,如醫(yī)療衛(wèi)生方面(中醫(yī)藥、醫(yī)療、醫(yī)院、衛(wèi)生、患者、醫(yī)生等),體育健身方面(體育、活動、全民健身、運動等),健康管理方面(健康體檢、營養(yǎng)、居民等),以及健康產(chǎn)業(yè)方面(健康產(chǎn)業(yè)、企業(yè)、產(chǎn)業(yè)等),更多的反映出健康中國的內(nèi)容。
表1 媒體來源與報道數(shù)量
表2 報道中出現(xiàn)的熱點詞匯及詞頻(原始詞頻)
表3 報道關(guān)鍵詞及其TF-IDF得分
圖2 報道熱點詞匯詞云圖(原始詞頻)
根據(jù)主題模型分析的一般步驟[12],作者分別設(shè)定了5~25個主題數(shù)量,分別生成不同的主題分類組合。在對分類結(jié)果分別進行人工審閱后發(fā)現(xiàn),主題數(shù)量設(shè)定為19的情況下,分類效果最為明顯,能夠較好的反映出健康中國報道的不同方面。其中,表5中的6個主題類別與醫(yī)療衛(wèi)生相關(guān),表6中的主題與民眾的健康生活相關(guān),表7則是健康產(chǎn)業(yè)相關(guān)主題。另外,還剩余一些相關(guān)性不明顯的主題,也一并列出。
圖3 報道熱點詞匯詞云圖(TF-IDF得分)
2.3.1 醫(yī)療衛(wèi)生類主題
醫(yī)療衛(wèi)生類主題是健康中國報道中最重要的主題類別。表5列出了醫(yī)療衛(wèi)生類中不同主題詞概率得分在前15位的詞,以及該類別下新聞文檔的數(shù)量。其中主題1是與醫(yī)藥衛(wèi)生體制改革相關(guān)的報道,從中可以看到醫(yī)療、醫(yī)保、家庭醫(yī)生、分級診療等當(dāng)前國家醫(yī)改重點推進的政策領(lǐng)域。這一主題類別下的有報道659篇,也是所有主題中最多的。主題2是醫(yī)療服務(wù)相關(guān)的話題,圍繞醫(yī)生、患者、疾病等議題展開。主題3是醫(yī)學(xué)教育和醫(yī)學(xué)人才培養(yǎng)的話題。在當(dāng)前醫(yī)學(xué)人才需求增加、醫(yī)患矛盾突出等背景下,這一話題也是媒體報道和討論的熱點。主題4與醫(yī)學(xué)科技創(chuàng)新、國際合作等議題相關(guān)。健康中國建設(shè)以科技創(chuàng)新為重要推動力,同時也為科技發(fā)展和成果轉(zhuǎn)化提供了重要平臺。此外,該主題還提示了十九大以來愈加重要的“全球健康”議題。盡管在前15位關(guān)鍵詞中體現(xiàn)的不明顯,但是該主題的文檔集中也納入了諸如習(xí)近平總書記訪問世界衛(wèi)生組織、全球健康促進大會在上海召開、中國與東盟、非洲國家地區(qū)的衛(wèi)生合作等新聞報道。主題5是中醫(yī)、中藥相關(guān)的話題,也說明中醫(yī)藥以及中國傳統(tǒng)醫(yī)學(xué)文化在健康中國建設(shè)中的重要地位。主題6是與公共衛(wèi)生和疾病控制相關(guān)的話題,包括了疾病預(yù)防、婦女兒童保健、殘疾人、農(nóng)村地區(qū)等公共衛(wèi)生的重點領(lǐng)域。
表5 醫(yī)療衛(wèi)生類相關(guān)主題及關(guān)鍵詞
2.3.2 健康生活類主題
表6中的主題與民眾的健康生活更加密切。其中主題7是營養(yǎng)與健康生活方式相關(guān)的話題,包括飲食、運動、常見疾病知識等。主題8的體育健身也是健康中國的重要內(nèi)容,其中可以看到從日常鍛煉、廣場休閑到專業(yè)體育賽事等各種類別的體育健身在報道范圍中。主題9涉及到健康科普宣傳等活動,一定程度上反映了政府和社會開展健康知識宣傳、提升民眾健康素養(yǎng)的行動。主題10是食品安全相關(guān)話題。主題11則是健康中國的另一個重要話題——養(yǎng)老。
表6 社會生活類主題及關(guān)鍵詞
(續(xù))
2.3.3 健康產(chǎn)業(yè)類主題
表7中的主題與健康產(chǎn)業(yè)相關(guān)。主題12首先提及的企業(yè)、市場、產(chǎn)品等主要關(guān)鍵詞,說明當(dāng)前健康產(chǎn)業(yè)發(fā)展的積極態(tài)勢。也可以看到互聯(lián)網(wǎng)、(人工)智能等最新的科技進展在健康產(chǎn)業(yè)(如健康管理)中的重要作用。主題13和主題14分別代表了健康保險和生物醫(yī)藥這兩個健康產(chǎn)業(yè)中的重點領(lǐng)域。前者連帶著金融、投資等健康產(chǎn)業(yè)的拓展領(lǐng)域,而后者則與上市、集團化等資本運作相關(guān)。主題15則涉及到市場與投資環(huán)境的治理、制度建設(shè)等。而農(nóng)業(yè)和農(nóng)村的話題也在這個主題下出現(xiàn)。主題16則提到了邊疆和少數(shù)民族地區(qū)的報道,特別是健康體檢相關(guān)話題,也顯示出健康中國在邊疆和少數(shù)民族地區(qū)實施過程中的特點。
表7 健康產(chǎn)業(yè)類相關(guān)主題及關(guān)鍵詞
2.3.4 其他類別主題
此外,模型中還歸類了其他3個主題,大多為國家領(lǐng)導(dǎo)人講話或重要政策文件,以及宣傳落實黨的精神的新聞報道(表8)。這些政治類的報道大多是綜合性的,涉及經(jīng)濟社會各個方面,健康中國有時僅作為一個話題在其中提及,因此在主題關(guān)鍵詞上體現(xiàn)的不是很明顯。而且由于是無監(jiān)督的自動機器學(xué)習(xí),主題19也出現(xiàn)了主題混淆的現(xiàn)象。
表8 其他主題及關(guān)鍵詞
3.1.1 健康中國在媒體中占有重要位置
首先,從分析結(jié)果上看,健康中國作為國家宏觀戰(zhàn)略,始終保持著高度的媒體關(guān)注度,并且還在持續(xù)的上升。健康中國在媒體中的重要性可以從報道的時間與來源分布中凸顯出來。從報道的時間分布上看,在媒體報道集中的時間段內(nèi)(如兩會、十九大、全國衛(wèi)生與健康大會),健康中國的報道也呈現(xiàn)明顯的多發(fā)趨勢,這也在一定程度上反映了媒體對于健康中國議題的關(guān)注度。從媒體報道來源可以看到,人民網(wǎng)、中國新聞網(wǎng)、央廣網(wǎng)、新華社、人民日報等國家級媒體是健康中國新聞報道的最重要主體,這也充分體現(xiàn)出了當(dāng)前國家級媒體在宣傳健康中國政策過程中的重要作用。
3.1.2 健康中國媒體報道領(lǐng)域廣泛、內(nèi)容豐富
無論是詞頻分布分析還是主題模型分析,都可以看出健康中國報道分布在不同領(lǐng)域,媒體報道的內(nèi)容與健康中國的政策要點能夠基本呼應(yīng)。且不同類別中文檔的分布數(shù)量相對平衡,體現(xiàn)出較好的區(qū)分情況。這也說明本研究中的報道文本能夠相對全面和完整的覆蓋健康中國的各個方面。同時,不同領(lǐng)域也呈現(xiàn)出各自特點,如醫(yī)改和醫(yī)療衛(wèi)生體制問題作為健康中國建設(shè)中的核心問題,仍然受到媒體的大量關(guān)注。食品安全主題(主題10)一方面反映出媒體和公眾對于食品安全問題高度的關(guān)注程度,另一方面也體現(xiàn)了政府在食品安全監(jiān)管的重視,以及對相關(guān)違法行為的打擊。而主題1中,養(yǎng)老與“產(chǎn)業(yè)”、“項目”等詞語關(guān)聯(lián)起來,也反映出當(dāng)前養(yǎng)老向產(chǎn)業(yè)化和社會化方向的發(fā)展態(tài)勢。
3.1.3 健康中國的媒體報道態(tài)度趨向正面
雖然本文未做專門的文本情感分析(sentiment analysis),但從關(guān)鍵詞的羅列中可以發(fā)現(xiàn),媒體報道的健康中國相對正面和積極,“問題”、“矛盾”等負(fù)向的詞語幾乎沒有在高頻詞中出現(xiàn)。這也說明,健康中國作為一項普惠性的國家政策,并未在媒體和社會中引起太多爭議。一方面,國家借助媒體為政策的推進營造良好的輿論氛圍,另一方面,媒體也對于健康中國政策持積極態(tài)度,這都使得健康中國的報道在態(tài)度上較為正面。
從方法學(xué)角度看,本研究是利用計算機輔助技術(shù),從大規(guī)模非結(jié)構(gòu)化文本中提取健康政策信息的一次嘗試,體現(xiàn)出了文本挖掘方法在衛(wèi)生政策研究中的巨大潛力。文本挖掘方法的價值首先在于海量信息的處理能力。如前所述,健康中國是一個內(nèi)涵極為豐富的國家戰(zhàn)略,相關(guān)信息的處理要求已經(jīng)超出傳統(tǒng)的定性內(nèi)容分析方法的能力范圍,而這也恰恰是計算機輔助技術(shù)的優(yōu)勢所在。同時,文本挖掘的結(jié)果也可以為進一步的研究提供線索。如對于關(guān)鍵詞及其時間趨勢分布的分析,能夠?qū)φ哌M程中的重點和熱點問題起到提示作用,便于進一步探索。主題模型本身在實現(xiàn)主題聚類的同時,也能夠有效的實現(xiàn)新聞文本的篩選和分類,有助于開展常規(guī)的基于人工閱讀與編碼的內(nèi)容分析。
當(dāng)然,本文只是從文本挖掘的角度,從媒體報道的視角展示健康中國的整體進展。這當(dāng)然無法反映健康中國的全貌,也不涉及效果評估或經(jīng)驗總結(jié)。但分析結(jié)果也提示媒體報道能夠及時的反映出健康中國政策的內(nèi)容及其進展,進而成為認(rèn)識和解讀這一國家政策的潛在且有效的證據(jù)來源。隨著數(shù)據(jù)的積累、方法的進步,相關(guān)研究工作將具有很好的政策價值與前景。
作為一種新的嘗試,本研究也存在一定的不足,主要體現(xiàn)在研究方法的精細(xì)度方面。新聞文本屬于高度非結(jié)構(gòu)化的數(shù)據(jù),固然TF-IDF、LDA主題模型等機器學(xué)習(xí)方法在挖掘文本信息方面較傳統(tǒng)的基于統(tǒng)計規(guī)則的方法有所深入,但分析結(jié)果的呈現(xiàn)仍相對簡單。特別是新聞背景、報道時間、新聞類別、來源分類等重要的文本屬性信息也并未在分析中體現(xiàn)。近年來,在文本挖掘的前沿研究中,文本屬性信息納入主題模型分析已經(jīng)有了很多進展[15],而以詞向量方法為代表的深度學(xué)習(xí)方法在自然語言處理領(lǐng)域的突破[16],也使得文本內(nèi)在的語義關(guān)系分析成為可能。這些技術(shù)方法與新聞文本數(shù)據(jù)的進一步結(jié)合,也將進一步增強基于海量數(shù)據(jù)進行衛(wèi)生政策研究的能力。
作者聲明本文無實際或潛在的利益沖突。