文/譚辛
每年國家各級政府部門都有大量的政策發(fā)布,政策內(nèi)容涉及到社會發(fā)展和民生的方方面面,因此每項新政發(fā)布都備受關(guān)注。政策發(fā)布的目的是什么,如何詳細解讀政策,政策發(fā)布后哪些行業(yè)領(lǐng)域受到怎樣的影響,在政策以及解讀已成為媒體界、企業(yè)界、學術(shù)界,以及普通百姓等社會各方關(guān)注的焦點。如何快速和全面地收集和分析政策及解讀數(shù)據(jù)具有現(xiàn)實的意義。
本文介紹通過自動化的網(wǎng)絡信息抓取技術(shù)、大數(shù)據(jù)技術(shù)和文本智能挖掘技術(shù),快速高效地匯聚最新政策和政策解讀信息,并在此基礎上進行政策關(guān)鍵要素信息提取、數(shù)據(jù)多維度分類、數(shù)據(jù)關(guān)聯(lián)等加工處理,從而形成一套政策解讀的數(shù)據(jù)產(chǎn)品,為媒體從業(yè)者、行業(yè)研究人員、企業(yè)界提供多場景和多角色的信息服務,提升信息獲取和數(shù)據(jù)研究的工作效率。
各行業(yè)對最新政策信息獲取具有較高的需求和要求。對于媒體行業(yè),需要第一時間獲取到政策發(fā)布信息,并針對新政撰寫宣傳報道或解讀性文章,稿件發(fā)布的時效性體現(xiàn)并影響著媒體的傳播力和影響力;對于企業(yè)而言,需要及時研究新政對企業(yè)發(fā)展、研發(fā)投入、市場變化、決策分析等方面帶來的影響而制定企業(yè)內(nèi)部策略,很多政策的發(fā)布對企業(yè)發(fā)展方向有著至關(guān)重要的影響。但政策信息來源廣泛、發(fā)布時間不集中、信息有待關(guān)聯(lián)整合等制約了政策信息的獲取。
政策發(fā)布均來自各級政府部門,對于個人查詢政策信息的難度在于來源廣泛的問題。首先,權(quán)威的政策查詢源頭為政府部門的官方網(wǎng)站、官方新聞客戶端、官方微信公眾號和官方認證微博,發(fā)布源頭類型較多;其次,政府部門按級別、按部門類型,數(shù)量較為龐大,即便僅關(guān)注單一領(lǐng)域的政策,也需要關(guān)注多個政府官方信息發(fā)布源頭;再次,對于政策發(fā)布后的政策解讀文章,除了政府官方網(wǎng)站的官方解讀文章外,政府部門官員、領(lǐng)域內(nèi)專家學者、研究機構(gòu)的研究人員、媒體業(yè)專家等撰寫的解讀文章也具有非常高的閱讀價值,但是這些來源更為廣泛,可能來自比如新聞門戶網(wǎng)站、新聞客戶端、報紙或紙媒電子報、機構(gòu)的微信公眾號或微博、領(lǐng)域內(nèi)專家學者個人的博客、公眾號或微博等??傊胍焖贋g覽到各方發(fā)表的政策解讀信息存在一定困難。
每年發(fā)布的政策中,只有很少一部分是在固定時間段內(nèi)發(fā)布,另外的大部分都是根據(jù)社會發(fā)展需要而實時推出的,無法提前準備政策信息獲取工作。
綜上所述,在信息過載的當下,如何快速高效獲取政策和解讀信息,如何精準獲取各行業(yè)研究人員需要的數(shù)據(jù),如何借助人工智能和機器分析能力匯聚分析信息為研究人員服務,成為政策解讀應用需要解決的關(guān)鍵問題。
政策解讀應用借助大數(shù)據(jù)和人工智能技術(shù),實現(xiàn)了自動化的信息采集、多維度的自動標引、文本挖掘和關(guān)聯(lián)分析,通過可視化的展示提升了政策及政策解讀信息的使用效率。
通過借助成熟的自動化網(wǎng)絡信息抓取軟件,實現(xiàn)對政策和解讀信息發(fā)布源頭目標網(wǎng)站做實時監(jiān)控,把最新的網(wǎng)頁及時采集到本地,進行內(nèi)容分析和信息過濾等流程,完成政策解讀信息本地存儲。
數(shù)據(jù)采集過程中,應用不僅將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變成半結(jié)構(gòu)化數(shù)據(jù),同時自動提取政策名稱、發(fā)布時間、政策文本內(nèi)容,以及發(fā)文單位名稱、發(fā)布網(wǎng)站名稱、頻道名稱、發(fā)文鏈接地址等政策相關(guān)數(shù)據(jù)。后續(xù)進行的文本挖掘和加工處理,構(gòu)建了政策元數(shù)據(jù)數(shù)據(jù)庫,為政策解讀應用提供基礎數(shù)據(jù)服務。
采集源頭主要面向一手發(fā)布數(shù)據(jù)源,而非經(jīng)過轉(zhuǎn)載后的二手數(shù)據(jù),以保證信息獲取的及時性、準確性和可靠性。
數(shù)據(jù)采集技術(shù),對最新網(wǎng)絡數(shù)據(jù)實時監(jiān)控采集,解放個人瀏覽和搜索時間。文本挖掘技術(shù),提供信息自動化分類、自動聚類、智能化信息提取、數(shù)據(jù)關(guān)聯(lián)分析和數(shù)據(jù)自動標引等一系列數(shù)據(jù)加工處理,解決政策數(shù)據(jù)孤島問題,讓政策數(shù)據(jù)應用更加有效。圖1為政策及解讀數(shù)據(jù)加工處理流程圖。
圖1 數(shù)據(jù)加工處理流程圖
采用自動分類和規(guī)則分類技術(shù),對政策做多維度分類標引,用以幫助不同身份用戶在不同需求場景下更加快速、有針對性地查找到所需類目和對應的政策信息。包括政策所屬行業(yè)領(lǐng)域、所屬地域名稱、發(fā)布單位名稱、所屬主題名稱、發(fā)文形式、所屬年份等分類標簽。分類類別舉例如表1所示。
表1 政策分類名稱和分類值舉例
在前端應用功能中,利用這些政策標簽,采用細分導航的方式,進行政策列表展示。通過組合式的檢索功能對政策和解讀文章進行搜索,讓用戶可以通過自定義關(guān)鍵詞的方式獲取個性化的檢索結(jié)果,達到快速、全面了解信息的目的。對政策和解讀文章的標題、正文和主題提供全文檢索功能。對政策的發(fā)布單位名稱、發(fā)文形式、所屬行業(yè)領(lǐng)域、所屬地域、發(fā)布年份等字段,提供篩選功能。多維度分類標簽,也讓頁面篩選更為靈活,為個性化訂閱提供基礎選項。
對政策文本做數(shù)據(jù)挖掘和關(guān)鍵信息提取,是政策索引和檢索、信息關(guān)聯(lián)分析、多維度分類標引等數(shù)據(jù)加工的基礎。采用文本自動分詞和詞性標注等自然語言處理技術(shù),基于規(guī)則與統(tǒng)計相結(jié)合的方式,將政策文本進行中文分詞以及政策信息提取,包括政策主題關(guān)鍵詞、相關(guān)人物、機構(gòu)、地區(qū)名稱等信息的結(jié)構(gòu)化提取,完成政策的關(guān)鍵詞和實體標引。
在政策信息展示功能中,通過多維度的智能分析與關(guān)聯(lián),幫助用戶快速地發(fā)現(xiàn)該政策中的關(guān)鍵信息以及關(guān)聯(lián)文章。以圖表化形式,展示政策主題詞、政策主體挖掘結(jié)果(相關(guān)人物、相關(guān)機構(gòu)、相關(guān)地區(qū))、政策解讀文章時間發(fā)布趨勢和數(shù)量;以文章標題列表方式,展示相關(guān)政策、相關(guān)解讀文章、相關(guān)媒體報道文章。展現(xiàn)結(jié)果示意圖如圖2所示。
圖2 政策挖掘結(jié)果展示圖
快速挖掘多方觀點,對多方觀點進行對比展示,可以使用戶更全面地把握政策內(nèi)容。利用語義分析技術(shù),把多文章之間的相關(guān)度超過一定閾值的文章關(guān)聯(lián)到一起,實現(xiàn)復雜語義關(guān)系的深度挖掘,從而完成政策與官方解讀文章、媒體解讀文章、相關(guān)報道文章、往年政策等進行相互關(guān)聯(lián)分析。通過數(shù)據(jù)挖掘工具對政策和解讀文章加以處理,抽取各方觀點句與觀點評價對象,再對抽取結(jié)果進行綜合性分析,得到觀點分析的結(jié)果。
良好的數(shù)據(jù)呈現(xiàn)方式,對于用戶體驗至關(guān)重要。政策解讀數(shù)據(jù)產(chǎn)品終端服務界面,采用多種瀏覽方式實現(xiàn)功能和數(shù)據(jù)的展示,來提升用戶的閱讀興趣和數(shù)據(jù)可讀性。
采用分類導航和文章列表相結(jié)合的方式,幫助用戶直觀、快速和全面地獲取信息,提升工作效率。政策畫像功能,采用統(tǒng)計圖形化方式,對個性化制定時間段內(nèi)的政策進行多種圖形展示,掌握政策在主題、行業(yè)領(lǐng)域、地區(qū)、發(fā)布機構(gòu)等全貌。數(shù)據(jù)新聞是一種用圖形化的方式來解讀新聞的創(chuàng)新形式,應用在政策的解讀上面也有非常好的效果,可以大大提升用戶瀏覽的興趣度和理解度。圖解政策尤其對難以理解的政策內(nèi)容,或者篇幅較長的政策,更能顯示其優(yōu)勢。
對于需要長期關(guān)注的政策類型,用戶可以設置個性化政策專題,可以訂閱所關(guān)注的行業(yè)、區(qū)域和主題的政策,對于沒加入訂閱的政策內(nèi)容不做展示,做到簡化界面和數(shù)據(jù)篩選。
目前,政策解讀大數(shù)據(jù)分析應用已經(jīng)上線為編輯記者提供服務,通過大數(shù)據(jù)聚類和分析、組合檢索、政策畫像、統(tǒng)計比對的功能,讓用戶快速、全面和高效地獲取所關(guān)注的政策和解讀信息。通過HTML5、統(tǒng)計圖表、圖解等方式,提升用戶閱讀效率。通過政策專題、個性化訂閱等方式,將用戶關(guān)注的要點進行固化,提升效率。政策信息獲取和基礎分析部分工作提效明顯,使用戶擺脫了繁瑣的篩選工作,拓寬記者報道的維度和視野,以便有更多精力和時間投入到內(nèi)容品質(zhì)提升上面。
下一步,該服務將在融媒體技術(shù)和平臺基礎上結(jié)合媒體的優(yōu)勢,在信息精選和數(shù)據(jù)加工上下功夫,在內(nèi)容生產(chǎn)與用戶個性化需求之間實現(xiàn)智能匹配,探索數(shù)據(jù)增值和基于大數(shù)據(jù)技術(shù)提供數(shù)據(jù)增值服務的運營產(chǎn)品。