秦昕婕 劉昊
摘 要:“一帶一路”自提出以后,四梁八柱框架已基本成型,其工筆的細(xì)描需要對(duì)沿線國(guó)家國(guó)情民意有準(zhǔn)確的把握?;诖髷?shù)據(jù)的普及和人類社會(huì)數(shù)字化的推動(dòng),技術(shù)與數(shù)據(jù)成為“一帶一路”的重要驅(qū)動(dòng)力之一?!耙粠б宦贰毖鼐€國(guó)家輿情大數(shù)據(jù)平臺(tái)建設(shè)亟需且必要。強(qiáng)調(diào)多語種采集,使用云數(shù)據(jù)管理,規(guī)范編碼標(biāo)準(zhǔn),立體化標(biāo)注數(shù)據(jù),靈活架構(gòu)資源,設(shè)計(jì)快捷檢索,面向決策分析、挖掘數(shù)據(jù)價(jià)值,是“一帶一路”輿情大數(shù)據(jù)平臺(tái)建設(shè)的核心維度。
關(guān)鍵詞:一帶一路;沿線國(guó)家;輿情;大數(shù)據(jù)平臺(tái)
中圖分類號(hào):F125.4;F49;G206? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1673-291X(2020)29-0142-03
“一帶一路”倡議提出以來,其建設(shè)取得了令人矚目的成就。截至2019年7月,136個(gè)國(guó)家和30個(gè)國(guó)際組織與中國(guó)簽署了195份政府間合作協(xié)議,商簽范圍由亞歐地區(qū)延伸至非洲、拉美、南太、西歐等相關(guān)國(guó)家[1]。沿線國(guó)家在經(jīng)濟(jì)、貿(mào)易、文化交流等各個(gè)領(lǐng)域全面展開深度合作,顯然,倡議落地為建設(shè),藍(lán)圖變成路線圖,“一帶一路”的四梁八柱框架已基本成型。隨著“一帶一路”建設(shè)從寫意的框架搭建轉(zhuǎn)至工筆的細(xì)描深入,沿線國(guó)家文化的差異,意見的多元化、利益訴求的差異等矛盾與錯(cuò)位會(huì)被凸顯。因此,加強(qiáng)對(duì)沿線國(guó)家的歷史、文化、經(jīng)濟(jì)、政治等領(lǐng)域的了解,推動(dòng)沿線國(guó)家的信息交流,未雨綢繆規(guī)避或疏導(dǎo)潛在的障礙,推動(dòng)沿線國(guó)家共贏,是“一帶一路”倡議亟待解決的問題。打造“一帶一路”輿情數(shù)據(jù)庫平臺(tái),對(duì)沿線國(guó)家政治變化、經(jīng)濟(jì)態(tài)勢(shì)、政策法規(guī)、突發(fā)事件等國(guó)情民意進(jìn)行采集整理和分析。基于海量多源的數(shù)據(jù)中挖掘具有決策價(jià)值的知識(shí),進(jìn)而以智能輔助決策,對(duì)“一帶一路”持續(xù)良性展開與核心訴求實(shí)現(xiàn)有重要的現(xiàn)實(shí)價(jià)值。
一、大數(shù)據(jù)對(duì)“一帶一路”驅(qū)動(dòng)意義
“一帶一路”地緣關(guān)系復(fù)雜,沿線國(guó)家民族習(xí)俗差異巨大,文化資源千差萬別,經(jīng)濟(jì)發(fā)展水平參差不齊,因此對(duì)沿線國(guó)家輿情信息及時(shí)準(zhǔn)確的洞察,是中國(guó)作為“一帶一路”倡議發(fā)起國(guó),確保宏觀決策科學(xué)的基礎(chǔ)。只有掌握沿線國(guó)家第一手的社情民意,才能有針對(duì)性優(yōu)化“一帶一路”倡議的話語表達(dá),規(guī)避輿情風(fēng)險(xiǎn),保障實(shí)體合作順利開展?!耙粠б宦贰毖鼐€65個(gè)國(guó)家,其每時(shí)每刻都在產(chǎn)生著海量的信息,對(duì)其分析化繁為簡(jiǎn),提取有價(jià)值的知識(shí),是大數(shù)據(jù)的優(yōu)勢(shì)和特長(zhǎng)。根據(jù)維克托·邁爾-舍恩伯格的觀點(diǎn),大數(shù)據(jù)的核心特征是對(duì)大量的、高速的、多樣的、低價(jià)值密度和真實(shí)性的全數(shù)據(jù)進(jìn)行處理。存儲(chǔ)在“一帶一路”沿線國(guó)家媒體網(wǎng)站和社交媒體上的“一帶一路”倡議相關(guān)的新聞、評(píng)論及用戶行為數(shù)據(jù),為應(yīng)用大數(shù)據(jù)的分析提供了數(shù)據(jù)可能。大數(shù)據(jù)平臺(tái)分析不但可以實(shí)現(xiàn)理論驅(qū)動(dòng)在大數(shù)據(jù)集上檢驗(yàn),更可以實(shí)現(xiàn)基于數(shù)據(jù)潛在模式的識(shí)別,進(jìn)而優(yōu)化或創(chuàng)新理論。碎片化的數(shù)據(jù)提取和大數(shù)據(jù)分析,不但能準(zhǔn)確識(shí)別“一帶一路”沿線國(guó)家國(guó)情,更可以準(zhǔn)確體現(xiàn)其民意?;谖幕亩鄻有裕耙粠б宦贰毖鼐€國(guó)家的公眾意見在數(shù)據(jù)上呈現(xiàn)為復(fù)雜性、隱蔽性、動(dòng)態(tài)性等特點(diǎn),關(guān)鍵輿情往往蘊(yùn)含在海量數(shù)據(jù)的隱性鄰域中。大數(shù)據(jù)分析不僅解決數(shù)據(jù)大容量的問題,更關(guān)注于“海量數(shù)據(jù)”和“規(guī)模非常大”特點(diǎn)之外的價(jià)值稀疏問題,即隱性價(jià)值挖掘[2]。應(yīng)用大數(shù)據(jù)平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)隱性鄰域的挖掘,剝離噪聲,將數(shù)據(jù)的稀疏價(jià)值提煉為有效知識(shí)?;诖髷?shù)據(jù)的支持,根據(jù)沿線國(guó)家的民意訴求,優(yōu)化“一帶一路”倡議的話語表達(dá),可以有效推動(dòng)“民心相通”工程。因此“一帶一路”輿情大數(shù)據(jù)平臺(tái)的建設(shè),將有助于構(gòu)建“一帶一路”清朗國(guó)際輿論新空間?!耙粠б宦贰睌?shù)據(jù)資源歸集是實(shí)現(xiàn)知己知彼、促進(jìn)合作交流的有力保證,也是建立“一帶一路”信息服務(wù)體系的基石[3]。
二、“一帶一路”數(shù)據(jù)服務(wù)建設(shè)現(xiàn)狀
今天的信息生態(tài)正在整體性地從“信息”向“訊息”,乃至向“數(shù)據(jù)”滑動(dòng)。信息有價(jià),并且演變成了貴金屬,發(fā)揮戰(zhàn)略資源功能[4]。新媒體和社交媒體借助大數(shù)據(jù)和人工智能正變革人類信息傳遞與分發(fā)的生態(tài)?;诖髷?shù)據(jù)技術(shù)對(duì)“一帶一路”沿線國(guó)家所產(chǎn)生的相關(guān)數(shù)據(jù)進(jìn)行分析和處理,從中提取對(duì)國(guó)際傳播有指導(dǎo)意義的信息和知識(shí),對(duì)“一帶一路”的外宣有重要的現(xiàn)實(shí)意義?!耙粠б宦贰毕嚓P(guān)信息不少,但多是不連續(xù)、不系統(tǒng)、碎片化的,缺乏關(guān)聯(lián)性的信息,亟須借助數(shù)據(jù)挖掘從零碎的低價(jià)值的數(shù)據(jù)提取高價(jià)值的知識(shí)[5]。國(guó)內(nèi)與“一帶一路”相關(guān)專題數(shù)據(jù)庫和特色數(shù)據(jù)庫也不斷開發(fā)與建設(shè),表1列出了我國(guó)主要的“一帶一路”數(shù)據(jù)平臺(tái)及主要特征。從表1來看,現(xiàn)有的數(shù)據(jù)庫建設(shè)重點(diǎn)關(guān)注的是沿線國(guó)家的經(jīng)濟(jì)、政策、貿(mào)易、旅游等宏觀及概況型數(shù)據(jù),以及學(xué)者專家從各層面各領(lǐng)域各行業(yè)對(duì)“一帶一路”的研究成果?,F(xiàn)有的數(shù)據(jù)建設(shè)重視經(jīng)濟(jì)、政策等“硬”數(shù)據(jù),忽視了文化、媒體等“軟”數(shù)據(jù)。但隨著“一帶一路”深入開展,已有的數(shù)據(jù)體系并不能滿足“一帶一路”支持服務(wù),亟須構(gòu)建多語種、跨學(xué)科、多來源的“一帶一路”信息資源體系,全方位開展“一帶一路”沿線國(guó)家官方一手資源的收集和整理,進(jìn)一步加強(qiáng)沿線國(guó)家媒體的新聞?shì)浨橘Y源建設(shè)[6]。國(guó)之交在于民心相通,民心相通的基礎(chǔ)是交往雙方信息的準(zhǔn)確編解碼,深度的了解是有效溝通的基礎(chǔ),所以構(gòu)建“一帶一路”大數(shù)據(jù)輿情平臺(tái)勢(shì)在必行。
三、“一帶一路”大數(shù)據(jù)平臺(tái)建設(shè)策略
(一)多語種采集,云數(shù)據(jù)管理
“一帶一路”沿線國(guó)家數(shù)據(jù)采集要覆蓋目標(biāo)國(guó)家的政府網(wǎng)站、媒體網(wǎng)站、論壇、社交媒體等信息承載平臺(tái),實(shí)現(xiàn)輿情信息的最大化覆蓋。信息采集不但要覆蓋信息內(nèi)容本身,更要基于信息承載媒體平臺(tái)的特性進(jìn)行結(jié)構(gòu)化信息的提取,比如新聞頁面的評(píng)論、訪問量、社交媒體內(nèi)容的評(píng)論、回復(fù)、轉(zhuǎn)發(fā)等。設(shè)計(jì)采集器實(shí)現(xiàn)目標(biāo)信息采集的智能化和自動(dòng)化,并使用人工核檢的方式提升數(shù)據(jù)的質(zhì)量。積累熱點(diǎn)關(guān)鍵詞形成“一帶一路”熱點(diǎn)詞詞庫并循環(huán)更新與優(yōu)化?!耙粠б宦贰毖鼐€65個(gè)國(guó)家中有 53 種官方語言,屬于九大語系,語言狀況復(fù)雜[7]。數(shù)據(jù)采集的語言覆蓋目標(biāo)主流官方語言,數(shù)據(jù)采集的難度通過小語種人才的培養(yǎng)和機(jī)器翻譯等技術(shù)手段解決。在自有采集的數(shù)據(jù)基礎(chǔ)上,借助第三方數(shù)據(jù)平臺(tái),比如Factiva新聞數(shù)據(jù)平臺(tái)、GDELT全球新聞動(dòng)態(tài)數(shù)據(jù)庫,進(jìn)行數(shù)據(jù)整合和交叉比對(duì),提升數(shù)據(jù)的質(zhì)量和覆蓋面。數(shù)據(jù)采集根據(jù)目標(biāo)國(guó)家的信源的結(jié)構(gòu)變化動(dòng)態(tài)調(diào)整。采集的數(shù)據(jù)的存儲(chǔ)專門考慮可擴(kuò)充性和升級(jí)能力,持續(xù)的對(duì)大數(shù)據(jù)平臺(tái)后期維護(hù),提升數(shù)據(jù)的累計(jì)價(jià)值。針對(duì)采集的半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本數(shù)據(jù),基于數(shù)據(jù)的特點(diǎn)和數(shù)據(jù)存儲(chǔ)的擴(kuò)展性,放棄使用傳統(tǒng)的關(guān)系數(shù)據(jù)存儲(chǔ),選擇云數(shù)據(jù)的方式,提升數(shù)據(jù)的并發(fā)訪問能力和高可擴(kuò)展性。