郭春霞
(濱州學院圖書館,山東濱州256600)
大數(shù)據(jù)環(huán)境下微信公眾平臺非結構化數(shù)據(jù)融合研究
郭春霞
(濱州學院圖書館,山東濱州256600)
〔摘 要〕微信公眾平臺具有開源、發(fā)布及時的特點,目前它已經(jīng)成為各機構發(fā)布信息的重要渠道。但這類數(shù)據(jù)又具有非結構化、無語義描述的特點,如何將微信公眾平臺從非結構化數(shù)據(jù)轉(zhuǎn)化為可分析、判斷的結構化數(shù)據(jù),成為一個亟須解決的問題。針對該問題,本文提出一個對微信公眾平臺結構化數(shù)據(jù)監(jiān)測的層次體系。這一方法將通過數(shù)據(jù)融合方式,從平臺資源中抽取數(shù)據(jù),構建結構化數(shù)據(jù)庫,進行權重比較,判斷情報價值,進而實現(xiàn)對研究領域的態(tài)勢監(jiān)測。
〔關鍵詞〕微信公眾平臺;非結構化數(shù)據(jù);同型異源數(shù)據(jù);異型異源數(shù)據(jù);同型同源數(shù)據(jù);數(shù)據(jù)融合;態(tài)勢監(jiān)測
由于手機終端設備越來越智能化,3G手機、4G手機以及WiFi的普及為網(wǎng)民提供了更為優(yōu)質(zhì)的上網(wǎng)環(huán)境,微信成為人們交流和傳播信息最廣泛的平臺。2015年2月3日CNNIC(中國互聯(lián)網(wǎng)絡信息中心)發(fā)布的第35次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2014年12月,我國手機網(wǎng)民規(guī)模達6.49億人,手機網(wǎng)民為5.57億人,手機即時通信使用率為91.2%[1]。2011年1月21日,騰訊公司推出微信,支持發(fā)送語音輸入、小視頻、實時對講機、圖片和文字等功能,適合大部分智能手機,截至2014年7月,已有超過3億人使用。手機微信成為一個生活方式[2]。
2012年8月,騰訊公司推出致力于為機構或個人提供服務拓展、品牌推廣渠道的微信公眾平臺,其核心理念為“再小的個體,也有自己的品牌”[3]。公眾平臺從推出至今,通過不斷豐富、完善自身的功能,用戶遍布社會知名人士、商業(yè)團體、企事業(yè)單位、政府機構等眾多領域。每個公眾平臺都有所屬組織機構發(fā)布的重要信息,在這里人們可以更快、更便捷地了解相關機構的動態(tài)和活動。如《圖書情報工作》期刊截至2015年3月23日,在CNKI中僅列出2015年第3期的全文,沒有第4期的任何信息,但卻能從其微信公眾平臺上看到2015年第4期的期刊目錄。
微信公眾平臺已經(jīng)成為移動設備中開源情報重要的獲取源之一。這些信息大部分是一種非結構化、無語義描述的信息。他們的結構不同、內(nèi)容不同、布局不同,這使得從微信公眾平臺獲取數(shù)據(jù)帶來難度。如何實現(xiàn)將微信公眾平臺非結構化的、自由的信息轉(zhuǎn)化為可計算的、結構化的數(shù)據(jù),成為開源情報獲取的一個重要問題。
針對上述問題,筆者提出了一個針對微信公眾平臺結構化監(jiān)測的層次體系,并基于這一思路設計了一個技術框架。
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計算技術的迅速發(fā)展,大數(shù)據(jù)時代已經(jīng)來臨[4]。非結構化數(shù)據(jù)成為科研的重點對象。微信公眾平臺是一個多種信息資源交互的平臺,數(shù)據(jù)呈現(xiàn)多重格式,如視頻、音頻、圖像、文檔等,這些數(shù)據(jù)格式呈現(xiàn)明顯的異構性,有結構化數(shù)據(jù)、半結構化數(shù)據(jù),還有非結構化的數(shù)據(jù)[5]。筆者將微信公眾平臺的非結構化數(shù)據(jù)源劃分為3種類型,即同型異源數(shù)據(jù)、異型異源數(shù)據(jù)、同型同源數(shù)據(jù)(見圖1)。
圖1 微信公眾平臺非結構化數(shù)據(jù)數(shù)據(jù)源類型劃分
1.1同型異源數(shù)據(jù)
不同微信公眾平臺相同類型的數(shù)據(jù),為同型異源數(shù)據(jù)。不同的站點有著不同的信息收集渠道、加工體系和標準,不同站點的信息發(fā)布模式均不相同。不同的微信平臺,發(fā)布同一條信息,即使發(fā)布數(shù)據(jù)類型相同,其發(fā)布的具體內(nèi)容、闡述重點也不盡相同,如果利用惟一數(shù)據(jù)源進行信息分析,獲得結論可能會缺乏全面性,故應將多種數(shù)據(jù)整合在一起,進行融合分析。
1.2異型異源數(shù)據(jù)
在不同的微信公眾平臺上,由于數(shù)據(jù)不同,就會導致不同的數(shù)據(jù)呈現(xiàn)形式。同一信息,可以以視頻、HTML頁面、PDF、Word等形式呈現(xiàn),但表達的內(nèi)容大致相同,如果對數(shù)據(jù)進行監(jiān)測研究,僅對其單一類型進行分析,顯然會導致數(shù)據(jù)分析結果不全面。我們將這些呈現(xiàn)同一信息的數(shù)據(jù)源進行采集,對其進行各種分析、融合,這樣更能得出某信息研究的整體情況。
1.3同型同源數(shù)據(jù)
同一微信公眾平臺,數(shù)據(jù)類型雖然有不同的呈現(xiàn)形式,但總有些內(nèi)容不同、文獻類型相同的信息資源,這些信息資源構成了每個公眾平臺的主體,是整個信息平臺存在的基礎。信息源發(fā)布方,可根據(jù)訪問者的檢索歷史、瀏覽歷史、近期關注的各種數(shù)據(jù)進行統(tǒng)計整合,判斷用戶的需求和興趣點,從而為機構的項目發(fā)展或者戰(zhàn)略計劃的調(diào)整提供參考依據(jù)。
通過對微信公眾平臺的非結構化數(shù)據(jù)源數(shù)據(jù)類型劃分可以看出,如果想將這些不同類型、不同內(nèi)容的數(shù)據(jù)進行整合、判斷、研究,需要對這些數(shù)據(jù)進行監(jiān)測。
2.1微信公眾平臺數(shù)據(jù)監(jiān)測思路
機構在微信公眾平臺發(fā)布同類信息時,經(jīng)常會體現(xiàn)出不同的側(cè)重點。這些側(cè)重點便是公眾平臺所闡述的主體內(nèi)容,而側(cè)重點之間的關聯(lián)揭示出這一平臺中其他要點的骨干結構,從而體現(xiàn)出這個平臺對于該領域研究人員的意義所在。本文將這些反應平臺信息的側(cè)重點稱為內(nèi)容監(jiān)測對象,將側(cè)重點之間的各種關系稱為對象關系。
將非結構化的數(shù)據(jù)轉(zhuǎn)化為結構化的監(jiān)測數(shù)據(jù),主要思路就是資源的整合和共享。具體操作起來就是從特定平臺采集到的信息資源中,提取對該平臺有價值的內(nèi)容作為監(jiān)測對象:如調(diào)研數(shù)據(jù)、企業(yè)規(guī)劃、項目成果、科研指標等,并通過語法分析、共現(xiàn)分析、語義計算等方法,構建監(jiān)測層次體系,實現(xiàn)對某研究領域熱點的監(jiān)測與分析。
簡而言之,對于每一條從微信公眾平臺上采集到的數(shù)據(jù),利用監(jiān)測系統(tǒng),通過關鍵詞抓取技術,從中抓取嵌在其中的數(shù)據(jù)對象以及數(shù)據(jù)對象之間的相互關系。如“2014年度‘復印報刊資料’轉(zhuǎn)載學術論文指數(shù)排行榜及重要轉(zhuǎn)載來源期刊發(fā)布”這一題名,通過內(nèi)容監(jiān)測對象抽取,系統(tǒng)將識別出“2014年”“復印報刊資料”“學術論文指數(shù)”,形成了“時間——對象——對象”的結構。通過對數(shù)據(jù)監(jiān)測對象關鍵詞的抓取,可以實現(xiàn)數(shù)據(jù)從非結構化向可計算的結構化轉(zhuǎn)換。結合實際需要,研究人員可以利用轉(zhuǎn)換后的結構化數(shù)據(jù),實現(xiàn)對監(jiān)測目標對象進行跟蹤和識別、熱點內(nèi)容關注、特定情報價值的判斷和提取等功能,從而幫助圖書情報人員實現(xiàn)相關領域的態(tài)勢捕捉、跟蹤、分析和可視化表述。
2.2微信平臺結構化監(jiān)測層次體系
通過上述分析,可細化為一個結構化監(jiān)測的層次體系(如圖2所示)。這一平臺重點完成結構化監(jiān)測的4項任務,即確定監(jiān)測源、多源信息采集、多源數(shù)據(jù)融合以及價值體現(xiàn)。
2.2.1確定監(jiān)測源
確定監(jiān)測源是指確定需要監(jiān)測的領域、站點以及站點之下的目錄。對于微信公眾平臺來講,把需監(jiān)測相關機構的數(shù)據(jù)納入目標監(jiān)測范圍,對其進行監(jiān)測跟蹤。
2.2.2多源數(shù)據(jù)采集
多源數(shù)據(jù)采集是指利用多種分布式網(wǎng)絡定向采集器定期向目標站點進行采集和收割。將不同呈現(xiàn)形式的數(shù)據(jù)(如視頻、音頻、圖片、文檔等)采集到語義庫。
2.2.3多源數(shù)據(jù)融合
多源數(shù)據(jù)融合是指把通過不同收集渠道、加工體系和采集模式獲取的具有不同數(shù)據(jù)結構的信息進行整合,形成格式統(tǒng)一、應用廣泛的數(shù)據(jù)集合。這一過程稱為多源數(shù)據(jù)融合[6]。把這些數(shù)據(jù)融合匯聚在一起進行相關性分析,可以更全面、更透徹地揭示事物聯(lián)系,尋找新的模式和關系,從而為市場研發(fā)、商業(yè)模式創(chuàng)新、競爭機會選擇提供有力的數(shù)據(jù)支撐與決策參考。
2.2.4價值體現(xiàn)
經(jīng)過對數(shù)據(jù)進行整合分析,可提供熱點跟蹤、態(tài)勢分析、重要情報揭示等服務。
圖2 微信公眾平臺結構化監(jiān)測層次體系
微信公眾平臺的監(jiān)測,一般需要回答3個方面的問題:確定開源情報需關注的領域(包括這一領域的重要機構、人物、項目、計劃、戰(zhàn)略等),通過監(jiān)測,所獲取的信息資源中是否有需關注內(nèi)容?如何從眾多信息資源中整合出重點情報,進行結構化數(shù)據(jù)轉(zhuǎn)換?對獲得的情報內(nèi)容如何梳理,判斷是否有今后的關注點。
圍繞這3個問題,筆者基于將非結構化數(shù)據(jù)轉(zhuǎn)化為結構化數(shù)據(jù)的融合思路,按照字段映射、字段拆分、數(shù)據(jù)記錄慮重、異構數(shù)據(jù)加權的要求[7],設計出上述3個問題的解決方案。構建監(jiān)測本體指導目標內(nèi)容監(jiān)測;基于內(nèi)容之間的相互關系,利用字段拆分、映射、慮重,實現(xiàn)數(shù)據(jù)從非結構化到結構化的轉(zhuǎn)化;對整合之后的結構化數(shù)據(jù)進行加權分析、價值判斷,對于有價值的數(shù)據(jù)進行分析。
3.1構建監(jiān)測本體,指導目標源監(jiān)測
監(jiān)測目標是監(jiān)測研究團隊希望通過對目標的監(jiān)測,獲得與本領域重大活動相關的內(nèi)容。由于研究領域各不相同,每個領域可根據(jù)自己領域的重要機構來確定自己的監(jiān)測目標,構建一個自建數(shù)據(jù)庫,將重要的監(jiān)測平臺鏈接切換到數(shù)據(jù)庫中。利用編程程序,在一定的時間內(nèi),自動提醒監(jiān)測團隊對目標內(nèi)容的跟蹤,使監(jiān)測目標能夠以結構化表達。
3.2針對個體微信公眾平臺,實現(xiàn)網(wǎng)頁內(nèi)容結構化表示
確定監(jiān)測目標之后,明確了監(jiān)測團隊的監(jiān)測內(nèi)容,抽取嵌入其中的監(jiān)測對象,通過字段映射、拆分、數(shù)據(jù)慮重的方式,對監(jiān)測對象進行標注、規(guī)范,將自由文本轉(zhuǎn)換為結構化的、可以計算的數(shù)據(jù),實現(xiàn)對微信公眾平臺研究領域的監(jiān)測。
對于每一條從微信平臺上采集到的數(shù)據(jù)源(如HTML頁面、聲像文件等),微信公眾監(jiān)測平臺首先通過信息資源抽取技術,抽取嵌入監(jiān)測對象中的目標數(shù)據(jù),然后將知識對象進行字段映射、拆分。將拆分之后的字段,利用數(shù)據(jù)慮重功能,將重復數(shù)據(jù)進行清洗,清洗之后,將最終監(jiān)測的內(nèi)容進行標注、規(guī)范,形成一個結構化化數(shù)據(jù)庫?;谶@些結構化數(shù)據(jù),分析數(shù)據(jù)對象之間的相互關系,利用可視化分析軟件,實現(xiàn)對目標的對象的識別、跟蹤、熱點監(jiān)測、價值判斷等功能。微信平臺網(wǎng)頁內(nèi)容結構化轉(zhuǎn)化流程,見圖3。
圖3 微信平臺網(wǎng)頁內(nèi)容結構化轉(zhuǎn)化流程
3.3結構化數(shù)據(jù)進行加權分析、價值判斷
不同的數(shù)據(jù)類型、不同來源的數(shù)據(jù),其權重不同,如科研發(fā)布的視頻與對該視頻的評價的文檔權重不同,中國科技部發(fā)布的數(shù)據(jù)與地方情報所發(fā)布的數(shù)據(jù)。權重的測算可以通過2種方法。一種是專家法,請幾位該領域的專家,憑借其知識結構與經(jīng)驗進行判斷,對數(shù)據(jù)進行打分。不同的專家有不同的認知,致分值不同,故采用平均值,進行排比。另一種我們可以采用實證統(tǒng)計的方法,微信公眾平臺不同于網(wǎng)頁,每條數(shù)據(jù)都可以統(tǒng)計關注量,可以分享到其他朋友圈,研究人員可根據(jù)關注量與分享量進行實證統(tǒng)計排名。通過權重分析,判斷數(shù)據(jù)的價值,提供態(tài)勢分析、重要情報揭示、熱點跟蹤的服務。
微信公眾平臺已經(jīng)成為戰(zhàn)略情報監(jiān)測的重要資源之一。筆者提出的微信公眾平臺開源情報的結構化監(jiān)測的層次體系和簡單的融合方法,將這些非結構化的數(shù)據(jù)從自由文本轉(zhuǎn)為結構化、語義化的情報資源,并且利用這些資源實現(xiàn)科技戰(zhàn)略情報的監(jiān)測和跟蹤。在文中,筆者重點對結構化監(jiān)測的層次體系、方法技術框架進行了闡述。基于這一思路,相關計算機技術人員,可以開發(fā)適用于這一領域的“微信公眾平臺開源情報自動監(jiān)測系統(tǒng)”,根據(jù)監(jiān)測所得數(shù)據(jù),進行從非結構化數(shù)據(jù)到結構化數(shù)據(jù)的轉(zhuǎn)換,實現(xiàn)對監(jiān)測目標的態(tài)勢分析、熱點跟蹤,體現(xiàn)其價值。
參考文獻
[1]中國互聯(lián)網(wǎng)絡信息中心(CNNIC).第35次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[EB/OL].http:∥www.cnnic.net.cn/gywm/xwzx/rdxw/2015/201502/t20150203-51631.htm,2015-03-16.
[2]微信是一個生活方式[EB/OL].http:∥weixin.qq.com/,2015-03-07.
[3]再小的個體,也有自己的品牌[EB/OL].http:∥www.siteinseo.com/www/mp.weixin.qq.com/,2015-03-09.
[4]劉智慧,張泉靈.大數(shù)據(jù)技術研究綜述[J].浙江大學學報:工學版,2014,48(6):957-952.
[5]李廣建,化柏林.大數(shù)據(jù)分析與情報分析關系辨析[J].中國圖書館學報,2014,(5):14-22.
[6]張智雄,張曉林,劉建華,等.網(wǎng)絡科技信息結構化監(jiān)測思路和技術方法實現(xiàn)[J].中國圖書館學報,2014,40(212):4-15.
[7]化柏林.多源信息融合方法研究[J].情報理論與實踐,2013,36,(11):16-19.
(本文責任編輯:郭沫含)
·研究生園地·
·業(yè)務研究·
Research on Unstructured Data of WeChat Public Platform on Large Data Environment
Guo Chunxia
(Library,Binzhou University,Binzhou 256600,China)
〔Abstract〕Micro letter public platform has the characteristics of open source and timely release,which has become a important information channel of different institutions.But this kind of data is unstructured and without semantic description.How to change the data from unstructured to analyzed and judged has become an urgent problem.To soleve this problem,the paper proposed a hierarchical reflects of the micro-channel public platform data monitoring.This approach would use data fusion methods,extract data from the platform resources,build a structured database,compare them,judge the value of the information and realize the situation monitoring of research field.
〔Key words〕WeChat public platform;unstructured data;data fusion;situation monitoring
作者簡介:郭春霞(1978-),女,館員,碩士,研究方向:信息分析、文獻計量,發(fā)表論文8篇。
收稿日期:2015-04-22
〔中圖分類號〕G250.73
〔文獻標識碼〕A
〔文章編號〕1008-0821(2015)08-0141-03
DOI:10.3969/j.issn.1008-0821.2015.08.027