·專題·
引言:2012年美國奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”,正式啟動“大數(shù)據(jù)發(fā)展計劃”?!禨cience》與《Nature》分別于2008年、2011年推出了大數(shù)據(jù)???。2012年達(dá)沃斯世界經(jīng)濟(jì)論壇把大數(shù)據(jù)列為主題之一,2013年我國第462次香山科學(xué)會議的主題為“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的科學(xué)原理與發(fā)展前景”。IBM、Amazon、Google、Facebook等國際知名企業(yè)都宣布或?qū)嵤┝舜髷?shù)據(jù)研發(fā)計劃,并進(jìn)行了實際應(yīng)用。麥肯錫、Gartner等公司分別發(fā)布了關(guān)于大數(shù)據(jù)的行業(yè)分析報告,對大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡的分析。
情報分析,也被稱為情報研究或信息分析,是根據(jù)用戶的特定需求,對大量紛繁無序的信息進(jìn)行有針對性的選擇、分析、預(yù)測,為用戶提供系統(tǒng)、綜合、準(zhǔn)確、及時、大流量的知識與信息的智能活動。由于情報分析是以數(shù)據(jù)、信息等情報源為基礎(chǔ)的信息采集、管理、分析和服務(wù)的工作,本身就是一項數(shù)據(jù)分析和數(shù)據(jù)挖掘工作,正是因為如此,大數(shù)據(jù)理念和方法,正在深刻地影響著情報研究的理論和實踐,也成為了情報學(xué)研究的熱點課題之一。
在這種背景下,我們于2014年申請了國家社會科學(xué)基金重點項目“大數(shù)據(jù)環(huán)境下的計算型情報分析方法與技術(shù)研究”(項目編號:14ATQ005),得到了國家社會科學(xué)基金委的肯定和批準(zhǔn)。本專題的四篇文章就是該項目的初步研究成果。
第一篇是“從棱鏡計劃看大數(shù)據(jù)時代下的情報分析”,這篇文章并沒有討論棱鏡計劃中的隱私及保護(hù)問題,而是更深入地揭示了棱鏡計劃背后隱藏的情報現(xiàn)象,全面剖析了棱鏡計劃的本質(zhì),分析了棱鏡計劃的數(shù)據(jù)基礎(chǔ)、分析過程與方法、實施目標(biāo),并對大數(shù)據(jù)時代下的情報分析進(jìn)行了探討。棱鏡計劃的真正目標(biāo)是運用大數(shù)據(jù)進(jìn)行情報分析,從大量數(shù)據(jù)中發(fā)掘出有價值的情報,為戰(zhàn)略決策提供全面準(zhǔn)確、客觀有力的支撐與參考服務(wù),這是大數(shù)據(jù)時代情報分析的重點,也是情報從業(yè)人員的關(guān)鍵能力所在。
第二篇是“不同領(lǐng)域的情報分析及其在大數(shù)據(jù)環(huán)境下的發(fā)展”,旨在從宏觀角度探討不同領(lǐng)域中的情報分析之間的學(xué)科差異。大數(shù)據(jù)時代本身,各行各業(yè)都在重視情報研究工作,有些學(xué)科領(lǐng)域不僅有自己的情報分析,而且這種情報分析本身就是這些學(xué)科領(lǐng)域的核心內(nèi)容和特色。但是,這些情報分析又都不可避免地打上本學(xué)科領(lǐng)域的烙印,不可以一言以蔽之。本篇文章的目的是揭示情報分析的學(xué)科差異,反映情報分析的學(xué)科特點,并探討大數(shù)據(jù)環(huán)境下各學(xué)科領(lǐng)域中情報分析的發(fā)展。
第三篇是“大數(shù)據(jù)分析的方法及其在情報研究中的適用性初探”,大數(shù)據(jù)的價值不僅僅在于數(shù)據(jù)量,大數(shù)據(jù)的核心理念之一是大數(shù)據(jù)分析,即對海量的數(shù)據(jù)進(jìn)行分析,從中獲取有助于決策的信息。目前,大數(shù)據(jù)分析方法已經(jīng)成為大數(shù)據(jù)領(lǐng)域的熱點研究問題,而且,這些研究的內(nèi)容對情報研究方法有借鑒意義,本篇文章梳理了當(dāng)前大數(shù)據(jù)分析方法的研究與實踐成果,總結(jié)了常見的大數(shù)據(jù)分析方法,探討了這些方法在情報研究中的適用性。
第四篇“基于關(guān)聯(lián)規(guī)則的術(shù)語自動抽取研究”是一篇實驗類的研究論文。情報分析的第一步是要厘清文本中的各種概念,而概念又是用語詞來表達(dá),因而,從文本中抽取出跟蹤術(shù)語,特別是抽取出由復(fù)合語詞組成的術(shù)語,是自動化情報分析的重要和基礎(chǔ)技術(shù)環(huán)節(jié)。本篇文章探討了關(guān)聯(lián)規(guī)則方法用于術(shù)語抽取的可行性。文章通過試驗驗證了關(guān)聯(lián)規(guī)則可以很好的完成復(fù)合術(shù)語的識別和抽取問題,而且,與現(xiàn)有的方法相比較,關(guān)聯(lián)規(guī)則方法具有實現(xiàn)簡單、占用系統(tǒng)資源少、沒有學(xué)科和語言的依賴性等優(yōu)勢。
北京大學(xué)信息管理系李廣建