汪小帆
隨著我們能夠收集的數(shù)據(jù)規(guī)模和種類的不斷增大,如何從大數(shù)據(jù)構(gòu)建合適的網(wǎng)絡(luò)也變得日益重要。如何獲得高質(zhì)量的網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)?如何科學(xué)分析數(shù)據(jù)質(zhì)量?基于對(duì)不完整的網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)所做的分析在多大程度上能夠推廣到整個(gè)網(wǎng)絡(luò)?這些和大數(shù)據(jù)、智慧社會(huì)、社會(huì)物理學(xué)有何關(guān)系?
從點(diǎn)“贊”呼吁數(shù)據(jù)新政
積極心理學(xué)里面有一項(xiàng)研究表明,如果我看到更多的積極的消息,我也會(huì)變得更加積極。如果從朋友圈的點(diǎn)“贊“行為說起的話,就意味著,我們可以用計(jì)算機(jī)的算法來預(yù)測(cè)你的性格。也就是說,如果你的點(diǎn)“贊”次數(shù)加起來超過300次,那么計(jì)算機(jī)的判斷可能比你的愛人更加了解你的性格。當(dāng)然有些點(diǎn)“贊”狂人也許覺得并不是如此,我每天在朋友圈里面看到消息就點(diǎn)“贊”,那只是已閱,我已經(jīng)看過了,這就是心理學(xué)的互動(dòng)。然而,這卻帶來了我們對(duì)如何保證各自隱私的反思,呼吁所謂的數(shù)據(jù)新政。
在上個(gè)月蘋果的發(fā)布會(huì)上,有一項(xiàng)與最近所呼吁的數(shù)據(jù)新政中關(guān)于個(gè)人對(duì)數(shù)據(jù)的參與權(quán)、處置權(quán)和所有權(quán)有關(guān)。在蘋果公司發(fā)布的如何發(fā)現(xiàn)重大疾病的組件中,鼓勵(lì)用戶把一些醫(yī)療數(shù)據(jù)上傳,但是緊接著帶來的一個(gè)問題就是隱私。在這個(gè)發(fā)布會(huì)上,蘋果公司給出的解釋是用戶可以決定是否參與,而且蘋果是看不到你的數(shù)據(jù)的。而現(xiàn)在技術(shù)人員在研究出的多種可能方案中,其中有一種方案就是今后可以通過采用個(gè)人數(shù)據(jù)商店的方式,使得每個(gè)人都能夠看到你的數(shù)據(jù)是如何被共享的,如何被使用的。
而在研究的網(wǎng)絡(luò)科學(xué)角度來看,在斯諾登事件出來以后,科學(xué)雜志上分析指出所有數(shù)據(jù)分析的背后都是網(wǎng)絡(luò)分析。
從2013年6月開始,美國前中情局職員斯諾登陸續(xù)披露了美國政府的代號(hào)為“棱鏡“的秘密項(xiàng)目等監(jiān)控行為,旨在從網(wǎng)絡(luò)和通信公司獲取龐大數(shù)據(jù),以監(jiān)控通話、電子郵件和聊天記錄等。基于人們之間的這些交流數(shù)據(jù)就可以構(gòu)建相應(yīng)的交流網(wǎng)絡(luò),其中的每條邊表示了兩人之間聯(lián)系的密切程度。在此基礎(chǔ)上,有可能通過分析網(wǎng)絡(luò)的演化趨勢(shì)來預(yù)測(cè)恐怖襲擊等突發(fā)事件,從而有利于社會(huì)的安全與穩(wěn)定。但是,這類監(jiān)控本身如果沒有有效的法律監(jiān)督的話,那么就有可能嚴(yán)重侵犯公民的個(gè)人隱私,反而會(huì)讓公民生活在一個(gè)更加沒有安全感的環(huán)境中。在這樣的時(shí)代,如何保護(hù)用戶的隱私,需要有相關(guān)的數(shù)據(jù)新政。
因此,隨著網(wǎng)絡(luò)時(shí)代、信息時(shí)代、數(shù)據(jù)時(shí)代的不斷發(fā)展,越來越需要有關(guān)于數(shù)據(jù)的收集與使用的社會(huì)規(guī)范與法律框架,實(shí)現(xiàn)“數(shù)據(jù),讓人類更美好“的愿景。
從大數(shù)據(jù)到好網(wǎng)絡(luò)
對(duì)于很多復(fù)雜網(wǎng)絡(luò)至今還無法通過有效方法獲得較為完整的網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)。現(xiàn)實(shí)網(wǎng)絡(luò)大多數(shù)是隨時(shí)間和空間持續(xù)變化的。例如,實(shí)際的社會(huì)網(wǎng)絡(luò)中,人與人之間的聯(lián)系與交互是遵循一定時(shí)空統(tǒng)計(jì)規(guī)律出現(xiàn),而不是一直保持不變的。在這種含有時(shí)間空間的網(wǎng)絡(luò)上的動(dòng)力學(xué)過程可能會(huì)呈現(xiàn)出與靜態(tài)網(wǎng)絡(luò)和非空間網(wǎng)絡(luò)極為不同的規(guī)律,因此,需要探索這種隨時(shí)空演化的動(dòng)態(tài)網(wǎng)絡(luò)上的動(dòng)力學(xué)特性,以及節(jié)點(diǎn)、連邊的活躍特性與動(dòng)力學(xué)的關(guān)聯(lián)規(guī)律。
目前網(wǎng)絡(luò)科學(xué)研究主要針對(duì)的是單個(gè)網(wǎng)絡(luò),而事實(shí)上許多網(wǎng)絡(luò)都不是孤立存在的,而是與其它網(wǎng)絡(luò)之間存在著相互依賴、合作或競(jìng)爭(zhēng)等關(guān)系。隨著數(shù)據(jù)獲取能力的不斷增強(qiáng),我們可以對(duì)網(wǎng)絡(luò)的網(wǎng)絡(luò)開展從理論到應(yīng)用的深入研究。例如,以社會(huì)網(wǎng)絡(luò)研究為例,同一個(gè)用戶可能同時(shí)是人人、QQ. Email和微信用戶,因此這四種網(wǎng)絡(luò)之間是存在相互關(guān)聯(lián)的。許多基礎(chǔ)設(shè)施網(wǎng)絡(luò),如電力網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、交通網(wǎng)絡(luò)等等之間也都是相互依賴的,一個(gè)網(wǎng)絡(luò)的故障有可能觸發(fā)其它網(wǎng)絡(luò)的相繼故障。
因此,隨著我們能夠收集的數(shù)據(jù)規(guī)模和種類的不斷增大,如何從大數(shù)據(jù)構(gòu)建合適的網(wǎng)絡(luò)也變得日益重要。這里涉及到兩個(gè)問題一是從大數(shù)據(jù)到好數(shù)據(jù),即對(duì)數(shù)據(jù)本身的預(yù)處理,如清洗和去噪等,二是從好數(shù)據(jù)到好網(wǎng)絡(luò),即使有了高質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù),針對(duì)所研究的問題,往往也需要對(duì)數(shù)據(jù)做恰當(dāng)處理以生成合適的網(wǎng)絡(luò)。社會(huì)物理學(xué)
社會(huì)物理學(xué)是大數(shù)據(jù)科學(xué)的一個(gè)分支,用于構(gòu)建人類行為的網(wǎng)絡(luò)模型,并用這種模型創(chuàng)造具有可操作性的情報(bào)信息。它是一門定量科學(xué),可以準(zhǔn)確地預(yù)測(cè)人類行為方式,可以指導(dǎo)你如何影響這些行為以提高決策的精準(zhǔn)度或組織內(nèi)的生產(chǎn)效率。社會(huì)物理學(xué)科涉及了如何增進(jìn)組織內(nèi)部溝通效果的方法、如何更好地保護(hù)個(gè)人隱私的途徑,以及如何抵御日益嚴(yán)重的網(wǎng)絡(luò)攻擊的策略。
在2014年,我和同事在翻譯((智慧社會(huì):大數(shù)據(jù)與社會(huì)物理學(xué)》一書的時(shí)候,曾經(jīng)問過作者派特教授(Alex Pentland):“社會(huì)物理學(xué)是存在了兩個(gè)世紀(jì)的很古老的詞,你為什么不用計(jì)量現(xiàn)代科學(xué)更加現(xiàn)代的詞,為什么一定要用社會(huì)物理學(xué)?”他說,“這主要是跟傳統(tǒng)的物理學(xué)做比較。因?yàn)閭鹘y(tǒng)物理學(xué)的核心主要研究能量的流動(dòng)如何轉(zhuǎn)變?yōu)檫\(yùn)動(dòng)的改變,而社會(huì)物理學(xué)的核心就是想法在人心目中的流動(dòng)如何轉(zhuǎn)化為行為的改變。而網(wǎng)絡(luò)科學(xué)如果用一句話來說,那就是它研究的是各種各樣不同的復(fù)雜網(wǎng)絡(luò)的共性的特征。這里的網(wǎng)絡(luò)包括互聯(lián)網(wǎng)、包括交通網(wǎng),包括社會(huì)網(wǎng),包括生態(tài)網(wǎng)等等?!?/p>
其實(shí)我們研究社會(huì)物理學(xué),也是講究的互動(dòng),互動(dòng)帶來想法的傳播,想法的傳播帶來群體的智慧,群體的智慧使得我們有可能走向更美好的社會(huì)。因此,在今天的時(shí)代下,社會(huì)物理學(xué)和網(wǎng)絡(luò)科學(xué)也帶給我們了一個(gè)啟示要使個(gè)人具有更好的表現(xiàn),在很多情況下采用網(wǎng)絡(luò)激勵(lì)的手段,比采用個(gè)體激勵(lì)的手段的效果要好得多。
大數(shù)據(jù)時(shí)代的到來為網(wǎng)絡(luò)科學(xué)與工程研究帶來了更多的機(jī)遇和更大的挑戰(zhàn)。也讓我們開始熟悉復(fù)雜網(wǎng)絡(luò)的一個(gè)共性特征,即所謂的小世界特征。網(wǎng)絡(luò)的規(guī)??梢院艽?,但是兩個(gè)節(jié)點(diǎn)之間的距離也許比我們想象的要小得多,這個(gè)就是社會(huì)網(wǎng)絡(luò)里面所熟知的六度特征。隨著網(wǎng)絡(luò)的不斷深入,我們?nèi)伺c人之間的距離會(huì)變得越來越小,網(wǎng)絡(luò)變得越來越大,而世界在某種意義上變得反而越來越小。
因此,復(fù)雜網(wǎng)絡(luò)研究發(fā)展到今天已遠(yuǎn)不能僅僅停留在對(duì)各種實(shí)際網(wǎng)絡(luò)計(jì)算小世界和無標(biāo)度等性質(zhì)的水平上,而是必須要有新的發(fā)現(xiàn)與認(rèn)識(shí)。哪些拓?fù)湫再|(zhì)對(duì)于刻畫網(wǎng)絡(luò)結(jié)構(gòu)既具有基本的重要性又便于計(jì)算?各種拓?fù)湫再|(zhì)之間具有什么樣的關(guān)系?對(duì)于這些問題的認(rèn)識(shí)仍然有待深入。復(fù)雜網(wǎng)絡(luò)分析相關(guān)的算法問題是在大數(shù)據(jù)背景下新挑戰(zhàn)——如何快速、有效處理包含數(shù)千萬乃至數(shù)億節(jié)點(diǎn)的巨網(wǎng)絡(luò)7基于大數(shù)據(jù)的算法問題有可能成為未來大科學(xué)化的復(fù)雜性科學(xué)研究的技術(shù)基礎(chǔ)之一。從社團(tuán)結(jié)構(gòu)挖掘到鏈路預(yù)測(cè)和各種推薦算法等,算法復(fù)雜性分析、快速近似算法、并行計(jì)算、分布式圖存儲(chǔ)問題等等都值得深入研究。
本文是根據(jù)作者在“Futuretrek未來創(chuàng)客2015春季思想峰會(huì)”上的演講及主要觀點(diǎn)編輯整理而成。