亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)思維范疇探究

        2015-03-20 14:29:36張弛華中科技大學(xué)新聞與信息傳播學(xué)院湖北武漢430074
        關(guān)鍵詞:因果關(guān)系思維

        張弛,華中科技大學(xué)新聞與信息傳播學(xué)院,湖北武漢430074

        大數(shù)據(jù)思維范疇探究

        張弛,華中科技大學(xué)新聞與信息傳播學(xué)院,湖北武漢430074

        大數(shù)據(jù)思維有兩層含義:一是人們思想上對(duì)大數(shù)據(jù)的認(rèn)識(shí)和重視,這是一種思維態(tài)度;二是大數(shù)據(jù)思維范疇,這是一種思維方式。大數(shù)據(jù)思維范疇是大數(shù)據(jù)時(shí)代主觀邏輯和客觀邏輯的有機(jī)統(tǒng)一,反映了大數(shù)據(jù)這一新生事物存在發(fā)展的辯證關(guān)系。大數(shù)據(jù)的洶涌來(lái)潮,會(huì)改變?nèi)藗儌鹘y(tǒng)的對(duì)可能和現(xiàn)實(shí)、必然和偶然、原因和結(jié)果、部分和整體、精確和模糊等一系列思維范疇的認(rèn)識(shí)。

        大數(shù)據(jù);大數(shù)據(jù)思維;思維范疇

        大數(shù)據(jù)的發(fā)展,不僅取決于大數(shù)據(jù)資源的擴(kuò)展,還取決于大數(shù)據(jù)技術(shù)的應(yīng)用,更取決于大數(shù)據(jù)思維的形成。也就是說(shuō),大數(shù)據(jù)發(fā)展必須是數(shù)據(jù)、技術(shù)、思維三大要素的聯(lián)動(dòng)。在網(wǎng)絡(luò)時(shí)代數(shù)據(jù)無(wú)處不在、技術(shù)快速發(fā)展的條件下,大數(shù)據(jù)思維已成為決定大數(shù)據(jù)成敗的關(guān)鍵。目前,大數(shù)據(jù)思維缺失,跨越學(xué)術(shù)與產(chǎn)業(yè)、技術(shù)與應(yīng)用之間鴻溝的方法論缺位,是大數(shù)據(jù)發(fā)展的最大障礙。“出身不重要,思維更重要”[1],只有具有大數(shù)據(jù)思維,才能更好地運(yùn)用大數(shù)據(jù)資源和大數(shù)據(jù)技術(shù)。需要說(shuō)明的是,大數(shù)據(jù)思維包含有兩個(gè)意思:一個(gè)是在思想上對(duì)大數(shù)據(jù)的認(rèn)識(shí)和重視,這是一種思維態(tài)度;另一個(gè)是大數(shù)據(jù)思維范疇,這是一種思維方式。本文著重討論的是大數(shù)據(jù)思維范疇問(wèn)題。

        眾所周知,思維范疇是主觀邏輯和客觀邏輯的有機(jī)統(tǒng)一,反映了事物存在發(fā)展的辯證關(guān)系。大數(shù)據(jù)思維范疇反映的是大數(shù)據(jù)時(shí)代人們思維方式的變革。

        一、可能和現(xiàn)實(shí)關(guān)系

        可能與現(xiàn)實(shí)是常見的思維范疇?,F(xiàn)實(shí)標(biāo)志著當(dāng)下的實(shí)際存在,可能則是指包含在事物之中的、預(yù)示事物發(fā)展前途的種種趨勢(shì)。在小數(shù)據(jù)時(shí)代傳統(tǒng)思維條件下,人們對(duì)預(yù)示事物發(fā)展趨勢(shì)的可能性的認(rèn)識(shí)往往是經(jīng)驗(yàn)式的,可稱之為經(jīng)驗(yàn)式的可能性認(rèn)識(shí)。這種經(jīng)驗(yàn)式的可能性認(rèn)識(shí)對(duì)事物發(fā)展趨勢(shì)的預(yù)測(cè)不準(zhǔn),主要是因?yàn)槿狈?zhǔn)確的、全面的、海量的數(shù)據(jù)作為支持。《大數(shù)據(jù)》一書的作者涂子沛引用胡適的著名文章《差不多先生傳》來(lái)比喻中國(guó)人帶有“差不多先生”的文化標(biāo)簽[2]329,是說(shuō)中國(guó)人的思維方式缺乏科學(xué)性,習(xí)慣于“大概”?!按蟾拧钡念A(yù)測(cè)準(zhǔn)確率低,當(dāng)然缺少科學(xué)性。而在大數(shù)據(jù)時(shí)代,在擁有海量的、整體的、實(shí)時(shí)的數(shù)據(jù)條件下,人們對(duì)事物發(fā)展趨勢(shì)的預(yù)測(cè)就會(huì)準(zhǔn)確得多,這種預(yù)測(cè),可稱之為科學(xué)式的可能性認(rèn)識(shí)。

        在談到大數(shù)據(jù)的核心價(jià)值時(shí),一致的觀點(diǎn)認(rèn)為大數(shù)據(jù)的核心是預(yù)測(cè)。中國(guó)工程院院士鄔賀銓指出,大數(shù)據(jù)預(yù)測(cè)可運(yùn)用到各行各業(yè),“宏觀經(jīng)濟(jì)學(xué)方面,IBM日本公司建立經(jīng)濟(jì)指標(biāo)預(yù)測(cè)系統(tǒng),從互聯(lián)網(wǎng)新聞中搜索影響制造業(yè)的480項(xiàng)經(jīng)濟(jì)數(shù)據(jù),計(jì)算采購(gòu)經(jīng)理人指數(shù)的預(yù)測(cè)值。印第安納大學(xué)利用谷歌公司提供的心情分析工具,從近千萬(wàn)條網(wǎng)民留言中歸納出三種心情,進(jìn)而對(duì)道瓊斯工業(yè)指數(shù)的變化進(jìn)行預(yù)測(cè),準(zhǔn)確率達(dá)到87%?!盵3]47在醫(yī)學(xué)領(lǐng)域,加拿大的研究人員開發(fā)了一種大數(shù)據(jù)診療技術(shù),以便能預(yù)測(cè)早產(chǎn)嬰兒的感染。他們通過(guò)把包括心率、血壓、呼吸和血氧水平等16種生命體征轉(zhuǎn)化成每秒1 000多個(gè)數(shù)據(jù)點(diǎn)的信息流,從中找到早產(chǎn)嬰兒生命體征極其輕微的變化與較為嚴(yán)重病情之間的關(guān)聯(lián)性。在城市管理領(lǐng)域,美國(guó)紐約市開發(fā)了一套新的火災(zāi)預(yù)防方案,這一方案在全市90萬(wàn)座建筑物的數(shù)據(jù)庫(kù)中加入市政19個(gè)部門所收集到的其他數(shù)據(jù),包括欠稅扣押記錄、水電使用異常、繳費(fèi)拖欠、服務(wù)場(chǎng)所、鼠患投訴等各類數(shù)據(jù),并將這些數(shù)據(jù)與過(guò)去5年的火災(zāi)記錄進(jìn)行計(jì)算分析,從而發(fā)現(xiàn)了建筑物類型和建造年份與火災(zāi)的相互關(guān)系,還發(fā)現(xiàn)了非法在屋內(nèi)打隔斷的建筑物發(fā)生火災(zāi)的高概率,在此基礎(chǔ)上制定出新的火災(zāi)預(yù)防方案。火災(zāi)已經(jīng)發(fā)生是現(xiàn)實(shí)性,火災(zāi)可能發(fā)生是可能性?;馂?zāi)已經(jīng)發(fā)生我們只能通過(guò)救火努力把損失降到最低限度,而最好的辦法是通過(guò)可能性預(yù)測(cè)預(yù)防火災(zāi)不要發(fā)生。醫(yī)學(xué)領(lǐng)域同樣如此,最好的辦法不是生病以后再去治病,而是通過(guò)可能性預(yù)測(cè)預(yù)防疾病不要發(fā)生。

        大數(shù)據(jù)的核心意義在于發(fā)現(xiàn)和挖掘潛在價(jià)值,而不在于發(fā)現(xiàn)現(xiàn)實(shí)價(jià)值。其科學(xué)方法論意義不在于從“已知”的現(xiàn)實(shí)中發(fā)現(xiàn)問(wèn)題和規(guī)律,而在于從“未知”的種種可能中發(fā)現(xiàn)問(wèn)題和規(guī)律。中國(guó)工程院倪光南院士指出,科學(xué)研究的實(shí)驗(yàn)型范式、理論型范式、計(jì)算型范式都是在已知規(guī)律的情況下發(fā)現(xiàn)新的規(guī)律,而大數(shù)據(jù)“則是在未知規(guī)律的情況下,運(yùn)用計(jì)算能力從大數(shù)據(jù)中發(fā)現(xiàn)規(guī)律并發(fā)揮規(guī)律的作用?!盵4]通過(guò)“未知”發(fā)現(xiàn)規(guī)律,就很難預(yù)設(shè)理論模型,正是因?yàn)榇髷?shù)據(jù)是從“未知”中發(fā)現(xiàn)規(guī)律,圖靈獎(jiǎng)獲得者吉姆·格雷(Jim Gray)才提出將大數(shù)據(jù)列為科學(xué)研究的第四范式(the fourth paradigm)。

        大數(shù)據(jù)預(yù)測(cè)拉近了可能與現(xiàn)實(shí)的距離,使我們有能力逐步做到將好的可能性變成現(xiàn)實(shí),將不好的可能性不變?yōu)楝F(xiàn)實(shí)。中國(guó)工程院李德毅院士指出,“大數(shù)據(jù)整天和我們?cè)谝黄?,大?shù)據(jù)已成為連接虛擬世界和現(xiàn)實(shí)世界之間的橋梁?!盵5]可以說(shuō),在大數(shù)據(jù)時(shí)代,虛擬世界和現(xiàn)實(shí)世界的距離和界線將發(fā)生新的變化,人們對(duì)事物的認(rèn)知不僅滿足于“已知”,更能精準(zhǔn)地認(rèn)識(shí)“未知”,不僅能描寫性地分析“現(xiàn)在”,更能預(yù)測(cè)性地分析“未來(lái)”。大數(shù)據(jù)在“此岸”與“彼岸”之間架通了一座快速便捷的橋梁。

        二、必然和偶然關(guān)系

        必然和偶然范疇是與可能和現(xiàn)實(shí)范疇聯(lián)系較為緊密的思維范疇。可能性既與偶然性有一定聯(lián)系,也與必然性有一定聯(lián)系。我們?cè)陬A(yù)測(cè)事物發(fā)展的可能性時(shí),必須同時(shí)考慮制約它的必然因素和偶然因素。

        長(zhǎng)期以來(lái),人們傳統(tǒng)的思維定勢(shì)習(xí)慣于將自然界和人類社會(huì)看成是二元世界,由此采用“科學(xué)”和“歷史”兩個(gè)敘事框架,并形成科學(xué)主義和人文主義兩大思潮??茖W(xué)主義認(rèn)為,自然界是決定論的,它的運(yùn)動(dòng)變化是有必然規(guī)律的,是可預(yù)測(cè)的,而人類社會(huì)是非決定論的,它的運(yùn)動(dòng)變化充滿隨機(jī)性、偶然性,是不可預(yù)測(cè)的。著名科學(xué)哲學(xué)家波普爾就否定歷史決定論,主張非決定論。在小數(shù)據(jù)時(shí)代,之所以有人認(rèn)為人類社會(huì)運(yùn)動(dòng)發(fā)展不可預(yù)測(cè),是因?yàn)樯鐣?huì)領(lǐng)域的數(shù)據(jù)雜亂無(wú)章,大都是非結(jié)構(gòu)性數(shù)據(jù),特別是情感數(shù)據(jù)、社交數(shù)據(jù)更是千頭萬(wàn)緒、變動(dòng)不居。但在大數(shù)據(jù)技術(shù)條件下,人類擁有了處理非結(jié)構(gòu)性數(shù)據(jù)的強(qiáng)大能力,人們通過(guò)LBS采集人在地球上的全部運(yùn)動(dòng)軌跡,通過(guò)在線支付采集人們的全部支付記錄,通過(guò)SNS采集人們的全部網(wǎng)絡(luò)交往記錄,通過(guò)電子郵件、文檔、Timeline、視頻監(jiān)控等采集人們的言行記錄。這使得大量隨機(jī)的、偶然出現(xiàn)的數(shù)據(jù)可以實(shí)時(shí)捕獲處理,使之變成確定性的、必然性的東西。

        馬克·吐溫說(shuō),歷史不會(huì)重演,但自有其規(guī)律。歷史事件雖然往往表現(xiàn)為一些偶發(fā)事件,但偶然性背后存在的是必然規(guī)律。隨著科學(xué)技術(shù)的進(jìn)步,支持歷史發(fā)展存在規(guī)律的觀點(diǎn)的人越來(lái)越多,而大數(shù)據(jù)技術(shù)使人類揭示和認(rèn)識(shí)社會(huì)歷史規(guī)律更有可能和更加快捷。因此,有人認(rèn)為,“與其說(shuō)大數(shù)據(jù)的核心價(jià)值是對(duì)未來(lái)的預(yù)測(cè),不如說(shuō)是對(duì)過(guò)去沉睡的規(guī)律的揭示。”[6]也就是說(shuō),大數(shù)據(jù)不僅是人們認(rèn)識(shí)事物發(fā)展可能性的強(qiáng)大武器,也是人們認(rèn)識(shí)事物必然性的有力工具。

        在描述大數(shù)據(jù)的4V特征時(shí),實(shí)時(shí)快捷(Velocity)是大數(shù)據(jù)的重要特征之一。在實(shí)際應(yīng)用中,大數(shù)據(jù)技術(shù)的實(shí)時(shí)快捷分析能幫助人們捕獲隨機(jī)出現(xiàn)的、稍縱即逝的、看似價(jià)值不大的信息。在大數(shù)據(jù)時(shí)代,正是數(shù)據(jù)來(lái)源的多元化和實(shí)時(shí)快速處理,使人們能更多擺脫偶然性的干擾而把握必然的東西。2011年10月,美國(guó)國(guó)家氣象局(NWS)宣布,該局在全國(guó)數(shù)千輛客運(yùn)大巴上安裝了數(shù)據(jù)傳感器,隨著客運(yùn)大巴的運(yùn)動(dòng),這些傳感器將沿途所采集的溫度、濕度、露水、風(fēng)力、光照度等數(shù)據(jù)實(shí)時(shí)傳回國(guó)家氣象局的數(shù)據(jù)中心,數(shù)據(jù)采集是每10秒鐘一次,傳感器每天要采集10萬(wàn)次以上的數(shù)據(jù),數(shù)據(jù)中心對(duì)這些實(shí)時(shí)的、隨機(jī)的、高粒度、高頻率的數(shù)據(jù)進(jìn)行分析處理,其發(fā)布的天氣預(yù)報(bào)就不再僅僅只是“預(yù)”報(bào),而逐漸走向“實(shí)”報(bào)、“精”報(bào)。

        大數(shù)據(jù)用數(shù)據(jù)事實(shí)不斷改變?nèi)藗儗?duì)歷史和社會(huì)發(fā)展的現(xiàn)象與本質(zhì)、偶然與必然的認(rèn)識(shí),使人們更易于透過(guò)偶然把握必然?!盁o(wú)尺度網(wǎng)絡(luò)”概念的提出者艾伯特-拉斯洛·巴拉巴西指出,“雖然萬(wàn)事皆顯出自發(fā)偶然之態(tài),但實(shí)際上它遠(yuǎn)比你想象中容易預(yù)測(cè)”。他認(rèn)為“人類行為93%是可以預(yù)測(cè)的”。只是“過(guò)去我們沒有相關(guān)數(shù)據(jù),也沒有一定的方法來(lái)探究人類的行為”。其實(shí),“人類的大部分行為都受制于規(guī)律、模型以及原理法則,而且它們的可重現(xiàn)性和可預(yù)測(cè)性與自然科學(xué)不相上下?!比祟惿鐣?huì)的運(yùn)動(dòng)規(guī)律和自然界一樣,“許多事情遵循冪律分布:一旦冪律出現(xiàn),爆發(fā)點(diǎn)就會(huì)出現(xiàn)?!盵7]巴拉巴西所指出的人類社會(huì)呈現(xiàn)冪律式周期爆發(fā)運(yùn)動(dòng),是用科學(xué)方式揭示了人類社會(huì)周期式的治亂規(guī)律。在大數(shù)據(jù)條件下,社會(huì)科學(xué)越來(lái)越多地運(yùn)用定量分析方法研究問(wèn)題,雅虎的首席科學(xué)家沃茨博士在《自然》上發(fā)表了一篇題為《21世紀(jì)的科學(xué)》的文章,認(rèn)為得益于計(jì)算機(jī)技術(shù)和海量數(shù)據(jù)庫(kù)的發(fā)展,個(gè)人在真實(shí)世界的活動(dòng)得到了前所未有的記錄,這種記錄為社會(huì)科學(xué)的定量分析提供了極為豐富的數(shù)據(jù)。由于能測(cè)得更準(zhǔn),計(jì)算得更準(zhǔn)確,他認(rèn)為社會(huì)科學(xué)將脫下“準(zhǔn)科學(xué)”的外衣,真正走進(jìn)科學(xué)的殿堂[8]489。

        三、原因和結(jié)果關(guān)系

        在關(guān)于大數(shù)據(jù)思維變革的研究中,大數(shù)據(jù)對(duì)因果關(guān)系范疇的影響討論相對(duì)較多。舉得最多的案例是沃爾瑪在其賣場(chǎng)中將啤酒與尿布擺放在一起銷售的故事,還有在季節(jié)性颶風(fēng)來(lái)臨之前,將手電筒與蛋撻放在一起銷售的例子。這些案例說(shuō)明,在大數(shù)據(jù)條件下,看似兩個(gè)互不相干的沒有什么因果關(guān)系的事物,通過(guò)銷售數(shù)據(jù)分析可以發(fā)現(xiàn)它們之間存在某種相關(guān)關(guān)系。而對(duì)于追求利潤(rùn)率的商家來(lái)說(shuō),不需要知道“為什么”啤酒與尿布放在一起會(huì)增加銷量,只需要知道結(jié)果“是什么”就行。

        傳統(tǒng)思維中的因果關(guān)系分析是建立在嚴(yán)密的數(shù)理推理邏輯基礎(chǔ)上的。中國(guó)工程院院士李國(guó)杰形容說(shuō),“我們都是從做平面幾何證明題開始進(jìn)入科學(xué)大花園的,腦子里固有的邏輯思維模式少不了因果分析,判斷是否是真理也習(xí)慣看充分必要條件,對(duì)于大數(shù)據(jù)的關(guān)聯(lián)分析蘊(yùn)含的科學(xué)意義往往理解不深?!盵9]傳統(tǒng)的因果關(guān)系分析雖然邏輯鏈條完整,但由于是小數(shù)據(jù),往往容易以部分代替整體,難免出現(xiàn)誤差。尋找事物的因果關(guān)系是人類長(zhǎng)久以來(lái)形成的習(xí)慣,因果關(guān)系研究促進(jìn)了科學(xué)的發(fā)展和科學(xué)體系的建立,科學(xué)是研究因果關(guān)系的重要手段。

        但在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)研究是對(duì)海量數(shù)據(jù)做統(tǒng)計(jì)性的搜索、比較、分類和聚類分析,帶有統(tǒng)計(jì)學(xué)的顯著特點(diǎn)。統(tǒng)計(jì)學(xué)更關(guān)注相關(guān)性,相關(guān)性是指兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性。大數(shù)據(jù)的簡(jiǎn)單算法是統(tǒng)計(jì)學(xué)的邏輯,這如同熱力學(xué)的分析模式,熱力學(xué)并不關(guān)心具體的分子運(yùn)動(dòng),而是關(guān)心溫度、體積、壓強(qiáng)之間的宏觀關(guān)系。騰訊副總裁吳軍博士在《數(shù)學(xué)之美》一書中論述了統(tǒng)計(jì)學(xué)對(duì)于現(xiàn)代科學(xué)的意義,他指出,人們花了近20年時(shí)間實(shí)現(xiàn)了從基于規(guī)則的語(yǔ)言處理到基于統(tǒng)計(jì)的語(yǔ)言處理的轉(zhuǎn)變,統(tǒng)計(jì)語(yǔ)言模型在形式上非常簡(jiǎn)單,任何人都容易理解,因?yàn)椤盎诮y(tǒng)計(jì)的自然語(yǔ)言處理方法,在數(shù)學(xué)模型上和通信是相通的,甚至就是相同的。因此,在數(shù)學(xué)意義上自然語(yǔ)言處理又和語(yǔ)言的初衷——通信聯(lián)系在一起了”[10]26。而且,統(tǒng)計(jì)語(yǔ)言模型的簡(jiǎn)單性正符合牛頓在《自然哲學(xué)的數(shù)學(xué)原理》中所主張的“簡(jiǎn)單性原則”。被譽(yù)為大數(shù)據(jù)權(quán)威的維克托·邁爾-舍恩伯格指出,在日常生活中,我們習(xí)慣地用因果關(guān)系來(lái)考慮事情,所以會(huì)認(rèn)為,因果聯(lián)系是淺顯易尋的。但事實(shí)卻并非如此,與相關(guān)關(guān)系不一樣,即使用數(shù)學(xué)這種比較直接的方式,因果聯(lián)系也很難被輕易證明,而證明相關(guān)關(guān)系的實(shí)驗(yàn)耗時(shí)少,費(fèi)用也少?!跋嚓P(guān)關(guān)系分析本身意義重大,同時(shí)它也為研究因果關(guān)系奠定了基礎(chǔ)。通過(guò)找出可能相關(guān)的事物,我們可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的因果關(guān)系分析,如果存在因果關(guān)系的話,我們?cè)龠M(jìn)一步找出原因?!盵11]88由此可見,舍恩伯格并不否定因果關(guān)系,只是認(rèn)為,能找出相關(guān)關(guān)系,就沒有必要非要尋找因果關(guān)系,這是大數(shù)據(jù)思維的新特點(diǎn),也是大數(shù)據(jù)為何首先被工商界熱捧的原因。

        大數(shù)據(jù)思維對(duì)因果關(guān)系和相關(guān)關(guān)系的重新思考給我們提供了認(rèn)識(shí)事物不同層面、不同領(lǐng)域的不同選擇模式,它們不是相互替代的關(guān)系,而是并存關(guān)系。這種并存關(guān)系可能有以下兩種情況。

        第一種情況是,對(duì)學(xué)術(shù)性的科學(xué)研究來(lái)說(shuō),因果關(guān)系永遠(yuǎn)是探究科學(xué)之謎的密鑰。《大數(shù)據(jù)時(shí)代》一書的譯者周濤教授指出,“想想瑞士日內(nèi)瓦的強(qiáng)子對(duì)撞機(jī),我們?cè)谏厦娌东@了人類有史以來(lái)最大規(guī)模的單位時(shí)間數(shù)據(jù)。我們是希望找到或者驗(yàn)證某種相關(guān)關(guān)系嗎?不是!我們?cè)噲D回答的,正是人類所能問(wèn)出的關(guān)于因果關(guān)系最偉大的問(wèn)題:希格斯玻色子是否存在,我們的宇宙是否有可能用標(biāo)準(zhǔn)模型刻畫?!艞墝?duì)因果性的追求,就是放棄了人類凌駕于計(jì)算機(jī)之上的智力優(yōu)勢(shì),是人類自身的放縱和墮落”[12]譯者序Ⅸ。在科學(xué)研究領(lǐng)域,不能放棄對(duì)因果關(guān)系的探求,但要高度重視相關(guān)性研究,李國(guó)杰院士認(rèn)為,“對(duì)于開放復(fù)雜的巨系統(tǒng),傳統(tǒng)的因果分析難以奏效,因?yàn)橄到y(tǒng)中各個(gè)組成部分之間相互影響,可能互為因果,因果關(guān)系隱藏在整個(gè)系統(tǒng)之中?!虼?,對(duì)于大數(shù)據(jù)的關(guān)聯(lián)分析是不是‘知其然而不知其所以然’,其中可能包含深?yuàn)W的哲理,不能貿(mào)然下結(jié)論。”[13]

        第二種情況是,對(duì)實(shí)用性的商業(yè)活動(dòng)來(lái)說(shuō),繁瑣的因果關(guān)系探究已無(wú)必要,有相關(guān)關(guān)系支持賺錢就行,賺錢講究短平快,所以企業(yè)收集和處理大數(shù)據(jù),不必深究為什么能增加利潤(rùn),更沒有必要花大力氣深究其背后的內(nèi)在規(guī)律和盈利模型。

        這里就出現(xiàn)了兩種路徑,一條是學(xué)術(shù)研究遵循的從數(shù)據(jù)到信息再到知識(shí)和智慧的研究思路,另一條是商業(yè)活動(dòng)走的從數(shù)據(jù)直接到價(jià)值的捷徑。美國(guó)Wired雜志主編Chris Anderson在他的文章“The End of Theory”中引證Google通過(guò)廣告大賺其錢的案例后大聲發(fā)問(wèn):“現(xiàn)在是時(shí)間問(wèn)這一句了:科學(xué)能從谷歌那兒學(xué)到什么?”[14]

        四、部分和整體關(guān)系

        從亞里士多德到黑格爾,從貝塔朗菲到普里高津,都從自己理論的角度探討了部分與整體關(guān)系范疇。這個(gè)古老的思維范疇在大數(shù)據(jù)時(shí)代又有了新的特點(diǎn)。在小數(shù)據(jù)時(shí)代的傳統(tǒng)思維中,人們對(duì)整體的把握習(xí)慣于通過(guò)窺斑見全豹的方式來(lái)實(shí)現(xiàn),抽樣調(diào)查是數(shù)據(jù)有限條件下獲得科學(xué)結(jié)論的主要手段。對(duì)于同質(zhì)化程度很高的事物來(lái)說(shuō),隨機(jī)抽樣是掌握事物性質(zhì)的重要方法,因?yàn)椤八袛?shù)據(jù)其實(shí)都是樣本而已”,“群體的任何一部分都是樣本,抽樣就是只觀測(cè)群體中的一部分,以得到總體情況的信息?!盵15]156但抽樣調(diào)查有其局限性,主要表現(xiàn)在抽樣隨機(jī)性的實(shí)現(xiàn)比較困難;隨機(jī)抽樣不適合細(xì)節(jié)考察,不適合分析子類別的情況,子類型一旦細(xì)分,抽樣分析結(jié)果的錯(cuò)誤率會(huì)大大增加;隨機(jī)抽樣調(diào)查結(jié)果缺乏延展性,調(diào)查結(jié)論數(shù)據(jù)不可重新使用來(lái)實(shí)現(xiàn)別的分析要求。特別是對(duì)開放的復(fù)雜系統(tǒng)數(shù)據(jù),如結(jié)構(gòu)復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù),“大樣本比小樣本更精確。小樣本比大樣本產(chǎn)生極端結(jié)果的概率大?!盵16]93因此,能運(yùn)用大數(shù)據(jù)來(lái)把握事物的整體性當(dāng)然最好。

        在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)收集分析處理技術(shù)使獲得接近于整體的數(shù)據(jù)越來(lái)越容易。從數(shù)據(jù)收集技術(shù)方面看,互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的廣泛應(yīng)用使網(wǎng)站點(diǎn)擊、手機(jī)導(dǎo)航傳感器以及Facebook和Twitter能夠?qū)崟r(shí)產(chǎn)生海量數(shù)據(jù),而大數(shù)據(jù)技術(shù)可以對(duì)這些數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,這將出現(xiàn)了大數(shù)據(jù)時(shí)代樣本=總體的“全數(shù)據(jù)模式”。在某些特定的情況下,雖然依然可以采用樣本分析法,但這不再是我們分析數(shù)據(jù)的主要方式。美國(guó)大數(shù)據(jù)專家Bill Franks指出,“當(dāng)有大量數(shù)據(jù)時(shí),獲取足夠的樣本并不難。今天的系統(tǒng)都具有足夠的可擴(kuò)展性,直接針對(duì)全體數(shù)據(jù)進(jìn)行分析也是可行的,抽取10%的樣本顧客進(jìn)行分析便不再是必需的,因?yàn)槲覀兛梢灾苯臃治隹蛻?。”[17]136全數(shù)據(jù)模式使得由“抽查”轉(zhuǎn)變?yōu)椤皩?shí)查”成為可能,大數(shù)據(jù)使“我們離實(shí)查相當(dāng)接近,并可以用來(lái)替代產(chǎn)生偏差的抽樣。”[18]

        全數(shù)據(jù)模式無(wú)疑提高了我們把握事物的精度,通過(guò)使用整體數(shù)據(jù),我們可以發(fā)現(xiàn)一些可能被忽略的蜘蛛馬跡,例如,為了防止信用卡詐騙,就不能放過(guò)哪怕一次異常交易情節(jié)。Xoom公司是一個(gè)專門從事跨境匯款業(yè)務(wù)的公司,它運(yùn)用大數(shù)據(jù)技術(shù)分析每一筆交易的所有有關(guān)數(shù)據(jù),2011年的一段時(shí)間,它發(fā)現(xiàn)用“發(fā)現(xiàn)卡”從新澤西州匯款的交易量比往常明顯增多,于是緊急啟動(dòng)報(bào)警程序,從而防止了一個(gè)詐騙集團(tuán)的金融犯罪。現(xiàn)在,很多銀行都在使用信用卡消費(fèi)監(jiān)測(cè)報(bào)警系統(tǒng),一個(gè)正常使用的信用卡如果突然出現(xiàn)一次大額度消費(fèi)或跨國(guó)消費(fèi)情形,客服人員會(huì)馬上打電話提示持卡人,這顯示銀行對(duì)每張卡的消費(fèi)記錄不是零散的,而是整體的。

        全數(shù)據(jù)模式涉及我們對(duì)大數(shù)據(jù)之“大”的認(rèn)知。大數(shù)據(jù)之“大”不僅僅指數(shù)據(jù)體量大,而且還包括數(shù)據(jù)的整體性和價(jià)值性。不挖掘大數(shù)據(jù)的價(jià)值,數(shù)據(jù)再多也沒有用,同樣,不提高數(shù)據(jù)的整體性,數(shù)據(jù)再多價(jià)值也不大。因此,大數(shù)據(jù)是指不用隨機(jī)抽樣分析法這樣的傳統(tǒng)方法,而采用處理所有數(shù)據(jù)的方法,也就是說(shuō),大數(shù)據(jù)方法不是抽樣分析法,而是整體分析法。

        貝塔朗菲曾將亞里士多德關(guān)于部分與整體關(guān)系的觀點(diǎn)概括為“整體大于部分之和”,因?yàn)樵谛?shù)據(jù)時(shí)代,人們獲得的部分?jǐn)?shù)據(jù)的有限性與整體差距太大,部分之和不可能等于整體,但在大數(shù)據(jù)時(shí)代,人們獲得整體數(shù)據(jù)的能力大大增強(qiáng),亞里士多德的結(jié)論也日益受到質(zhì)疑。

        五、精確和模糊關(guān)系

        傳統(tǒng)的思維定勢(shì)一直致力于追求對(duì)事物精確度的認(rèn)識(shí),從“測(cè)量就是認(rèn)知”到“知識(shí)就是力量”,開爾文男爵和培根都是科學(xué)測(cè)量方法的創(chuàng)造者和倡導(dǎo)者。進(jìn)入20世紀(jì)以后,量子力學(xué)的“測(cè)不準(zhǔn)定律”揭示了統(tǒng)計(jì)性、不精確、不確定性也是物質(zhì)運(yùn)動(dòng)的一種基本樣式,使人們開始了對(duì)精確與模糊關(guān)系的重新認(rèn)識(shí)?,F(xiàn)在,大數(shù)據(jù)時(shí)代的到來(lái),使人們開始進(jìn)一步討論“大數(shù)據(jù)混雜”帶給人們思維方式的變化。

        大數(shù)據(jù)之所以會(huì)給人混雜模糊的感覺,主要基于以下幾點(diǎn)。

        1.大數(shù)據(jù)思維往往沒有預(yù)設(shè)。既沒有設(shè)定的目標(biāo),也沒有設(shè)定的問(wèn)題;既沒有設(shè)定的條件,也沒有設(shè)定的理論模型。沒有預(yù)設(shè)會(huì)給人思維混亂的印象,但也會(huì)給人思想自由的感覺。由于大數(shù)據(jù)更多是探尋事物之間的相互關(guān)系,輸入數(shù)據(jù)后能夠發(fā)現(xiàn)什么新情況新規(guī)律,能夠從中得到什么啟示,很多是自然形成的結(jié)果,這些隨機(jī)出現(xiàn)的結(jié)果往往超出既有的思維判斷,人們有時(shí)沒有思想準(zhǔn)備,一下子難以接受。谷歌公司研究部主任彼得·諾維格認(rèn)為,在大數(shù)據(jù)時(shí)代,“沒有模型你也可以成功”,大數(shù)據(jù)技術(shù)和大數(shù)據(jù)資源使我們可以在沒有預(yù)設(shè)目標(biāo)和理論模型的情況下進(jìn)行數(shù)據(jù)挖掘,在互聯(lián)網(wǎng)、云計(jì)算、人工智能條件下,只要有相關(guān)關(guān)系的數(shù)據(jù),統(tǒng)計(jì)分析就能夠發(fā)現(xiàn)過(guò)去的科學(xué)方法發(fā)現(xiàn)不了的新情況和新規(guī)律。

        2.大數(shù)據(jù)混雜的出現(xiàn)與大數(shù)據(jù)之大有關(guān)。數(shù)據(jù)量越大,精確性越小,規(guī)模越大,錯(cuò)誤越多,也就是說(shuō),數(shù)據(jù)量往往與精確性成反比,規(guī)模與錯(cuò)誤成正比。因此,為了擴(kuò)大規(guī)模,我們接受適量錯(cuò)誤的存在。正如技術(shù)咨詢公司Forrester所認(rèn)為的,有時(shí)得到2加2約等于3.9的結(jié)果,也很不錯(cuò)了。

        3.大數(shù)據(jù)混雜的出現(xiàn)與大數(shù)據(jù)的非結(jié)構(gòu)化有關(guān)。大數(shù)據(jù)既包括文本數(shù)據(jù),還包括圖片、音頻、視頻、日志、地理位置以及聊天記錄、支付記錄等各種類別數(shù)據(jù),這些數(shù)據(jù)結(jié)構(gòu)混雜,格式不一。如果要達(dá)到格式一致,就需要進(jìn)行數(shù)據(jù)分類清理,而這在大數(shù)據(jù)條件下既難做到,也無(wú)必要。在現(xiàn)在的數(shù)據(jù)倉(cāng)庫(kù)中,“只有5%的數(shù)據(jù)是有框架的且能適用于傳統(tǒng)數(shù)據(jù)庫(kù)的,如果不接受混亂,剩下95%的非框架數(shù)據(jù)都無(wú)法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶?!盵19]

        4.大數(shù)據(jù)混雜的出現(xiàn)與大數(shù)據(jù)的容錯(cuò)機(jī)制有關(guān)。Google的翻譯系統(tǒng)是這方面較好的例證,“盡管其輸入源很混亂,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對(duì)而言還是最好的,而且可翻譯的內(nèi)容更多”。“從谷歌的例子來(lái)看,它之所以能比IBM的Candide系統(tǒng)多利用成千上萬(wàn)的數(shù)據(jù),是因?yàn)樗邮芰擞绣e(cuò)誤的數(shù)據(jù)?!盵20]54美國(guó)紐約大學(xué)教授馮啟思(Kaiser Fung)在《數(shù)據(jù)統(tǒng)治世界》一書中論述了“出錯(cuò)的好處”,指出“雖然明知容易犯錯(cuò),可依然信心飽滿,這是大統(tǒng)計(jì)學(xué)家的標(biāo)志。他們認(rèn)識(shí)到?jīng)]人能獨(dú)占真理,只要世界上還有不確定性存在,真理就未可知?!盵21]222正是大數(shù)據(jù)的容錯(cuò)機(jī)制大大提高了大數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性,“不怕一萬(wàn)就怕萬(wàn)一”,因?yàn)槿f(wàn)一的疏漏也許就是致命的。正如大數(shù)據(jù)專家D.J.Patel所指出的,在網(wǎng)上搜索I.B.M可以有成千上萬(wàn)種指代,而數(shù)據(jù)混雜換來(lái)的是沒有遺漏,沒有遺漏會(huì)使我們獲得一些本可能被錯(cuò)過(guò)的變化。

        大數(shù)據(jù)的混雜模糊表面上破壞了數(shù)據(jù)的精確性,其實(shí)它是在更大的規(guī)模上和更大的范圍內(nèi)實(shí)現(xiàn)數(shù)據(jù)的精確性,因?yàn)樗鼫p少了遺漏,減少了被錯(cuò)過(guò)的機(jī)會(huì),提高了大數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確率,而準(zhǔn)確預(yù)測(cè)正是大數(shù)據(jù)的核心所在。從小數(shù)據(jù)精確到大數(shù)據(jù)混雜再到大數(shù)據(jù)精確,人們的思維仿佛是走了一條正-反-合的道路,也就是肯定-否定-否定之否定的道路。

        [1]王勤:《印刷“觸網(wǎng)”:傳統(tǒng)與新銳的碰撞》,載《中國(guó)新聞出版報(bào)》2014年3月27日。

        [2]涂子沛:《大數(shù)據(jù)》,桂林:廣西師范大學(xué)出版社2013年版。

        [3]鄔賀銓:《大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)》,載《求是》2013年第4期。

        [4]倪光南:《關(guān)于大數(shù)據(jù)》,載《高科技與產(chǎn)業(yè)化》2013年第5期。

        [5]李德毅:《在實(shí)踐中研究大數(shù)據(jù)和你在一起》,載《科技資訊網(wǎng)》2013年6月5日。

        [6]張建設(shè):《大數(shù)據(jù)悖論》,載《中國(guó)計(jì)算機(jī)報(bào)》2013年第16期。

        [7](美)艾伯特-拉斯洛·巴拉巴西:《爆發(fā):大數(shù)據(jù)時(shí)代預(yù)見未來(lái)的新思維》,馬慧譯,北京:中國(guó)人民大學(xué)出版社2012年版。

        [8]D.J.Watts.“A twenty-first century science”,Nature,2007,volume 445.(489).

        [9]李國(guó)杰:《大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域》,載《中國(guó)科學(xué)院院刊》2012年第6期。

        [10]吳軍:《數(shù)學(xué)之美》,北京:人民郵電出版社2012年第6期。

        [11](英)維克托·邁爾-舍恩伯格:《大數(shù)據(jù)時(shí)代:生活、工作與思維的變革》,周濤譯,杭州:浙江人民出版社2013年版。

        [12]周濤:《在路上晃晃悠悠.“大數(shù)據(jù)時(shí)代”》,杭州:浙江人民出版社2013年版。

        [13]李國(guó)杰:《大數(shù)據(jù)研究的科學(xué)價(jià)值》,載《中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》2012年第9期。

        [14]Chris Anderson.“The End of Theory:The Date Deluge Makes the Scientific Method Obsolete”,Wired,2008,16,(7).

        [15](美)道格拉斯·哈伯德:《數(shù)據(jù)化決策》,鄧洪濤譯,廣州:中國(guó)圖書出版集團(tuán)世界圖書出版公司2013年版。

        [16](美)丹尼爾·卡爾曼:《思考,快與慢》,胡曉嬌、李愛民、何夢(mèng)瑩譯,北京:中信出版社2012年版。

        [17](美)Bill Franks:《駕馭大數(shù)據(jù)》,黃海等譯,北京:人民郵電出版社2013年版。

        [18]黃升民、劉珊:《“大數(shù)據(jù)”背景下營(yíng)銷體系的解構(gòu)和重構(gòu)》,載《現(xiàn)代傳播》2012年第11期。

        [19]張濤甫:《大數(shù)據(jù)時(shí)代的出版困局及其突破》,載《編輯學(xué)刊》2013年第2期。

        [20](美)馮啟思:《數(shù)據(jù)統(tǒng)治世界》,北京:中國(guó)人民大學(xué)出版社2013年版。

        責(zé)任編輯 吳蘭麗

        Big Data Will Change Several Major Thinking Categories

        ZHANG Chi
        (School of Journalism&Information Communication,HUST,Wuhan430074,China)

        The heated discussion about big data thinking has two meanings:first is knowing and attaching importance to big data in thought,which is a kind of thinking attitude;Second is big data thinking category,which is a way of thinking.Big data thinking category is the organic unity of subjective logic and objective logic in the big data era,which reflects dialectical relationship of its existence and develpment.Big data surge will change the people’s traditional understanding about a series of thinking categories including possibility and reality,inevitability and contingency,causation and correlation,part and whole,accuracy and vague and so on.

        big data;bit data thinking;thinking category

        張弛,華中科技大學(xué)新聞與信息傳播學(xué)院博士生,研究方向?yàn)樾侣剛鞑ァ⒋髷?shù)據(jù)傳播。

        2014-11-30

        C795

        A

        1671-7023(2015)02-0120-06

        猜你喜歡
        因果關(guān)系思維
        思維跳跳糖
        思維跳跳糖
        思維跳跳糖
        思維跳跳糖
        思維跳跳糖
        思維跳跳糖
        玩忽職守型瀆職罪中嚴(yán)重不負(fù)責(zé)任與重大損害后果的因果關(guān)系
        做完形填空題,需考慮的邏輯關(guān)系
        論刑法中提前的因果關(guān)系與延后的因果關(guān)系
        幫助犯因果關(guān)系芻議
        日本人妖熟女另类二区| 夜夜爽无码一区二区三区| 水蜜桃亚洲一二三四在线| 国产精品美女久久久久久久久| 猫咪www免费人成网最新网站| 亚洲日韩专区在线视频| 日本少妇爽的大叫高潮了| 国产免费人成视频在线| 亚洲精品国产第一综合色吧| 一区二区三区国产| 亚洲免费视频播放| 熟女丝袜美腿亚洲一区二区三区 | 亚洲国产天堂久久综合| 久久国产劲暴∨内射| 欧美精品在线一区| 亚洲视频精品一区二区三区| 国产让女高潮的av毛片| 无码福利写真片视频在线播放| 乱伦一区二| 久久精品亚洲成在人线av| 中国免费看的片| 国产亚洲精品精品精品| 风流少妇又紧又爽又丰满| 国产免费一区二区av| 自拍偷拍亚洲视频一区二区三区| 狂插美女流出白浆视频在线观看| 色偷偷av一区二区三区| 最好看2019高清中文字幕视频| 国产精品国产三级国产专播| 日韩国产自拍视频在线观看| 免费无码又爽又高潮视频| 又粗又大又黄又爽的免费视频| 国产亚洲高清在线精品不卡| 亚洲av色精品国产一区二区三区| 欧美xxxxx在线观看| 野外性史欧美k8播放| 精品999无码在线观看| 少妇免费av一区二区三区久久| 高潮迭起av乳颜射后入| 日韩啪啪精品一区二区亚洲av| 宅男视频一区二区三区在线观看|