亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)價(jià)值期望探討

        2017-08-09 01:32:26王崇駿
        大數(shù)據(jù) 2017年4期

        王崇駿

        南京大學(xué)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023

        論壇

        大數(shù)據(jù)價(jià)值期望探討

        王崇駿

        南京大學(xué)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023

        各邊利益主體對(duì)大數(shù)據(jù)價(jià)值的共同期盼,引發(fā)了社會(huì)各界對(duì)大數(shù)據(jù)的普遍關(guān)注。不同利益主體的自有利益使然,各邊的價(jià)值期望是不同的,但這些迥異的價(jià)值期望恰恰都是大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的目標(biāo)。嘗試從大數(shù)據(jù)的多邊定義和理解出發(fā),梳理不同研究視角的相關(guān)研究以及不同利益角色的價(jià)值期望,介紹了相關(guān)研究及產(chǎn)業(yè)化現(xiàn)狀,并給出了實(shí)踐可行的方法、思路和策略。

        big data, data science, value expectations

        1 引言

        “大數(shù)據(jù)”是近年來(lái)最為熱門(mén)的技術(shù)名詞之一,從其誕生之日起,就引起了“政、產(chǎn)、學(xué)、研、用”各界的普遍熱議,也獲得了哲學(xué)家、科學(xué)家、技術(shù)研究者、工程研發(fā)人員等的普遍關(guān)注[1],其原因或許在于各行各業(yè)的人們對(duì)“大數(shù)據(jù)價(jià)值”都有共同的預(yù)判或期待。

        由于價(jià)值具有較強(qiáng)的主觀性,因而不同利益角色對(duì)大數(shù)據(jù)價(jià)值期望并不一樣,這直接導(dǎo)致了在大數(shù)據(jù)價(jià)值實(shí)現(xiàn)過(guò)程中難以形成統(tǒng)一的建設(shè)思維和技術(shù)口徑,從而影響大數(shù)據(jù)項(xiàng)目的價(jià)值彰顯。本文對(duì)不同的大數(shù)據(jù)價(jià)值期望以及由此引發(fā)的對(duì)大數(shù)據(jù)彼此互異的理解進(jìn)行梳理,嘗試抽象出價(jià)值實(shí)現(xiàn)過(guò)程中必須響應(yīng)的挑戰(zhàn)和問(wèn)題,并從已有的參考文獻(xiàn)和工程實(shí)踐方面給出一些具體的思路和提示。

        2 大數(shù)據(jù)多邊理解

        2.1 大數(shù)據(jù)溯源

        從宇宙大爆炸到地球誕生,再到簡(jiǎn)單生命體出現(xiàn)(38億年前),地球上的物種開(kāi)始不斷地豐富、發(fā)展和進(jìn)化。與其他動(dòng)物僅通過(guò)遺傳進(jìn)化不同,人類(lèi)在進(jìn)化過(guò)程中發(fā)展和演化出了一種非遺傳性的繼承:通過(guò)獨(dú)一無(wú)二且日益發(fā)達(dá)的文化媒介(語(yǔ)言、文字以及不同歷史階段的存儲(chǔ)介質(zhì)),將知識(shí)留給后代,這種文化傳統(tǒng)使得人類(lèi)以很高的速度進(jìn)化,并最終成為這個(gè)星球的統(tǒng)治者。

        這里所說(shuō)的知識(shí)指的是人類(lèi)在改造世界的實(shí)踐中獲得的認(rèn)識(shí)和經(jīng)驗(yàn)的總結(jié)歸納,可以指導(dǎo)解決實(shí)踐問(wèn)題的觀點(diǎn)、經(jīng)驗(yàn)、程序等信息。因此發(fā)現(xiàn)、傳遞和學(xué)習(xí)知識(shí)是人類(lèi)文明進(jìn)程中亙古不變的主題。參考文獻(xiàn)[2]闡述了知識(shí)構(gòu)建和管理的完整過(guò)程:從噪音中分揀出數(shù)據(jù),轉(zhuǎn)化為信息,升級(jí)為知識(shí),升華為智慧,讓信息從龐大無(wú)序到分類(lèi)有序。

        人類(lèi)對(duì)數(shù)據(jù)的認(rèn)知經(jīng)歷了漫長(zhǎng)的發(fā)展歷史,最早可溯源至“數(shù)覺(jué)”。所謂數(shù)覺(jué),指的是在一個(gè)小的集合里,增加或減去一個(gè)元素的時(shí)候,盡管未曾直接知道元素增減,也能夠辨認(rèn)到其中有所變化。圖1給出了人類(lèi)從數(shù)覺(jué)到大數(shù)據(jù)的大致脈絡(luò)。

        ● 人類(lèi)從最原始的數(shù)覺(jué),逐漸形成了數(shù)值的概念,然后發(fā)明了計(jì)數(shù)、算術(shù)、模擬計(jì)算和電子計(jì)算,并因?yàn)殡娮佑?jì)算機(jī)的發(fā)明和廣泛應(yīng)用,人類(lèi)從繁重的腦力勞動(dòng)中解放出來(lái),推動(dòng)人類(lèi)向信息社會(huì)邁進(jìn)。

        ● 因?yàn)槿祟?lèi)需求的不斷膨脹以及軟硬件技術(shù)的不斷發(fā)展,人們的關(guān)注點(diǎn)在不斷地演變:從最開(kāi)始的數(shù)值,到后來(lái)的數(shù)據(jù),再到目前的大數(shù)據(jù)。人們的理念也在不斷地演變:在數(shù)據(jù)時(shí)代,計(jì)算是中心;在大數(shù)據(jù)時(shí)代,數(shù)據(jù)是中心。

        ● 從數(shù)覺(jué)到數(shù)據(jù)的發(fā)展,人類(lèi)用了億萬(wàn)年的時(shí)間,在這個(gè)時(shí)間段發(fā)明的一系列工具、算法、設(shè)備大多是在響應(yīng)和滿(mǎn)足人類(lèi)最原始的需求;從數(shù)據(jù)到大數(shù)據(jù)的發(fā)展,人類(lèi)僅僅用了50年左右的時(shí)間,在這個(gè)時(shí)間段發(fā)明的許多工具、算法、設(shè)備一方面是在響應(yīng)用戶(hù)的膨脹需求,另一方面是在響應(yīng)因?yàn)樵S多新技術(shù)的使用而引發(fā)的一系列新問(wèn)題。

        2.2 大數(shù)據(jù)難題

        數(shù)據(jù)是指存儲(chǔ)在某種介質(zhì)上能夠識(shí)別的物理符號(hào)(數(shù)、字符或者其他)。這個(gè)定義暗含著數(shù)據(jù)獲取、存儲(chǔ)和使用的一般路徑,從計(jì)算機(jī)的角度來(lái)看:

        ● 數(shù)據(jù)獲取意味著必須將物理信號(hào)轉(zhuǎn)換成計(jì)算機(jī)可以存儲(chǔ)的數(shù)據(jù),這涉及傳感、采樣、模擬信號(hào)/數(shù)字信號(hào)轉(zhuǎn)換(A/D轉(zhuǎn)換)以及在bit基礎(chǔ)上的字節(jié)化和數(shù)據(jù)化;

        ● 數(shù)據(jù)存儲(chǔ)意味著將數(shù)據(jù)存儲(chǔ)在什么介質(zhì)上以及如何組織和管理這些數(shù)據(jù),任何一個(gè)數(shù)據(jù)被記錄、存儲(chǔ)一定有其最原始的價(jià)值期望,而一旦原始價(jià)值被實(shí)現(xiàn),數(shù)據(jù)事實(shí)就是以一種成本存在;

        ● 數(shù)據(jù)使用意味著需要針對(duì)某個(gè)具體的應(yīng)用目標(biāo),使用計(jì)算機(jī)相關(guān)技術(shù)完成問(wèn)題建模和求解。

        圍繞數(shù)據(jù)獲取、存儲(chǔ)及使用的相關(guān)技術(shù)涉及的基礎(chǔ)學(xué)科的發(fā)展,使得數(shù)據(jù)在規(guī)模量級(jí)、數(shù)據(jù)精度(類(lèi)型)、獲得速度上都得到迅猛的發(fā)展。計(jì)算機(jī)技術(shù)的發(fā)展尚不能完全匹配基礎(chǔ)學(xué)科迅猛發(fā)展,應(yīng)對(duì)人類(lèi)需求不斷膨脹而引發(fā)的在數(shù)據(jù)層、計(jì)算層、應(yīng)用層的難題和挑戰(zhàn),在這個(gè)情境下,大數(shù)據(jù)作為一個(gè)“難題”被提到人們的面前。

        大數(shù)據(jù)的定義可以參見(jiàn)維基百科:所謂大數(shù)據(jù),就是大到無(wú)法通過(guò)現(xiàn)有手段在合理時(shí)間內(nèi)截取、管理、處理并整理成為人類(lèi)所能解讀的信息。4V(volume、variety、velocity、value)往往是伴隨著類(lèi)似定義的通常描述,而不同的利益角色又會(huì)根據(jù)不同視角給予更多的補(bǔ)充,比如精確性(veracity)、可視化(visualization)、有效性(validity)等。事實(shí)上,所有這些特征都是嘗試從數(shù)據(jù)層、計(jì)算層和應(yīng)用層進(jìn)行大數(shù)據(jù)特征描述。總體而言,大數(shù)據(jù)暗含以下3個(gè)方面的屬性。

        ● 規(guī)模屬性:大數(shù)據(jù)在規(guī)模量級(jí)上無(wú)論是相對(duì)于以往還是絕對(duì)值都很大,數(shù)據(jù)層的大規(guī)模性以及數(shù)據(jù)本身具備的多模式性、多模態(tài)性和異構(gòu)性給存取、算法、計(jì)算和應(yīng)用帶來(lái)了極大的挑戰(zhàn)。

        ● 技術(shù)屬性:大數(shù)據(jù)的價(jià)值實(shí)現(xiàn)依賴(lài)一系列技術(shù)合集,涉及數(shù)據(jù)層、算法層、計(jì)算層、應(yīng)用開(kāi)發(fā)層等多個(gè)方面。

        ● 價(jià)值屬性:各邊角色對(duì)大數(shù)據(jù)價(jià)值都有共識(shí)和期望,不同利益角色的個(gè)體(組織)對(duì)大數(shù)據(jù)的價(jià)值理解和關(guān)注點(diǎn)不同。

        圖1 從數(shù)覺(jué)到大數(shù)據(jù)

        2.3 大數(shù)據(jù)流程

        大數(shù)據(jù)是數(shù)據(jù)本身及面向數(shù)據(jù)價(jià)值挖掘的技術(shù)集合,能夠?qū)崿F(xiàn)應(yīng)用驅(qū)動(dòng)的多邊商業(yè)價(jià)值,因此,數(shù)據(jù)、技術(shù)、思維是大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的3個(gè)基本要素,其基本邏輯在于:富集和整合多數(shù)據(jù)源數(shù)據(jù),然后開(kāi)發(fā)數(shù)據(jù)處理與分析工具集,在此基礎(chǔ)上開(kāi)發(fā)目標(biāo)應(yīng)用系統(tǒng)。開(kāi)展大數(shù)據(jù)項(xiàng)目建設(shè),自底向上需要從4個(gè)方面進(jìn)行,分別是:數(shù)據(jù)渠道層、數(shù)據(jù)基礎(chǔ)實(shí)施層、應(yīng)用基礎(chǔ)實(shí)施層和應(yīng)用層。

        (1)數(shù)據(jù)渠道層

        無(wú)論價(jià)值期望如何,“數(shù)據(jù)在哪”是擺在每一位大數(shù)據(jù)項(xiàng)目建設(shè)者面前的首要問(wèn)題,因此數(shù)據(jù)渠道梳理、建設(shè)是大數(shù)據(jù)項(xiàng)目開(kāi)展的第一步??傮w而言,數(shù)據(jù)源可能為既有業(yè)務(wù)系統(tǒng)、第三方業(yè)務(wù)系統(tǒng)、政府類(lèi)數(shù)據(jù)、社會(huì)面數(shù)據(jù)等。雖然每一類(lèi)數(shù)據(jù)源都對(duì)應(yīng)著不同的數(shù)據(jù)獲取協(xié)議、方法加以響應(yīng),但數(shù)據(jù)源的梳理和渠道建設(shè)往往與技術(shù)無(wú)關(guān),在更多的情形下往往需要某種商務(wù)模式的支撐。值得注意的是,政府類(lèi)數(shù)據(jù)的逐步開(kāi)放為大數(shù)據(jù)開(kāi)放共享提供了一個(gè)示范之外,事實(shí)上也降低了大數(shù)據(jù)項(xiàng)目建設(shè)在大部分公共數(shù)據(jù)獲取的難度和門(mén)檻,特別有助于中小型初創(chuàng)企業(yè)的產(chǎn)品研發(fā)。

        (2)數(shù)據(jù)基礎(chǔ)實(shí)施層

        在數(shù)據(jù)源給定并且商務(wù)上已經(jīng)確認(rèn)的基礎(chǔ)上,數(shù)據(jù)基礎(chǔ)實(shí)施層的功能目標(biāo)在于將數(shù)據(jù)源數(shù)據(jù)獲取、連接、整合和融合,為潛在的應(yīng)用提供高性能的數(shù)據(jù)服務(wù)。因此在這個(gè)層次上,幾個(gè)基本的技術(shù)要點(diǎn)在于:情境知識(shí)庫(kù)的建設(shè)、數(shù)據(jù)采集工具的設(shè)計(jì)與實(shí)現(xiàn)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)集成、語(yǔ)義融合等。

        (3)應(yīng)用基礎(chǔ)實(shí)施層

        該層主要為未來(lái)的潛在應(yīng)用開(kāi)發(fā)提供基礎(chǔ)的計(jì)算服務(wù),具體而言幾個(gè)基本的技術(shù)要點(diǎn)在于:通用數(shù)據(jù)接口、一體化網(wǎng)絡(luò)服務(wù)、數(shù)據(jù)分析服務(wù)、安全服務(wù)等。

        (4)應(yīng)用層

        該層次主要面向具體的應(yīng)用需求定制開(kāi)發(fā)垂直應(yīng)用系統(tǒng)(平臺(tái)),一般而言,該層次需要考慮的問(wèn)題有:新開(kāi)發(fā)的系統(tǒng)(功能)與原業(yè)務(wù)系統(tǒng)的關(guān)系、如何為創(chuàng)新應(yīng)用提供服務(wù)支撐、如何與第三方有效無(wú)縫連接等。

        3 大數(shù)據(jù)研究視角

        3.1 哲學(xué)層面

        從哲學(xué)層面理解大數(shù)據(jù)包括但不限于以下3個(gè)方面。

        ● 從哲學(xué)層面研究大數(shù)據(jù)給人們帶來(lái)了什么以及如何理解大數(shù)據(jù)引發(fā)的各類(lèi)新生事物,往往哲學(xué)研究者會(huì)關(guān)注于此。幾個(gè)樸素的問(wèn)題包括:大數(shù)據(jù)是什么、大數(shù)據(jù)從哪里來(lái)、大數(shù)據(jù)到哪里去、大數(shù)據(jù)的本質(zhì)是什么、是否真的需要大數(shù)據(jù)、應(yīng)該如何擁抱大數(shù)據(jù)。

        ● 將大數(shù)據(jù)作為一種思維方式,如何利用大數(shù)據(jù)解決一些實(shí)際問(wèn)題,“第四范式”[3,4]就是基于這個(gè)視角提出的一個(gè)新興概念。

        ● 作為科學(xué)研究的“第四范式”,大數(shù)據(jù)技術(shù)已經(jīng)成為了科學(xué)研究中的一個(gè)強(qiáng)大的推動(dòng)力,目前“科學(xué)大數(shù)據(jù)”已經(jīng)在地理遙感、高能物理、氣候氣象、藥物化學(xué)、社會(huì)人文科學(xué)等領(lǐng)域得到了廣泛應(yīng)用[5-7];另一方面,在進(jìn)行大數(shù)據(jù)項(xiàng)目開(kāi)發(fā)時(shí),利用數(shù)據(jù)平臺(tái)為領(lǐng)域用戶(hù)進(jìn)行領(lǐng)域研究和后評(píng)估,是大數(shù)據(jù)項(xiàng)目落地時(shí)必須考慮的隱含需求。

        3.2 科學(xué)層面

        從科學(xué)的層面來(lái)看,大數(shù)據(jù)背后隱含著若干關(guān)鍵科學(xué)問(wèn)題。

        計(jì)算機(jī)科學(xué)關(guān)注的是可計(jì)算問(wèn)題,而傳統(tǒng)的計(jì)算問(wèn)題可以歸結(jié)為算法問(wèn)題,即如果此算法非圖靈機(jī)可計(jì)算,即可判定該問(wèn)題(計(jì)算)無(wú)法由計(jì)算機(jī)處理。而傳統(tǒng)的計(jì)算機(jī)科學(xué)關(guān)于計(jì)算的研究是專(zhuān)注于計(jì)算本身,而不在意數(shù)據(jù)?;蛘哒f(shuō)傳統(tǒng)的計(jì)算是基于“數(shù)據(jù)完備、不變”的假設(shè)。大數(shù)據(jù)場(chǎng)景下,數(shù)據(jù)是持續(xù)變化和更新的,傳統(tǒng)的計(jì)算理論在大數(shù)據(jù)場(chǎng)景下是否還有效?或者說(shuō),在大數(shù)據(jù)場(chǎng)景下,針對(duì)數(shù)據(jù)海量且不斷增量的事實(shí),這個(gè)問(wèn)題是否可計(jì)算?進(jìn)而,在可計(jì)算問(wèn)題之后還可延伸的若干問(wèn)題,比如計(jì)算可信問(wèn)題、資源(數(shù)據(jù)、計(jì)算、能源等)管理問(wèn)題等。

        上述這些都是典型的計(jì)算機(jī)科學(xué)問(wèn)題,在大數(shù)據(jù)場(chǎng)景下,大家更愿意用數(shù)據(jù)科學(xué)來(lái)進(jìn)行描述[3,8-10]。

        3.3 技術(shù)層面

        在技術(shù)層次,大數(shù)據(jù)項(xiàng)目涉及的技術(shù)流程如圖2所示,即:在具體計(jì)算環(huán)境中,從多個(gè)數(shù)據(jù)源中采集數(shù)據(jù),然后匯聚在一起,通過(guò)對(duì)數(shù)據(jù)進(jìn)行處理和分析,為具體的應(yīng)用提供服務(wù)[1,11,12]。

        下文簡(jiǎn)要介紹圖2中涉及的4個(gè)技術(shù)要點(diǎn)

        (1)數(shù)據(jù)采集與匯聚

        功能上,通過(guò)不同的數(shù)據(jù)獲取協(xié)議從不同的數(shù)據(jù)源中獲得數(shù)據(jù),并將這些數(shù)據(jù)以某種形式進(jìn)行集成和連接,有以下3個(gè)難點(diǎn)。

        ● 大數(shù)據(jù)源自數(shù)據(jù)層的普適“多源、異構(gòu)、跨時(shí)空”的典型特征,使得在數(shù)據(jù)采集技術(shù)層次上必須基于不同的數(shù)據(jù)協(xié)議進(jìn)行數(shù)據(jù)的提取和交換。但是在實(shí)際情況下,原始系統(tǒng)開(kāi)發(fā)團(tuán)隊(duì)缺位導(dǎo)致的文檔缺失、數(shù)據(jù)庫(kù)封閉使得數(shù)據(jù)交換協(xié)議缺失;另一方面,由于不同的數(shù)據(jù)往往是存放在不同的利益主體的服務(wù)器上,如果沒(méi)有持續(xù)、匹配的商務(wù)合作支撐,數(shù)據(jù)獲取幾乎不可實(shí)現(xiàn)。

        ● 任何一個(gè)數(shù)據(jù)源數(shù)據(jù)的存在都有其最原始的價(jià)值期望,每一個(gè)數(shù)據(jù)源表示的物理對(duì)象并不一致,加之每個(gè)數(shù)據(jù)源的數(shù)據(jù)建設(shè)依托于不同的IT實(shí)施思路和建設(shè)水平,這都給有效的數(shù)據(jù)集成帶來(lái)了障礙。

        ● 如何對(duì)這些多源、異構(gòu)、跨時(shí)空數(shù)據(jù)進(jìn)行有效特征提取、語(yǔ)義理解和融合是重中之重,但也是難題。

        (2)數(shù)據(jù)存儲(chǔ)與管理

        從不同數(shù)據(jù)源采集來(lái)的數(shù)據(jù)以及進(jìn)行各種預(yù)處理后的數(shù)據(jù)以何種方式存取也是一個(gè)在技術(shù)選型階段尤其需要考慮的問(wèn)題。在大數(shù)據(jù)的應(yīng)用環(huán)境下,隨著持續(xù)增長(zhǎng)的種類(lèi)繁多的非結(jié)構(gòu)化的海量數(shù)據(jù),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)不能滿(mǎn)足更加迥異的數(shù)據(jù)格式了。非關(guān)系數(shù)據(jù)庫(kù)等新興的數(shù)據(jù)存儲(chǔ)技術(shù)應(yīng)運(yùn)而生,如基于Hadoop平臺(tái)的HBase、Cassandra、MongoDB、Neo4J和Riak等。

        在實(shí)際應(yīng)用過(guò)程中,數(shù)據(jù)存儲(chǔ)方案的選型往往需要綜合考慮源自數(shù)據(jù)層、應(yīng)用層和實(shí)際應(yīng)用場(chǎng)景及部署實(shí)施的條件約束等多種因素。

        (3)數(shù)據(jù)處理與分析

        通過(guò)對(duì)數(shù)據(jù)進(jìn)行有效處理和分析,達(dá)到為應(yīng)用目標(biāo)服務(wù)的目的,這里包含3條路徑。

        ● 在領(lǐng)域知識(shí)已經(jīng)豐富完備的前提下,以邏輯為基礎(chǔ),利用領(lǐng)域知識(shí)對(duì)數(shù)據(jù)進(jìn)行加工處理,然后直接為應(yīng)用服務(wù)。

        圖2 大數(shù)據(jù)技術(shù)邏輯

        ● 以機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?yàn)榛A(chǔ),通過(guò)對(duì)歷史數(shù)據(jù)進(jìn)行建模獲得知識(shí),然后利用此知識(shí)對(duì)數(shù)據(jù)進(jìn)行加工處理,然后直接為應(yīng)用服務(wù)。在大數(shù)據(jù)應(yīng)用環(huán)境下,機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘面臨的挑戰(zhàn)在于數(shù)據(jù)及標(biāo)簽的動(dòng)態(tài)變化性、專(zhuān)家標(biāo)注樣本成本過(guò)高等,參考文獻(xiàn)[13-21]都是圍繞這些挑戰(zhàn)展開(kāi)的。

        ● 將上述基于領(lǐng)域知識(shí)和數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)有效地結(jié)合在一起,從而達(dá)到雙邊互補(bǔ),同時(shí)更好地為應(yīng)用服務(wù)。以AAAI 2017的最佳論文[22]為例,該論文利用了先前的領(lǐng)域知識(shí),從而將輸出空間約束到一個(gè)特定的學(xué)習(xí)結(jié)構(gòu),而不是簡(jiǎn)單地從輸入到輸出的映射,這種做法使得在進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時(shí)候不需要大量有標(biāo)簽數(shù)據(jù),卻能夠?qū)W習(xí)得到更先進(jìn)的結(jié)構(gòu)。

        (4)計(jì)算環(huán)境

        大數(shù)據(jù)的復(fù)雜性及規(guī)模性給大數(shù)據(jù)分析帶來(lái)的挑戰(zhàn)至少有兩點(diǎn):如何響應(yīng)數(shù)據(jù)類(lèi)型的復(fù)雜性給數(shù)據(jù)的理解、建模帶來(lái)的挑戰(zhàn);如何用更快的計(jì)算效率響應(yīng)數(shù)據(jù)的海量、并行及快速更新的特性。前者的挑戰(zhàn)需要研發(fā)新型的理論、算法、技術(shù),而后者需要所有的算法、技術(shù)(改進(jìn))必須依賴(lài)合適的高性能計(jì)算架構(gòu),目前用于高性能計(jì)算的策略有以下3類(lèi)。

        ● 充分提升和挖掘單個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算性能,比如通過(guò)對(duì)計(jì)算主機(jī)進(jìn)行中央處理器(central processing unit,CPU)、內(nèi)存、硬盤(pán)等的擴(kuò)容嘗試,增加單個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算性能,顯然,這已不是純粹的技術(shù)層次的問(wèn)題。

        ● 通過(guò)圖形處理器(graphics processing unit,GPU)技術(shù)的引入達(dá)到大幅提升單臺(tái)計(jì)算設(shè)備的計(jì)算性能。相對(duì)而言,CPU的靈活性最大,可以高效運(yùn)行各種計(jì)算任務(wù),但局限是一次只能處理相對(duì)很少量的任務(wù);GPU不像CPU那樣靈活,處理的任務(wù)范圍較小,但其強(qiáng)大之處在于能夠同時(shí)執(zhí)行許多任務(wù)。谷歌公司在ISCA 2017 公布的張量處理器(tensor processing unit,TPU)論文代表了谷歌公司為其人工智能服務(wù)設(shè)計(jì)專(zhuān)用硬件邁出的第一步[23]。TPU是專(zhuān)門(mén)用于TensorFlow(谷歌公司開(kāi)源的一個(gè)機(jī)器學(xué)習(xí)軟件庫(kù))中執(zhí)行特性功能的專(zhuān)用集成電路(application specific integrated circuit,ASIC),相對(duì)而言幾乎沒(méi)有靈活性,但性能極佳。

        ● 將復(fù)雜的任務(wù)“分而治之”,引入分布式計(jì)算架構(gòu)以提升計(jì)算性能,分布式計(jì)算的基本出發(fā)點(diǎn)在于通過(guò)更多的計(jì)算能力不是很強(qiáng)的計(jì)算節(jié)點(diǎn),利用某種合適的策略達(dá)到整體計(jì)算性能的極大提升,利用不同的分布式策略和目標(biāo),達(dá)到高性能計(jì)算的目的。目前主流的分布式計(jì)算架構(gòu)有Hadoop、Spark、Storm等。當(dāng)前許多工作[24-34]是針對(duì)不同的應(yīng)用場(chǎng)景、不同的數(shù)據(jù)特點(diǎn),圍繞計(jì)算架構(gòu)的改良展開(kāi)相關(guān)研究,也有許多工作是在既定的計(jì)算架構(gòu)基礎(chǔ)上進(jìn)行算法改良研究。以參考文獻(xiàn)[35]為例,作者在Spark平臺(tái)上實(shí)現(xiàn)了一個(gè)可擴(kuò)展復(fù)合優(yōu)化學(xué)習(xí)方法——SCOPE,實(shí)驗(yàn)結(jié)果表明,其優(yōu)于Spark上的其他分布式學(xué)習(xí)方法。

        4 大數(shù)據(jù)價(jià)值期望

        4.1 作為一種戰(zhàn)略資源

        對(duì)于政府而言,大數(shù)據(jù)被認(rèn)為是提高綜合國(guó)力、增強(qiáng)本國(guó)競(jìng)爭(zhēng)力的重要來(lái)源,因此,從國(guó)家層面出臺(tái)各類(lèi)政策、指南,借此引導(dǎo)企業(yè)和組織進(jìn)行順勢(shì)的發(fā)展,就成為各國(guó)政府角力的法門(mén)。

        美國(guó)政府在2012年3月29日發(fā)布全球首個(gè)國(guó)家層面的大數(shù)據(jù)戰(zhàn)略,2016年5月23日發(fā)布“聯(lián)邦大數(shù)據(jù)研究與開(kāi)發(fā)戰(zhàn)略計(jì)劃”,以加速其2012年提出的“大數(shù)據(jù)研發(fā)行動(dòng)”進(jìn)程。此外,聯(lián)合國(guó)的“數(shù)據(jù)脈動(dòng)”計(jì)劃、英國(guó)的“數(shù)據(jù)權(quán)”運(yùn)動(dòng)、日本的“面向2020年的ICT綜合戰(zhàn)略”、韓國(guó)的大數(shù)據(jù)中心戰(zhàn)略都是政府從戰(zhàn)略層面進(jìn)行的國(guó)家意志層次的規(guī)劃和部署。

        我國(guó)政府在2014年政府兩會(huì)工作報(bào)告中就提及大數(shù)據(jù)計(jì)劃,2016年11月29日,國(guó)務(wù)院印發(fā)《關(guān)于印發(fā)“十三五”國(guó)家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃的通知》,提出實(shí)施大數(shù)據(jù)戰(zhàn)略。

        在各國(guó)政府實(shí)施大數(shù)據(jù)戰(zhàn)略的時(shí)候,政府?dāng)?shù)據(jù)開(kāi)放是其中的一個(gè)共同行動(dòng)。美國(guó)政府從2009年開(kāi)始就進(jìn)行了政府?dāng)?shù)據(jù)開(kāi)放的行動(dòng),并于2010年實(shí)施以個(gè)人為中心的數(shù)據(jù)富集、整合和開(kāi)放服務(wù)的“我的大數(shù)據(jù)計(jì)劃”。歐盟在2010年開(kāi)始提出“歐洲數(shù)字化議程”,旨在建立一個(gè)統(tǒng)一的“數(shù)字市場(chǎng)”,并在2012年制定了大數(shù)據(jù)戰(zhàn)略,強(qiáng)調(diào)了公共數(shù)據(jù)安全及挖掘公共機(jī)構(gòu)數(shù)據(jù)的價(jià)值潛力。英國(guó)是最早推進(jìn)大數(shù)據(jù)規(guī)劃的歐洲國(guó)家,2004年,英國(guó)設(shè)立了水平掃描中心(horizon scanning center,HSC)項(xiàng)目,以提升政府處理跨部門(mén)和多學(xué)科挑戰(zhàn)的能力;2011年,HSC項(xiàng)目啟動(dòng)氣候變化的未來(lái)國(guó)際影響計(jì)劃,通過(guò)對(duì)多數(shù)據(jù)源進(jìn)行深度分析,研究解決氣候變化對(duì)食品和水的可獲得性。

        2008年5月1日,我國(guó)正式施行《中華人民共和國(guó)政府信息公開(kāi)條例》,全面推行政府信息公開(kāi)。2015年4月22日,國(guó)務(wù)院辦公廳印發(fā)《2015年政府信息公開(kāi)工作要點(diǎn)》,列出了推進(jìn)行政權(quán)力清單、國(guó)有企業(yè)、財(cái)政資金、社會(huì)組織和中介機(jī)構(gòu)、環(huán)境保護(hù)、食品藥品安全等9個(gè)重點(diǎn)領(lǐng)域的信息公開(kāi);2015年8月31日,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,明確提出要建立國(guó)家大數(shù)據(jù),統(tǒng)籌規(guī)劃大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),為政府治理大數(shù)據(jù)的建設(shè)服務(wù)。

        優(yōu)政、惠民、興業(yè)是政府?dāng)?shù)據(jù)開(kāi)放的一個(gè)核心價(jià)值觀,而如何充分利用政府大數(shù)據(jù)的開(kāi)放共享是值得產(chǎn)業(yè)界和工業(yè)界關(guān)注的一個(gè)課題。

        4.2 作為一種競(jìng)爭(zhēng)資本

        社會(huì)各界對(duì)大數(shù)據(jù)都抱以極大的熱情,認(rèn)為引入大數(shù)據(jù)能夠提高自身的競(jìng)爭(zhēng)力。人們會(huì)有這樣價(jià)值期望的一個(gè)基本動(dòng)機(jī)在于:人們認(rèn)為通過(guò)大數(shù)據(jù)處理與分析能夠洞悉客戶(hù)、友商、產(chǎn)品、渠道在各個(gè)維度的信息情報(bào)和知識(shí)洞見(jiàn),借此為創(chuàng)新應(yīng)用模式及商業(yè)模式的設(shè)計(jì)提供研判線索和技術(shù)基礎(chǔ)。以芝麻信用為例,其從身份特質(zhì)、行為偏好、人脈關(guān)系、信用歷史、履約能力等多個(gè)角度對(duì)一個(gè)自然人的相關(guān)數(shù)據(jù)進(jìn)行搜集和匯聚,在此基礎(chǔ)上對(duì)個(gè)人進(jìn)行信用研判,根據(jù)信用評(píng)級(jí)就可以進(jìn)一步進(jìn)行信用騎行、便利交通、基礎(chǔ)通信、信用借還、信用回收等一系列產(chǎn)品的設(shè)計(jì)和運(yùn)維。

        因此,如何在多源數(shù)據(jù)匯聚的基礎(chǔ)上實(shí)現(xiàn)對(duì)實(shí)體(客戶(hù)、友商、產(chǎn)品、渠道等)的精準(zhǔn)畫(huà)像,為潛在應(yīng)用提供多層面的實(shí)體語(yǔ)義服務(wù)就是重中之重,其中涉及的技術(shù)要點(diǎn)主要有以下幾方面。

        (1)數(shù)據(jù)連接及實(shí)體結(jié)構(gòu)化

        由于大數(shù)據(jù)匯聚的數(shù)據(jù)源數(shù)據(jù)都是建立在不同IT建設(shè)思路、不同的數(shù)據(jù)原始價(jià)值期望,以“煙囪式”軟件開(kāi)發(fā)方式生成并存儲(chǔ)的,因此如何將這種格式、表示均異構(gòu)的數(shù)據(jù)以實(shí)體為中心連接起來(lái),最終形成以實(shí)體為中心的數(shù)據(jù)表示是實(shí)體畫(huà)像的基礎(chǔ)。涉及的相關(guān)技術(shù)包括:數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)預(yù)處理、去重、歧義消解、實(shí)體及實(shí)體關(guān)系抽?。ㄡ槍?duì)非結(jié)構(gòu)化數(shù)據(jù))等。

        (2)實(shí)體特征化及語(yǔ)義化

        在以實(shí)體為中心的數(shù)據(jù)匯聚的基礎(chǔ)上,以實(shí)體為中心,針對(duì)不同視角和采集渠道的數(shù)據(jù)進(jìn)行特征提取,并在此基礎(chǔ)上實(shí)現(xiàn)標(biāo)簽化提取,從而最終達(dá)到實(shí)體特征表示和實(shí)體語(yǔ)義標(biāo)簽化的目的(該標(biāo)簽可作為后續(xù)進(jìn)一步應(yīng)用或者分析的特征表示)。由于數(shù)據(jù)的類(lèi)型不一樣,因此特征表示和提取的方式也不一樣。另一方面,語(yǔ)義標(biāo)簽的提取往往是通過(guò)監(jiān)督學(xué)習(xí)完成,這意味著需要通過(guò)人機(jī)交互配置訓(xùn)練集,而出于不同的商業(yè)目標(biāo)或者源自領(lǐng)域?qū)<业闹饔^性,這些語(yǔ)義標(biāo)簽是動(dòng)態(tài)變化的,如何動(dòng)態(tài)維護(hù)標(biāo)簽池以及如何響應(yīng)標(biāo)簽的動(dòng)態(tài)變化也是大數(shù)據(jù)應(yīng)用的一個(gè)挑戰(zhàn)。

        (3)應(yīng)用場(chǎng)景的挖掘

        “場(chǎng)景”指的是在某時(shí)(when)、某地(where)、周?chē)霈F(xiàn)了某物(with what)時(shí),特定類(lèi)型的用戶(hù)(who)萌發(fā)了某種欲望(desire),會(huì)想到通過(guò)某種手段(method)來(lái)滿(mǎn)足欲望。因而應(yīng)用場(chǎng)景挖掘最終歸結(jié)為“用戶(hù)是誰(shuí)(who)”“需求在哪(desire and method)”“應(yīng)用情境是什么(when,where and with what)”,幾個(gè)可能的實(shí)現(xiàn)途徑有:從利益角色的職能定位、可用性需求、用戶(hù)體驗(yàn)需求角度出發(fā),研判以用戶(hù)為中心的“痛點(diǎn)”和利益增長(zhǎng)點(diǎn);從既有業(yè)務(wù)功能、任務(wù)或者功能驅(qū)動(dòng)的角度出發(fā),研判以既有業(yè)務(wù)為中心的可拓展功能和新增功能;從數(shù)據(jù)本身出發(fā),通過(guò)對(duì)數(shù)據(jù)表示的實(shí)體內(nèi)涵以及從該數(shù)據(jù)中發(fā)現(xiàn)的實(shí)體關(guān)系等找出相應(yīng)的應(yīng)用場(chǎng)景,往往是數(shù)據(jù)、思維和想象力驅(qū)動(dòng)的。

        為了實(shí)現(xiàn)大數(shù)據(jù)價(jià)值,政(見(jiàn)第4.1節(jié))、產(chǎn)(面向大數(shù)據(jù)應(yīng)用及產(chǎn)品開(kāi)發(fā)提供各類(lèi)服務(wù)的產(chǎn)業(yè))、學(xué)、研各邊也都從各自的角度開(kāi)展了相應(yīng)行動(dòng),同時(shí)提高自己的競(jìng)爭(zhēng)優(yōu)勢(shì)。

        (1)產(chǎn)業(yè)界

        在大數(shù)據(jù)產(chǎn)業(yè)鏈中,逐漸形成了3種典型的公司形態(tài)①http://mattturck. com/2016/02/01/ big-datalandscape[36,37]:數(shù)據(jù)型公司,如Kaggle、LinkedIn、Twitter、Facebook等;技術(shù)型公司,如Amazon、Microsoft、Apple、Intel、Oracle等;思維型公司,如DeepMind、Salesforce、Tableau、SAS等。在兩化融合戰(zhàn)略的引領(lǐng)下,中國(guó)企業(yè)本身也自發(fā)形成了利用大數(shù)據(jù)改良既有生產(chǎn)、制造、商務(wù)流程的新動(dòng)力。

        (2)學(xué)術(shù)界

        作為關(guān)鍵技術(shù)預(yù)研的擔(dān)當(dāng),學(xué)術(shù)界圍繞大數(shù)據(jù)涉及的各類(lèi)科學(xué)理論和關(guān)鍵技術(shù)展開(kāi)研究,積淀形成越來(lái)越豐富的科研成果,為大數(shù)據(jù)應(yīng)用提供了堅(jiān)實(shí)的理論技術(shù)支撐。特別值得一提的是,基于開(kāi)源精神的開(kāi)源社區(qū)在大數(shù)據(jù)環(huán)境下得到極大的發(fā)展,這進(jìn)一步促進(jìn)了大數(shù)據(jù)技術(shù)發(fā)展的同時(shí),也大范圍降低了大數(shù)據(jù)應(yīng)用的門(mén)檻。開(kāi)源使新項(xiàng)目直接使用大數(shù)據(jù)技術(shù)成為可能,包括Spark、Apache NiFi、Kafka等在內(nèi)的開(kāi)源大數(shù)據(jù)技術(shù)為大數(shù)據(jù)應(yīng)用提供了極大的便利。大數(shù)據(jù)方面的開(kāi)源工具主要分為4個(gè)方面:數(shù)據(jù)存儲(chǔ)(如HBase)、開(kāi)發(fā)平臺(tái)(如Hadoop)、開(kāi)發(fā)工具和集成(如Apache Mahout)以及分析和報(bào)告工具(如Talend)等[38-43]。

        (3)教育界

        從人才培養(yǎng)的角度而言,為社會(huì)培養(yǎng)大數(shù)據(jù)人才,并借此提高影響力也成為教育界關(guān)注的事,體現(xiàn)在兩個(gè)方面:一是出現(xiàn)了越來(lái)越多的大數(shù)據(jù)技術(shù)培訓(xùn)班;二是教育部從發(fā)展戰(zhàn)略角度,也有意部署大數(shù)據(jù)專(zhuān)業(yè)建設(shè)戰(zhàn)略,比如教育部于2015年、2016年分兩批批復(fù)包括北京大學(xué)、中國(guó)人民大學(xué)等35所大學(xué)建設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專(zhuān)業(yè)”。

        4.3 作為一種商品形式

        作為一種商品,數(shù)據(jù)可以買(mǎi)賣(mài),可以增值,這也是大數(shù)據(jù)時(shí)代的一個(gè)基本特征。

        國(guó)外數(shù)據(jù)交易大致開(kāi)始于2008年,一些前瞻性的企業(yè)開(kāi)始加大對(duì)數(shù)據(jù)業(yè)務(wù)的投入,初見(jiàn)端倪的數(shù)據(jù)應(yīng)用新業(yè)態(tài)包括“數(shù)據(jù)市場(chǎng)”“數(shù)據(jù)銀行”“數(shù)據(jù)交易公約”等,知名數(shù)據(jù)服務(wù)商有Microsoft數(shù)據(jù)市場(chǎng)、Amazon公共數(shù)據(jù)集、Oracle在線數(shù)據(jù)交易等。國(guó)內(nèi)數(shù)據(jù)交易起步于2010年左右,2015年9月,我國(guó)發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》中明確提出要引導(dǎo)培育大數(shù)據(jù)交易市場(chǎng),開(kāi)展面向應(yīng)用的數(shù)據(jù)交易市場(chǎng)試點(diǎn),探索開(kāi)展大數(shù)據(jù)衍生產(chǎn)品交易,建立健全數(shù)據(jù)資源交易機(jī)制和定價(jià)機(jī)制。

        [44]綜述了我國(guó)數(shù)據(jù)交易的發(fā)展歷史,并將我國(guó)目前的數(shù)據(jù)交易歸納為如下4種主要形式。

        ● 基于大數(shù)據(jù)交易所的大數(shù)據(jù)交易:如貴陽(yáng)大數(shù)據(jù)交易所、長(zhǎng)江大數(shù)據(jù)交易所、武漢東湖大數(shù)據(jù)交易平臺(tái)、上海數(shù)據(jù)交易中心等。

        ● 基于行業(yè)特定領(lǐng)域數(shù)據(jù)的大數(shù)據(jù)交易:針對(duì)具體的行業(yè),數(shù)據(jù)標(biāo)準(zhǔn)較易實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一采集、統(tǒng)一評(píng)估、統(tǒng)一管理、統(tǒng)一交易,從而實(shí)現(xiàn)特定行業(yè)數(shù)據(jù)的交易。

        ● 數(shù)據(jù)資源企業(yè)推動(dòng)的大數(shù)據(jù)交易,如數(shù)據(jù)堂、美林?jǐn)?shù)據(jù)、愛(ài)數(shù)據(jù)等。

        ● 互聯(lián)網(wǎng)企業(yè)“派生”出的大數(shù)據(jù)交易。

        作為一個(gè)新生事物,許多來(lái)自應(yīng)用層的基本問(wèn)題也需要考慮,比如:數(shù)據(jù)交易的賣(mài)方是數(shù)據(jù)的擁有方還是純粹的交易平臺(tái)、賣(mài)的是原始數(shù)據(jù)還是加工過(guò)后的數(shù)據(jù)、買(mǎi)家是個(gè)人(組織)還是機(jī)器、交易目標(biāo)是社會(huì)福利最大化還是數(shù)據(jù)擁有方或者平臺(tái)利潤(rùn)最大化、是封閉拍賣(mài)還是開(kāi)放拍賣(mài)。

        另一方面,數(shù)據(jù)交易顯然還需在若干法律、技術(shù)及管理都匹配的情況下才能得以實(shí)現(xiàn)。法律方面需要考慮的是:哪些數(shù)據(jù)可以買(mǎi)賣(mài)、數(shù)據(jù)的所有權(quán)和使用權(quán)歸屬誰(shuí)、是否所有人(組織)都具有買(mǎi)賣(mài)資格。在監(jiān)管方面:數(shù)據(jù)交易秩序如何監(jiān)管、數(shù)據(jù)質(zhì)量如何保障、定價(jià)機(jī)制如何形成以及如何監(jiān)管、交易監(jiān)管的目標(biāo)是什么。而在技術(shù)層次需要考慮的問(wèn)題更多,比如:數(shù)據(jù)質(zhì)量評(píng)估、定價(jià)機(jī)制設(shè)計(jì)、交易機(jī)制設(shè)計(jì)、交易行為分析、程序化交易如何實(shí)現(xiàn)等。

        作為一種技術(shù)響應(yīng),若干既有工作或許可以作為大數(shù)據(jù)交易的有益參考。

        ● 大數(shù)據(jù)交易的交付物“數(shù)據(jù)”本身是一個(gè)典型的數(shù)字產(chǎn)品,因此參考文獻(xiàn)[45-47]探討的關(guān)于“數(shù)字產(chǎn)品拍賣(mài)中如何收益最大化”的研究成果和思路,對(duì)于大數(shù)據(jù)交易具有極大參考價(jià)值。

        ● 大數(shù)據(jù)交易往往在線實(shí)時(shí)進(jìn)行,即買(mǎi)家隨時(shí)可能到來(lái),因此參考文獻(xiàn)[48-51]關(guān)于在線機(jī)制設(shè)計(jì)的研究成果和思路對(duì)于大數(shù)據(jù)交易也具有極大的參考價(jià)值。

        ● 如何在拍賣(mài)中實(shí)現(xiàn)收入最大化,這在機(jī)制設(shè)計(jì)領(lǐng)域是一個(gè)重要的開(kāi)放問(wèn)題,也是目前最為活躍的一個(gè)研究領(lǐng)域,參考文獻(xiàn)[52,53]對(duì)于以拍賣(mài)方式進(jìn)行大數(shù)據(jù)交易而言,具有重要的參考價(jià)值。

        ● 其他方面:大數(shù)據(jù)交易中很可能會(huì)出現(xiàn)異?;蛘邜阂鈹_亂市場(chǎng)的行為,這意味著在線和實(shí)時(shí)的自動(dòng)偵測(cè)與預(yù)警是大數(shù)據(jù)交易監(jiān)管中的一個(gè)重要課題,參考文獻(xiàn)[54,55]對(duì)于數(shù)據(jù)交易中的異常偵測(cè)有較大參考價(jià)值;在數(shù)據(jù)交易的產(chǎn)權(quán)方面,可能會(huì)遇到產(chǎn)權(quán)不明、授權(quán)復(fù)雜、定價(jià)困難、交易缺乏透明性、隱私泄露等問(wèn)題,參考文獻(xiàn)[56,57]或許可以作為有益參考。

        5 結(jié)束語(yǔ)

        “value”是大數(shù)據(jù)的一個(gè)重要特征,或許也正是因?yàn)椤坝袃r(jià)值”,才引發(fā)了“政、產(chǎn)、學(xué)、研、用”各界對(duì)大數(shù)據(jù)的普遍關(guān)注。

        不同利益主體迥異的價(jià)值期望都是大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的目標(biāo)。這意味著,在大數(shù)據(jù)項(xiàng)目建設(shè)中,必須通過(guò)具體的策略、思路和方法確保這些價(jià)值期望的實(shí)現(xiàn)。事實(shí)上,一個(gè)成熟的大數(shù)據(jù)應(yīng)用必然涉及理論研究、技術(shù)研發(fā)、產(chǎn)品開(kāi)發(fā)、部署運(yùn)維等多邊的合作與協(xié)作,這其實(shí)也暗含大數(shù)據(jù)價(jià)值的最大體現(xiàn):推進(jìn)多邊資源的融合,并刺激集體智慧的涌現(xiàn)。

        本文嘗試從大數(shù)據(jù)的多邊定義和理解出發(fā),針對(duì)不同的價(jià)值期望,從戰(zhàn)略資源、競(jìng)爭(zhēng)資本和商品形式3個(gè)角度介紹了實(shí)踐可行的系列方法、思路和策略。應(yīng)當(dāng)看到,本文提及的具體思路和策略?xún)H針對(duì)整個(gè)大數(shù)據(jù)部署、實(shí)施的普適性特點(diǎn)展開(kāi)敘述。這意味著,針對(duì)特定的領(lǐng)域細(xì)分應(yīng)用,也有其獨(dú)特的價(jià)值實(shí)現(xiàn)路徑特點(diǎn),需要在具體的應(yīng)用進(jìn)程中加以把握和關(guān)注。

        參考文獻(xiàn):

        [1] 王崇駿. 大數(shù)據(jù)思維與應(yīng)用攻略[M]. 北京: 機(jī)械工業(yè)出版社, 2016. WANG C J. Big data thinking and application raiders[M]. Beijing: China Machine Press, 2016.

        [2] SCARDAMALIA M, BEREITE C. Computer support for knowledge-building communities [J]. Journal of the Learning Sciences, 1994, 3(3): 265-283.

        [3] 李國(guó)杰, 程學(xué)旗. 大數(shù)據(jù)研究: 未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域[J]. 中國(guó)科學(xué)院院刊, 2012(6): 647-657. LI G J, CHENG X Q. Research status and scientific thinking of big data[J]. Bulletin of the Chinese Academy of Sciences, 2012(6): 647-657.

        [4] 維克托·邁爾·舍恩伯, 肯尼思·庫(kù)克耶. 大數(shù)據(jù)時(shí)代: 生活、工作與思維的大變革[M]. 盛楊燕, 周濤, 譯. 杭州: 浙江人民出版社, 2013. MAYER-SCH?NBERGER V, CUKIER K. Big data: a revolution that will transform how we live, work and think[M]. Translated by SHENG Y Y, ZHOU T. Hangzhou: Zhejiang People’s Publishing House, 2013.

        [5] 郭華東, 王力哲, 陳方, 等. 科學(xué)大數(shù)據(jù)與數(shù)字地球[J]. 科學(xué)通報(bào), 2014(12): 1047-1054. GUO H D, WANG L Z, CHEN F, et al. Scientific big data and digital earth[J]. Chinese Science Bulletin, 2014(12): 1047-1054.

        [6] 陳剛. 科學(xué)研究大數(shù)據(jù)挑戰(zhàn)[J]. 科學(xué)通報(bào), 2015(5): 439-444. CHEN G. Challenges of big data in science researches[J]. Chinese Science Bulletin, 2015(5): 439-444.

        [7] 劉言, 蔡文生, 邵學(xué)廣. 大數(shù)據(jù)與化學(xué)數(shù)據(jù)挖掘[J]. 科學(xué)通報(bào), 2015(8): 694-703. LIU Y, CAI W S, SHAO X G. Big data and chemical data mining[J]. Chinese Science Bulletin, 2015(8): 694-703.

        [8] KAISLER S, ARMOUR F, ESPINOSA J A, et al. Big data: issues and challenges moving forward[C]// 46th Hawaii International Conference on System Sciences (HICSS), Jan 7-10, 2013, Wailea, Maui, HI, USA. New Jersey: IEEE Press, 2013: 995-1004.

        [9] JIN X, WAH B W, CHENG X, et al. Significance and challenges of big data research[J]. Big Data Research, 2015, 2(2): 59-64.

        [10] WANG H, XU Z, FUJITA H, et al. Towards felicitous decision making: an overview on challenges and trends of big data[J]. Information Sciences, 2016(s367): 747-765.

        [11] 李學(xué)龍, 龔海剛. 大數(shù)據(jù)系統(tǒng)綜述[J]. 中國(guó)科學(xué): 信息科學(xué), 2015, 45(1): 1-44. LI X L, GONG H G. Summary on big data system[J]. SCIENTIA SINICA Informationis, 2015, 45(1): 1-44.

        [12] 程學(xué)旗, 靳小龍, 王元卓, 等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào), 2014, 25(9): 1889-1908. CHENG X Q, JIN X L, WANG Y Z, et al. Survey on big data system and analytic technology[J]. Journal of Software, 2014, 25(9): 1889-1908.

        [13] HUANG S J, CHEN S, ZHOU Z H. Multilabel active learning: query type matters[C]// 24th International Conference on Artificial Intelligence, July 25-31, 2015, Buenos Aires, Argentina. NewYork: ACM Press, 2015: 946-952.

        [14] ZHU Y, GAO W, ZHOU Z H. Onepass multi-view learning[C]// 7th Asian Conference on Machine Learning, November 20-22, 2015, Hong Kong, China. New York: ACM Press, 2015: 407-422.

        [15] HUANG S J, CHEN S, ZHOU Z H. Multi-label active learning: query type matters[C]// 24th International Conference on Artificial Intelligence, July 25-31, 2015, Kyoto, Japan. New York: ACM Press, 2015: 946-952.

        [16] ZHOU Z H. Ensemble learning[M]. Beijing: Tsinghua University Press, 2015: 411-416.

        [17] ZHANG M L, ZHOU Z H. A review on multi-label learning algorithms[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(8): 1819-1837.

        [18] NGUYEN C T, WANG X L, LIU J, et al. Labeling complicated objects: multi-view multi-instance multi-label learning[C]// 28th AAAI Conference on Artificial Intelligence, July 27-31, 2014, Québec City, Québec, Canada. New York: ACM Press, 2014: 2013-2019.

        [19] WEI X S, WU J, ZHOU Z H. Scalable algorithms for multi-instance learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(4): 975-987.

        [20] ZHU Y, TING K M, ZHOU Z H. Discover multiple novel labels in multi-instance multi-label learning[C]// 31st AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, USA. [S.l.:s.n.], 2017: 2977-2984

        [21] WEI X S, WU J, ZHOU Z H. Scalable multi-instance learning[C]// IEEE International Conference on Data Mining, Dec 14-17, 2014, Québec, Canada. New Jersey: IEEE Press, 2014: 1037-1042.

        [22] STEWART R, ERMON S. Label-free supervision of neural networks with physics and domain knowledge[C]// 31st AAAI Conference on Artificial Intelligence, February 4-9, 2017, San Francisco, USA. [S.l.:s.n.], 2017: 2576-2582.

        [23] JOUPPI N P, YOUNG C, PATIL N, et al. In-datacenter performance analysis of a tensor processing unit[C]// 44th Annual International Symposium on Computer Architecture, June 24 - 28, 2017, Toronto, Canada. New York: ACM Press, 2017: 1-12.

        [24] SAYAR A. Hadoop optimization for massive image processing: case study face detection[J]. International Journal of Computers Communications & Control, 2014, 9(6): 664-671.

        [25] GU R, WANG S, WANG F, et al. Cichlid: efficient large scale RDFS/OWL reasoning with spark[C]// 2015 IEEE International Parallel and Distributed Processing Symposium, May 25 - 29, 2015, Orlando, USA. Washington, DC: IEEE Computer Society, 2015: 700-709.

        [26] GU R, YANG X, YAN J, et al. SHadoop: improving MapReduce performance by optimizing job execution mechanism in Hadoop clusters[J]. Journal of Parallel and Distributed Computing, 2014, 74(3): 2166-2179.

        [27] 顧榮, 嚴(yán)金雙, 楊曉亮, 等. Hadoop MapReduce短作業(yè)執(zhí)行性能優(yōu)化[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(6): 1270-1280. GU R, YAN J S, YANG X L, et al. Performance optimization for short job execution in Hadoop MapReduce[J]. Journal of Computer Research and Development, 2014, 51(6): 1270-1280.

        [28] YANG M, MA R T B. Smooth task migration in Apache storm[C]// 2015 ACM SIGMOD International Conference on Management of Data, May 31-June 4, 2015, Melbourne, Australia. New York: ACM Press, 2015: 2067-2068.

        [29] ARMBRUST M, DAS T, DAVIDSON A, et al. Scaling spark in the real world: performance and usability[J]. Proceedings of the VLDB Endowment, 2015, 8(12): 1840-1843.

        [30] ARMBRUST M, XIN R S, LIAN C, et al. Spark sql: relational data processing in spark[C]// 2015 ACM SIGMOD International Conference on Management of Data, May 31-June 4, 2015,Melbourne, Australia. New York: ACM Press, 2015: 1383-1394.

        [31] VAN DER VEEN J S, VAN DER WAAIJ B, LAZOVIK E, et al. Dynamically scaling apache storm for the analysis of streaming data[C]// 1st International Conference on Big Data Computing Service and Applications, March 30-April 2, 2015, San Francisco, USA. New Jersey: IEEE Press, 2015: 154-161.

        [32] SCHAEFER C, MANOJ P M. Enabling privacy mechanisms in apache storm[C]// 1st International Conference on Big Data Computing Service and Applications, March 30-April 2, 2015, San Francisco, USA. New Jersey: IEEE Press, 2015: 102-109.

        [33] BOSAGH ZADEH R, MENG X, ULANOV A, et al. Matrix computations and optimization in apache spark[C]// 2016 ACM SIGKDD Knowledge Discovery and Data Mining (SIGKDD-16), August 13-17, 2016, San Francisco, USA. New York: ACM Press, 2016: 31-38.

        [34] ARMBRUST M, XIN R S, LIAN C, et al. Spark sql: Relational data processing in spark[C]// 2015 ACM SIGMOD International Conference on Management of Data, May 31-June 4, 2015, Melbourne, Australia. New York: ACM Press, 2015: 1383-1394.

        [35] ZHAO S Y, XIANG R, SHI Y H, et al. SCOPE: scalable composite optimization for learning on spark[C]// 31st AAAI Conference on Artificial Intelligence(AAAI-17), February 4-9, 2017, San Francisco, USA. [S.l.:s.n.], 2017: 2928-2934.

        [36] 中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院. 2016中國(guó)大數(shù)據(jù)產(chǎn)業(yè)生態(tài)地圖[Z]. 北京: 中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院, 2016. China Center for Information Industry Development. 2016 Chinese big data industrial ecology map[Z]. Beijing: China Center for Information Industry Development, 2016.

        [37] 王叁壽. 大數(shù)據(jù)商業(yè)應(yīng)用場(chǎng)景[M]. 北京: 機(jī)械工業(yè)出版社, 2016. WANG S S. Big data commercial application scenarios[M]. Beijing: China Machine Press, 2016.

        [38] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications, 2008, 51(1): 107-113.

        [39] GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google file system[C]// 19th ACM Symposium on Operating Systems Principles(SOSP-03), October 19-22, 2003, Bolton Landing, USA. New York: ACM Press, 2003, 37(5): 29-43.

        [40] CHANG F, DEAN J, GHEMAWAT S, et al. Bigtable: a distributed storage system for structured data[J]. Transactions on Computer Systems, 2006, 26(2): 4.

        [41] SHVACHKO K, KUANG H, RADIA S, et al. The Hadoop distributed file system[C]// IEEE 26th Symposium on Mass Storage Systems and Technologies(MSST-10), May 3-7, 2010, Nevada, USA. New Jersey: IEEE Press, 2010: 1-10.

        [42] BORTHAKUR D. The Hadoop distributed file system: architecture and design[J]. Hadoop Project Website, 2007, 11(11): 1-10.

        [43] 雷軍, 葉航軍, 武澤勝, 等. 基于開(kāi)源生態(tài)系統(tǒng)的大數(shù)據(jù)平臺(tái)研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2017, 54(1): 80-93. LEI J, YE H J, WU Z S, et al. Big data platform based on open source ecosystem[J]. Journal of Computer Research and Development, 2017, 54(1): 80-93.

        [44] 唐斯斯, 劉葉婷. 我國(guó)大數(shù)據(jù)交易亟待突破[J].中國(guó)發(fā)展觀察, 2016(13): 19-21. TANG S S, LIU Y T. Chinese big data transactions need to break through[J]. China Development Observation, 2016(13): 19-21.

        [45] GOLDBERG A V, HARTLINE J D, WRIGHT A. Competitive auctions and digital goods[C]// ACM-SIAM Symposium on Discrete Algorithms(SODA-10), January 17-19, 2010, Austin, USA. [S.l.:s.n.], 2001: 735-744.

        [46] GOLDBERG A V, HARTLINE J D, KARLIN A R, et al. Competitive auctions[J]. Games and Economic Behavior, 2006, 55(2): 242-269.

        [47] CHEN N, GRAVIN N, LU P. Optimal competitive auctions[C]// 46th Annual ACM Symposium on Theory of Computing(STOC-14), May 31-June 3, 2014, New York, USA. [S.l.:s.n.], 2014: 253-262.

        [48] LAVI R, NISAN N. Competitive analysis of incentive compatible on-line auctions[J]. Theoretical Computer Science, 2000, 310 (1): 159-180.

        [49] LAVI R, NISAN N. Online ascending auctions for gradually expiring items[C]// 6th Annual ACM-SIAM Symposium on Discrete Algorithms (SODA-05), January 23-25, 2005, Vancouver, Canada. Philadelphia: Society for Industrial and Applied Mathematics, 2005: 1146-1155.

        [50] FRIEDMAN E J, PARKES D C. Pricing wifi at starbucks: issues in online mechanism design[C]// 4th ACM Conference on Electronic Commerce(EC-03), June 9 - 12, 2003, San Diego, CA, USA. New York: ACM Press, 2003: 240-241.

        [51] MASHAYEKHY L, NEJAD M M, GROSU D, et al. An online mechanism for resource allocation and pricing in clouds[J]. IEEE Transactions on Computers, 2016, 65(4): 1172-1184.

        [52] MYERSON R B. Optimal auction design[J]. Mathematics of Operations Research, 1981, 6(1): 58-73.

        [53] 唐平中. 計(jì)算經(jīng)濟(jì)學(xué)與最優(yōu)機(jī)制設(shè)計(jì)問(wèn)題[J]. 中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2013, 9(10): 18-23. TANG P Z. Computational economics and optimal mechanism design[J]. Communications of the CCF, 2013, 9(10): 18-23.

        [54] SUN J, QU H, CHAKRABARTI D, et al. Neighborhood formation and anomaly detection in bipartite graphs[C]// 5th IEEE International Conference on Data Mining(ICDM-05), Nov 27-30, 2005, Houston, TX, USA. New Jersey: IEEE Press, 2005: 1-8.

        [55] RAZ O, KOOPMAN P, SHAW M. Semantic anomaly detection in online data sources[C]// 24rd International Conference on Software Engineering(ICSE-02), May 25, 2002, Orlando, USA. New Jersey: IEEE Press, 2002: 302-312.

        [56] 湯琪. 大數(shù)據(jù)交易中的產(chǎn)權(quán)問(wèn)題研究[J]. 圖書(shū)與情報(bào), 2016(4): 38-45. TANG Q. Study on the property right issues in big data trade[J]. Library and Information, 2016(4): 38-45.

        [57] REICHMAN J H, SAMUELSON P. Intellectual property rights in data[J]. Vanderbilt Law Review, 1997, 50(4): 337-348.

        Discussions of the value expectations of big data

        WANG Chongjun
        National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, China

        People from all social circles are concerned about the big data, because all of them think that big data is valuable. However, different people have different value expectation, all of which are the goals when implementing big data project. Multiple kinds of definitions and understandings of big data were attempted to indicate, and then different research perspectives and different value expectations from different people were introduced. Furthermore, some practical and feasible methods, ideas and strategies were given after briefly expressing the relevant research status and industrialization status.

        s: The National Natural Science Foundation of China(No.61375069, No.61403156), The National Key Research and Development Program of China(No.2016YFB1001102)

        TP391

        A

        10.11959/j.issn.2096-0271.2017045

        王崇駿(1975-),男,博士,南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系及軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室教授、博士生導(dǎo)師,主要研究方向?yàn)樽灾鰽gent及多Agent系統(tǒng)、復(fù)雜網(wǎng)絡(luò)理論及應(yīng)用、大數(shù)據(jù)分析及智能系統(tǒng)。截至2016年底,主持和參與包括“973”項(xiàng)目、國(guó)家發(fā)展和改革委員會(huì)專(zhuān)項(xiàng)、工業(yè)和信息化部產(chǎn)業(yè)化基金、國(guó)家自然科學(xué)基金、國(guó)家社會(huì)科學(xué)基金、省自然科學(xué)基金及支撐計(jì)劃在內(nèi)的國(guó)家及省部級(jí)基金與企事業(yè)資助項(xiàng)目50余項(xiàng)。在教育醫(yī)療類(lèi)惠民行業(yè)、優(yōu)政興業(yè)類(lèi)政府領(lǐng)域、互聯(lián)網(wǎng)新經(jīng)濟(jì)領(lǐng)域有30余項(xiàng)科研成果獲得產(chǎn)品化和商品化推廣。

        2017-04-21

        國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61375069,No.61403156);科技部重點(diǎn)研發(fā)基金資助項(xiàng)目(No.2016YFB1001102)

        大數(shù)據(jù);數(shù)據(jù)科學(xué);價(jià)值期望

        曰本无码人妻丰满熟妇啪啪| 日韩字幕无线乱码免费| 日本三级欧美三级人妇视频 | 国产一品二品精品在线| 免费福利视频二区三区| 日本精品αv中文字幕| 蜜桃成熟时日本一区二区| 岛国AV一区二区三区在线观看| 妺妺窝人体色www聚色窝仙踪| 99精品久久精品一区| 色老汉亚洲av影院天天精品| 国产午夜福利不卡在线观看视频| 免费观看的av毛片的网站 | 国产av天堂成人网| 最近中文字幕视频完整版在线看| 亚洲中文字幕精品久久a| 亚洲一区二区av偷偷| 亚洲综合av在线在线播放| 让少妇高潮无乱码高清在线观看| 校园春色人妻激情高清中文字幕| 日韩精品一区二区在线视| 国产精品自线在线播放| 视频一区欧美| 久久99精品国产99久久6男男| 色哟哟精品视频在线观看| 级毛片内射视频| 99久久国产精品免费热| 精品国产麻豆免费人成网站| 曰本亚洲欧洲色a在线| 国内久久婷婷精品人双人| 九九九精品成人免费视频小说| 国产精品成人观看视频| 男女无遮挡高清性视频| 国产免费人成视频在线观看 | 风情韵味人妻hd| 中文字幕成人乱码熟女精品国50| 男人的精品天堂一区二区在线观看 | 无码h黄动漫在线播放网站| 中文字幕人妻无码一夲道| 国产亚洲精品90在线视频| 成av人片一区二区三区久久|