亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)的開放式創(chuàng)新

        2016-03-24 00:13:21吳甘沙
        中興通訊技術(shù) 2016年2期
        關(guān)鍵詞:大數(shù)據(jù)

        摘要: 大數(shù)據(jù)是社會(huì)從網(wǎng)絡(luò)化演進(jìn)到智能化的技術(shù)基礎(chǔ),更是未來數(shù)據(jù)經(jīng)濟(jì)的基礎(chǔ)資產(chǎn)和貨幣。認(rèn)為目前大數(shù)據(jù)的創(chuàng)新主要局限在技術(shù)棧和組織內(nèi)部,數(shù)據(jù)的可獲得性、處理和分析技術(shù)的缺乏以及封閉系統(tǒng)的數(shù)據(jù)思維成為制約創(chuàng)新的因素。提出大數(shù)據(jù)開放式創(chuàng)新的要素:通過開放數(shù)據(jù)及基于數(shù)據(jù)安全流通和定價(jià)的數(shù)據(jù)市場解決數(shù)據(jù)供給,開放基礎(chǔ)設(shè)施及社會(huì)化分析服務(wù)實(shí)現(xiàn)技術(shù)共享,最后通過跨領(lǐng)域的開放數(shù)據(jù)思維獲得數(shù)據(jù)創(chuàng)意。認(rèn)為開放式創(chuàng)新重構(gòu)了數(shù)據(jù)生態(tài),將改變大數(shù)據(jù)的競爭格局。

        關(guān)鍵詞:大數(shù)據(jù);開放創(chuàng)新;匿名化;數(shù)據(jù)定價(jià)

        Abstract:Big data is the technical foundation of an evolving society, from the networking to intelligent age, and plays the role of critical assets and currencies of future data economy. However, today big data innovation is limited to technical stacks and within the organizations, and suffers from unavailability of data, lack of processing and analytics technologies, and closed-world thinking. This paper discusses key factors of open innovation for big data: unleash the data supply via open data and data marketplaces with secure exchange and pricing, democratize the technologies through open data infrastructure and socialized analytics services, and finally harvest innovative data ideas by “crossover” thinking. Open innovation restructures the data ecosystem and will reshape the competitive landscape of big data.

        Key words:big data; open innovation; anonymization; data valuation

        大數(shù)據(jù)創(chuàng)新的最高境界是用構(gòu)建數(shù)據(jù)生態(tài)來改變競爭格局——數(shù)據(jù)源解決數(shù)據(jù)供給,數(shù)據(jù)創(chuàng)意者從數(shù)據(jù)中創(chuàng)造價(jià)值,而這又有賴于大數(shù)據(jù)處理和分析技術(shù)。在開放式創(chuàng)新的體系中,5種元素扮演3種角色。

        ·數(shù)據(jù)源:開放數(shù)據(jù),基于數(shù)據(jù)安全流通和定價(jià)的數(shù)據(jù)市場;

        ·大數(shù)據(jù)分析和處理技術(shù):開放的基礎(chǔ)設(shè)施,以及開放的社會(huì)化分析服務(wù);

        ·數(shù)據(jù)創(chuàng)業(yè)者/應(yīng)用服務(wù):跨越領(lǐng)域界限的開放數(shù)據(jù)思維。

        它們五行相生,互相作用,形成價(jià)值的涌現(xiàn)。

        1 開放數(shù)據(jù)的發(fā)展及問題

        數(shù)據(jù)開放的主體首先是政府和科研機(jī)構(gòu),即把非涉密的政府?dāng)?shù)據(jù),以及納稅人支持的一些科研數(shù)據(jù)開放出來。越來越多國家推出了統(tǒng)一的政府開放數(shù)據(jù)門戶。中國在2015年也推出了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,將開放數(shù)據(jù)作為工作重點(diǎn)。在開放數(shù)據(jù)運(yùn)動(dòng)的風(fēng)起云涌之下,現(xiàn)在更多的企業(yè)也開始開放數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的價(jià)值化,并建構(gòu)生態(tài)系統(tǒng)和護(hù)城河。

        萬維網(wǎng)之父Tim Berners Lee提出了數(shù)據(jù)開放的五星標(biāo)準(zhǔn)[1],以保證數(shù)據(jù)質(zhì)量:一星是開放授權(quán)的格式,比如說PDF;二星是結(jié)構(gòu)化,把數(shù)據(jù)從文件變成了像Excel這樣的表;三星是開放格式,如CSV;四星是能夠通過統(tǒng)一資源標(biāo)識(shí)符(URI)定位每一個(gè)數(shù)據(jù)項(xiàng);五星是能夠跟其他數(shù)據(jù)鏈接,形成一個(gè)開放的數(shù)據(jù)圖譜。

        數(shù)據(jù)開放與開源軟件也形成了共振。主流的數(shù)據(jù)開放門戶,像data.dov,都基于開源軟件。Data.gov用WordPress做數(shù)據(jù)內(nèi)容呈現(xiàn),用CKAN做數(shù)據(jù)目錄,甚至data.gov的整個(gè)架構(gòu)也在GitHub開源了。英特爾在麻省理工學(xué)院的大數(shù)據(jù)科研中心研發(fā)了開源的DataHub系統(tǒng),支持對(duì)開放數(shù)據(jù)的多人協(xié)作分析,具有數(shù)據(jù)版本管理和多編程語言交互的能力。

        數(shù)據(jù)開放中會(huì)碰到很多問題。

        (1)數(shù)據(jù)權(quán)屬的問題。數(shù)據(jù)屬于誰?屬于采集人?還是屬于生產(chǎn)人?抑或是屬于被觀察的客體?在特定情況下,擁有權(quán)如何分割(比如離婚)或者轉(zhuǎn)移(比如繼承)?

        (2)敏感數(shù)據(jù)的界定。比如位置信息數(shù)據(jù)在歐洲屬于敏感數(shù)據(jù),而在日本不屬于敏感數(shù)據(jù)。另外各個(gè)不同行業(yè)有進(jìn)一步規(guī)定,比如美國的《健康保險(xiǎn)便利和責(zé)任法案》對(duì)個(gè)人健康信息的隱私性、機(jī)密性和完整性做了規(guī)定;而在征信領(lǐng)域則有《公平信用報(bào)告法》對(duì)個(gè)人信用方面的信息做了規(guī)定。敏感數(shù)據(jù)需要法律和行業(yè)法規(guī)的界定。

        (3)敏感數(shù)據(jù)的脫敏。如果開放數(shù)據(jù)中具有敏感數(shù)據(jù),就要做數(shù)據(jù)的脫敏。脫敏最簡單的做法是去標(biāo)識(shí),但是去標(biāo)識(shí)未必能夠徹底脫敏。美國研究顯示:即使把姓名、地址等標(biāo)識(shí)信息拿掉,只要有郵政編碼、性別、生日等3項(xiàng)信息,就有60%~90%的可能性鎖定個(gè)人。即使去標(biāo)識(shí)很徹底,仍有“阿喀琉斯之踵(致命弱點(diǎn))”。一種攻擊的方法是通過多數(shù)據(jù)源的比對(duì)來縮小搜索范圍,重新標(biāo)識(shí);另一種方法是基于統(tǒng)計(jì)的攻擊,比如根據(jù)兩個(gè)打分再加上一定的時(shí)間范圍約束,還是有接近70%的可能性鎖定個(gè)人。

        (4)防止隱私攻擊的匿名化技術(shù)。比較典型的如k-anonymity和L-diversity等,但在敏感屬性不夠多樣化,或攻擊者具有背景知識(shí)時(shí),這兩種技術(shù)仍不夠魯棒。目前最好的一種技術(shù)叫差分隱私,即把噪聲加入到數(shù)據(jù)集中,但仍保持它的一些統(tǒng)計(jì)屬性,支持特定的機(jī)器學(xué)習(xí)算法。

        這些困難和挑戰(zhàn)都不能阻擋開放數(shù)據(jù)運(yùn)動(dòng)的深入人心。在數(shù)據(jù)(尤其是商業(yè)數(shù)據(jù))仍然無法充分流通的今天,開放數(shù)據(jù)無疑能夠讓具有數(shù)據(jù)思維和分析能力的創(chuàng)意者點(diǎn)石成金,把死的、消耗成本的數(shù)據(jù)變活、創(chuàng)造利潤。

        2 基于數(shù)據(jù)安全流通和定價(jià)

        的數(shù)據(jù)市場

        數(shù)據(jù)之于數(shù)據(jù)社會(huì),就如同水之于城市或血液之于身體——城市因河流而誕生,也受其滋養(yǎng);血液一旦流動(dòng)停滯,身體就有危險(xiǎn)。所以,在數(shù)據(jù)化生存的今天,一定要讓數(shù)據(jù)流動(dòng)起來。數(shù)據(jù)開放更多適用于政府公共數(shù)據(jù)和納稅人資助的科研數(shù)據(jù),而更多涉及私人隱私或企業(yè)機(jī)密的數(shù)據(jù)無法通過簡單的開放獲得。如果把數(shù)據(jù)看作一座冰山,公開的只是露出海面的一點(diǎn)點(diǎn),絕大多數(shù)藏在暗黑的海面以下。

        數(shù)據(jù)擁有者不愿意把數(shù)據(jù)拿出來,有兩個(gè)原因:擔(dān)心數(shù)據(jù)被偷竊;對(duì)自己并無好處。所以,解決時(shí)該問題時(shí)需要把握兩點(diǎn):保障數(shù)據(jù)的安全流通;對(duì)數(shù)據(jù)的使用進(jìn)行定價(jià),而實(shí)現(xiàn)這兩個(gè)關(guān)鍵的載體是數(shù)據(jù)市場。

        數(shù)據(jù)市場并非是新概念。早年的綜合數(shù)據(jù)市場多進(jìn)行原始數(shù)據(jù)集的下載交易,由于數(shù)據(jù)容易復(fù)制,版權(quán)保護(hù)困難,這種形態(tài)逐漸被幾種新的形態(tài)取代:

        (1) 為特定用戶定向采集或加工數(shù)據(jù),如某公司從事人臉分析技術(shù),委托第3方采集各類、各種姿態(tài)和光照條件的人臉數(shù)據(jù),或某公司具有大型數(shù)據(jù)集,需要特定的服務(wù)來做標(biāo)注。

        (2)專業(yè)領(lǐng)域的數(shù)據(jù)服務(wù),如交通領(lǐng)域的Inrix或金融領(lǐng)域美國三大征信公司。

        (3)不給出整個(gè)數(shù)據(jù)集,只能基于查詢或應(yīng)用程序接口(API)提供數(shù)據(jù)的受控訪問,中國出現(xiàn)的數(shù)據(jù)交易市場多為此類型。

        (4)不給出原始數(shù)據(jù),只交易加工信息,這是之前大數(shù)據(jù)時(shí)代的主流,有些公司(如彭博社)甚至提供專門的終端保證信息服務(wù)。

        隨著數(shù)據(jù)生態(tài)的完善,數(shù)據(jù)市場的形態(tài)將更為豐富。首先,上述形態(tài)多為數(shù)據(jù)提供者與數(shù)據(jù)請(qǐng)求者的簡單交易關(guān)系,而未來市場的參與者可能同時(shí)是提供者與請(qǐng)求者。其次,交易將不僅是簡單的“給”和“得”,而是融合、使用從而產(chǎn)生新的衍生價(jià)值。因此,數(shù)據(jù)的定價(jià)不是那些比特的固有價(jià)值,而是在這一次“使用”中產(chǎn)生的當(dāng)前價(jià)值。數(shù)據(jù)市場應(yīng)該是使用和買賣一站式服務(wù),并且是先使用再買賣。

        Steven Johnson的TED演講 《偉大創(chuàng)意的誕生》是從咖啡館說起,它創(chuàng)造了一個(gè)安全的空間,讓不同的人做思想碰撞,創(chuàng)造新的想法。數(shù)據(jù)何嘗不需要這樣一個(gè)咖啡館,讓各方的數(shù)據(jù)能夠產(chǎn)生“化學(xué)作用”?!皵?shù)據(jù)咖啡館”項(xiàng)目[2]基于多方安全計(jì)算,試圖解決3個(gè)問題:安全可控的開放;數(shù)據(jù)市場和云計(jì)算的一體化;數(shù)據(jù)定價(jià)的問題。

        然而,絕大多數(shù)數(shù)據(jù)的價(jià)值是不確定的,這正是數(shù)據(jù)的外部性。這種屬性決定了數(shù)據(jù)與石油本質(zhì)上的區(qū)別:石油的價(jià)值在燃燒的一瞬間實(shí)現(xiàn)并消失了,但數(shù)據(jù)能夠反復(fù)使用,產(chǎn)生不可預(yù)期的新價(jià)值?;贛oody的信息估值七律,可以衍生出數(shù)據(jù)估值七律:

        (1)數(shù)據(jù)可以被無限次共享,可以產(chǎn)生更大的總體價(jià)值,但多次復(fù)制會(huì)使所有權(quán)復(fù)雜化,增加成本;

        (2)數(shù)據(jù)用得越多,價(jià)值越大;

        (3)數(shù)據(jù)價(jià)值會(huì)隨時(shí)間衰變;

        (4)數(shù)據(jù)越精確,價(jià)值越大;

        (5)多個(gè)獨(dú)立數(shù)據(jù)源的融合為1+1>2;

        (6)更多的數(shù)據(jù)不見得能帶來更多的價(jià)值;

        (7)數(shù)據(jù)不會(huì)損耗,反而會(huì)越用越多。

        這些基本原則對(duì)數(shù)據(jù)的定價(jià)具有指導(dǎo)意義——數(shù)據(jù)的使用頻度、新鮮度、質(zhì)量、外部性等都是重要變量。Glue Reply公司據(jù)此提出了基于使用的估值模型。

        另一方面,Gartner分析師Doug Laney——大數(shù)據(jù)3V的提出者,把信息和數(shù)據(jù)的估值模型分成非金融模型和金融模型。

        我們期待未來的數(shù)據(jù)市場有靈活的數(shù)據(jù)定價(jià)模型,該模型既考慮數(shù)據(jù)的使用歷史和時(shí)間嬗變所形成的基礎(chǔ)價(jià)值,又能計(jì)量當(dāng)前的這次租用中可量化的價(jià)值,計(jì)算出這次交易的數(shù)據(jù)定價(jià)。同時(shí),如果這次使用有多方數(shù)據(jù)參與,根據(jù)各方在計(jì)算中貢獻(xiàn)的大小,對(duì)其數(shù)據(jù)分別進(jìn)行定價(jià)。

        數(shù)據(jù)的安全流通和定價(jià)將鼓勵(lì)數(shù)據(jù)擁有者將其數(shù)據(jù)參與流通,對(duì)其數(shù)據(jù)價(jià)值化、貨幣化和資產(chǎn)化,從而形成“收集-使用-價(jià)值化-更多收集-更多使用”的正向反饋,為開放式創(chuàng)新提供更廣泛的原材料供給。

        3 開放的基礎(chǔ)設(shè)施

        筆者的同事Eric Dishman罹患腎癌23年,嘗試了各種治療方案,甚至換腎,一直沒有進(jìn)展,直到他選擇了基于基因分析的精準(zhǔn)治療。整個(gè)測序和鎖定致病基因片段的過程花了3個(gè)月;接著,數(shù)TB的基因數(shù)據(jù)被拷到硬盤里,在美國東西岸傳來遞去,顛簸了4個(gè)月以后方才形成了治療方案。雖然他現(xiàn)在已經(jīng)恢復(fù)健康,但7個(gè)月的等待對(duì)于任何一個(gè)病人來說都是煎熬。

        原因很簡單,對(duì)于專業(yè)的醫(yī)療健康和生命科學(xué)機(jī)構(gòu)來說,計(jì)算和存儲(chǔ)的基礎(chǔ)設(shè)施并不是他們所擅長。要知道,就連大數(shù)據(jù)領(lǐng)域內(nèi)部也是隔行如隔山,做數(shù)據(jù)分析的人很難理解分布式的存儲(chǔ)和處理系統(tǒng)。事實(shí)上系統(tǒng)部署的困難已經(jīng)成為目前攔在大數(shù)據(jù)產(chǎn)業(yè)前面的一座大山。

        要致富,先修路(基礎(chǔ)設(shè)施)。在現(xiàn)實(shí)生活中的這個(gè)樸素道理也適用于大數(shù)據(jù)。基于云計(jì)算的公共基礎(chǔ)設(shè)施,特別是大數(shù)據(jù)系統(tǒng)作為平臺(tái)服務(wù),是搬走這座大山的希望所在。在其他的一些國家,很多以數(shù)據(jù)思維見長的小型創(chuàng)新企業(yè)已經(jīng)開始受益于這一趨勢。

        Decide.com是筆者一直關(guān)注的一家創(chuàng)業(yè)公司(后被Ebay收購)。它每天吸入幾十萬條商品價(jià)格數(shù)據(jù)以及相關(guān)的新聞(這也是開放數(shù)據(jù)),分析后告訴顧客買什么牌子、型號(hào)以及預(yù)測何時(shí)買最劃算。在其神奇的背后,只有4個(gè)博士精心調(diào)制算法,他們不用擔(dān)心基礎(chǔ)設(shè)施的問題,因?yàn)閬嗰R遜已經(jīng)把計(jì)算和存儲(chǔ)能力作為基礎(chǔ)設(shè)施開放出來了。

        Prismatic是另一家創(chuàng)造神奇的公司,它能讀懂用戶關(guān)心什么,發(fā)掘用戶新的興趣,實(shí)時(shí)地、個(gè)性化地推薦閱讀。這家公司在很長一段時(shí)間內(nèi)只有4個(gè)員工,3個(gè)是學(xué)生,然而估值已經(jīng)達(dá)到好幾億美金。之所以能夠把神奇的數(shù)據(jù)思維變成現(xiàn)實(shí),同樣要感謝亞馬遜的云計(jì)算把臟活累活都干了。

        把大數(shù)據(jù)系統(tǒng)裝在云上是第1代大數(shù)據(jù)奮斗者的夢想。早在2007年,Hadoop解決方案的領(lǐng)導(dǎo)者Cloudera成立伊始,就已經(jīng)在憧憬這一愿景(從Cloudera這個(gè)名字可以看出)。然而,這條道路并不順利。

        首先,把Hadoop這樣的重型系統(tǒng)跑在虛擬機(jī)里是很大的挑戰(zhàn),大數(shù)據(jù)這樣的輸入輸出(IO)密集型應(yīng)用與虛擬化技術(shù)有點(diǎn)“水土不服”,性能下降嚴(yán)重。經(jīng)過業(yè)界和社區(qū)多年的努力,這如今已經(jīng)不是問題。而像Spark這樣的新貴是生在云里,長在云里,與云相得益彰。

        其次,對(duì)于大數(shù)據(jù)的早期用戶來說,把數(shù)據(jù)放在云里是有疑慮的,一來大數(shù)據(jù)的搬動(dòng)太過困難;二來數(shù)據(jù)安全沒有保障。這些年來,云計(jì)算的積累效應(yīng)悄然間改變了數(shù)據(jù)生態(tài),越來越多的數(shù)據(jù)一生下來就在云里。而對(duì)于初嘗云滋味的客戶,亞馬遜甚至專門設(shè)計(jì)了容量達(dá)50 TB的、可托運(yùn)小型存儲(chǔ)設(shè)備幫助他們把數(shù)據(jù)搬到云里。Spark的商業(yè)化推動(dòng)者Databricks也順勢與亞馬遜結(jié)盟,在其AWS云服務(wù)上部署Databricks云,可以利用大量已經(jīng)存在于亞馬遜云的數(shù)據(jù),這真是一個(gè)妙招。

        而數(shù)據(jù)安全的保障有賴法律法規(guī)、行業(yè)自律和技術(shù)推動(dòng)三箭齊發(fā)。目前關(guān)于大數(shù)據(jù)權(quán)利的立法已在醞釀之中,行業(yè)規(guī)范更是走在前列(如第1節(jié)所述)。在行業(yè)自律上,我們看到了阿里云發(fā)起的《數(shù)據(jù)保護(hù)倡議》。然而,沒有技術(shù)推動(dòng),法律法規(guī)和行業(yè)自律會(huì)制約大數(shù)據(jù)的云部署。本小節(jié)開始講的基因數(shù)據(jù)在磁盤里周游世界的故事,還是會(huì)一再重演,因?yàn)槊绹摹睹绹】当kU(xiǎn)便利和責(zé)任法案》對(duì)數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸施加了很多限制。

        Eric Dishman的癌癥經(jīng)歷引起了計(jì)算機(jī)科學(xué)家的深思。男性有一半的幾率罹患癌癥,女性的幾率也達(dá)到1/3。相比之下,過去50年癌癥的治愈率只提升了8%,在各種疑難重癥中進(jìn)步最小。究其原因,癌癥作為一種長尾病癥,需要足夠多的數(shù)據(jù)樣本才能有所突破,而《美國健康保險(xiǎn)便利和責(zé)任法案》等法規(guī)對(duì)于數(shù)據(jù)共享的限制使得各大科研機(jī)構(gòu)只能各自為戰(zhàn),相對(duì)較少的數(shù)據(jù)樣本制約了生命科學(xué)技術(shù)的發(fā)展。

        想象一下,如果第2節(jié)中所談的多方安全計(jì)算技術(shù)能夠使數(shù)據(jù)在法規(guī)允許的范圍內(nèi)共享和互通,癌癥研究將大不一樣。鑒于此,英特爾和俄勒岡健康科學(xué)大學(xué)等科研機(jī)構(gòu)開始陸續(xù)推動(dòng)基于安全多方計(jì)算的協(xié)作癌癥云。

        我們預(yù)計(jì):隨著云觀念越來越深入人心,大數(shù)據(jù)和高性能計(jì)算在云中的部署將呈現(xiàn)加速之勢。這時(shí)候,云作為一種開放基礎(chǔ)設(shè)施的優(yōu)勢將得到充分展現(xiàn)。

        還是回到Eric Dishman的案例。歷時(shí)7個(gè)月的診斷過程固然有數(shù)據(jù)磁盤在路上的延誤,另一個(gè)重要原因是計(jì)算基礎(chǔ)設(shè)施的缺乏。在生命科學(xué)領(lǐng)域中(尤其是生命信息學(xué)),非常罕見地呈現(xiàn)了高性能計(jì)算和大數(shù)據(jù)分析齊頭并進(jìn)的態(tài)勢,尋常的科研院所無法維護(hù)完美支持兩種運(yùn)算的基礎(chǔ)設(shè)施。

        可以想見:未來的幾年中融合高性能計(jì)算和大數(shù)據(jù)分析能力的云基礎(chǔ)設(shè)施將變得普及。我們有一個(gè)雄心勃勃的愿景:到2020年,像Eric Dishman這樣的患者,一天之內(nèi)就能完成全基因組測序,鎖定致病基因,且形成個(gè)性化用藥和修復(fù)方案。相比起他7個(gè)月的經(jīng)歷來說,計(jì)算能力與時(shí)俱進(jìn)的開放基礎(chǔ)設(shè)施能縮短數(shù)百倍的等待時(shí)間。另一個(gè)非常熱門的領(lǐng)域——腦科學(xué)研究如今也面臨計(jì)算力有不逮的局面,一次功能性核磁共振對(duì)大腦的完整數(shù)據(jù)采集將獲得500~600 GB左右的數(shù)據(jù),而對(duì)其進(jìn)行完整的分析耗時(shí)6 h。我們期待2020年這個(gè)工作將在1 s內(nèi)完成,也就是說,能夠?qū)δX部活躍成像做一些實(shí)時(shí)的分析,這對(duì)腦科學(xué)和類腦計(jì)算的研究來說將打開一扇前所未有的大門。

        4 開放的社會(huì)化分析服務(wù)

        《哈佛商業(yè)評(píng)論》說數(shù)據(jù)科學(xué)家是21世紀(jì)最性感的職業(yè)。而麥肯錫認(rèn)為:2018年前美國這類人才的缺口達(dá)到數(shù)十萬,特別是能夠做深度分析的分析師有50%~60%的缺口。也難怪,一個(gè)合格的數(shù)據(jù)科學(xué)家必須精通數(shù)理統(tǒng)計(jì)和計(jì)算機(jī)科學(xué),對(duì)數(shù)據(jù)敏感,對(duì)業(yè)務(wù)理解。現(xiàn)有的計(jì)算機(jī)科學(xué)或數(shù)學(xué)的教育體系,無法批量生產(chǎn)這樣的人才。我們看到基于慕課(MOOC)的數(shù)據(jù)科學(xué)課程獲得了數(shù)百萬學(xué)生的參與,很多大學(xué)開始推出在線數(shù)據(jù)科學(xué)課程和學(xué)位,相信基于互聯(lián)網(wǎng)的新型教育體系將在人才供給中扮演更重要的角色。但是,短期內(nèi)人才饑渴是非?,F(xiàn)實(shí)的問題,這對(duì)于矢志立于大數(shù)據(jù)潮流之巔的企業(yè)來說,不免英雄氣短。

        與此同時(shí),一股轟轟烈烈的資源革命在互聯(lián)網(wǎng)卷過,共享經(jīng)濟(jì)充分利用互聯(lián)網(wǎng)將閑散資源與需求對(duì)接,解決了供需失衡的問題。設(shè)想數(shù)據(jù)科學(xué)家的技能和時(shí)間也是一種資源(克萊·舍基將其稱作“認(rèn)知盈余”),應(yīng)該也能夠在這一框架下提高使用效率。這就是所謂的開放的社會(huì)化分析服務(wù)。

        這種服務(wù)對(duì)我們的社會(huì)來說并不陌生。某種意義上,這是一種古老智慧“懸賞”和現(xiàn)代“眾包”思維的合體。1714年,英國議會(huì)懸賞20 000英鎊的“經(jīng)度”大獎(jiǎng)促使一個(gè)鐘表匠發(fā)明了航海天文鐘,完全改變了航海史和征服史。18世紀(jì),拿破侖懸賞12 000法郎征集儲(chǔ)存食物的方法,促使一個(gè)商人之子發(fā)明了罐頭。近現(xiàn)代史上這樣的懸賞還有很多,比如跨大西洋飛行、月球車、宇航員手套等。另一方面,眾包完全改變了當(dāng)代知識(shí)的生成和解決問題的方式,比如維基百科。

        那么,開放的社會(huì)化分析服務(wù)該如何工作呢?下面我講幾個(gè)故事。

        Netflix在2006—2009年之間向大眾發(fā)起數(shù)據(jù)分析挑戰(zhàn)賽,希望能夠通過預(yù)測用戶星級(jí)評(píng)分來提升推薦引擎的效率,目標(biāo)是提升10%,為此設(shè)了百萬美金大獎(jiǎng),吸引了全世界180多個(gè)國家4萬多支團(tuán)隊(duì)來參加。非常可惜的是Netflix沒有采用第1名的算法。那這個(gè)比賽是否沒有價(jià)值呢?不然,大數(shù)據(jù)生態(tài)系統(tǒng)中最受關(guān)注的Spark平臺(tái)正是因?yàn)檫@個(gè)比賽形成了靈感和最早的原型。大賽的價(jià)值往往不在賽場里。

        第2個(gè)故事關(guān)于休利特基金會(huì)。它征集一個(gè)對(duì)學(xué)生的短論文進(jìn)行自動(dòng)化評(píng)分的算法,因此設(shè)立了10萬美元獎(jiǎng)金的Automated Student Assessment Prize。第1輪大賽先向十多家專業(yè)的教育科研機(jī)構(gòu)開放,而第2輪則是在Kaggle平臺(tái)上向社會(huì)開放。Kaggle坐擁數(shù)十萬具有專業(yè)知識(shí)和自由時(shí)間的分析師,而具有數(shù)據(jù)分析需求的企業(yè)只要把數(shù)據(jù)和挑戰(zhàn)賽規(guī)則放到網(wǎng)上,分析師們就可以八仙過海、各顯神通、一較高低。結(jié)果出人意料,這些業(yè)余愛好者搞出來的算法,遠(yuǎn)勝于專業(yè)機(jī)構(gòu)的算法。更讓人大跌眼鏡的是前3名獲得者分別是美國一位機(jī)械工程專業(yè)的本科生,斯洛文尼亞一位計(jì)算機(jī)系的博士生,和新加坡一位39歲的保險(xiǎn)精算師。第1、3名獲獎(jiǎng)?wù)邉倓倧腃oursera慕課平臺(tái)上學(xué)完了斯坦福機(jī)器學(xué)習(xí)的課程,剛剛學(xué)完去參賽,就摘得桂冠,這是非常顛覆的。Netflix大賽的獲獎(jiǎng)團(tuán)隊(duì)都是高大上的科研人員,包括兩個(gè)AT&T的研究主管,而這次竟然讓幾個(gè)初通機(jī)器學(xué)習(xí)門徑的學(xué)生拿到了大獎(jiǎng)。競賽改變了學(xué)生的命運(yùn),第1名轉(zhuǎn)向了數(shù)據(jù)科學(xué)專業(yè),而斯洛文尼亞和新加坡的兩位優(yōu)勝者在美國找到了職業(yè)發(fā)展的巨大空間。

        第3個(gè)故事是關(guān)于一家很小的初創(chuàng)公司Jetpac,它在IPAD上做一個(gè)關(guān)于旅游的應(yīng)用。這個(gè)公司非常小,做技術(shù)的兩個(gè)人,一個(gè)CTO,另一個(gè)是程序員,他們希望有一個(gè)自動(dòng)化的算法在很多照片中篩選出最好的照片。但兩個(gè)人學(xué)識(shí)有限,于是他們?cè)贙aggle平臺(tái)上搞了一個(gè)比賽,因?yàn)橘Y金有限,就出了5 000美金,沒想到還是吸引到了400多支團(tuán)隊(duì)參賽,最終他們確實(shí)選到了一個(gè)合適的算法,讓這個(gè)應(yīng)用脫胎換骨。Jetpac馬上就拿到了240萬美金的風(fēng)險(xiǎn)投資,他們的精明之處在于:利用社會(huì)的資源為其貢獻(xiàn)才智,換來資本的青睞。

        對(duì)于當(dāng)前的“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”,數(shù)據(jù)科學(xué)的專業(yè)性門檻必然導(dǎo)致洛陽紙貴;而這樣的思想眾包平臺(tái)將解決數(shù)據(jù)智慧的短缺,提升眾創(chuàng)的成功率。

        大家試想,Kaggle這個(gè)平臺(tái),也就數(shù)十萬注冊(cè)用戶,咱們中國畢業(yè)生每年都是千萬,學(xué)科學(xué)工程專業(yè)的也有好幾百萬,在中國可資利用的社會(huì)化分析力量一定更為強(qiáng)大。

        鑒于此,中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)主辦了“中國好創(chuàng)意”全國青年大數(shù)據(jù)創(chuàng)新大賽。首先,它是學(xué)生學(xué)習(xí)數(shù)據(jù)科學(xué),切磋數(shù)據(jù)分析技術(shù)的平臺(tái);第二,像中國好聲音一樣,它一定是年輕人展現(xiàn)自己的平臺(tái),就像吳曉波所言,這個(gè)時(shí)代是無名山丘崛起為峰的時(shí)代,這個(gè)時(shí)代需要這么一個(gè)平臺(tái);第三,操作系統(tǒng)BSD的發(fā)明人Bill Joy提出了Joy定律:在這個(gè)時(shí)代,無論公司再牛,世界上最聰明的絕大多數(shù)人都是為其他人工作的。那么最好的辦法就是打開組織的邊界,讓組織虛擬化,讓世界上成千上萬的人幫忙你解決難題。同時(shí),對(duì)于數(shù)據(jù)科學(xué)家/工程師來說,數(shù)據(jù)分析能力將成為其行走江湖的獨(dú)特品牌,縱橫于不同企業(yè)之間,最大化其價(jià)值。

        5 跨領(lǐng)域數(shù)據(jù)思維

        2013年,一種病毒在上海和安徽爆發(fā),國家派出了很多工作組,前往各個(gè)現(xiàn)場采樣,對(duì)10 000個(gè)樣本進(jìn)行分析。他們尋找的是H7N9禽流感病毒。筆者當(dāng)時(shí)在想,我們的生物科技人員要是有大數(shù)據(jù)思維多好!早在2005年,Craig Ventor——這位被稱為“科學(xué)界Lady Gaga”的奇人,已經(jīng)在對(duì)紐約的空氣做全集的基因組測序。如果對(duì)源頭菜市場的空氣做全集的檢測,不正是大數(shù)據(jù)全集思維相對(duì)于采樣的優(yōu)勢嗎?Ventor的跨界思維并不止于此。2014年,他的創(chuàng)業(yè)公司“人類長壽”從Google挖走了頂級(jí)計(jì)算機(jī)科學(xué)家,谷歌翻譯首席科學(xué)家Franz Och。在這里,F(xiàn)ranz將運(yùn)用大數(shù)據(jù)去解密人類基因組的奧秘[3-5]。

        同樣,生物科學(xué)的思維也能幫助大數(shù)據(jù)。百度首席科學(xué)家吳恩達(dá),曾經(jīng)一度迷惘人工智能走進(jìn)了死胡同:識(shí)別杯子需要一種算法,識(shí)別人臉又是一種算法,識(shí)別汽車還要一種算法,似乎永遠(yuǎn)無法窮盡人的智能。直到有一天,神經(jīng)科學(xué)方面的最新進(jìn)展讓他大開眼界:科學(xué)家把大腦皮層負(fù)責(zé)聽力的區(qū)域與聽力器官的神經(jīng)連接剪斷,連到視網(wǎng)膜,過了一段時(shí)間,這部分區(qū)域竟然能夠形成視覺理解了;同樣,負(fù)責(zé)觸覺的區(qū)域也可以被訓(xùn)練成具有視覺功能。吳恩達(dá)獲得了頓悟:原來人腦只有一套算法實(shí)現(xiàn)各種認(rèn)知功能,從此他走上了深度神經(jīng)網(wǎng)絡(luò)的研究之路。

        Farecast.com是人工智能學(xué)者Oren Etzioni開的一個(gè)創(chuàng)業(yè)公司(后被微軟的Bing收購),他攜數(shù)據(jù)思維切入了航空公司白熱化的價(jià)格競爭之中。通過洞悉機(jī)票隨季節(jié)、燃油價(jià)格、天氣狀況甚至特定事件的變化趨勢,他推出了機(jī)票價(jià)格預(yù)測服務(wù)。如果到此為止,這不失為一個(gè)精彩的跨界數(shù)據(jù)思維案例,但真正使其成為經(jīng)典的是:在預(yù)測服務(wù)后Farecast.com增加了10美元的“Fareguard”保險(xiǎn)服務(wù),如果購買后一周內(nèi)價(jià)格下跌,公司將補(bǔ)足差價(jià)。

        前文的另一個(gè)案例Decide.com幫助顧客預(yù)測某個(gè)商品何時(shí)買最劃算。同樣,Decide.com對(duì)于某些商品提供價(jià)格保險(xiǎn),如果消費(fèi)者購買后一段時(shí)間內(nèi)商品降價(jià),那么公司會(huì)補(bǔ)償差價(jià)。

        The Climate Corporation把氣候?qū)W和農(nóng)藝學(xué)揉在一起,告訴農(nóng)民播種的時(shí)機(jī),或?yàn)閻毫犹鞖庾龊脺?zhǔn)備。真正天才的創(chuàng)意在于:他們把保險(xiǎn)業(yè)引入到三角關(guān)系中——通過微氣象建模預(yù)測異常氣候的發(fā)生,幫農(nóng)民辦理保險(xiǎn),并在氣象災(zāi)害發(fā)生后,自動(dòng)理賠、打款。當(dāng)氣候?qū)W、農(nóng)藝學(xué)和金融學(xué)以一種全新的方式組合在一起,造就了一家10億美元的公司。

        讀者從上述的3個(gè)例子能夠讀出什么?

        大數(shù)據(jù)的預(yù)測分析和保險(xiǎn)是完美搭檔,創(chuàng)造了新的商業(yè)模式。推而廣之,大數(shù)據(jù)的預(yù)測分析與金融也能產(chǎn)生很多新的商業(yè)機(jī)會(huì),因?yàn)榻鹑诒举|(zhì)上就是跨越時(shí)空的價(jià)值交換,而大數(shù)據(jù)則能夠發(fā)現(xiàn)時(shí)空之間的價(jià)值剪刀差。這毫無疑問也要拜跨界思維之賜。

        相比信息,數(shù)據(jù)的價(jià)值有很高的外延空間。信息的意義是明確的,價(jià)值也是確定的。而數(shù)據(jù)有外部性,它因?yàn)槟撤N目的被采集,又可以無限服務(wù)于新的目的??藦?qiáng)指數(shù)采用的3個(gè)數(shù)據(jù)——耗電量、鐵路貨運(yùn)量和貸款發(fā)放量,都不是為衡量經(jīng)濟(jì)運(yùn)行狀況而設(shè)計(jì)的,然而總理跨界的數(shù)據(jù)思維使其能夠反映中國的經(jīng)濟(jì)全貌(必須指出,這些數(shù)據(jù)反映的更多是重工業(yè)運(yùn)行情況)。同樣,智能電表采集的社會(huì)用電情況不經(jīng)意間反映了房屋空置比例。數(shù)據(jù)的這一奇特特性亟需跨界思維去挖掘。

        在大數(shù)據(jù)的開放式創(chuàng)新中,不只是需要技術(shù)的開源,更需要思想的開源。如果能夠把世界各地、各行各業(yè)的跨界數(shù)據(jù)思維及其實(shí)踐內(nèi)容檔案化,加入檢索功能,數(shù)據(jù)智慧就能得到積累和傳播,真正讓大數(shù)據(jù)之光普照大眾、惠及我們的地球和城市。

        6 結(jié)束語

        文章從5個(gè)方面闡述了大數(shù)據(jù)的開放式創(chuàng)新。我們期待通過開放式創(chuàng)新,中國能夠出現(xiàn)一萬個(gè)、十萬個(gè)甚至百萬個(gè)數(shù)據(jù)思維公司,他們?nèi)缛盒前汨玻种泻弦唬騼艋h(huán)境,或改善民生,或推動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),或提升社會(huì)治理,形成一股巨大的力量,實(shí)現(xiàn)大數(shù)據(jù)在中國的繁榮!

        參考文獻(xiàn)

        [1] Linked Data [EB/OL]. (2016-07-27)[2009-06-18]. http://www.w3.org/DesignIssues/LinkedData.html

        [2] 吳甘沙.大數(shù)據(jù)技術(shù)發(fā)展的十個(gè)前沿方向[J/OL].大數(shù)據(jù),2015(2) [2015.08.28]. http://www.j-bigdataresearch.com.cn/CN/10.11959/j.issn.2096-0271.2015023

        [3] MOODY D, WALSH P. Measuring the Value Of Information: An Asset Valuation Approach[C]// Proceedings of Seventh European Conference on Information System (ECIS99), Copenhagen Business School, Frederiksberg, Denmark, 1999

        [4] Reply. The Valuation of Data as an Asset: A Consumption-Based Approach[EB/OL].[2014-04-22]. https://www.reply.eu/Documents/13903

        [5] LANEY D. Why and How to Measure the Value of Your Information Assets [EB/OL]. [2015-08-04]. https://www.gartner.com/doc/3106719/measure-value-information-assets

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        中國市場(2016年36期)2016-10-19 04:41:16
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        中國市場(2016年36期)2016-10-19 03:31:48
        基于大數(shù)據(jù)的小微電商授信評(píng)估研究
        中國市場(2016年35期)2016-10-19 01:30:59
        大數(shù)據(jù)時(shí)代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        人妻少妇猛烈井进入中文字幕| 毛片亚洲av无码精品国产午夜| 成人精品一区二区三区中文字幕| 国产中老年妇女精品| 尤物无码一区| 亚洲视频在线播放免费视频| 91中文在线九色视频| 男男亚洲av无一区二区三区久久 | 美女狂喷白浆网站视频在线观看| 国产香蕉视频在线播放| 日本真人做人试看60分钟| 无码精品人妻一区二区三区影院| 激情人妻在线视频| 国产亚洲精品综合一区二区| 亚洲乱码av乱码国产精品| 人妻无码一区二区三区| 国产免费av片在线观看| 亚洲成人777| 国产av熟女一区二区三区蜜臀 | 狠狠色狠狠色综合网| 小sao货水好多真紧h无码视频| 麻豆成人在线视频| 久久99精品免费国产| 91精品国自产拍老熟女露脸| 国产精品泄火熟女| 亚洲成在人线久久综合| 欧洲乱码伦视频免费| 国产av一区二区制服丝袜美腿| 日韩亚洲精品国产第二页| 欧美亚洲色综久久精品国产| 日韩一欧美内射在线观看| 精品久久久亚洲中文字幕| 国产亚洲精品一区二区在线观看 | 成人精品天堂一区二区三区 | 久久这里只有精品黄色| 日韩女优视频网站一区二区三区 | 久久综合伊人77777麻豆| 日本高清色倩视频在线观看 | 日本高清视频在线观看一区二区| 免费无码又爽又高潮视频| 亚洲午夜精品久久久久久人妖|