亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)的孤島危機(jī)與開(kāi)放之道

        2016-03-29 01:29:10演講嘉賓北京大學(xué)軟件所副所長(zhǎng)北京因特睿軟件有限公司首席科學(xué)家黃罡
        軟件和集成電路 2016年1期
        關(guān)鍵詞:爬蟲(chóng)孤島數(shù)據(jù)庫(kù)

        演講嘉賓: 北京大學(xué)軟件所副所長(zhǎng)、北京因特睿軟件有限公司首席科學(xué)家 黃罡

        ?

        大數(shù)據(jù)的孤島危機(jī)與開(kāi)放之道

        演講嘉賓: 北京大學(xué)軟件所副所長(zhǎng)、北京因特睿軟件有限公司首席科學(xué)家 黃罡

        “互聯(lián)網(wǎng)+”時(shí)代最重要的是大數(shù)據(jù),大數(shù)據(jù)面臨的主要問(wèn)題是數(shù)據(jù)孤島,直面這個(gè)問(wèn)題需要一套顛覆式技術(shù)。理解這些首先要從信息化3.0的角度來(lái)看“互聯(lián)網(wǎng)+”,互聯(lián)網(wǎng)使得我們的整個(gè)信息化,從以前單機(jī)時(shí)代到了網(wǎng)絡(luò)時(shí)代再到了現(xiàn)在的“互聯(lián)網(wǎng)+”時(shí)代。

        從學(xué)術(shù)的角度講,第一,我們的互聯(lián)網(wǎng)通過(guò)移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)得到了更廣泛的延伸,使得網(wǎng)絡(luò)無(wú)處不在。第二,我們?cè)诨ヂ?lián)網(wǎng)上形成了云計(jì)算為核心的新一代計(jì)算存儲(chǔ)引擎。有了這樣的技術(shù),我們就會(huì)發(fā)現(xiàn)越來(lái)越多的應(yīng)用可以使用,同時(shí)會(huì)產(chǎn)生各種各樣數(shù)據(jù)。所謂大數(shù)據(jù),一定是各個(gè)來(lái)源的數(shù)據(jù)的融合,以及基于此的智能化分析。那么真正的大數(shù)據(jù)是什么呢?舉一個(gè)日常的例子,今天我在淘寶上買(mǎi)了一雙鞋,然后我打開(kāi)網(wǎng)易新聞?lì)^條會(huì)發(fā)現(xiàn)居然新聞會(huì)有推薦鞋的廣告。由于你在淘寶剛才花幾百塊錢(qián)還是幾十塊錢(qián)買(mǎi)了一雙鞋,這個(gè)信息淘寶平臺(tái)會(huì)知道,這個(gè)信息如果恰好今日頭條或者網(wǎng)易新聞了解到了,那么他們會(huì)從廣告庫(kù)里面給你及時(shí)推薦。

        今天的大數(shù)據(jù)真的是跟大家想象的所謂數(shù)據(jù)挖掘不一樣了,主要是在于3.0的特征升級(jí)。第一主要是數(shù)據(jù)是多元的,如果說(shuō)這個(gè)數(shù)據(jù)是一個(gè)企業(yè)就全能拿到的,這叫海量數(shù)據(jù),不叫大數(shù)據(jù)。第二,數(shù)據(jù)是實(shí)時(shí)的,我們以歷史數(shù)據(jù)為主,而不能拿到實(shí)時(shí)的數(shù)據(jù),這也是不符合特征的。第三,強(qiáng)調(diào)的是分析結(jié)果的實(shí)時(shí)化,這個(gè)實(shí)時(shí)化一定要立即產(chǎn)生結(jié)果或者說(shuō)價(jià)值的快速體現(xiàn)。

        我們從這幾個(gè)角度可以看到,今天的大數(shù)據(jù)給整個(gè)IT帶來(lái)了完全不一樣的改變。但是遺憾的是,我們仔細(xì)一看就會(huì)發(fā)現(xiàn),如現(xiàn)在數(shù)據(jù)顯示,大數(shù)據(jù)在中國(guó)市場(chǎng)的規(guī)模才幾十個(gè)億,很多人質(zhì)疑原因是什么,這就是存在的問(wèn)題。如果從大數(shù)據(jù)的幾點(diǎn)特征來(lái)看,從嚴(yán)格意義上能夠真正成為大數(shù)據(jù)公司或者大數(shù)據(jù)產(chǎn)品和服務(wù)來(lái)看,我們探討的大數(shù)據(jù)一定是基于多元的數(shù)據(jù)、實(shí)時(shí)的采集,以及實(shí)時(shí)的分析,只有這樣的大數(shù)據(jù)才會(huì)進(jìn)入到大數(shù)據(jù)產(chǎn)業(yè)。

        另外我們發(fā)現(xiàn),我們的數(shù)據(jù)很早以前就有,當(dāng)時(shí)大家在做的抓取互聯(lián)網(wǎng)中網(wǎng)頁(yè)里面的數(shù)據(jù),這些數(shù)據(jù)都是“爬蟲(chóng)”能夠爬到的,因?yàn)樽裱氖腔ヂ?lián)網(wǎng)開(kāi)放協(xié)議,所以所有的數(shù)據(jù)大家都可以用 “爬蟲(chóng)”的方式獲取下來(lái)。另外可以看到在10年前,我們的互聯(lián)網(wǎng)“爬蟲(chóng)”爬到的數(shù)據(jù)只有0.3個(gè)G,而“爬蟲(chóng)”爬不到的數(shù)據(jù)是7.9個(gè)G,這些數(shù)據(jù)又是什么呢?不遵循開(kāi)放協(xié)議“爬蟲(chóng)”爬不了,比如說(shuō)“12306”系統(tǒng)里面的數(shù)據(jù),各種A PP里面的信息,這些都是過(guò)去的“爬蟲(chóng)”爬不到的。因此,我們可以看到真正的大數(shù)據(jù)并不是取自于互聯(lián)網(wǎng)上公開(kāi)的數(shù)據(jù),而是要深挖藏在互聯(lián)網(wǎng)深層的數(shù)據(jù)和信息。從調(diào)研的數(shù)據(jù)可以發(fā)現(xiàn),現(xiàn)在大數(shù)據(jù)企業(yè),90%的時(shí)間花在數(shù)據(jù)采集清洗,10%的時(shí)間用于真正的大數(shù)據(jù)關(guān)于業(yè)務(wù)價(jià)值的分析。美國(guó)硅谷的風(fēng)投中52%還是投向大數(shù)據(jù)的采集和相關(guān)組織。

        今天的IT或者我們說(shuō)互聯(lián)網(wǎng)上的應(yīng)用,基本上是遵循三級(jí)結(jié)構(gòu),數(shù)據(jù)存在數(shù)據(jù)庫(kù)里面,只是數(shù)據(jù)的值和基本的描述,數(shù)據(jù)庫(kù)的三級(jí)模式是數(shù)據(jù)庫(kù)在三個(gè)級(jí)別 (層次)上的抽象,使用戶(hù)能夠邏輯地、抽象地處理數(shù)據(jù)而不必關(guān)心數(shù)據(jù)在計(jì)算機(jī)中的物理表示和存儲(chǔ)。但是如果我想把這樣的系統(tǒng)的數(shù)據(jù)拿出來(lái)是很難的。

        你直接打開(kāi)數(shù)據(jù)庫(kù)沒(méi)有用,即便有數(shù)據(jù)庫(kù)表也看不懂,這個(gè)時(shí)候我們必須要去看前面的數(shù)據(jù)表現(xiàn)層和業(yè)務(wù)層,但是那些代碼如果在還好,如果不在就很難,更關(guān)鍵的是我們很多系統(tǒng)都是第三方商業(yè)支持。我是直接拿的數(shù)據(jù)庫(kù),我把這個(gè)權(quán)限給你,到時(shí)候被篡改怎么辦?各種各樣風(fēng)險(xiǎn)要全面評(píng)估,按照這個(gè)思路來(lái)判斷:數(shù)據(jù)的生產(chǎn)者和擁有者的權(quán)利反而沒(méi)有了。

        我和我的團(tuán)隊(duì)是從2000年開(kāi)始做應(yīng)用服務(wù)器的,所有的網(wǎng)站都跑在應(yīng)用服務(wù)器上,針對(duì)之前的問(wèn)題,我們做了很大的技術(shù)突破和顛覆:我們提供很簡(jiǎn)單的方式,你只需要填空,但是所有代碼我們是清楚的。只要你的數(shù)據(jù)藏在軟件中,我不需要看你的源碼,你的數(shù)據(jù)庫(kù)能夠通過(guò)一個(gè)客戶(hù)端或者瀏覽器看到,你只需要告訴我們你需要什么樣的數(shù)據(jù),這樣我會(huì)把所有的數(shù)據(jù)全部都生成A PI接口共享,這時(shí)候以A PI方式存在和使用。而通過(guò)這種技術(shù),實(shí)際上我在后臺(tái)是會(huì)用“小機(jī)器人”幫助你把數(shù)據(jù)拿出來(lái)、自動(dòng)更新。這時(shí)候你也不用給我源碼,也不用給我開(kāi)放數(shù)據(jù)庫(kù),不用開(kāi)發(fā)后臺(tái),你的系統(tǒng)開(kāi)發(fā)商是誰(shuí)我也不知道,我也可以把你的數(shù)據(jù)安全的按照你的要求提取出來(lái),我們也不會(huì)碰到前面所說(shuō)的各種安全風(fēng)險(xiǎn)問(wèn)題。

        目前這個(gè)技術(shù)做了十年,最近一年半開(kāi)始產(chǎn)品化,產(chǎn)品推出六個(gè)月后,我們?yōu)?00多個(gè)業(yè)務(wù)系統(tǒng)生成了1000多個(gè)A PI,我們積累了越來(lái)越多的實(shí)際應(yīng)用,使得我們的技術(shù)能力得到了證明。

        (根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)

        猜你喜歡
        爬蟲(chóng)孤島數(shù)據(jù)庫(kù)
        利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
        基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
        不再是孤島
        沒(méi)有人是一座孤島
        利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        孤島求生記
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        国产成人无码精品久久久免费| www.五月激情| 久久久9色精品国产一区二区三区 国产三级黄色片子看曰逼大片 | 国产一区二区三区视频网| 国精品午夜福利视频不卡| 亚洲av无码片在线观看| 国产欧美日韩专区毛茸茸| 国产性感主播一区二区| 久久久天堂国产精品女人| 成年女人a级毛片免费观看| 婷婷五月综合丁香在线| 久久精品亚洲精品毛片| 青青草视频在线播放81| 成人国产精品一区二区八戒网 | 国产在线网址| 中文字幕一二区中文字幕| 国产亚洲综合另类色专区| 一边摸一边抽搐一进一出口述| 久久久久久国产精品免费免费男同| 激情五月天伊人久久| 亚洲成av在线免费不卡| 日韩午夜免费视频精品一区| 又湿又紧又大又爽a视频国产| 久久人人爽人人爽人人av| 国产午夜亚洲精品一级在线| 亚洲国产不卡免费视频| 宅男亚洲伊人久久大香线蕉| 亚洲最大av网站在线观看| 国产成人无码精品午夜福利a| 亚洲人成网站www| 日韩五码一区二区三区地址 | 久久久久免费看成人影片| 久久夜色撩人精品国产小说 | 青青草视频在线观看视频免费| 手机在线观看免费av网站| 丰满人妻一区二区三区视频53| 欧美丰满熟妇bbbbbb百度| 久久这里只有精品黄色| 激情文学婷婷六月开心久久| 在线观看精品视频网站| 麻豆五月婷婷|