亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代的數(shù)據(jù)庫和數(shù)據(jù)技術(shù)(上)

        2013-04-29 14:26:31楊天純
        中國信息化 2013年14期
        關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫

        楊天純

        大數(shù)據(jù)定義、作用及其對(duì)數(shù)據(jù)庫技術(shù)影響

        1.1 大數(shù)據(jù)及其影響

        大數(shù)據(jù)(Big Data)是目前最重要的科學(xué)、技術(shù)和社會(huì)話題。借用IDC數(shù)據(jù)公司的定義:“大數(shù)據(jù)是一種新一代的技術(shù)和架構(gòu),具備高效率的捕捉、發(fā)現(xiàn)和分析能力,能夠經(jīng)濟(jì)地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價(jià)值?!?/p>

        大數(shù)據(jù)定義有著如下的基本前提和含義。

        ① 大量的數(shù)據(jù):大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長(zhǎng)。用世界著名的咨詢公司高德納(Gartner)研究報(bào)告的描述:“同一類型的數(shù)據(jù)量快速增長(zhǎng);數(shù)據(jù)增長(zhǎng)速度的加快;數(shù)據(jù)多樣性、新數(shù)據(jù)來源和新數(shù)據(jù)種類的不斷增加。”

        ② 多種類型數(shù)據(jù)積累:新的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)采集的技術(shù)發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲(chǔ)成為可能。網(wǎng)絡(luò)技術(shù)、移動(dòng)設(shè)備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術(shù)、氣候和環(huán)境監(jiān)測(cè)技術(shù)等等,每時(shí)每刻都在各種形式、各種類型的大量數(shù)據(jù)。

        ③ 計(jì)算技術(shù)的進(jìn)步與發(fā)展:現(xiàn)代計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)和數(shù)據(jù)庫處理技術(shù)等可以處理各種形式的海量數(shù)據(jù),產(chǎn)生出大量的高附加值的數(shù)據(jù)、結(jié)果、狀態(tài)和知識(shí)。

        ④ 數(shù)據(jù)處理能力成為戰(zhàn)略能力:數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術(shù)平臺(tái)對(duì)數(shù)據(jù)的綜合處理,造成了知識(shí)邊界擴(kuò)展、知識(shí)價(jià)值提升、知識(shí)衍生能力加快,它極大地影響到了企業(yè)、個(gè)人、社會(huì)和政府的決策,極大地促進(jìn)了社會(huì)生產(chǎn)力的發(fā)展,使掌握大數(shù)據(jù)技術(shù)者獲得了競(jìng)爭(zhēng)優(yōu)勢(shì)和難于模仿的核心競(jìng)爭(zhēng)力。因此,大數(shù)據(jù)技術(shù)也成為了國家的核心戰(zhàn)略資源。

        大數(shù)據(jù)的含義廣博、技術(shù)領(lǐng)域廣泛、技術(shù)平臺(tái)多樣、作用效果巨大、影響意義深遠(yuǎn)。理解大數(shù)據(jù)的理論、方法和架構(gòu),適應(yīng)大數(shù)據(jù)的變革與發(fā)展,分享大數(shù)據(jù)所帶來的種種便利和收益,便能夠在大數(shù)據(jù)時(shí)代占領(lǐng)先機(jī)。

        1.2 大數(shù)據(jù)對(duì)數(shù)據(jù)庫技術(shù)的影響

        大數(shù)據(jù)的宗旨是處理數(shù)據(jù),數(shù)據(jù)庫技術(shù)自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫技術(shù)也具有明顯的特殊性。

        1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術(shù)面臨的新特點(diǎn)

        數(shù)據(jù)量宏大。對(duì)數(shù)據(jù)庫技術(shù)影響最大、最直接的方面莫過于數(shù)據(jù)的爆炸性增長(zhǎng)。即使先不考慮數(shù)據(jù)類型的變化,需要處理的數(shù)據(jù)從MB擴(kuò)展到GB,現(xiàn)在再擴(kuò)展到TB,不遠(yuǎn)的將來數(shù)據(jù)庫將經(jīng)常面對(duì)PB量級(jí)的數(shù)據(jù),這必然對(duì)數(shù)據(jù)庫的硬件架構(gòu)、數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu)和數(shù)據(jù)庫應(yīng)用產(chǎn)生重大的影響。

        數(shù)據(jù)形式多樣。另外一個(gè)對(duì)數(shù)據(jù)庫技術(shù)產(chǎn)生重要影響的因子是數(shù)據(jù)的多樣化,傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進(jìn)行處理,并且和傳統(tǒng)關(guān)系式數(shù)據(jù)不同的,許多數(shù)據(jù)格式中的有價(jià)值數(shù)據(jù)并不多,例如多張圖片中特定對(duì)象的變化,連續(xù)視頻影像中對(duì)特殊對(duì)象的跟蹤等等,其數(shù)據(jù)抽取方式、過濾方法和存儲(chǔ)、計(jì)算方式均有別于傳統(tǒng)數(shù)據(jù)庫。

        單機(jī)或小型局域網(wǎng)的數(shù)據(jù)庫處理無法滿足。當(dāng)前,數(shù)據(jù)量爆炸式增長(zhǎng),數(shù)據(jù)類型日趨多樣,傳統(tǒng)關(guān)系數(shù)據(jù)庫的處理能力已難于滿足,需要新的數(shù)據(jù)庫處理技術(shù)。

        傳統(tǒng)的并行數(shù)據(jù)庫的靈活性具有局限性。并行數(shù)據(jù)庫系統(tǒng)取得了輝煌的成績(jī),但是它的靈活性不佳,彈性受限,系統(tǒng)規(guī)模的收縮或擴(kuò)展成本非常高。這樣的系統(tǒng)適合于“相對(duì)固定結(jié)構(gòu)”的計(jì)算結(jié)構(gòu),例如機(jī)銀行業(yè)務(wù)管理系統(tǒng)或城市交通管理系統(tǒng)等。

        結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化形式并存。讓數(shù)據(jù)庫有能力處理這些半結(jié)構(gòu)化和非結(jié)構(gòu)化(有時(shí)不作區(qū)分)數(shù)據(jù)變成了新型數(shù)據(jù)庫技術(shù)的一項(xiàng)迫切要求。

        對(duì)結(jié)果要求的模糊化。在大數(shù)據(jù)的時(shí)代,計(jì)算技術(shù)不僅限于回答“是/非”問題,而是需要更多的模糊化結(jié)果。例如,流感有很可能在一周后流行、近期可能發(fā)生5級(jí)左右地震、近一周國際往返機(jī)票將上漲……這些答案并不精確,但足以指導(dǎo)人們的活動(dòng)。非結(jié)構(gòu)化數(shù)據(jù)的處理結(jié)果常常是給出模糊化的答案。

        新數(shù)據(jù)庫技術(shù)的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn),促使了新技術(shù)的產(chǎn)生,為處理非結(jié)構(gòu)化數(shù)據(jù),Apache、Google、Amazon等公司分別開發(fā)了適應(yīng)各自需要的新型數(shù)據(jù)庫系統(tǒng),相關(guān)的專家經(jīng)過分析和總結(jié)提出了NoSQL的設(shè)計(jì)理念,并創(chuàng)建了許多成功的產(chǎn)品。

        1.2.2 新型數(shù)據(jù)庫技術(shù)的特點(diǎn)

        與傳統(tǒng)數(shù)據(jù)庫技術(shù)相比較,新型數(shù)據(jù)庫技術(shù)具有一些明顯的特點(diǎn),具體如下:

        可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結(jié)構(gòu)化或數(shù)據(jù)代表性而人為地選取部分?jǐn)?shù)據(jù)或進(jìn)行數(shù)據(jù)抽樣;不再靠樣本規(guī)模的大小來控制結(jié)果的置信區(qū)間和置信度。新的數(shù)據(jù)庫處理技術(shù)試圖利用“全部數(shù)據(jù)”,完成對(duì)結(jié)果的計(jì)算和推斷。

        使用更多的非結(jié)構(gòu)化數(shù)據(jù),而不是片面地強(qiáng)調(diào)全部使用結(jié)構(gòu)化數(shù)據(jù)。在非結(jié)構(gòu)化的高復(fù)雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下,允許結(jié)論和結(jié)果的“不精確”,允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術(shù)“以概率說話”的特點(diǎn)。

        不再試圖避免或降低數(shù)據(jù)的混雜性,而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復(fù)雜、混亂、無結(jié)構(gòu)化與確定、規(guī)整、結(jié)構(gòu)化數(shù)據(jù)之間做出平衡。

        在遇到“使用全部數(shù)據(jù),得出模糊化結(jié)果”與“實(shí)用部分?jǐn)?shù)據(jù),得出準(zhǔn)確結(jié)論”的選擇時(shí),新型數(shù)據(jù)庫技術(shù)一般會(huì)選擇前者,從一個(gè)更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。

        科學(xué)地在因果關(guān)系與相關(guān)關(guān)系中做出抉擇。如果數(shù)據(jù)總體支持因果關(guān)系的判別和斷言,則像傳統(tǒng)數(shù)據(jù)庫那樣提供因果關(guān)系斷語;如果數(shù)據(jù)計(jì)算量宏大、成本高昂或條件不具備,則把關(guān)注點(diǎn)由“因果關(guān)系”調(diào)整為“相關(guān)關(guān)系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地,這種相關(guān)關(guān)系的選擇不能是隨機(jī)的,而是預(yù)先設(shè)計(jì)和規(guī)劃好的。

        不同的數(shù)據(jù)庫開發(fā)理念,不同的應(yīng)用目標(biāo),不同的技術(shù)方案,早就了新型數(shù)據(jù)庫豐富多彩、特點(diǎn)各異的局面。

        1.3 從傳統(tǒng)關(guān)系數(shù)據(jù)庫到非關(guān)系數(shù)據(jù)

        在計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)剛剛趨于穩(wěn)定的1970年,IBM公司的Edgar Codd(科德)首先提出了關(guān)系數(shù)據(jù)庫的概念和規(guī)則,這是數(shù)據(jù)庫技術(shù)的一個(gè)重要的里程碑??频露x的關(guān)系數(shù)據(jù)庫具有結(jié)構(gòu)化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關(guān)系明確、一致性好的優(yōu)點(diǎn)。關(guān)系數(shù)據(jù)庫模型把數(shù)據(jù)庫操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結(jié)構(gòu)化查詢語言則把關(guān)系數(shù)據(jù)庫及其操作模式完整地固定下來,其理論和做法延續(xù)至今,被作為數(shù)據(jù)庫技術(shù)的重要基石。關(guān)系數(shù)據(jù)庫中定義的關(guān)系模型的實(shí)質(zhì)是二維表格模型,關(guān)系數(shù)據(jù)庫就是通過關(guān)系連接的多個(gè)二維表格之間的數(shù)據(jù)集合。當(dāng)前流行的數(shù)據(jù)庫軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關(guān)系數(shù)據(jù)庫。

        到二十世紀(jì)八十年代后期,IBM的研究員提出了數(shù)據(jù)倉庫(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉庫定義:“數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定?!睌?shù)據(jù)倉庫的進(jìn)步在于,它把決策支持定為數(shù)據(jù)庫中數(shù)據(jù)組織和管理的目標(biāo),從而把智能性和決策能力融入到數(shù)據(jù)庫中。Inmon之后,Ralph Kimball建立了更加方便、實(shí)用的“自底向上”數(shù)據(jù)倉庫架構(gòu)并稱之為“數(shù)據(jù)集市”(Data Mart),這種技術(shù)受到企業(yè)及廠家的歡迎并采納實(shí)施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉庫,但是它的出現(xiàn)誘發(fā)了商務(wù)智能和聯(lián)機(jī)分析技術(shù)的流行。

        隨著數(shù)據(jù)庫在企業(yè)中的廣泛應(yīng)用,企業(yè)收集了大量的數(shù)據(jù),如何從已有數(shù)據(jù)中提取對(duì)企業(yè)運(yùn)營和決策具有重要價(jià)值的信息,成為了數(shù)據(jù)庫使用者和開發(fā)者關(guān)系的話題?!瓣P(guān)系數(shù)據(jù)庫之父”科德再次走在了前面,提出多維數(shù)據(jù)庫和多維分析的概念,這便是“聯(lián)機(jī)分析處理”(OLAP),使得數(shù)據(jù)庫已經(jīng)顯現(xiàn)了“智能性”特點(diǎn)。從數(shù)據(jù)倉庫中產(chǎn)生的OLAP又反過來促進(jìn)和推動(dòng)數(shù)據(jù)倉庫技術(shù)的更深層的發(fā)展。

        數(shù)據(jù)倉庫、OLAP的發(fā)展和成熟催生了下一代數(shù)據(jù)庫“智能產(chǎn)品”——數(shù)據(jù)挖掘。該技術(shù)是指從大量的數(shù)據(jù)中自動(dòng)搜索數(shù)據(jù)之間隱藏著的特殊關(guān)系,通過統(tǒng)計(jì)、分析、檢索、機(jī)器學(xué)習(xí)結(jié)合專家系統(tǒng)(結(jié)合過去的經(jīng)驗(yàn))和模式識(shí)別來發(fā)現(xiàn)數(shù)據(jù)之間的“內(nèi)在聯(lián)系”,為判斷、決策、規(guī)劃提供信息。這時(shí)被發(fā)現(xiàn)的“內(nèi)在聯(lián)系”不再是簡(jiǎn)單的結(jié)果,而是上升為“知識(shí)”,大量知識(shí)的積累更進(jìn)一步提升了數(shù)據(jù)挖掘的準(zhǔn)確性和商業(yè)價(jià)值。數(shù)據(jù)倉庫把數(shù)據(jù)挖掘地深度進(jìn)一步擴(kuò)展并快速應(yīng)用到商業(yè)環(huán)境中,這便是“商業(yè)智能”(Business Intelligent, BI)。

        商業(yè)智能和數(shù)據(jù)挖掘的大規(guī)模應(yīng)用是在互聯(lián)網(wǎng)高度普及的時(shí)刻,隨著數(shù)據(jù)庫技術(shù)的發(fā)展和商業(yè)競(jìng)爭(zhēng)的白熱化,網(wǎng)絡(luò)服務(wù)、網(wǎng)絡(luò)搜索引擎及網(wǎng)絡(luò)用戶行為標(biāo)引技術(shù)逐漸成熟。通過數(shù)據(jù)庫中的知識(shí)、用戶行為統(tǒng)計(jì)、分析,產(chǎn)生出更具綜合性、普遍性和高商業(yè)附加值的知識(shí),與數(shù)據(jù)挖掘和商業(yè)智能同期發(fā)展的數(shù)據(jù)可視化技術(shù),充分利用圖形、圖表等視覺元素,完成了現(xiàn)代數(shù)據(jù)庫技術(shù)在結(jié)果輸出和表現(xiàn)形式上的又一次飛躍。數(shù)據(jù)挖掘、商業(yè)智能、可視化技術(shù)的基礎(chǔ)是大數(shù)據(jù),其工具便是大數(shù)據(jù)工具。

        猜你喜歡
        數(shù)據(jù)挖掘數(shù)據(jù)庫
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)庫
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)庫
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        久久综合九色综合网站| av手机免费在线观看高潮| 青春草免费在线观看视频| 亚洲乱码中文字幕三四区| 欧美男生射精高潮视频网站| 中国熟妇人妻xxxxx| 久久99久久久无码国产精品色戒| 亚洲人妻av在线播放| 视频在线观看一区二区三区| 亚洲精品无码久久久久牙蜜区| 91呻吟丰满娇喘国产区| 日本一区二区三区在线视频观看| 亚洲成人中文字幕在线视频 | 国产麻豆一精品一AV一免费软件| 免费人成网在线观看品观网| 尤物yw午夜国产精品视频| 少妇高潮尖叫黑人激情在线| 亚洲无码夜夜操| 亚州中文字幕乱码中文字幕| 国产aⅴ无码专区亚洲av| 人妻无码一区二区三区四区| 亚洲在战AV极品无码| 狂插美女流出白浆视频在线观看| 国产永久免费高清在线| 亚洲va在线va天堂va手机| 国产丝袜美腿诱惑在线观看| 日韩乱码中文字幕在线| 夜夜躁狠狠躁2021| 女同性恋精品一区二区三区| 日韩精品极品免费观看| 美女主播网红视频福利一区二区| 小荡货奶真大水真多紧视频| 亚洲AV无码乱码1区久久| 在线观看二区视频网站二区| 精品国际久久久久999波多野| 学生妹亚洲一区二区| 亚洲一区极品美女写真在线看| 亚洲tv精品一区二区三区| 亚洲成av人片在线观看无码 | 丰满少妇人妻无码| 中日韩精品视频在线观看|