亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        XML技術(shù)在大數(shù)據(jù)環(huán)境下的運(yùn)用探討

        2018-06-17 11:16:48馬孝賀李莎
        無(wú)線互聯(lián)科技 2018年2期
        關(guān)鍵詞:大數(shù)據(jù)環(huán)境

        馬孝賀 李莎

        摘 要:隨著信息化時(shí)代的不斷發(fā)展,網(wǎng)絡(luò)技術(shù)的不斷成熟使得網(wǎng)上的信息也越來(lái)越豐富。在現(xiàn)階段的數(shù)據(jù)庫(kù)研究中也逐漸將關(guān)注點(diǎn)放在對(duì)網(wǎng)絡(luò)中海量的信息的深度運(yùn)用上面。文章對(duì)現(xiàn)在普遍流行的XML技術(shù)在大數(shù)據(jù)環(huán)境下的運(yùn)用進(jìn)行探討,以其對(duì)Web數(shù)據(jù)信息收集、數(shù)據(jù)挖掘以及數(shù)據(jù)交換中的技術(shù)運(yùn)用進(jìn)行具體分析,希望能夠借此加深對(duì)于XML技術(shù)的印象。

        關(guān)鍵詞:大數(shù)據(jù)環(huán)境;XML技術(shù);Web數(shù)據(jù)挖掘

        隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大數(shù)據(jù)問(wèn)題便從技術(shù)層面上升到了國(guó)家戰(zhàn)略層面的最高層,研究大數(shù)據(jù)環(huán)境下的具體運(yùn)用已經(jīng)成為當(dāng)前的一個(gè)比較重要的課題。在大數(shù)據(jù)的環(huán)境下,數(shù)據(jù)收集、數(shù)據(jù)挖掘以及數(shù)據(jù)交換上都迫切地需要進(jìn)行創(chuàng)新和變革,可擴(kuò)展的標(biāo)記語(yǔ)言( Extensible MarkupLanguage,XML)技術(shù)在大數(shù)據(jù)環(huán)境下的運(yùn)用,可以幫助我們更好地應(yīng)對(duì)大數(shù)據(jù)環(huán)境所帶來(lái)的機(jī)遇和挑戰(zhàn),促進(jìn)我國(guó)科學(xué)技術(shù)創(chuàng)新能力的不斷發(fā)展。

        1 XML技術(shù)介紹

        1.1 XML概念

        XML作為一種描述性的標(biāo)記語(yǔ)言,它也是標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言。它是一套定義語(yǔ)義標(biāo)記的規(guī)范,旨在能夠?qū)?shù)據(jù)類(lèi)型進(jìn)行定義,便于人和計(jì)算機(jī)將其進(jìn)行識(shí)別。它也是簡(jiǎn)單的數(shù)據(jù)存儲(chǔ)語(yǔ)言,用來(lái)表述數(shù)據(jù)結(jié)構(gòu)化的通用語(yǔ)言,是便于用戶對(duì)自己的標(biāo)記語(yǔ)言進(jìn)行定義的元語(yǔ)言,其建立過(guò)程的方便性給用戶的使用體驗(yàn)帶來(lái)了很大的便利,成為當(dāng)前大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的有力工具。

        1.2 XML的核心技術(shù)

        XML文檔主要是由3個(gè)元素構(gòu)成:文檔類(lèi)型定義DTD,可擴(kuò)展樣式表語(yǔ)言XSL以及可擴(kuò)展鏈接語(yǔ)言XLL。在這3個(gè)元素具體的功能劃分上,DTD是一套關(guān)于標(biāo)記符的語(yǔ)法規(guī)則,對(duì)XML的文檔起到了很好的描述作用,定義XML中相關(guān)元素及元素屬性的關(guān)系;XSL控制XML文檔顯示時(shí)的版面以及對(duì)文字的顯示進(jìn)行處理;XLL是對(duì)XML的語(yǔ)言進(jìn)行鏈接,使得不同用戶根據(jù)自身的需求選取合適的使用方法‘1]。

        1.3 XML技術(shù)的特點(diǎn)

        XML設(shè)計(jì)的主要目的是為了傳輸和存儲(chǔ)數(shù)據(jù),其關(guān)注的焦點(diǎn)是數(shù)據(jù)的內(nèi)容。在存儲(chǔ)方面,它是以純文本的格式進(jìn)行存儲(chǔ)的,不同于所有不兼容的軟、硬件的數(shù)據(jù)存儲(chǔ)方法,可以在各種不兼容的軟、硬件中進(jìn)行數(shù)據(jù)的存儲(chǔ),降低了數(shù)據(jù)交換的復(fù)雜性。XML具有擴(kuò)展性的特點(diǎn),它突破了HTML在擴(kuò)展性上面的局限性,允許用戶在定義標(biāo)記時(shí)不受數(shù)量的限制,可以根據(jù)自身的需求對(duì)信息結(jié)構(gòu)進(jìn)行嵌套,方便用戶的使用。在數(shù)據(jù)的搜索上它具有智能化的特征,借助于對(duì)各種信息所含元素的定義,它可以很好地對(duì)信息進(jìn)行描述。同時(shí)XML技術(shù)還改變了傳統(tǒng)的信息構(gòu)造方式,使得互聯(lián)網(wǎng)數(shù)據(jù)在傳輸上面更加快捷準(zhǔn)確。由于在內(nèi)容和應(yīng)用上的分開(kāi),加上文檔定義類(lèi)型DTD只是對(duì)數(shù)據(jù)的結(jié)構(gòu)、語(yǔ)義和存放等方式進(jìn)行描述,沒(méi)有涉及數(shù)據(jù)被顯示等方面的問(wèn)題,XML數(shù)據(jù)就可以被不同的程序進(jìn)行運(yùn)用,其又具有很好的復(fù)用性。XML還具有國(guó)際化的特點(diǎn),由于其統(tǒng)一代碼的編碼標(biāo)準(zhǔn),它支持世界上的大多數(shù)文字,便于計(jì)算機(jī)系統(tǒng)之間進(jìn)行信息數(shù)據(jù)的交換,可以最大化地突破國(guó)際和不同文化疆界的信息交換的限制。

        2 Web數(shù)據(jù)

        2.1 Web上的數(shù)據(jù)特點(diǎn)

        World Wide Web是由巨大的、異構(gòu)的以及半結(jié)構(gòu)化和動(dòng)態(tài)的基于超鏈接的超媒體文檔所構(gòu)成的數(shù)據(jù)庫(kù),從數(shù)據(jù)庫(kù)的角度出發(fā),Web網(wǎng)站上的信息具有多元化、半結(jié)構(gòu)化、動(dòng)態(tài)化以及分散性等特點(diǎn),使得信息的處理更加的復(fù)雜和龐大。對(duì)于Web數(shù)據(jù)的使用來(lái)說(shuō),盡管現(xiàn)階段已經(jīng)取得了一些成果,但是在異構(gòu)數(shù)據(jù)環(huán)境、半結(jié)構(gòu)化數(shù)據(jù)環(huán)境以及較強(qiáng)動(dòng)態(tài)性數(shù)據(jù)源上還是存在著較多的不足。例如,從用戶的角度出發(fā),由于每個(gè)用戶群體的背景及使用目的的不同,使得Web上的信息量的使用較為復(fù)雜,加大了相關(guān)工作的難度[2]。

        2.2 XML技術(shù)運(yùn)用在Web數(shù)據(jù)中的優(yōu)勢(shì)

        雖然HTML和XML都是對(duì)Web文檔的語(yǔ)言進(jìn)行描述的工具,但是XML的靈活性較高,能夠?qū)?shù)據(jù)本身進(jìn)行很細(xì)致的描述,使得它很容易與數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng),憑借其在增加結(jié)構(gòu)及語(yǔ)義信息上的優(yōu)勢(shì),解決了Internet發(fā)展速度快而接入速度慢等問(wèn)題,擴(kuò)大了服務(wù)器處理信息的容量。在現(xiàn)階段的Web數(shù)據(jù)應(yīng)用中,XML已經(jīng)成為正式的規(guī)范,開(kāi)發(fā)人員借助XML在相關(guān)技術(shù)上的優(yōu)勢(shì),進(jìn)行數(shù)據(jù)交換和格式的處理。XML具有可升級(jí)的3層模型,可以幫助其從存在的數(shù)據(jù)中分離出來(lái),并且其結(jié)構(gòu)化的數(shù)據(jù)可以從商業(yè)規(guī)范和表現(xiàn)的形式中進(jìn)行分離。在異構(gòu)數(shù)據(jù)的集成的實(shí)現(xiàn)上,基于Web數(shù)據(jù)的多樣性和非結(jié)構(gòu)化,傳統(tǒng)的文檔的查詢(xún)和分析方法效率較低,正確性較低;但是運(yùn)用XML技術(shù),可以大大提高文檔的結(jié)構(gòu)化程度,便于分析性的內(nèi)容數(shù)據(jù)庫(kù)的建立。XML的中間層技術(shù),可以在改進(jìn)站點(diǎn)設(shè)計(jì)、提供個(gè)性化服務(wù)等方面起到良好的作用。XML的中間層技術(shù)可以將數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,且同一個(gè)XML文件的內(nèi)容可以變成多個(gè)文件傳給不同的用戶,實(shí)現(xiàn)網(wǎng)頁(yè)傳輸?shù)膭?dòng)態(tài)化特征。3XML在大數(shù)據(jù)環(huán)境下Web數(shù)據(jù)中的運(yùn)用

        3.1在Web數(shù)據(jù)收集中

        Web的信息收集是指從互聯(lián)網(wǎng)中收集出用戶感興趣的信息,并以清晰各格式化的方式進(jìn)行輸出。在Web的信息收集中,可以將互聯(lián)網(wǎng)比作是信息源,根據(jù)用戶需求的不同,對(duì)信息進(jìn)行篩選,以達(dá)到給用戶提供具有針對(duì)性的數(shù)據(jù)信息。

        XML技術(shù)的出現(xiàn),有利于Web信息的抽取和應(yīng)用。在信息收集時(shí),可以將頁(yè)面文檔解析成為DOM數(shù)的結(jié)構(gòu),將頁(yè)面的操作處理轉(zhuǎn)化成為對(duì)DOM樹(shù)的處理,并通過(guò)XML的轉(zhuǎn)換語(yǔ)言XSLT對(duì)文檔的編寫(xiě)規(guī)則進(jìn)行抽取,實(shí)現(xiàn)XML與Web間數(shù)據(jù)的轉(zhuǎn)換。Web的信息收集可以按照收集對(duì)象的不同,將其分為3個(gè)類(lèi)型:自由文本、結(jié)構(gòu)化的文本以及半結(jié)構(gòu)化的文本。XML憑借其自身的優(yōu)勢(shì),可以將Web頁(yè)面中的特定信息收集出來(lái),并使之成為結(jié)構(gòu)化的、具有很強(qiáng)擴(kuò)展性的文檔,為數(shù)據(jù)的分析和重新組合提供支持。例如,在數(shù)據(jù)收集的過(guò)程中,可以將每個(gè)站點(diǎn)作為研究的基本單位,根據(jù)用戶感興趣的信息,將信息收集起來(lái),并生成結(jié)構(gòu)化的文檔。之后,便為每個(gè)站點(diǎn)建立一個(gè)待收集信息路徑表,當(dāng)出現(xiàn)頻繁的操作以及并沒(méi)有清晰的路徑記錄寫(xiě)入時(shí),可以從信息路徑表中歸納出最小DOM樹(shù)的路徑,根據(jù)其中的路徑信息和信息模型生產(chǎn)收集規(guī)則,把收集結(jié)果存入XML文檔中,便完成了對(duì)信息的收集規(guī)則。

        3.2在Web數(shù)據(jù)挖掘中

        所謂Web數(shù)據(jù)挖掘,是指在萬(wàn)維網(wǎng)上挖掘出有趣的、潛在的、有用的信息及其模式。XML在Web數(shù)據(jù)挖掘中的運(yùn)用主要是以下4個(gè)方面:(1)借助Web客戶端在兩個(gè)或多個(gè)異質(zhì)數(shù)據(jù)庫(kù)之間進(jìn)行通信。(2)將多個(gè)處理負(fù)載從Web服務(wù)器轉(zhuǎn)到客戶端的應(yīng)用。(3) Web利用其智能化的特征為用戶提供具體所需要的信息的應(yīng)用。(4) Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶使用的應(yīng)用。

        在Web的挖掘的處理過(guò)程上面來(lái)看,基于XML技術(shù)可以使Web文檔結(jié)構(gòu)化,在Web的結(jié)構(gòu)挖掘上可以節(jié)約很多的數(shù)據(jù)處理時(shí)間。特別的是,由于XML中文檔的拓?fù)浣Y(jié)構(gòu)較為明顯,在分析網(wǎng)站中的層次關(guān)系以及鏈接關(guān)系上具有明顯的優(yōu)勢(shì),可以對(duì)信息流的方向進(jìn)行辨別。在數(shù)據(jù)的統(tǒng)一接口的問(wèn)題的處理上,借助于XML技術(shù),數(shù)據(jù)挖掘軟件可以不用仔細(xì)了解每個(gè)數(shù)據(jù)庫(kù)是如何構(gòu)建起來(lái)的,便于對(duì)分布式數(shù)據(jù)挖掘進(jìn)行處理,不用受到不同數(shù)據(jù)庫(kù)、不同數(shù)據(jù)源的限制。XML技術(shù)可以快速地使來(lái)自不同源的結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行融合,其主要是經(jīng)過(guò)以下步驟來(lái)實(shí)現(xiàn)的:首先,用XML技術(shù)將從來(lái)源于后端數(shù)據(jù)庫(kù)以及其他Web來(lái)源的數(shù)據(jù)在中間層的服務(wù)器上進(jìn)行集成;其次,XML所具有的可擴(kuò)展性,可以充分地對(duì)不同數(shù)據(jù)進(jìn)行定義和表達(dá),按照不同用戶的不同需求,將數(shù)據(jù)進(jìn)行深層次的處理和加工,并發(fā)送到不同的用戶手中。

        3.3在數(shù)據(jù)交換中

        對(duì)于現(xiàn)階段的數(shù)據(jù)交換來(lái)說(shuō),可以以XML在電子商務(wù)數(shù)據(jù)交換模型為例。電子商務(wù)數(shù)據(jù)主要存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,XML與關(guān)系數(shù)據(jù)庫(kù)的映射是電子商務(wù)數(shù)據(jù)交換平臺(tái)開(kāi)發(fā)的重要工作。XML作為結(jié)構(gòu)與數(shù)據(jù)的統(tǒng)一體,在數(shù)據(jù)的轉(zhuǎn)換過(guò)程中又被分為關(guān)系模式和關(guān)系數(shù)據(jù)兩個(gè)方面。在這個(gè)過(guò)程中,是以XML服務(wù)器為核心,來(lái)實(shí)現(xiàn)客戶端與服務(wù)器的交互,客戶端既可以直接讀取服務(wù)器的各類(lèi)信息,又可以在服務(wù)器中存儲(chǔ)信息。其中,XML處理器是作為模型的核心,它主要負(fù)責(zé)完成數(shù)據(jù)的解析和反解析兩個(gè)過(guò)程,將業(yè)務(wù)數(shù)據(jù)與電子報(bào)文進(jìn)行相互的轉(zhuǎn)換;之后便對(duì)解析后的數(shù)據(jù)進(jìn)行分析和加工,使之便于用戶瀏覽和存儲(chǔ),用戶借助于Web服務(wù)器進(jìn)行相應(yīng)的業(yè)務(wù)處理,Web在這個(gè)過(guò)程中起到一個(gè)中間媒介的作用.一方面接收客戶端的請(qǐng)求,給其提供常規(guī)的訪問(wèn)信息;同時(shí)其又將生成的動(dòng)態(tài)文件發(fā)送給客戶端,實(shí)現(xiàn)數(shù)據(jù)信息的有效交流。在電子商務(wù)的運(yùn)用當(dāng)中,企業(yè)可以借助XML在Web數(shù)據(jù)交換中的有利優(yōu)勢(shì),實(shí)現(xiàn)業(yè)務(wù)訂單的接收與處理[3]。

        4結(jié)語(yǔ)

        本文主要介紹了XML技術(shù)在大數(shù)據(jù)環(huán)境下的處理優(yōu)勢(shì),對(duì)其概念、特點(diǎn)等進(jìn)行了介紹。并就其在Web數(shù)據(jù)收集、數(shù)據(jù)挖掘和數(shù)據(jù)交換中的具體運(yùn)用進(jìn)行了闡述。XML技術(shù)的發(fā)展,為大數(shù)據(jù)環(huán)境下Web數(shù)據(jù)的分析和處理提供了有力的支持。要加強(qiáng)對(duì)相關(guān)技術(shù)的研發(fā)和使用,適應(yīng)現(xiàn)代化社會(huì)對(duì)海量數(shù)據(jù)信息的需求的趨勢(shì),不斷提高我國(guó)的科技競(jìng)爭(zhēng)力。

        [參考文獻(xiàn)]

        [1]江文斌,張仁津,張方霞基于WebServices的電子商務(wù)系統(tǒng)的研究與架構(gòu)[J]電腦知識(shí)與技術(shù),2010 (10):2392-2394

        [2]倪興旺.基于XML的異構(gòu)數(shù)據(jù)交換研究與實(shí)現(xiàn)[J]石家莊學(xué)院學(xué)報(bào),2014 (3):35-38

        [3]劉媛媛.基于XML和WebServices的電子政務(wù)數(shù)據(jù)交換平臺(tái)的實(shí)現(xiàn)[J]龜子技術(shù)與軟件工程,2015 (13):97

        猜你喜歡
        大數(shù)據(jù)環(huán)境
        大數(shù)據(jù)環(huán)境下商業(yè)銀行“小微貸”競(jìng)爭(zhēng)策略分析
        淺談在大數(shù)據(jù)環(huán)境下的民生審計(jì)思路
        基于大數(shù)據(jù)環(huán)境下傳統(tǒng)媒體廣告經(jīng)營(yíng)創(chuàng)新分析
        大數(shù)據(jù)環(huán)境下高校圖書(shū)館個(gè)性化信息服務(wù)研究
        大數(shù)據(jù)環(huán)境下云計(jì)算對(duì)電子商務(wù)的影響
        基于大數(shù)據(jù)環(huán)境的新聞編輯理念變革創(chuàng)新機(jī)制
        大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘技術(shù)分析及若干研究
        中文信息(2016年10期)2016-12-12 09:46:47
        大數(shù)據(jù)環(huán)境下的新聞編輯理念創(chuàng)新探討
        大數(shù)據(jù)環(huán)境下的信息系統(tǒng)審計(jì)初探
        大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)文學(xué)輿情控制系統(tǒng)
        五月天中文字幕日韩在线| 亚洲av乱码专区国产乱码| 国产精品国产三级国av在线观看 | 久久一区二区三区老熟女| 精品国际久久久久999波多野| 国产福利酱国产一区二区 | 久久综合久久鬼色| 国产精品国产三级国产专播 | 综合网自拍| 久久婷婷国产五月综合色| 亚洲乱码中文字幕视频| 狠狠躁夜夜躁人人躁婷婷视频| 日韩精品大片在线观看| 久久人妻av不卡中文字幕| 久久一区二区国产精品| 亚洲国产成人久久三区| 在线看亚洲十八禁网站| 美腿丝袜一区二区三区| 虎白m粉嫩小在线播放| 日产亚洲一区二区三区| 亚洲依依成人综合在线网址| av日本一区不卡亚洲午夜| 美女主播福利一区二区| 国偷自产视频一区二区久| 黄色毛片视频免费| 白色白色在线视频播放平台| 午夜久久久久久禁播电影| 日本熟妇色xxxxx欧美老妇| 国产精品国产三级国产专区5o| 隔壁人妻欲求不满中文字幕 | 成人一区二区免费中文字幕视频| 欧美精品免费观看二区| 国产精品亚洲婷婷99久久精品| 扒开美女内裤舔出白水| 水蜜桃精品一二三| 国产伦精品一区二区三区四区| 亚洲中文字幕乱码在线观看| 99久久久无码国产精品秋霞网| 色综合久久久久久久久五月| 人妻精品人妻一区二区三区四五| 无遮挡激情视频国产在线观看|