摘 要:隨著社會(huì)的日益發(fā)展,數(shù)據(jù)量的增長(zhǎng)日益加快,特別是隨著互聯(lián)網(wǎng)行業(yè)的迅猛發(fā)展,基于網(wǎng)頁而生成的影視傳媒領(lǐng)域海量日志數(shù)據(jù)正在成為各個(gè)互聯(lián)網(wǎng)公司必須面對(duì)和需要認(rèn)真處理的重要數(shù)據(jù)形式,面對(duì)如此影視傳媒領(lǐng)域海量的數(shù)據(jù),不僅需要考慮如何快速、靈活、高效的存儲(chǔ)這些數(shù)據(jù),也需要充分的利用這些影視傳媒領(lǐng)域海量數(shù)據(jù)幫助進(jìn)行分析,因此面向影視傳媒領(lǐng)域海量數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),將成為一個(gè)重要的研究方向。
關(guān)鍵詞:互聯(lián)網(wǎng) 數(shù)據(jù)存儲(chǔ) 傳媒 技術(shù)
中圖分類號(hào):TQ59;G220.7文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1674-098X(2012)07(a)-0032-01
1 引言
當(dāng)今社會(huì)計(jì)算機(jī)技術(shù)在各領(lǐng)域廣泛的應(yīng)用,在商業(yè)、金融、互聯(lián)網(wǎng)等領(lǐng)域每天都在產(chǎn)生影視傳媒領(lǐng)域海量的數(shù)據(jù)信息,而互聯(lián)網(wǎng)的迅猛發(fā)展也使得網(wǎng)絡(luò)中的各種信息日益豐富。面對(duì)GB級(jí)、TB級(jí)甚至更多的數(shù)據(jù),如何處理日益增長(zhǎng)的數(shù)據(jù)成為當(dāng)今數(shù)字化社會(huì)面臨的一個(gè)極具挑戰(zhàn)性的問題。而這些數(shù)據(jù)中蘊(yùn)含的價(jià)值正在被越來越多的人所關(guān)注和研究,比如對(duì)于影視傳媒企業(yè)而言,客戶群是巨大而復(fù)雜的,市場(chǎng)也變得更大,更復(fù)雜,其數(shù)據(jù)也就變得更加豐富,從而使挖掘其中的數(shù)據(jù)信息,找出其中的價(jià)值知識(shí),成為了必然需求。對(duì)于互聯(lián)網(wǎng)等行業(yè)進(jìn)行數(shù)據(jù)挖掘時(shí),所需有的數(shù)據(jù)主要是Web內(nèi)容,Web結(jié)構(gòu),Web使用記錄、用戶的背景信息、交易信息、查詢信息等。
2 新型存儲(chǔ)傳輸影視傳媒應(yīng)用工程技術(shù)在影視傳媒領(lǐng)域方案
2.1 數(shù)據(jù)存儲(chǔ)工程與影視傳媒結(jié)合
對(duì)于互聯(lián)網(wǎng)這個(gè)新興行業(yè),其在未來的發(fā)展速度必然是極其迅速的,而互聯(lián)網(wǎng)行業(yè)中Web文本日志是它的數(shù)據(jù)信息中占比重最大的部分,對(duì)于影視傳媒類的企業(yè),這種信息可以直接反映出客戶的購買,產(chǎn)品的銷售等重要的商業(yè)信息,對(duì)于指導(dǎo)市場(chǎng),引導(dǎo)資源合理配置可以起到十分重要的作用。據(jù)資料顯示,2006年全球數(shù)據(jù)總量達(dá)到0.18ZB,并且預(yù)測(cè)2011年將達(dá)到1.8ZB,很多傳媒集團(tuán)每天處理的信息量已經(jīng)超過了20PB;
著名社交網(wǎng)站FaceBook的主機(jī)存儲(chǔ)著約100億張照片,占據(jù)PB級(jí)的空間;
淘寶每天增量數(shù)據(jù)達(dá)TB級(jí),全量數(shù)據(jù)超過PB級(jí)這些信息均顯示了,目前互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)增加的迅猛程度,面對(duì)如此巨大的數(shù)據(jù)規(guī)模和數(shù)據(jù)增長(zhǎng)趨勢(shì),各個(gè)企業(yè)都在思考如何將這些影視傳媒領(lǐng)域海量的數(shù)據(jù)中蘊(yùn)含的價(jià)值轉(zhuǎn)化真正的黑金。
目前對(duì)于數(shù)據(jù)處理中,人們首先考慮到的是使用傳統(tǒng)的新型存儲(chǔ)傳輸影視傳媒應(yīng)用管理系統(tǒng),來對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的管理,在此基礎(chǔ)上進(jìn)行數(shù)據(jù)清理,去掉其中的噪聲,糾正不一致,數(shù)據(jù)集成通過搜集各個(gè)不同的數(shù)據(jù)源,進(jìn)行統(tǒng)一的數(shù)據(jù)匯總,聚合,并進(jìn)行數(shù)據(jù)歸約,實(shí)現(xiàn)對(duì)數(shù)據(jù)的聚集,維度歸約,數(shù)值歸約。
2.2 數(shù)據(jù)存儲(chǔ)媒體應(yīng)用特點(diǎn)
(1)存儲(chǔ)成本不斷提高,由于像Oracle這類新型存儲(chǔ)傳輸影視傳媒應(yīng)用,每一次新型存儲(chǔ)傳輸影視傳媒應(yīng)用的擴(kuò)容便帶來企業(yè)運(yùn)營(yíng)成本的不斷提高,例如,目前淘寶網(wǎng)擁有國(guó)內(nèi)日處理量最大,最忙的數(shù)據(jù)倉庫,淘寶網(wǎng)于2004年開始基于Oracle產(chǎn)品構(gòu)建企業(yè)級(jí)的數(shù)據(jù)倉庫(EDW)07、08、09三年對(duì)于Oracle RAC進(jìn)行升級(jí),目前部署在由20個(gè)節(jié)點(diǎn)組成的單一新型存儲(chǔ)傳輸影視傳媒應(yīng)用集群之上,但是隨著企業(yè)業(yè)務(wù)的飛速發(fā)展,利用這種需要高昂費(fèi)用的企業(yè)級(jí)新型存儲(chǔ)傳輸影視傳媒應(yīng)用管理系統(tǒng),對(duì)于企業(yè)成本必然是相當(dāng)大的負(fù)擔(dān)。
(2)運(yùn)算相應(yīng)時(shí)間開始變得比較緩慢,特別是面對(duì)影視傳媒領(lǐng)域海量web日志數(shù)據(jù),傳統(tǒng)的新型存儲(chǔ)傳輸影視傳媒應(yīng)用,由于都是嚴(yán)格按照關(guān)系型新型存儲(chǔ)傳輸影視傳媒應(yīng)用進(jìn)行設(shè)計(jì),對(duì)于二維表結(jié)構(gòu)的數(shù)據(jù)能夠很快的處理,但是面對(duì)互聯(lián)網(wǎng)的日趨發(fā)展,非結(jié)構(gòu)化,非關(guān)系化的文本日志數(shù)據(jù),圖片數(shù)據(jù),音頻數(shù)據(jù),越來越多,使用傳統(tǒng)的方式分析這些數(shù)據(jù),將導(dǎo)致單個(gè)節(jié)點(diǎn)無法承受如此巨大數(shù)據(jù)量的輸入,運(yùn)行時(shí)間變得不可預(yù)測(cè)。
(3)新型存儲(chǔ)傳輸影視傳媒應(yīng)用高并發(fā)讀寫的需求,web2.0網(wǎng)站要根據(jù)用戶個(gè)性化信息來實(shí)時(shí)生成動(dòng)態(tài)頁面和提供動(dòng)態(tài)信息,所以基本上無法使用動(dòng)態(tài)頁面靜態(tài)化技術(shù),因此新型存儲(chǔ)傳輸影視傳媒應(yīng)用并發(fā)負(fù)載非常高,往往要到達(dá)每秒鐘上萬次讀寫請(qǐng)求,上萬次的SQL查詢新型存儲(chǔ)傳輸影視傳媒應(yīng)用還是可以應(yīng)付得了,但是對(duì)于上萬次的SQL寫數(shù)據(jù)請(qǐng)求,硬盤I/O就已經(jīng)無法承受。
(4)對(duì)于高擴(kuò)展性和高可用性的需求,傳統(tǒng)關(guān)系型數(shù)據(jù)基本很難進(jìn)行橫向擴(kuò)展,不能像web server或者app server一樣通過直接增加一些硬件和服務(wù)節(jié)點(diǎn)來實(shí)現(xiàn)擴(kuò)展和負(fù)載均衡。
3 存儲(chǔ)技術(shù)在媒體領(lǐng)域應(yīng)用創(chuàng)新
其實(shí)這種對(duì)于新型非關(guān)系型數(shù)據(jù)的研究早在上個(gè)世紀(jì)90年代就已經(jīng)提出過,不過當(dāng)時(shí)由于數(shù)據(jù)處理的規(guī)模不大,對(duì)于這種需求不是很旺盛,因此使像Oracle、Mysql等這類關(guān)系型新型存儲(chǔ)傳輸影視傳媒應(yīng)用占據(jù)了新型存儲(chǔ)傳輸影視傳媒應(yīng)用的主流地位。
而目前一切開始改變了,當(dāng)很多傳媒集團(tuán)的工程師于幾年前提出GFS的設(shè)計(jì)理念后,整個(gè)對(duì)于這種大規(guī)模數(shù)據(jù)處理的方式,開始發(fā)生了根本的改變,后來Dong Cut根據(jù)他以前開發(fā)的Apache Lucene,結(jié)合很多傳媒集團(tuán)提出的GFS以及MapReduce編程模式,開發(fā)了Hadoop開源分布式計(jì)算框架,通過這個(gè)開源項(xiàng)目并且結(jié)合數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的理論,可以構(gòu)建一套適用于影視傳媒領(lǐng)域海量文本數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)。
基于影視傳媒領(lǐng)域海量數(shù)據(jù)的分布式計(jì)算目前發(fā)展?fàn)顩r,云計(jì)算對(duì)于影視傳媒領(lǐng)域海量數(shù)據(jù)的處理是現(xiàn)在的一個(gè)研究熱點(diǎn),其實(shí)早在20世紀(jì)60年代,麥卡錫(John McCarthy)就已經(jīng)提出了像水電供應(yīng)一樣,將計(jì)算能力作為一種基礎(chǔ)服務(wù)提供給每個(gè)人,云計(jì)算第一個(gè)里程碑出現(xiàn)在1999年salesforce.com提出使用一個(gè)網(wǎng)站,來為企業(yè)提供計(jì)算服務(wù)平臺(tái)。
隨后影視傳媒集團(tuán)(Amazon)開發(fā)出了彈性計(jì)算云(EC2)和簡(jiǎn)單服務(wù)存儲(chǔ)(S3),提供給企業(yè)計(jì)算服務(wù),影視傳媒集團(tuán)發(fā)布這樣服務(wù)不到兩年已經(jīng)有了44萬的企業(yè)用戶,其服務(wù)項(xiàng)目包括CPU、帶寬、存儲(chǔ)服務(wù)等,這些基本都是按照時(shí)長(zhǎng)進(jìn)行收費(fèi),目前云計(jì)算服務(wù)已經(jīng)成為影視傳媒集團(tuán)重要的增長(zhǎng)最快的業(yè)務(wù)。
4 結(jié)語
針對(duì)數(shù)據(jù)挖掘技術(shù),目前的研究概況可以從兩方面進(jìn)行分析:
從實(shí)際應(yīng)用方面分析包括:通過對(duì)數(shù)據(jù)挖掘原型系統(tǒng)DBMiner分析研究可以更好的存儲(chǔ)媒體西悉尼。這是一個(gè)交互式的多層挖掘系統(tǒng),包括功能:概括、特征、分類、預(yù)測(cè)。并且提供了一種交互式的類SQL語言—DMQL(數(shù)據(jù)挖掘查詢語言),能與關(guān)系新型存儲(chǔ)傳輸影視傳媒應(yīng)用平滑集成。研究開發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)Quest,實(shí)現(xiàn)了關(guān)聯(lián)規(guī)則、分類規(guī)則、序列模式和相似序列等。通過開發(fā)原型系統(tǒng),用于處理不同媒體領(lǐng)域的知識(shí),從而能夠?qū)崿F(xiàn)數(shù)據(jù)存儲(chǔ)傳輸。
參考文獻(xiàn)
[1]韓家煒,堪博著.2007.?dāng)?shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.第1版.北京:機(jī)械工業(yè)出版社,200-205,401-407.
[2]張?jiān)?,高向陽?008.?dāng)?shù)據(jù)挖掘中分類算法分析與量化研究.西北工業(yè)大學(xué)學(xué)報(bào),26(6):718-721.
[3]林士敏,田鳳占.2001.貝葉斯網(wǎng)絡(luò)的建造及其在數(shù)據(jù)采掘中的應(yīng)用.清華大學(xué)學(xué)報(bào),41(1):49-52.