亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        海量跨媒體數(shù)據(jù)智能分析系統(tǒng)的研究

        2016-05-30 10:48:04胡輝胡松黃思博曾德方蔡昭權(quán)
        科技尚品 2016年5期
        關(guān)鍵詞:數(shù)據(jù)分析

        胡輝 胡松 黃思博 曾德方 蔡昭權(quán)

        摘要:隨著計算機技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,高清視頻、圖片、下載、音樂、網(wǎng)頁內(nèi)容越來越豐富,這些圖像和視頻等多媒體信息的獲取和傳播越來越方便快捷,因此,如何在浩如煙海的數(shù)據(jù)中準確無誤地查詢所檢索的信息;在海量的數(shù)據(jù)面前有不同的媒體數(shù)據(jù)展現(xiàn)形態(tài),如何進行數(shù)據(jù)檢索、收集、匯總、分析,從而得出智能化的推論。一種新型的數(shù)據(jù)分析方法,如對物體示例搜索、基于Hadoop的圖像檢索和網(wǎng)絡(luò)視頻中熱點事件聚類3個方面進行交叉研究,主要工作是針對數(shù)據(jù)形態(tài),文本數(shù)據(jù)、視頻數(shù)據(jù)以及文本與視頻跨態(tài)數(shù)據(jù),構(gòu)建各自的相似度塊矩陣,文本模態(tài)、視頻模態(tài)以及文本與視頻間的跨模態(tài),將多模態(tài)融合的相似度矩陣和譜聚類算法結(jié)合起來,在熱點事件視頻數(shù)據(jù)庫中進行聚類效果的分析,實驗驗證了方法的有效性,從而獲得市場或者決策依據(jù)。

        關(guān)鍵詞:數(shù)據(jù)分析;跨媒體數(shù);數(shù)據(jù)索引;索引優(yōu)化;數(shù)據(jù)智能分析系統(tǒng)

        隨著市場經(jīng)濟和科學(xué)技術(shù)水平的不斷發(fā)展以及互聯(lián)網(wǎng)技術(shù)的不斷更新,由海量多媒體信息形成的大數(shù)據(jù)急需一種更加高效靈活的處理方式,即大數(shù)據(jù)建模方法,跨媒體數(shù)據(jù)統(tǒng)一識別、數(shù)據(jù)關(guān)聯(lián)推理、數(shù)據(jù)深度挖掘、信息綜合搜索方式、數(shù)據(jù)內(nèi)容集成整合等,都需要跨媒體數(shù)據(jù)研究向智能化、大型化深入發(fā)展。

        1 跨媒體檢索的含義和演進

        麥格克早在1976年就告訴我們:人類對一個整體事物的一個概念性理解,需要人腦跨越和綜合不同感官信息來判斷和識別外界信息??缑襟w檢索就是這樣一個過程,就是常說的跨媒體信息檢索。它適應(yīng)當(dāng)前信息檢索的需要,受到國內(nèi)外學(xué)術(shù)界的廣泛關(guān)注,其檢索特點是將相同內(nèi)容、相同語言意義作為一個研究對象,是一種復(fù)雜類型的媒體信息檢索技術(shù)。它識別檢索的不僅僅是文字,還包括圖像、音頻等廣義上的文件或者文件包,因此,需要一個內(nèi)嵌的中央處理器(CPU)進行分析運算。

        2 對跨媒體數(shù)據(jù)進行智能化處理的前提

        首先要設(shè)計一種支持多模態(tài)檢索的方法,實現(xiàn)從一種模態(tài)的媒體對象檢索出另一種模態(tài)媒體對象的功能,這樣才能有一個數(shù)據(jù)底層識別的標準。

        跨媒體識別標準設(shè)立的意義。由于跨媒體內(nèi)容形式多樣,識別的難度自然加大,需要處理和分析匯總的運算能力就要高效、快速、精確,否則無法進行精準的識別。為了實現(xiàn)這個目標,對信息智能化處理的前提是需要打造一個支持多模態(tài)、高緯度的信息檢索中心,運用多模檢索、高緯度識別技術(shù)就可以實現(xiàn)檢索目的。

        其次應(yīng)用高維索引技術(shù),對數(shù)據(jù)信息進行檢索分析。高維索引技術(shù)已經(jīng)有20年的運用歷史,在索引檢索、歸類、匯總上作用巨大。一般采用樹形索引,利用空間分片、化區(qū)的辦法進行歸類索引,如Rtree及其變種是最常用的,但樹形檢索只適用于少維度的空間,對于多維度的檢索需要首先進行數(shù)據(jù)降層轉(zhuǎn)化,然后按層級處理。

        再次是對原始向量采用近似的方法表示,如IQ-tree和VAfile之類向量就只能用近似模式來體現(xiàn)。這種檢索方法可以加速按順序檢索數(shù)據(jù)信息,但也有很多弊端,由于模糊的方法在有的時候顯示出來的效果會南轅北轍、答非所問,影響檢索效果。

        最后是如何對數(shù)據(jù)進行降層、降緯度處理的問題。當(dāng)前使用最多的辦法就是先對信息進行維度降低,把高維度的信息統(tǒng)統(tǒng)進行轉(zhuǎn)化,通過將高維數(shù)據(jù)轉(zhuǎn)化為一維數(shù)據(jù)進行高維查詢,包括NB-Tree和Distance等。

        總之,要形成一個衡量系統(tǒng)的標準體系,然后根據(jù)識別標準設(shè)計出合理的檢索辦法,對跨媒體數(shù)據(jù)進行數(shù)據(jù)檢索、收集、匯總、分析。

        3 數(shù)據(jù)檢索引擎的建立

        數(shù)據(jù)檢索、收集、匯總、分析,根據(jù)跨媒體數(shù)據(jù)類型進行分類統(tǒng)一,然后進行建模,構(gòu)建了跨媒體基元生成模型,還建立了跨媒體數(shù)據(jù)的局部特征和全局特征之間的映射機制,從多媒體數(shù)據(jù)表現(xiàn)出的底層特性出發(fā),建立了相應(yīng)的數(shù)據(jù)索引結(jié)構(gòu)。經(jīng)過一系列算法運算之后為圖像內(nèi)容相似度匹配模型,采用基于改進的語音識別算法實現(xiàn)了音頻內(nèi)容的模板匹配過程,完成了圖像與音頻的互檢索,初步形成了從一種媒體類型檢索到另一類媒體的設(shè)計過程,建立相應(yīng)的跨媒體索引。整個系統(tǒng)運作過程就是一個數(shù)據(jù)分析引擎。

        4 對跨媒體數(shù)據(jù)進行智能化處理的方法

        通過分析不同模態(tài)的信息或者數(shù)據(jù)內(nèi)容的特征以及它們各自在統(tǒng)計意義上的典型相關(guān)性,然后通過它們各自在二維空間跨媒體數(shù)據(jù)的各自維度,整合修正拓撲結(jié)構(gòu),解決了特征向量的異構(gòu)性問題,從而結(jié)合相關(guān)反饋中的先驗知識,提出數(shù)據(jù)分析模型。

        4.1 數(shù)據(jù)查詢與優(yōu)化問題

        首先會遇到幾個難題:

        (1)如何實現(xiàn)實時檢索。實時檢索可以使數(shù)據(jù)最大可能地表現(xiàn)真實性。

        (2)查詢會導(dǎo)致系統(tǒng)內(nèi)存不足。內(nèi)存是系統(tǒng)數(shù)據(jù)處理的倉庫,頻繁查詢會加大系統(tǒng)運算所使用內(nèi)存的容量。

        (3)會產(chǎn)生數(shù)據(jù)冗余。數(shù)據(jù)冗余會導(dǎo)致數(shù)據(jù)庫中數(shù)據(jù)的重復(fù)出現(xiàn),占用大量的存儲空間,在使用中導(dǎo)致不便,在系統(tǒng)設(shè)計中要盡可能降低數(shù)據(jù)冗余,達到數(shù)據(jù)的簡潔、易用。

        (4)數(shù)據(jù)替換速度如何解決?

        (5)數(shù)據(jù)容錯、糾錯速度。容錯就是當(dāng)由于各種原因,假如在系統(tǒng)中出現(xiàn)了數(shù)據(jù)、文件損壞或丟失時,系統(tǒng)能夠自動將這些損壞或丟失的文件和數(shù)據(jù)恢復(fù)到發(fā)生事故以前的狀態(tài),使系統(tǒng)能夠連續(xù)正常運行的一種技術(shù)。容錯有很多種形式,比較常用的有硬件容錯、軟件容錯、整機容錯、全線容錯等,在容錯技術(shù)中提高系統(tǒng)工作可靠性的方法主要有系統(tǒng)自檢技術(shù)和冗余技術(shù)。

        要解決上述一系列問題,首先需要組建數(shù)據(jù)分發(fā)服務(wù)器機群,包括多臺數(shù)據(jù)分發(fā)服務(wù)器,用于將需要創(chuàng)建的數(shù)據(jù)拆分,并分發(fā)給創(chuàng)建數(shù)據(jù)索引服務(wù)器;創(chuàng)建數(shù)據(jù)索引服務(wù)器機群,包括多臺創(chuàng)建數(shù)據(jù)索引服務(wù)器,接收數(shù)據(jù)分發(fā)服務(wù)器分發(fā)的數(shù)據(jù)并為數(shù)據(jù)創(chuàng)建索引;檢索服務(wù)器機群,根據(jù)索引過程中需要完成的功能對服務(wù)器進行分配,避免搶資源。其次是建立一個數(shù)據(jù)庫查詢倉庫。數(shù)據(jù)庫索引如同翻閱書籍的目錄一樣,通過檢索索引,就可以輕松查到所需的內(nèi)容,提高數(shù)據(jù)庫的查詢速度,因此數(shù)據(jù)庫查詢倉庫的建立是不可或缺的。4.2數(shù)據(jù)庫設(shè)計完善和優(yōu)化的方法

        海量數(shù)據(jù)處理的一個熱點是數(shù)據(jù)庫(尤其是MySQL)性能優(yōu)化方法。MySQL數(shù)據(jù)庫優(yōu)化需要完成以下方面設(shè)計。

        首先,要千方百計地提升優(yōu)化索引的性能辦法,對數(shù)據(jù)庫的寫操作(插入、更新、刪除等)盡量用短字節(jié),查詢邏輯越簡單越好。

        其次,充分發(fā)揮和利用配置緩存來降低數(shù)據(jù)庫查詢讀取次數(shù),這樣可以大大緩解和釋放數(shù)據(jù)庫服務(wù)器的壓力。

        再次,日志分析要靈活使用。數(shù)據(jù)庫長期運行會積累大量的LOG日志,其信息量巨大,我們通過日志分析就能找到系統(tǒng)性能的關(guān)鍵,從而進一步提出系統(tǒng)優(yōu)化方案。

        最后,要優(yōu)化索引數(shù)據(jù)庫模型。特別是聚集索引,用處更為卓越,具有兩個最大的優(yōu)勢:以最快的速度縮小查詢范圍,時間就是效率,效率就是金錢;以最快的速度進行字段排序。

        4.2 衡量海量跨媒體數(shù)據(jù)優(yōu)化的標準

        首先是數(shù)據(jù)要易于分析。如果數(shù)據(jù)查詢僅僅看到結(jié)果是不夠的,當(dāng)管理決策者對結(jié)果有疑問時,要能從多個角度、多條路徑去分析為什么會這樣。只有這樣,才能找到問題的原因,才能讓管理決策者更有針對性地提出改善措施,從而提高管理決策水平。數(shù)據(jù)易于閱讀。大數(shù)據(jù)的一個關(guān)鍵價值就是化繁為簡,所以要將數(shù)據(jù)簡化為幾個關(guān)鍵的KPI,讓管理決策者通過幾個數(shù)字就能知道經(jīng)營的情況。同時,數(shù)據(jù)的可視化也至關(guān)重要。一堆密密麻麻、信息量龐大的表格,是無法讓管理決策者一眼就發(fā)現(xiàn)問題與趨勢的,合理地利用儀表盤與圖表,就可以讓數(shù)據(jù)動起來。

        其次生成的數(shù)據(jù)要易于獲取。目前大家一般在電子表格中處理數(shù)據(jù),電子表格EXCEL的功能雖然很強悍,能夠熟練應(yīng)用的人也很多很廣泛,但電子表格EXCEL無法完成的一個功能是無法集成為一個完整的平臺,無法讓所有人通過一個平臺去調(diào)取數(shù)據(jù)或者能夠調(diào)取的也只能是一個個單一無法聯(lián)通的數(shù)據(jù)。如果沒有辦法解決平臺化的問題,即大家無法在一個平臺上獲取數(shù)據(jù),而是一個個獨立的EXCEL文件,這樣管理決策者獲得的信息是單一的,其結(jié)果還需要一個研發(fā)或者設(shè)計一個新的整合這些數(shù)據(jù)的軟件,造成了數(shù)據(jù)無法體現(xiàn)其應(yīng)有的價值。當(dāng)前,隨著移動互聯(lián)技術(shù)越來越成熟,管理決策者越來越習(xí)慣在移動設(shè)備上辦公,所以如何讓管理決策者充分利用移動設(shè)備訪問數(shù)據(jù),是使數(shù)據(jù)發(fā)揮價值的重要原因。總之,數(shù)據(jù)獲取的便捷、快速是衡量海量跨媒體數(shù)據(jù)智能分析系統(tǒng)優(yōu)劣的一個重要指標。

        最后是如何打造一個扁平化數(shù)據(jù),但又不能讓所處理數(shù)據(jù)的原有價值貶值。如果太過去扁平化處理數(shù)據(jù),會毀掉原始結(jié)構(gòu)中所表達的重要對應(yīng)關(guān)系。很多用戶希望數(shù)據(jù)呈現(xiàn)的狀態(tài)可以和可視元素進行交互,從而很清晰明了地得到他們正在尋找的答案。如果數(shù)據(jù)扁平、過濾次數(shù)太多、數(shù)據(jù)失真,信息會失去原來的價值。這是一個兩難的境地。海量跨媒體數(shù)據(jù)智能分析系統(tǒng)就需要在兩難中艱難取舍。

        5 大數(shù)據(jù)、云數(shù)據(jù)的處理

        5.1 數(shù)據(jù)打包和轉(zhuǎn)移

        大數(shù)據(jù)很“大”,如果打包轉(zhuǎn)移,負擔(dān)太重。不能將數(shù)據(jù)提取出來,要將數(shù)據(jù)處理成一個個數(shù)據(jù)集市和數(shù)據(jù)立方,如果“提取”數(shù)據(jù),就意味著轉(zhuǎn)移數(shù)據(jù),將給數(shù)據(jù)維護、系統(tǒng)網(wǎng)絡(luò)性能附加處理器等造成一系列紛亂龐雜的問題,還會出現(xiàn)兩個邏輯上相同的備份。解決這個問題,目前應(yīng)用的最直接的解決辦法是利用BI系統(tǒng),先讓BI深入更底層運行數(shù)據(jù),做好數(shù)據(jù)的分析比對,這就是大數(shù)據(jù)萌發(fā)的最初動力。

        5.2 數(shù)據(jù)安全防護問題

        眾所周知,數(shù)據(jù)泄露事件頻繁發(fā)生,要保證數(shù)據(jù)的安全穩(wěn)妥,就要選擇能夠利用現(xiàn)有安全模型的BI工具。依靠Ranger、Sentry、Knox等綜合性安全系統(tǒng),使云技術(shù)、大數(shù)據(jù)實現(xiàn)數(shù)據(jù)安全變得更加容易,現(xiàn)在就連Mongo數(shù)據(jù)庫都有了令人驚嘆的安全架構(gòu)。所有那些模型都允許插入權(quán)限、將用戶信息一路傳播到應(yīng)用層、實施可視化的授權(quán)和提供與該授權(quán)相關(guān)的數(shù)據(jù)志。請記住:數(shù)據(jù)安全就是服務(wù),就是價值。

        5.3 充分利用智能工具、智能軟件、智能技術(shù)

        要利用這些智能工具,我們可以從用戶和數(shù)據(jù)與可視圖的交互中獲得大量實時信息,再通過現(xiàn)代智能工具整合、匯總、分析,然后得出結(jié)論,就可以輕松地讓信息為我們服務(wù)。

        如今的大數(shù)據(jù)系統(tǒng)因為預(yù)測分析能力而著稱。相關(guān)性、預(yù)測和其他功能使企業(yè)用戶比以往任何時候都能更便捷地進行高級分析,不需要編程經(jīng)驗就能處理大數(shù)據(jù)的可視化技術(shù)使分析師們?nèi)缬猩裰?,超越了基本分析的范疇。為了實現(xiàn)其真正的潛力,大數(shù)據(jù)不應(yīng)該依賴于每個人都變成R預(yù)言程序員。人類非常善于處理可視化信息,我們必須更加努力地將可視化信息呈現(xiàn)在人們眼前。

        6 打造跨媒體海量數(shù)據(jù)智能分析系統(tǒng)

        打造海量跨媒體數(shù)據(jù)智能分析系統(tǒng),要對系統(tǒng)分析、系統(tǒng)預(yù)測、系統(tǒng)評估、系統(tǒng)運行管理等整個流程進行一一梳理,對數(shù)據(jù)的發(fā)現(xiàn)、分析、識別、評價和預(yù)警等方面分別做出反應(yīng)動作。

        跨媒體海量數(shù)據(jù)智能分析對數(shù)據(jù)系統(tǒng)分析、預(yù)測和評估,是一個連貫的過程。利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法有數(shù)據(jù)分類法、時間回歸分析法、數(shù)據(jù)統(tǒng)一歸類法、根據(jù)數(shù)據(jù)相互關(guān)聯(lián)規(guī)則、數(shù)據(jù)差異特征、數(shù)據(jù)相互變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。一般來說,系統(tǒng)分析是要對數(shù)據(jù)進行處理,目前使用最多的辦法是時間序列分析法、移動平均模型、指數(shù)平滑模型、趨勢預(yù)測、季節(jié)指數(shù)預(yù)測。

        系統(tǒng)評估就是對處理數(shù)據(jù)經(jīng)過分析和預(yù)測后得出的結(jié)論。目前應(yīng)用最廣泛的評估辦法是系統(tǒng)自動仿真評估。

        系統(tǒng)運行管理方面,首先要指定完善的系統(tǒng)運行管理制度,這樣可以使系統(tǒng)能夠安全可靠地運行下去,要明確各個位置、各方的職責(zé),做好妥善的安排和規(guī)劃布局。

        總之,海量跨媒體數(shù)據(jù)智能分析系統(tǒng)的打造,需要龐大的資金、技術(shù)以及場地等,并非一朝一夕就可以實現(xiàn),因此我們要進行跨媒體智能系統(tǒng)的研究,盡早打造一個可以進行數(shù)據(jù)分析、匯總,然后提出預(yù)警信息??梢灶A(yù)計,在不遠的將來我們預(yù)計數(shù)據(jù)處理速度將會變得越來越快。一個典型方法是聯(lián)機分析處理(OLAP)立方,本質(zhì)上就是把數(shù)據(jù)轉(zhuǎn)移到預(yù)計算緩存,從而加快數(shù)據(jù)處理的速度。

        猜你喜歡
        數(shù)據(jù)分析
        電子物證檢驗的數(shù)據(jù)分析與信息應(yīng)用研究
        基于matlab曲線擬合的數(shù)據(jù)預(yù)測分析
        商情(2016年40期)2016-11-28 11:28:07
        分眾媒體趨勢下場景營銷的商業(yè)前景
        商(2016年32期)2016-11-24 17:39:41
        佛山某給水管線控制測量探討
        科技資訊(2016年18期)2016-11-15 18:05:53
        SPSS在環(huán)境地球化學(xué)中的應(yīng)用
        考試周刊(2016年84期)2016-11-11 23:57:34
        大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
        科技視界(2016年18期)2016-11-03 22:51:40
        我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
        體育時空(2016年8期)2016-10-25 18:02:39
        Excel電子表格在財務(wù)日常工作中的應(yīng)用
        淺析大數(shù)據(jù)時代背景下的市場營銷策略
        新常態(tài)下集團公司內(nèi)部審計工作研究
        中國市場(2016年36期)2016-10-19 04:31:23
        亚洲不卡中文字幕无码| 青青草免费在线爽视频| 欧美xxxxx高潮喷水麻豆| 精品区2区3区4区产品乱码9| 中国丰满熟妇av| 亚洲阿v天堂2018在线观看| 亚洲最大av免费观看| 国产白浆一区二区三区佳柔| 男女男精品视频网站免费看| 亚洲一区二区三区四区五区六| 国产全肉乱妇杂乱视频| 亚洲高清有码在线观看| 激情乱码一区二区三区| 91色区在线免费观看国产| 又粗又黑又大的吊av| 特级婬片国产高清视频| 精品乱码一区内射人妻无码| 公粗挺进了我的密道在线播放贝壳| 综合色久七七综合尤物| 亚洲成av在线免费不卡| 男女搞事在线观看视频| 99热在线观看| 亚洲 欧美精品suv| 色窝窝手在线视频| 亚洲一区二区av天堂| www夜片内射视频在观看视频| 精品无码日韩一区二区三区不卡| 国产美女69视频免费观看| 精品国产乱来一区二区三区| 一区二区三区在线少妇| 中国人妻与老外黑人| 国产成人精品一区二区视频| 国产精品国产三级国产在线观| 亚洲日本高清一区二区| 国产又大又黑又粗免费视频| 人妻少妇精品视频一区二区三区| 亚洲日本国产乱码va在线观看| 国产日本精品一区二区免费| 无码乱肉视频免费大全合集| 亚洲国产精品成人无码区| 国产精品久久无码免费看|