亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ETL 和SVM 的融媒體平臺數(shù)據(jù)采集與分析技術(shù)研究

        2021-08-15 11:36:44李菊文
        電子設(shè)計工程 2021年15期
        關(guān)鍵詞:模型

        李菊文

        (西安職業(yè)技術(shù)學院,陜西西安 710077)

        移動互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展以及智能終端設(shè)備的普及,使得微博、抖音等社交軟件逐漸成為人們看新聞的新途徑,并出現(xiàn)大量的自媒體[1-3]。隨著數(shù)字文明的到來,媒體的融合是應對自媒體與時代所帶來挑戰(zhàn)的最佳選擇[4-5]。融媒體在此背景下逐步形成,其既有電視、廣播、報紙等傳統(tǒng)媒體的特點,又補充了這三者的短板,實現(xiàn)了在內(nèi)容、宣傳途徑等方面的全面整合[6]。融媒體的出現(xiàn)使傳統(tǒng)媒介的邊界變得模糊,其影響力超過了以往任何一種媒介[7-8]。

        融媒體通常為“網(wǎng)+端+新媒體+市場端口連接”,即由4 部分構(gòu)成,以實現(xiàn)多終端的交互平臺。然而多個終端系統(tǒng)均有適用于自身的技術(shù)平臺,數(shù)據(jù)不但彼此獨立,數(shù)據(jù)口徑也各不相同[9-11]。為了實現(xiàn)全新的傳播格局,各個終端系統(tǒng)要實現(xiàn)數(shù)據(jù)共享和流通。實現(xiàn)數(shù)據(jù)精準推送、滿足用戶個性化需求,是當前融媒體增強用戶粘性與忠誠度的重要手段之一。而對于識別用戶的需求,近年來不少學者提出了研究方案,其中機器學習是廣泛應用的算法之一[12-16]。

        在機器學習中,支持向量機是一種監(jiān)督學習的方法,被用于實現(xiàn)分類及回歸分析。文中使用支持向量機構(gòu)建融媒體數(shù)據(jù)分析模型,并針對樣本數(shù)量較多與多個優(yōu)化目標這兩種情況進行改進。對于融媒體平臺用戶喜好的識別,則需要大量的數(shù)據(jù)作為支持向量機模型的訓練樣本。文中使用ELT 技術(shù)將融媒體中各個社交軟件、媒體平臺的數(shù)據(jù)匯總,以實現(xiàn)數(shù)據(jù)的統(tǒng)一管理與分析。構(gòu)建數(shù)據(jù)中心,實現(xiàn)所有業(yè)務的數(shù)據(jù)化,提升數(shù)據(jù)價值。

        1 融媒體平臺數(shù)據(jù)采集與分析

        如何使融媒體平臺發(fā)揮最大的宣傳效果與影響力是一個重要的目標,在實現(xiàn)這一目標的過程中,需要處理各個社交軟件平臺的數(shù)據(jù)。使用先進的信息化技術(shù)高效地收集海量數(shù)據(jù),并挖掘數(shù)據(jù)背后的信息成為融媒體平臺的工作重點之一。

        文中的融媒體平臺數(shù)據(jù)采集與分析技術(shù),主要基于ELT 技術(shù)和支持向量機技術(shù),通過構(gòu)建數(shù)據(jù)中心來實現(xiàn)各個社交軟件、媒體平臺數(shù)據(jù)沉淀、數(shù)據(jù)匯聚及數(shù)據(jù)共享,具體框架如圖1 所示。建立數(shù)據(jù)中心可以幫助融媒體高效管理各個平臺的數(shù)據(jù)。而創(chuàng)建高效、穩(wěn)定的數(shù)據(jù)中心的關(guān)鍵技術(shù)為數(shù)據(jù)的抽取、轉(zhuǎn)換、加載,即ELT 技術(shù)。數(shù)據(jù)的分析與挖掘則采用了機器學習中的支持向量機技術(shù)。

        圖1 融媒體平臺數(shù)據(jù)采集與分析結(jié)構(gòu)框架

        由于融媒體涉及多個傳播媒體、社交軟件平臺,多平臺數(shù)據(jù)管理和共享是影響融媒體工作效率的關(guān)鍵。與ELT 技術(shù)相比,文中采用的ETL 技術(shù)將所有應用使用的數(shù)據(jù)儲存在HBase 中。當不同的應用根據(jù)相關(guān)模型的需求篩選得到所需的數(shù)據(jù)子集,并完成相應的特征提取和模型計算,從而降低對源端的依賴與訪問頻次,且對于機器學習算法具有良好的兼容性。

        2 數(shù)據(jù)采集與分析算法

        2.1 基于ELT技術(shù)的數(shù)據(jù)中心

        融媒體平臺的數(shù)據(jù)中心主要分為數(shù)據(jù)模型及ETL 兩個部分,其關(guān)鍵部件是數(shù)據(jù)倉庫和數(shù)據(jù)集市。圖2 展示了數(shù)據(jù)中心的數(shù)據(jù)流模型,由此模型可以確定各個數(shù)據(jù)流的邏輯關(guān)系。數(shù)據(jù)集市具有較少的數(shù)據(jù)量,通過收集實時決策所需的各項數(shù)據(jù)來完成在線業(yè)務的處理。無論是數(shù)據(jù)倉庫還是OLTP系統(tǒng),均可以迅速創(chuàng)建出新的數(shù)據(jù)集市。

        圖2 數(shù)據(jù)中心的數(shù)據(jù)流模型

        對于ELT 技術(shù)而言,元數(shù)據(jù)的設(shè)計至關(guān)重要,影響著整個系統(tǒng)的性能。元數(shù)據(jù)的主要功能為對資源數(shù)據(jù)進行描述,同時定義數(shù)據(jù)之間的業(yè)務邏輯關(guān)系。數(shù)據(jù)在ELT 過程中所涉及數(shù)據(jù)源、數(shù)據(jù)項及數(shù)據(jù)格式的映射、轉(zhuǎn)換等操作定義,均由元數(shù)據(jù)來完成。針對融媒體平臺的數(shù)據(jù)處理,元數(shù)據(jù)定義主要包含以下幾條:

        1)對于ELT 過程中的每一個源數(shù)據(jù)的屬性及格式進行描述;

        2)明確定義對數(shù)據(jù)實施的各項規(guī)則和所使用的技術(shù)、方法;

        3)數(shù)據(jù)ELT 過程的路徑定義、數(shù)據(jù)中心熱備份的轉(zhuǎn)存等操作定義。

        其中,元數(shù)據(jù)由四部分組成:靜態(tài)元數(shù)據(jù)模型、行為元數(shù)據(jù)模型、關(guān)系元數(shù)據(jù)模型及實例元數(shù)據(jù)模型。在融媒體數(shù)據(jù)ETL 過程中,核心元模型被定義為對象的靜態(tài)元數(shù)據(jù)模型;將變更等操作行為的元數(shù)據(jù)定義成行為元數(shù)據(jù)模型;關(guān)系元數(shù)據(jù)描述了不同元數(shù)據(jù)之間的邏輯關(guān)系;被應用于實例的元數(shù)據(jù)則被稱為實例元數(shù)據(jù)。

        傳統(tǒng)方法中,不同系統(tǒng)之間的信息管理方式為點對點方式,考慮到不同媒體平臺、社交軟件所采用的數(shù)據(jù)模型之間的差異性,在所建立的數(shù)據(jù)中心之間進行數(shù)據(jù)共享存在眾多障礙。當有N個子系統(tǒng)需要進行數(shù)據(jù)交換時,接口程序為N(N-1)/2。一旦N的取值超過5,接口程序的個數(shù)將顯著增加系統(tǒng)維護的困難。為了降低接口程序數(shù)量,以及避免因子系統(tǒng)的改變引發(fā)的數(shù)據(jù)結(jié)構(gòu)變化。文中采用“星型”結(jié)構(gòu)的數(shù)據(jù)中心模式,具體如圖3 所示。當數(shù)據(jù)中心需要各個子系統(tǒng)將數(shù)據(jù)匯總時,采用“多對一”的模式;而當數(shù)據(jù)中心需要將數(shù)據(jù)分發(fā)給各個子系統(tǒng)時,采用“一對多”模式。

        圖3 “星型”結(jié)構(gòu)的數(shù)據(jù)中心模式結(jié)構(gòu)示意圖

        文中采用基于Python 語言的可視化數(shù)據(jù)轉(zhuǎn)換設(shè)計器來解決不同數(shù)據(jù)來源、格式的數(shù)據(jù)整合問題,具體過程如圖4 所示。由于融媒體平臺數(shù)量級別較大,為了提高ELT 效率,所有數(shù)據(jù)在進入到ELT 系統(tǒng)后,均由EXF 文件轉(zhuǎn)換為Flat Text 文件格式。同時為了提高數(shù)據(jù)傳輸速度,采用Push 和Pull 方式以降低對源系統(tǒng)的影響。Push 是指在源系統(tǒng)上將新增的數(shù)據(jù)按照事先設(shè)定的格式,通過FTP 或復制的方式傳遞給ETL 程序;Pull 是指通過DRDA 或ODBC 數(shù)據(jù)庫協(xié)議直接訪問源數(shù)據(jù)庫獲得數(shù)據(jù)。

        圖4 面向融媒體的ELT系統(tǒng)結(jié)構(gòu)示意圖

        2.2 基于進化多目標優(yōu)化的SVM選擇算法

        支持向量機(SVM)是機器學習中被廣泛使用的分類器。隨著用于訓練的實例樣本數(shù)量的增多,其訓練復雜度呈指數(shù)型增長,嚴重影響支持向量機的分類效率。因此,需要對實例樣本進行選擇來降低樣本數(shù)量。實例樣本選擇是機器學習中一項重要的數(shù)據(jù)預處理技術(shù),其目的是從原始實例樣本數(shù)據(jù)集合中挑選出合適的子集,并利用該子集訓練出與利用原始樣本數(shù)據(jù)集合訓練出的精度相似或更高的分類器模型。

        融媒體每天在不同平臺上產(chǎn)生的數(shù)據(jù),暗含著用戶對各類新聞、實時的關(guān)注程度及看法。這些大規(guī)模的數(shù)據(jù)預處理,通常需要兼顧壓縮率及分類精度。此外,算法的計算效率也是評價算法的重要指標。

        文中將聚類代理評價與支持向量機結(jié)合,來構(gòu)建基于聚類代理評價的SVM 實例選擇算法。主要思想為將所有樣本實例數(shù)據(jù)聚類初始化,然后在進化的過程中對種群所有個體進行編碼聚類。根據(jù)代理評價結(jié)果來選擇進行SVM 評價的個體,最終實現(xiàn)分類。

        在上述過程中,采用歐式距離作為兩個子代相似性的評價指標,根據(jù)歐式距離的大小將各個子代劃分為不同的簇,聚類過程如圖5 所示。在種群所有個體均進行編碼聚類后,子代個體的排序須通過父代個體適應度數(shù)值之和的加權(quán)來計算得到,具體如式(1)所示。

        圖5 基于編碼聚類的代理評價示意圖

        其中,Sij表示第i個個體與第j個個體編碼后的距離;ρk為第k個簇中父代個體的數(shù)量;wj為調(diào)節(jié)因子。為了避免子代個體壓縮率過低,在NSGA-2二進制編碼的變異策略中采用不對稱變異策略,即設(shè)定將個體從1 變異為0 的概率大于從0 變異為1 的概率。

        3 測試與驗證

        為了驗證文中所述方案的有效性與可行性,分別針對ETL 性能和數(shù)據(jù)分析能力進行測試,ETL 性能的測試采用Informatic Power Center 平臺。通過事先設(shè)定好的程序來實現(xiàn)業(yè)務邏輯所需要的抽取、清洗及轉(zhuǎn)化操作,測試過程中所使用的軟硬件配置,如表1 所示。測試過程中,對融媒體平臺進行了共200名使用者同時訪問的壓力測試,測試持續(xù)了10 min,邏輯響應時間如圖6 所示。當系統(tǒng)訪問并發(fā)量逐漸增加時,ELT 響應時間也逐步增加。如圖7 所示,在訪問并發(fā)量達到滿負荷時,運行時間保持平穩(wěn),維持在較小的數(shù)值范圍內(nèi),響應速度也在一定數(shù)值內(nèi)波動。

        表1 ETL性能測試軟硬件配置表

        圖6 ETL邏輯響應時間

        圖7 ETL邏輯響應速度

        針對數(shù)據(jù)分析和多目標優(yōu)化的驗證,文中采用4 個數(shù)據(jù)集,每個數(shù)據(jù)集隨機分成5 份。其中4 份用于訓練SVM 模型,其余1 份用于驗證測試模型。每個數(shù)據(jù)集的各項信息,如表2 所示。文中使用ParetoTSS 算法作為對照組進行驗證,實驗組合對照組均使用相同的軟硬件配置和數(shù)據(jù)集。精度對比結(jié)果,如圖8 所示。由圖8 可知,文中所述SVM 算法在進行實例選擇后,4 個數(shù)據(jù)集的分類精度均比ParetoTSS 算法高,平均分類精度為78.5%,這表明文中所述方案的有效性。值得注意的是,數(shù)據(jù)集1 和數(shù)據(jù)集3 的分類精度明顯高于數(shù)據(jù)集2 與數(shù)據(jù)集4。這是由于數(shù)據(jù)集1 與數(shù)據(jù)集3 的實例個數(shù)和特征數(shù)較高,經(jīng)過實例選擇后的樣本數(shù)據(jù)特征更加完整、全面。

        圖8 實驗組與對照組對分類精度對比結(jié)果

        表2 樣本數(shù)據(jù)集明細表

        4 結(jié)束語

        文中基于ELT 技術(shù)與SVM 算法開展了融媒體平臺數(shù)據(jù)采集和分析的研究。針對現(xiàn)階段融媒體平臺在建設(shè)時所面臨的多終端數(shù)據(jù)接口、數(shù)據(jù)分析技術(shù)不統(tǒng)一的問題,文中通過構(gòu)建數(shù)據(jù)中心,將多終端、多平臺的數(shù)據(jù)整合到一起儲存管理;利用ELT 技術(shù)進行各平臺、終端的各項數(shù)據(jù)匯聚;利用機器學習中的SVM 算法對融媒體平臺數(shù)據(jù)進行特征提取和分類,并通過實例選擇來降低樣本數(shù)量從而提高SVM 模型運行時間。經(jīng)測試,文中所提算法對數(shù)據(jù)采集、高用戶訪問據(jù)有較高的穩(wěn)定性。且與其他算法相比,具有較高的分類精度,證明了文中方案的有效性。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        精品国产粉嫩内射白浆内射双马尾 | 国产免费a∨片在线软件| 亚洲av电影天堂男人的天堂| 连续高潮喷水无码| 国产一区二区三区特区| 尤物在线观看一区蜜桃| 亚洲精品一区久久久久久| 伊人久久综在合线亚洲不卡| 亚洲高清自偷揄拍自拍| 东北女人一级内射黄片| 亚洲第一页综合图片自拍| 大陆一级毛片免费播放| 午夜在线观看一区二区三区四区| 手机在线亚洲精品网站| 国产精品无码成人午夜电影| 亚洲日韩欧美一区二区三区| 日韩国产一区二区三区在线观看 | 欧美自拍区| 精品人妻一区二区三区蜜臀在线 | 亚洲精品乱码久久久久久中文字幕 | 国产高潮刺激叫喊视频| 五月激情狠狠开心五月| 亚洲中文字幕乱码第一页| 天下第二社区在线视频| 国产亚洲一本大道中文在线| 亚洲一区久久久狠婷婷| 日本妇人成熟免费2020| 国产在线视频一区二区三区| 亚洲国产剧情在线精品视| 91l视频免费在线观看| 中文字幕日本人妻久久久免费| 日韩无码视频淫乱| 亚洲成av在线免费不卡| 国产精品国产三级国产av中文| 成人久久久久久久久久久| 在线丝袜欧美日韩制服| 人妻蜜桃日产一本久道综合在线| 成人精品视频一区二区| 国产久热精品无码激情 | 亚洲一区二区三区新视频| 丰满少妇高潮惨叫久久久|