亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)技術的情感分析系統(tǒng)的設計和實現(xiàn)

        2020-07-07 22:03:15劉丹趙云飛
        裝備維修技術 2020年30期
        關鍵詞:數(shù)據(jù)挖掘大數(shù)據(jù)

        劉丹 趙云飛

        摘 要:在這個數(shù)據(jù)爆炸的時代,每個人的生活、工作以及思維都將發(fā)生改變。大數(shù)據(jù)資源隱含著巨大的商業(yè)價值,大數(shù)據(jù)在為信息領域帶來深刻變革的同時也為其他行業(yè)帶來了機遇和挑戰(zhàn)。本文研究了數(shù)據(jù)挖掘的理論知識及分析過程。設計并實現(xiàn)了從數(shù)據(jù)采集、非結構化數(shù)據(jù)存儲、分析結果的可視化等數(shù)據(jù)挖掘過程。

        關鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;電視節(jié)目;中文情感分析

        0 引言

        本文選取綜藝節(jié)目《奔跑吧兄弟》作為代表,采集其在主流視頻網(wǎng)站的用戶評論,包括愛奇藝、優(yōu)酷、騰訊視頻,通過海量數(shù)據(jù)的數(shù)據(jù)挖掘,建立分析模型,利用文本情感分析技術對用戶的情感進行分析,評估用戶對節(jié)目的情感傾向性。

        1 系統(tǒng)總體設計

        情感分析系統(tǒng)的技術架構,共分為如下四層:

        1、數(shù)據(jù)采集層:負責采集海量的用戶評論數(shù)據(jù)。采集后的數(shù)據(jù)需經(jīng)過抽取、轉換、加載三個步驟的處理。

        2、數(shù)據(jù)存儲層:負責匯總存儲采集的用戶評價數(shù)據(jù)。

        3、數(shù)據(jù)挖掘層:由管理平臺負責整體任務的調度,MapReduce負責計算引擎,通過支持向量機模型,實現(xiàn)海量用戶評論數(shù)據(jù)的文本情感分析,并將分析后數(shù)據(jù)存儲到數(shù)據(jù)倉庫中。

        4、數(shù)據(jù)可視化層:主要任務是接收用戶提交的各項分析任務操作請求,調用底層的分析引擎進行數(shù)據(jù)的分析任務,接收底層分析任務返回的結果,封裝結果格式并返回給前臺界面顯示。

        數(shù)據(jù)流的走向從視頻網(wǎng)站用戶評論數(shù)據(jù)到數(shù)據(jù)存儲(ODS)到數(shù)據(jù)ETL到數(shù)據(jù)倉庫DW再到聯(lián)機分析處理(OLAP),最后到用戶端

        本系統(tǒng)的數(shù)據(jù)倉庫基于數(shù)據(jù)立方體理論進行設計。數(shù)據(jù)立方體,支持從多個維度進行數(shù)據(jù)的建模和觀察,由維和事實定義。維一般代表實體,相應的數(shù)據(jù)庫表稱為維度表。事實是用來對數(shù)值進行度量的,用于分析與維度之間的關系,相應數(shù)據(jù)庫表稱為實事表。

        2 1 數(shù)據(jù)采集模塊設計

        系統(tǒng)涉及的數(shù)據(jù)源包括優(yōu)酷、愛奇藝、騰訊三個視頻網(wǎng)站的綜藝節(jié)目《奔跑吧兄弟》的用戶評論數(shù)據(jù),首先獲取這三個網(wǎng)站視頻播放地址,在視頻播放地址頁面中包含用戶評論數(shù)據(jù)的URL,之后對URL的返回數(shù)據(jù)進行分析,解析出本系統(tǒng)需要的關鍵用戶評論數(shù)據(jù),最后將數(shù)據(jù)暫存到MySQL數(shù)據(jù)庫中。

        2.2 數(shù)據(jù)存儲模塊的設計

        數(shù)據(jù)存儲模塊,定期從數(shù)據(jù)庫表comment_youku、comment_iqiyi、comment_qq同步數(shù)據(jù)到HBase中。具體是實現(xiàn)時使用ETL工具將MySQL數(shù)據(jù)庫中的用戶評論數(shù)據(jù)定期、增量導入到HBase

        2.3數(shù)據(jù)分析模塊的設計

        采用基于機器學習的情感分析方法。同時,為了能針對海量評論數(shù)據(jù)進行大規(guī)模的情感分析,需要基于MapReduce計算引擎完成。

        MapReduce算法執(zhí)行過程分為Map和Reduce兩個主要的過程:

        1、Map過程,根據(jù)時間戳從HBase數(shù)據(jù)庫并行獲取新抓取的數(shù)據(jù),其中,分配到不同map的數(shù)據(jù)基于Map-Reduce模型的就近原則獲取,盡可能平均地劃分到不同的計算節(jié)點上。得到數(shù)據(jù)以后,不同的節(jié)點并發(fā)執(zhí)行多個map程序,通過支持向量機模型,完成每條用戶評論的情感傾向性判斷,并輸出中間結果。

        2、Reduce過程,匯總每條評論的情感傾向性結果,計算得出整體的評論情感傾向性。為了使MapReduce的作業(yè)任務可以定時執(zhí)行,通過Oozie完成任務的定時調度。

        2.4 數(shù)據(jù)可視化模塊的設計

        數(shù)據(jù)可視化模塊,使用Web交互模式,用戶可以通過瀏覽器查詢分析結果。采用MVC設計模式。即Model、View、Controller三部分組成:

        1、Model,數(shù)據(jù)模型,是抽象后的客觀事物。將數(shù)據(jù)、業(yè)務邏輯和業(yè)務規(guī)則作為Model。系統(tǒng)中把用戶評論數(shù)據(jù)的計算結果封裝為Model。

        2、View,視圖,一般指呈現(xiàn)給用戶的界面,是對Model的具體表現(xiàn)。同時用戶也可以通過界面進行交互,如用戶選擇以不同的維度進行分析。

        3、Contorller,控制器,主要負責與Model和View的交互。

        開發(fā)框架使用Spring MVC,SpringMVC使用了MVC架構模式的思想,將Web層進行職責解耦。組織代碼的方式是將業(yè)務邏輯和數(shù)據(jù)顯式進行分離,將業(yè)務邏輯聚合到一個組件中,這樣在很多場景下不再需要重新編寫業(yè)務邏輯。在頁面展示方面,為了達成更好的圖表展示效果,圖表展示基于ECharts框架進行開發(fā)。互聯(lián)網(wǎng)電視節(jié)目評價分析頁面展現(xiàn)效果如圖1所示。

        3 結語

        本文對系統(tǒng)進行了整體的設計,系統(tǒng)分為四個主要功能組件。數(shù)據(jù)采集層負責采集海量的用戶評論數(shù)據(jù)。數(shù)據(jù)存儲層負責層匯總了存儲采集的用戶評價數(shù)據(jù)。數(shù)據(jù)挖掘層通過MapReduce計算引擎,利用向量機模型,實現(xiàn)海量用戶評論數(shù)據(jù)的文本情感分析,并將分析后數(shù)據(jù)存儲到數(shù)據(jù)倉庫中。數(shù)據(jù)可視化層主要任務是接收用戶提交的各項分析任務操作請求,調用底層的分析引擎進行數(shù)據(jù)的分析任務,接收底層分析任務返回的結果,封裝結果格式并返回給前臺界面顯示。

        參考文獻:

        [1] 陳曦. 大數(shù)據(jù)時代背景下電視節(jié)目的發(fā)展趨勢[J]. 新聞研究導刊,2014,

        [2] 趙瑜. 2014年國產(chǎn)電視劇大數(shù)據(jù)分析[J]. 當代電影,2015

        作者簡介:

        劉丹(1980-),女。遼寧沈陽人,碩士,軟件工程師,研究方向:大數(shù)據(jù)技術

        (東軟集團股份有限公司,遼寧 沈陽 110179)

        猜你喜歡
        數(shù)據(jù)挖掘大數(shù)據(jù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        99精品人妻少妇一区二区三区 | 亚洲成AV人片在一线观看| 欧美激情国产亚州一区二区| 亚洲视频一区二区三区免费| 色婷婷精品午夜在线播放| 国产精品私密保养| 性欧美牲交xxxxx视频欧美| 精品国产看高清国产毛片| 亚洲中文字幕无码卡通动漫野外| aa视频在线观看播放免费| 黄片一级二级三级四级| 国产精品网站91九色| 日韩国产精品无码一区二区三区 | 无码一区二区三区久久精品| 性感的小蜜桃在线观看| 亚洲不卡在线免费视频| 人妻少妇哀求别拔出来| 极品少妇被猛的白浆直喷白浆| 亚洲av鲁丝一区二区三区| 亚洲国产日韩欧美高清片a| 亚洲精品一区二在线观看| 日本一本免费一二区| 亚洲av一二三四区四色婷婷| 欧美性猛交内射兽交老熟妇| 久久中文字幕久久久久| 日本一区不卡在线观看| 国产无套内射又大又猛又粗又爽| 4399理论片午午伦夜理片| 国产一区二区精品在线观看| 精品人妻一区二区久久| 国产毛片av一区二区| 亚洲熟妇久久国产精品| 国产激情电影综合在线看| 国产内射视频在线观看| 久久精品国产亚洲av四叶草| 色噜噜av亚洲色一区二区| 国产亚洲精品看片在线观看| 免费在线观看一区二区| 人妻秘书被社长浓厚接吻| 国产精品国产亚洲精品看不卡| 久久不见久久见免费影院www|