亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大數(shù)據(jù)的多媒體輿情分析方法研究

2019-09-16 04:30:10顏建弘

科技傳播 2019年14期

顏建弘

摘要：網(wǎng)絡(luò)輿情研究的要點之一是如何在大數(shù)據(jù)時代從互聯(lián)網(wǎng)海量信息中及時發(fā)現(xiàn)輿情并進行全面的分析，以判別輿情的性質(zhì)和發(fā)展趨勢并對癥下藥地加以管控。但在目前復(fù)雜的互聯(lián)網(wǎng)大數(shù)據(jù)環(huán)境下，網(wǎng)絡(luò)輿情通常包裹在各種多媒體形式的外殼中。文章在分析大數(shù)據(jù)及多媒體網(wǎng)絡(luò)輿情概念和特點的基礎(chǔ)上，將大數(shù)據(jù)處理技術(shù)應(yīng)用到多媒體網(wǎng)絡(luò)輿情分析中來，研究基于大數(shù)據(jù)的多媒體網(wǎng)絡(luò)輿情分析方法。

關(guān)鍵詞：大數(shù)據(jù)技術(shù);輿情分析;多媒體

中圖分類號：TP3 文獻標(biāo)識碼A 文章編號1674-6708（2019）239-0100-02

網(wǎng)絡(luò)輿論就是在互聯(lián)網(wǎng)上傳播的公眾對某一焦點所表現(xiàn)出的有一定影響力的、帶傾向性的意見或言論。截至2018年12月，我國網(wǎng)民規(guī)模達8.29億，普及率達59.6%，較2017年底提升3.8個百分點，全年新增網(wǎng)民5653萬。其中手機網(wǎng)民規(guī)模達8.17億，網(wǎng)民通過手機接入互聯(lián)網(wǎng)的比例高達98.6%。在如今的大數(shù)據(jù)網(wǎng)絡(luò)資源環(huán)境下，各種網(wǎng)絡(luò)新業(yè)務(wù)和多媒體的發(fā)展普及為網(wǎng)民提供了更多樣的信息發(fā)布載體，微信、QQ、微博、新聞客戶端、直播平臺、短視頻平臺、知識問答平臺等使得網(wǎng)絡(luò)輿情的表現(xiàn)方式發(fā)展得更為多元化。

1多媒體網(wǎng)絡(luò)輿情特點和研究現(xiàn)狀

多媒體網(wǎng)絡(luò)輿情為社會公眾和政府、傳統(tǒng)媒體構(gòu)成的主體將對輿情客體的觀點和態(tài)度加工成多元外現(xiàn)的輿情本體，通過多媒體傳播通道在大數(shù)據(jù)網(wǎng)絡(luò)空問中進行互動的總和。多媒體輿情信息文件類型多樣，傳播快速而廣泛，在大數(shù)據(jù)環(huán)境下具有規(guī)模性、多樣性、變化快速性、價值等4個特征。多媒體輿情的復(fù)雜特性大大增加了以它為對象的輿情分析的難度和工作量，當(dāng)前對于多媒體輿情信息的分析研究大部分仍集中在對低維度文本輿情的分析上，而對于以圖片、音頻、視頻等多媒體形式為載體的高維度輿情信息的挖掘分析研究還比較少。針對目前多媒體輿情的復(fù)雜性，采用傳統(tǒng)輿情的識別分析方式不易獲得準(zhǔn)確有效的信息，需要對輿情信息的多媒體外殼在已有輿情分析研究方法的基礎(chǔ)上，結(jié)合大數(shù)據(jù)分析技術(shù)進行處理。

2多媒體網(wǎng)絡(luò)輿情大數(shù)據(jù)分析方法

目前，使用大數(shù)據(jù)技術(shù)處理數(shù)據(jù)時最常使用Hadoop、MapReduce、Spark等分布式處理方式。而最常運用的大數(shù)據(jù)分析方法主要分為兩種，第一種是基于人工經(jīng)驗建立分析模型，這種方法對人力、物力資源的消耗較高，對數(shù)據(jù)的體量有限制，不能高效率地處理巨大量的數(shù)據(jù)且無法遷移。第二種是基于人工智能的大數(shù)據(jù)分析方法，其中最重要的技術(shù)包含有機器學(xué)習(xí)、聚類、關(guān)聯(lián)分析算法和卷積神經(jīng)網(wǎng)絡(luò)等，這些方法適合于大數(shù)據(jù)量的處理，且數(shù)據(jù)量越大精確度越高，但在提取分析動態(tài)多媒體數(shù)據(jù)特征方面能力有限。目前較為新型高效的大數(shù)據(jù)分析方法是基于無限深度神經(jīng)網(wǎng)絡(luò)（infinite deep neural networks，infinite DNN s）的大數(shù)據(jù)分析，這是一種全互連的回復(fù)式神經(jīng)網(wǎng)絡(luò)（recurrentneural networks，RNN s）神經(jīng)元之問存在反饋連接，能夠處理動態(tài)數(shù)據(jù)。深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法通過調(diào)節(jié)神經(jīng)元之問的網(wǎng)絡(luò)連接權(quán)值實現(xiàn)，其中比較經(jīng)典實用的算法有基于反向傳播算法擴展的訓(xùn)練前饋網(wǎng)絡(luò)BPTT算法，誤差從前向后傳播的RTRL（real-timer ecurrent learning）算法，以及Gers等人提出的改進“長短時記憶”（long short-termmemory）LsTM算法。本文主要以這種大數(shù)據(jù)分析方法將高維度的多媒體載體信息轉(zhuǎn)換為低維度的文本信息加以處理。具體分析處理方法如下：

2.1視頻信息分析

當(dāng)前流傳在網(wǎng)絡(luò)上的視頻信息多為短視頻形式，生產(chǎn)流程簡單、制作門檻低、制作周期短、民眾參與性強、傳播度高。由于時長較短且背景音樂多為網(wǎng)紅歌曲片段且與視頻內(nèi)容關(guān)聯(lián)不大，對短視頻輿情分析需側(cè)重于對視頻中的人物動作表情和文字信息的識別提取。對于視頻中的人物動作，可使用基于行為模板的方式獲取不同動作的特征從而設(shè)立各自的模板，實際使用時將捕捉到的動作與模板進行匹配，以達到對各種行為進行準(zhǔn)確地識別的效果。通過鏡頭分割與分幀技術(shù)、關(guān)鍵幀提取技術(shù)等將視頻節(jié)選為圖像。也可以使用基于LSTM的網(wǎng)絡(luò)模型處理復(fù)雜的視頻序列，從傳統(tǒng)的視覺特征或深度特征中學(xué)習(xí)動態(tài)時序信息，然后識別視頻序列中的行為，并自動生成一個不定長的語句來正確地描述視頻內(nèi)容。

2.2音頻信息分析簡化

網(wǎng)絡(luò)輿情分析中音頻的有效信息可分為人類語音信息和環(huán)境音。為更好地分析有用的音頻信息可使用Matlab的濾波器進行降噪預(yù)處理，之后利用拉普拉斯變換、快速傅里葉變換等工具能對音頻信號進行時頻分析;利用基于語音信號的梅爾頻譜倒譜系數(shù)對人類語音信息進行特征提取;對于環(huán)境音可利用基于非平穩(wěn)信號的經(jīng)驗?zāi)B(tài)分解法、局部均值分解、極點對稱模態(tài)分解等聲音特征提取方法達到特征提取的目的。在語音識別任務(wù)中，大數(shù)據(jù)技術(shù)在音頻轉(zhuǎn)換方面通常使用自動語音識別技術(shù)和相關(guān)算法，針對視音頻處理模塊統(tǒng)一轉(zhuǎn)碼重采樣后的音頻流進行智能識別，將其中的語音內(nèi)容轉(zhuǎn)換為計算機可以識別的文本字符信息。而無限深度神經(jīng)網(wǎng)絡(luò)不僅能夠記住上下文，有更高的識別精度，且抗噪性能更強，能更為準(zhǔn)確高效地將語音傳譯為文字信息。

2.3圖像信息分析簡化

目前網(wǎng)絡(luò)中的圖像信息多以新聞和自媒體文章插圖、電腦手機截屏圖片、各類表情包等形式存在，內(nèi)容多為人物、文字對話。圖像信息的分析識別主要在于圖像分割：通過對單個像素點或整個像素區(qū)域的分析提取出圖像的局部特征。傳統(tǒng)方法常基于聚類、小波變換、閾值、區(qū)域等進行圖像分割，由于關(guān)鍵信息比較復(fù)雜多變，以至處理效率不高。基于多代表點近鄰傳播聚類的MSMEAP算法，可以有效實現(xiàn)大數(shù)據(jù)圖像的快速分割。對于經(jīng)過分割處理后的圖像，無限深度神經(jīng)網(wǎng)絡(luò)的LSTM模型能學(xué)習(xí)將單張圖像的像素強度映射成一個語法正確的自然語句，再結(jié)合人物動作、表情、文本、背景特點等信息將圖像賦予文本性質(zhì)的描述。

2.4文本信息分析

在網(wǎng)絡(luò)文本輿情分析方面，文獻提出了基于網(wǎng)絡(luò)日志數(shù)據(jù)挖掘的隱性輿情分析、基于社會網(wǎng)絡(luò)分析的輿情主體關(guān)系發(fā)現(xiàn)、關(guān)聯(lián)不同領(lǐng)域數(shù)據(jù)進行輿情分析以及基于網(wǎng)絡(luò)民意調(diào)查的4種面向大數(shù)據(jù)的輿情分析方法。文本分布式預(yù)處理可利用MapReduce框架將文本集的分詞、停用詞去除以及文本內(nèi)的詞頻統(tǒng)計放置在Map階段，將構(gòu)造倒排索引文件的任務(wù)設(shè)置在Reduce階段以最大化實現(xiàn)并行。此外，分析文本可使用jieba分詞、THULAC工具包、NLPIR分詞系統(tǒng)等技術(shù)進行分詞預(yù)處理，提高分析的效率和準(zhǔn)確率。在此基礎(chǔ)上，對輿情分析關(guān)鍵詞進行檢索并通過結(jié)合上下文、挖掘詞語之間的聯(lián)系來較快定位推文所屬的范疇、解讀文本信息所包含的情感特征。從文本信息中識別出話題范疇、作者觀點情感，用戶情感態(tài)度等等。通過分詞技術(shù)和詞向量模型及其比較分析分析與誰相關(guān)、是否是輿情、是否是負面、是否具有敏感含義等。

3總結(jié)

目前的大數(shù)據(jù)環(huán)境為網(wǎng)絡(luò)輿情分析管理提供了創(chuàng)新高效的大數(shù)據(jù)技術(shù)和算法，同時也使網(wǎng)絡(luò)輿情分析面臨著更復(fù)雜的挑戰(zhàn)。在多媒體網(wǎng)絡(luò)輿情分析研究方面以應(yīng)用無限深度神經(jīng)網(wǎng)絡(luò)為主，其他大數(shù)據(jù)算法為輔的方式，將高維度的視頻、圖像、聲音信息轉(zhuǎn)化為低維度的文字信息進行處理，實現(xiàn)語義密集度由低到高的轉(zhuǎn)變，從而實現(xiàn)多媒體網(wǎng)絡(luò)輿情分析的目的。當(dāng)前對于多媒體形式的輿情信息分析研究還主要集中在對于多媒體各個載體的單獨分析上，新興媒體平臺層出不窮，大數(shù)據(jù)技術(shù)對以多媒體為整體的輿情信息挖掘分析的應(yīng)用還有待于進一步研究。