亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于WEB數據挖掘的網絡輿情分析研究

        2014-01-01 00:00:00王劍霞邢晶晶
        數字化用戶 2014年5期

        一、網絡輿情

        網絡輿情是由于各種事件的刺激而產生的通過互聯(lián)網傳播的人們對于該事件的所有認知、態(tài)度、情感和行為傾向的集合。網絡輿情形成迅速,對社會影響巨大。隨著因特網在全球范圍內的飛速發(fā)展,網絡媒體已被公認為是繼報紙、廣播、電視之后的“第四媒體”,網絡成為反映社會輿情的主要載體之一。網絡環(huán)境下的輿情信息的主要來源有:新聞評論、BBS、博客、聚合新聞(RSS)。網絡輿情表達快捷、信息多元,方式互動,具備傳統(tǒng)媒體無法比擬的優(yōu)勢。

        網絡的開放性和虛擬性,決定了網絡輿情具有以下特點:

        (一)直接性,通過BBS,新聞點評和博客網站,網民可以立即發(fā)表意見,下情直接上達,民意表達更加暢通;

        (二)突發(fā)性,網絡輿論的形成往往非常迅速,一個熱點事件的存在加上一種情緒化的意見,就可以成為點燃一片輿論的導火索;

        (三)偏差性,由于發(fā)言者身份隱蔽,并且缺少規(guī)則限制和有效監(jiān)督,網絡自然成為一些網民發(fā)泄情緒的空間。在現(xiàn)實生活中遇到挫折,對社會問題片面認識等等,都會利用網絡得以宣泄。因此在網絡上更容易出現(xiàn)庸俗、灰色的言論。

        二、數據挖掘技術

        數據挖掘(Data Mining,DM),又譯為資料探勘、數據采礦。它是數據庫知識發(fā)現(xiàn)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘是目前人工智能和數據庫領域研究的熱點問題。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數據庫、可視化技術等,高度自動化地分析企業(yè)的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。知識發(fā)現(xiàn)過程由以下三個階段組成:1.數據準備,2.數據挖掘,3.結果表達和解釋。數據挖掘可以與用戶或知識庫交互。

        (一)決策樹。決策樹是數據挖掘分類算法的一個重要方法。在各種分類算法中,決策樹是最直觀的一種。每個決策樹都表述了一種樹型結構,它由它的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源數據庫的分割進行數據測試。這個過程可以遞歸式的對樹進行修剪。 當不能再進行分割或一個單獨的類可以被應用于某一分支時,遞歸過程就完成了。另外,隨機森林分類器將許多決策樹結合起來以提升分類的正確率。

        決策樹同時也可以依靠計算條件概率來構造。

        決策樹如果依靠數學的計算方法可以取得更加理想的效果。 數據庫已如下所示:

        (x,y) = (x1,x2,x3…,xk,y)

        相關的變量 Y 表示我們嘗試去理解,分類或者更一般化的結果。 其他的變量x1,x2,x3 等則是幫助我們達到目的的變量。

        (二)遺傳算法。遺傳算法也是計算機科學人工智能領域中用于解決最優(yōu)化的一種搜索啟發(fā)式算法,是進化算法的一種。這種啟發(fā)式通常用來生成有用的解決方案來優(yōu)化和搜索問題。進化算法最初是借鑒了進化生物學中的一些現(xiàn)象而發(fā)展起來的,這些現(xiàn)象包括遺傳、突變、自然選擇以及雜交等。遺傳算法在適應度函數選擇不當的情況下有可能收斂于局部最優(yōu),而不能達到全局最優(yōu)。

        (三)人工神經網絡。人工神經網絡在結構上模仿生物神經網絡,是一種通過訓練來學習的非線性預測模型,在數據采掘中可用來進行分類、聚類、特征采掘等操作。人工神經網絡是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術完全不同的機理,克服了傳統(tǒng)的基于邏輯符號的人工智能在處理直覺、非結構化信息方面的缺陷,具有自適應、自組織和實時學習的特點。

        (四)模糊邏輯。模糊邏輯指模仿人腦的不確定性概念判斷、推理思維方式,對于模型未知或不能確定的描述系統(tǒng),以及強非線性、大滯后的控制對象,應用模糊集合和模糊規(guī)則進行推理,表達過渡性界限或定性知識經驗,模擬人腦方式,實行模糊綜合判斷,推理解決常規(guī)方法難于對付的規(guī)則型模糊信息問題。在數據采掘中,常用來進行證據合成置信度計算等。

        (五)粗糙集理論。粗糙集理論作為一種數據分析處理理論,在1982年由波蘭科學家Z.Pawlak創(chuàng)立。粗糙集理論作為一種處理不精確(imprecise)、不一致(inconsistent)、不完整(incomplete)等各種不完備的信息有效的工具,一方面得益于他的數學基礎成熟、不需要先驗知識;另一方面在于它的易用性。由于粗糙集理論創(chuàng)建的目的和研究的出發(fā)點就是直接對數據進行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律,因此是一種天然的數據挖掘或者知識發(fā)現(xiàn)方法,它與基于概率論的數據挖掘方法、基于模糊理論的數據挖掘方法和基于證據理論的數據挖掘方法等其他處理不確定性問題理論的方法相比較,最顯著的區(qū)別是它不需要提供問題所需處理的數據集合之外的任何先驗知識,而且與處理其他不確定性問題的理論有很強的互補性。

        (六)可視化技術。可視化技術作為解釋大量數據最有效的手段而率先被科學與工程計算領域采用,并發(fā)展為當前熱門的研究領域——科學可視化??梢暬夹g把數據轉換成圖形,給予人們深刻與意想不到的洞察力,在很多領域使科學家的研究方式發(fā)生了根本變化??梢暬夹g的應用大至高速飛行模擬,小至分子結構的演示,無處不在。在互聯(lián)網時代,可視化與網絡技術結合使遠程可視化服務成為現(xiàn)實。

        三、基于WEB的數據挖掘

        基于WEB的數據挖掘,就是利用數據挖掘技術自動地從網絡文檔以及服務中發(fā)現(xiàn)和抽取信息的過程?;赪EB的數據挖掘技術已經應用于解決多方面的問題,比如基于WEB內容和結構的挖掘極大的幫助了我們從巨量的網絡資源中更加快速而準確的獲取所需要的資料,而基于使用的數據挖掘的強大作用,更是為商業(yè)運作提供了有力的量化決策根據。

        (一)基于WEB的數據挖掘特點

        1.Web數據挖掘的對象是大量、異質、分布的Web文檔web上的每一個站點就是一個數據源,每個數據源都是異構的,因而每一站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環(huán)境。如果想要利用這些數據進行數據挖掘,必須要研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能從巨大的數據資源中獲取所需的東西。

        2.web文檔是半結構化或無結構的目前數據發(fā)掘多應用于關系和面向對象數據庫,它們有完善的結構,按照預先定義的模式進行組織、存儲和存取,而W eb 上的數據非常復雜,往往具有半結構化或非結構化特性,難以映射到一個固定的模式,使傳統(tǒng)數據模型和數據庫系統(tǒng)難以支持Web上的信息挖掘。針對W eb 上的數據半結構化的特點,尋找一個半結構化的數據模型是解決問題的關鍵所在。除了要定義一個半結構化數據模型外,還需要一種半結構化模型抽取技術,即自動地從現(xiàn)有數據中抽取半結構化模型的技術。

        3.數據源具有很強的動態(tài)性,因特網中數據更新非常迅速,有些信息可能很快過時,針對當前狀態(tài)的信息能快速更新知識,提供準確的決策支持要求數據發(fā)掘的動態(tài)性。

        4.用戶目標的模糊性,基于WEB的數據采掘用戶往往只對要采掘的主題有一個粗淺的認識,提不出很明確的目標來。這就需要數據采掘系統(tǒng)具有一定的智能性和學習機制,不斷地跟蹤用戶的興趣,清晰明白地闡述采掘結果。

        (二)Web數據挖掘的分類

        1. Web內容挖掘

        Web內容挖掘是指從Web 文檔內容及其描述信息中獲取潛在的、有價值的知識和模式的過程,主要包括對網頁的內容特征進行提取、基于內容的網頁分析/聚類、網頁間內容的關聯(lián)規(guī)則發(fā)現(xiàn)等。網頁的文本內容包含最豐富的信息,然而其表達方式復雜,不利于計算機理解。Web內容挖掘可以有效地對大量文本內容進行總結、分類、聚類、關聯(lián)分析以及利用Web 文本進行趨勢預測等。Web內容挖掘是數據挖掘技術在網絡信息處理中的應用,不僅能夠處理來自數據庫的結構化數據,還能夠處理半結構化數據和無結構化的自由文本,還有圖像、圖形、視頻、音頻等多媒體數據,可以全方位、多角度地對輿情信息內容進行深入分析。

        2. Web結構挖掘

        在整個Web 空間中,有用的知識不僅包含在Web 頁面內容中,也包含在Web 頁面結構和Web 超鏈接結構中。Web 結構挖掘主要是通過分析Web 組織結構和鏈接關系,挖掘出潛在的有用的知識,其目的是獲得與主題高度相關的鏈接以及鏈接邏輯結構的語義知識,這些知識可以幫助輿情監(jiān)管部門從中找到有價值的權威頁面、中心頁面。Web 結構挖掘應用于網絡輿情分析系統(tǒng)中,能夠幫助輿情監(jiān)管部門獲取與輿情信息發(fā)布者、傳播者以及傳播環(huán)境最相關的鏈接,可揭示權威網頁之間的關聯(lián),揭示蘊涵在這些文檔結構信息中的有用模式,有助于從多個維度和層面挖掘輿情信息。

        3. Web使用挖掘

        Web使用挖掘就是對用戶訪問Web 時在服務器上留下的訪問記錄進行挖掘,獲取用戶訪問Web頁面的模式。由于挖掘的對象是服務器上的日志信息,因此也稱為Web日志挖掘。這些信息包括網絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問式等。通過分析和探究Web 日志記錄中的規(guī)律,可以識別用戶的訪問模式和行為偏好,從而預測其行為。

        四、基于WEB挖掘的網絡輿情分析模型設計

        針對WEB的特點,為了迅速準確了解互聯(lián)網絡輿情關注的熱點,分析輿情發(fā)展的時間和空間分布,本文提出了一網絡輿情分析框架模型,如上圖所示。

        (一)輿情信息采集模塊

        輿情信息采集的主要任務是選擇性地從輿情傳播的主要載體中對那些與預定義主題相關的頁面進行自動化、智能化的收集,并進行有效的過濾和存儲,為下一步的輿情挖掘與分析提供優(yōu)質素材。

        本模型采取構建包含公眾集合、社會現(xiàn)象(問題)、態(tài)度情緒表象、輿論持續(xù)性、輿論的功能表現(xiàn)、輿論質量等多種因素的各個初始網頁集合,實現(xiàn)具有領域詞義的多維時空的分布式多點海量數據采集,結合適用輿情信息的數據預處理方法,利用網格技術實現(xiàn)數據集成,建立針對具體輿情問題的統(tǒng)一的數據存儲格式。設公眾集合、社會現(xiàn)象(問題)、態(tài)度情緒表象、輿論持續(xù)性、輿論的功能表現(xiàn)、輿論質量的各個方面權威集合集分別為Pc、Sp、Em、Cn、Fu、Qu,不同的數據存儲分別為SV1、SV2、SV3,利用網格技術實現(xiàn)數據共享,SV1、SV2作為數據采集器,SV3為輿情分析系統(tǒng)主機。數據采集子系統(tǒng)數據流如下:

        (二)輿情信息預處理模塊

        輿情信息預處理模塊的主要功能是: 對采集到的相關網頁進行去噪處理,如對廣告、注釋等噪聲數據進行清理,然后用統(tǒng)一的結構化的格式進行文本表示,然后利用分詞技術、特征提取技術、權重計算技術等進行特征選擇,構建糧食數據倉庫,利用分類器實現(xiàn)文本的分類。文本分類技術是整個預處理模塊的核心,其步驟描述如下:

        步驟1 輿情因素集合Pc、Sp、Em、Cn、Fu、Qu分別用類別集合S= {S1,…Sm…Sn} 表示,分別進行去重、去噪處理,并統(tǒng)一轉化為XML格式,用分詞系統(tǒng)分詞。

        步驟2 計算詞條t在文檔d中的權重W(t ),并構建文檔d的特征矢量V(d ) 表示文本。

        V(d )= (t1,Wn(t1) ; t2,Wn(t2) ; …tn,Wn(tn))

        步驟3 對于訓練階段轉到步驟4;對于分類階段轉到步驟5。

        步驟4 統(tǒng)計S中類別m的所有文檔的特征矢量V(Sm),用特征選函數F( x) 進行特征選擇,確定類別m的特征矢量V( Sm),評價分類結果,若需優(yōu)化Wn(ti)和F( x),轉到步驟2。

        步驟5 分類器函數計算待分類樣本dn的特征矢量V(dn)與每個V( Sm)之間的相似度Sim(dn,sm),選取相似度最大的類別作為dn的類別;對于所有相似度都小于一定閥值的樣本,則視為非輿情主題相關樣本。

        (三)輿情數據挖掘模塊

        數據挖掘模塊主要由語義信息集成和Web挖掘引擎兩部分組成,前者可為后者提供經預處理后的結構化信息,簡化并加速Web 挖掘處理。

        1. 語義信息集成由于輿情數據采集初始數據庫的原始數據來自不同的媒介,在結構和語義上都存在較大的差別,需要對其進行統(tǒng)一處理,并根據需要利用自然語言理解等智能信息處理技術進行深層次的預分析,為提高挖掘引擎的效能和健壯性奠定基礎。借助XML 或Ontology 技術,在本體庫、元數據庫、文獻知識庫、語言知識庫等基本知識庫的協(xié)助下進行語義抽取、標注和描述,可將異構數據轉換成具有統(tǒng)一語法和語義格式的通用數據模型,減少挖掘阻力及提高通用性。

        2. Web挖掘引擎

        Web挖掘引擎是整個輿情分析模型的動力所在,通過定義Web挖掘模型語言,選用合適的挖掘算法和工具,執(zhí)行Web 挖掘任務。由于Web 挖掘的主要目的在于從大量的網絡輿情信息中提取出可理解的模式或規(guī)律,預測事件發(fā)展的趨勢,因此,需要根據決策的需要和網絡輿情信息源的特點,從多個維度和層面進行深層次的挖掘處理。

        (四)網絡輿情統(tǒng)計分析模塊

        利用統(tǒng)計學、模式識別、人工智能以及人工神經網絡等多種數據分析模型的融合,利用實現(xiàn)海量網絡信息輿情分析處理模塊,形成網絡輿情監(jiān)控和預警機制。模塊包含三個方面職能。

        第一,通過對輿情專題檢測捕捉熱點、敏感信息,并針對特定的專題主體,如情緒表達、熱點持續(xù)性、輿論的功能等各個要素跟蹤技術處理,同時設計融合各方面因素的分析策略,及時發(fā)現(xiàn)輿情安全隱患,并提供預警信息。

        第二,對特定公共事件的公眾所持觀點和關注度的分析,掌握事件發(fā)生、發(fā)展和加強的可視化時間序列,開發(fā)基于區(qū)域性輿情的分別匯總,提供實時的空間和時間的網絡輿情趨勢信息保障,有利于決策者實施適當的措施。

        第三,利用破壞性預測、分析和預防的決策系統(tǒng),對多發(fā)性的、社會危害嚴重的輿情構建主動分析、及早預測和及時預警的機制,提供相關、相近主題的預防措施經驗。同時針對輿情引起的其他方面的問題進行關聯(lián)分析,及時發(fā)現(xiàn)彼此存在的聯(lián)系。

        五、結束語

        利用Web挖掘技術實現(xiàn)對網絡輿情信息的監(jiān)測,有利于充分挖掘海量的網絡信息資源,能夠及時發(fā)現(xiàn)輿情熱點事件,為輿情產生的社會影響提供預警服務。本文著重分析了當前網絡輿情分析系統(tǒng)的特點和方法,提出了一種解決方案,構造了一個較完善的網絡輿情分析架構。通過各種算法的編碼和改進,達到了動態(tài)預警和輔助決策的目的。網絡輿情信息分析系統(tǒng)是一個復雜而新穎的研究領域,仍需進一步的研究和深化。

        基金項目:

        本文系甘肅省教育科學“十二五”規(guī)劃課題“數據挖掘網絡系統(tǒng)的研究”研究成果,課題編號為:GS﹝2013﹞GHB0836 。

        中文字幕在线免费| 中国娇小与黑人巨大交| 久久久久久九九99精品| 色猫咪免费人成网站在线观看| 一区二区三区不卡在线| 国产精品久久婷婷六月| 人妻中文字幕在线中文字幕| 天堂中文最新版在线中文| 人妻无码中文字幕免费视频蜜桃| 久久99久久99精品免视看国产成人 | 国产高清a| 一区二区三区免费自拍偷拍视频| 亚洲欧美中文日韩在线v日本| 无码吃奶揉捏奶头高潮视频| 日韩精品国产自在久久现线拍| 精品少妇后入一区二区三区| 国产精品熟女一区二区三区| 女的扒开尿口让男人桶30分钟| 日韩精品一区二区三区视频| 粉嫩国产白浆在线播放| 丝袜美足在线视频国产在线看| 中文字幕乱码高清完整版| 欧美婷婷六月丁香综合色| 特级毛片全部免费播放a一级| 亚洲岛国一区二区三区| 亚洲欧美一区二区成人片| 国产一区二区三区美女| 超清纯白嫩大学生无码网站| 国产一级片毛片| 国产黄三级三级三级三级一区二区| 亚洲一区二区三区中国| 久热这里只有精品视频6| 国内久久婷婷精品人双人| 女同在线视频一区二区| 国产免费久久精品99久久| 亚洲一区av无码少妇电影| 亚洲熟妇中文字幕日产无码| 亚洲av高清一区二区在线观看| 国产白嫩护士被弄高潮| 欧美日韩亚洲色图| 一区二区三区夜夜久久|