亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)的企業(yè)主題網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究

        2018-06-13 07:52:42余宏洪如霞史文津
        現(xiàn)代計(jì)算機(jī) 2018年13期

        余宏,洪如霞,史文津

        (豫章師范學(xué)院信息科學(xué)系,南昌 330103)

        0 引言

        在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,隨著移動(dòng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,新媒體的應(yīng)用日新月異,普通民眾通過(guò)自媒體散發(fā)、傳播和查閱網(wǎng)絡(luò)信息非常便捷,民眾對(duì)社會(huì)事件、現(xiàn)象的關(guān)注、評(píng)論與監(jiān)督的熱情高漲,網(wǎng)絡(luò)信息的正向效應(yīng)或負(fù)向效應(yīng)容易放大,極易引發(fā)成公共熱點(diǎn)事件。然而,絕大多數(shù)企業(yè)并沒(méi)有相應(yīng)的手段來(lái)及時(shí)發(fā)現(xiàn)、并處理網(wǎng)上與企業(yè)自身相關(guān)的有害信息,品牌口碑、產(chǎn)品市場(chǎng)反饋、消費(fèi)者行為態(tài)度、行業(yè)信息、競(jìng)爭(zhēng)情報(bào)等不能及時(shí)準(zhǔn)確全面掌握,輿情應(yīng)對(duì)能力不足,造成輿情危機(jī)處置困難重重,市場(chǎng)決策缺少數(shù)據(jù)支撐。產(chǎn)生的后果往往是企業(yè)形象破壞、品牌價(jià)值受損、市場(chǎng)決策失誤等,極易給企業(yè)發(fā)展帶來(lái)重大負(fù)面影響。

        目前很多企業(yè)采取傳統(tǒng)的人工監(jiān)測(cè)的方法開(kāi)展輿情工作。但是由于互聯(lián)網(wǎng)應(yīng)用日益廣泛、信息量成海量增長(zhǎng),經(jīng)常出現(xiàn)涉及與企業(yè)自身相關(guān)的重要輿情信息已經(jīng)在網(wǎng)上傳播,而不能及早發(fā)現(xiàn)、準(zhǔn)確應(yīng)對(duì),導(dǎo)致一些非理性和不切實(shí)際的信息傳播開(kāi)來(lái),影響到企業(yè)的社會(huì)效益和經(jīng)濟(jì)效益,因此,人工監(jiān)測(cè)越來(lái)越不能滿足企業(yè)對(duì)輿情工作的需求,需要利用先進(jìn)的網(wǎng)絡(luò)信息采集與處理、數(shù)據(jù)挖掘等技術(shù)構(gòu)建先進(jìn)的企業(yè)輿情分析系統(tǒng),以服務(wù)于企業(yè)的網(wǎng)絡(luò)輿情檢測(cè)。

        1 研究現(xiàn)狀

        企業(yè)輿情分析系統(tǒng)的思想來(lái)源于話題檢測(cè)與追蹤TDT(Topic Detection and Tracking)。話題檢測(cè)與追蹤采用信息抽取、數(shù)據(jù)挖掘等技術(shù),主要用于對(duì)網(wǎng)絡(luò)媒體信息流進(jìn)行話題的自動(dòng)識(shí)別和已知話題的持續(xù)跟蹤,它已成為自然語(yǔ)言信息處理領(lǐng)域的研究熱點(diǎn)。國(guó)內(nèi)輿情研究的起源較早,但取得的成果集中在近幾年,從網(wǎng)絡(luò)輿情信息的采集與提取,到話題的發(fā)現(xiàn)與追蹤,再到傾向性分析,為我國(guó)網(wǎng)絡(luò)輿情的分析研究提供了有效的方法和手段。當(dāng)前我國(guó)已經(jīng)成熟應(yīng)用的相關(guān)輿情分析系統(tǒng)主要針對(duì)某個(gè)輿情個(gè)案進(jìn)行網(wǎng)絡(luò)輿情挖掘,能在一定程度上為輿情監(jiān)管部門(mén)提供一個(gè)代替人工閱讀海量網(wǎng)絡(luò)輿情信息的工具,但網(wǎng)絡(luò)輿情分析系統(tǒng)中各個(gè)模塊的作用及相互關(guān)系的邏輯結(jié)構(gòu)還有待進(jìn)一步優(yōu)化[1]。國(guó)內(nèi)網(wǎng)絡(luò)輿情系統(tǒng)在技術(shù)優(yōu)勢(shì)方面各不相同,如中科天璣擁有國(guó)內(nèi)最完善的漢語(yǔ)分詞系統(tǒng)ICTCLAS,在自然語(yǔ)言處理和文本分析能力上具有優(yōu)勢(shì);北大方正的WISE知識(shí)處理系統(tǒng),其文本處理能力很強(qiáng)。存在產(chǎn)品功能類同,語(yǔ)義分析能力精度不高,以文本分析為主而缺乏對(duì)圖像、音視頻等數(shù)據(jù)的關(guān)聯(lián)分析等問(wèn)題。國(guó)外在輿情分析技術(shù)方面的研究主要集中在調(diào)查問(wèn)卷數(shù)據(jù)分析、文本數(shù)據(jù)自動(dòng)分析、輿情感情色彩分析、復(fù)雜社會(huì)網(wǎng)絡(luò)系統(tǒng)等方面。國(guó)外免費(fèi)上網(wǎng)企業(yè)輿情監(jiān)控軟件的功能重點(diǎn)在信息搜索上,通過(guò)搜索監(jiān)控與企業(yè)相關(guān)的網(wǎng)絡(luò)信息來(lái)得到輿情結(jié)果,典型的如Google Alerts是Google的新聞定制自動(dòng)發(fā)送工具,用戶可以用它來(lái)跟蹤一些新聞報(bào)道、業(yè)界動(dòng)態(tài)等信息。Twitter搜索軟件可以幫助企業(yè)搜索以獲取Twitter中有關(guān)企業(yè)的各種信息。

        2 相關(guān)理論

        2.1 大數(shù)據(jù)

        對(duì)于大數(shù)據(jù)的概念,還沒(méi)有一個(gè)統(tǒng)一的定義。一個(gè)用得比較多的提法是:大數(shù)據(jù)(Big Data),指的是所涉及的數(shù)據(jù)規(guī)模大到無(wú)法通過(guò)當(dāng)前主流的軟件工具在合理時(shí)間內(nèi)達(dá)到獲取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊,具有量大(Volume)、產(chǎn)生速度快(Velocity)、數(shù)據(jù)類型多樣(Variety)、價(jià)值密度低(Veracity)等特點(diǎn)[2]。

        海量數(shù)據(jù)處理是采用分布式方式來(lái)解決的,Hadoop是一個(gè)成熟的、被廣泛應(yīng)用的分布式系統(tǒng)。Hadoop是一個(gè)開(kāi)源的軟件體系、允許用戶自己修改代碼、硬件成本投入低等特點(diǎn),同時(shí)能支持海量數(shù)據(jù)存儲(chǔ)和計(jì)算任務(wù)。HDFS是一個(gè)高度容錯(cuò)性的分布式文件系統(tǒng),為用戶提供流式的數(shù)據(jù)讀寫(xiě)服務(wù),有利于提高了系統(tǒng)的數(shù)據(jù)吞吐量,故特別適合于大數(shù)據(jù)應(yīng)用。

        MapReduce是一種分布式軟件編程框架,遵循“分而治之、移動(dòng)邏輯、屏蔽底層、處理定制”的設(shè)計(jì)思想。把大規(guī)模數(shù)據(jù)拆成N個(gè)數(shù)據(jù)塊部分,由一個(gè)主節(jié)點(diǎn)將MapReduce函數(shù)分發(fā)到各個(gè)數(shù)據(jù)塊的分支節(jié)點(diǎn)機(jī)器上并行計(jì)算,然后通過(guò)合并各個(gè)分支節(jié)點(diǎn)的結(jié)果,得到最終結(jié)果,該處理過(guò)程被高度抽象為MapReduce的map()和reduce()兩個(gè)函數(shù),map(映射)負(fù)責(zé)對(duì)每個(gè)部分?jǐn)?shù)據(jù)進(jìn)行分析,reduce(歸納)負(fù)責(zé)把各個(gè)結(jié)果匯總起來(lái),這種并行計(jì)算方式極大提高了數(shù)據(jù)處理的速度。

        2.2 企業(yè)網(wǎng)絡(luò)輿情的概念

        關(guān)于輿情,沒(méi)有一個(gè)統(tǒng)一的定義,不同的學(xué)者對(duì)此定義的側(cè)重點(diǎn)不同,一個(gè)較全面的定義是劉毅在《網(wǎng)絡(luò)輿情研究概論》中的描述:“輿情是由個(gè)人以及各種社會(huì)群體構(gòu)成的公眾,在一定的歷史階段和社會(huì)空間內(nèi),對(duì)自己關(guān)心或與自身利益緊密相關(guān)的各種公共事務(wù)所持有的多種情緒、意愿、態(tài)度和意見(jiàn)交錯(cuò)的總和[3]。”

        網(wǎng)絡(luò)輿情是社會(huì)輿情的一種具體表現(xiàn)形式,它是由網(wǎng)絡(luò)言論發(fā)展而來(lái)的,但網(wǎng)絡(luò)言論能否發(fā)展成為網(wǎng)絡(luò)輿情在很大程度上依賴于網(wǎng)絡(luò)言論議題是否具有強(qiáng)烈的活躍性和敏感性,其發(fā)展過(guò)程存在著網(wǎng)絡(luò)言論由潛在輿情向顯性輿情轉(zhuǎn)化的關(guān)鍵階段,網(wǎng)絡(luò)的開(kāi)放性和隱匿性為潛在輿情提供了公開(kāi)表達(dá)的場(chǎng)所[4]。網(wǎng)絡(luò)輿情信息多元、傳播快捷、方式互動(dòng),具有傳統(tǒng)媒體無(wú)法比擬的優(yōu)勢(shì),網(wǎng)絡(luò)輿情既有積極健康的一面,同時(shí)也有消極頹廢的一面,如果我們對(duì)初露端倪的不良輿論苗頭進(jìn)行有效抑制,就可以掌握網(wǎng)絡(luò)輿論引導(dǎo)的主動(dòng)權(quán)。

        企業(yè)網(wǎng)絡(luò)輿情則是網(wǎng)絡(luò)輿情范圍的進(jìn)一步縮小,限于跟某個(gè)企業(yè)主體相關(guān)的輿情內(nèi)容,是廣大網(wǎng)民在特定的時(shí)期和網(wǎng)絡(luò)空間內(nèi),對(duì)特定企業(yè)發(fā)生的某個(gè)產(chǎn)品生產(chǎn)、或服務(wù)提供的事件,通過(guò)網(wǎng)絡(luò)表達(dá)的多種情感、態(tài)度和意見(jiàn)的集合。

        2.3 企業(yè)網(wǎng)絡(luò)輿情的特點(diǎn)

        隨著互聯(lián)網(wǎng)對(duì)人們生活影響的逐步深入,企業(yè)越來(lái)越重視與自己相關(guān)的網(wǎng)絡(luò)輿情傳播對(duì)自身形象的影響。網(wǎng)絡(luò)博客、社交網(wǎng)絡(luò)平臺(tái)(論壇、微信、QQ等)、網(wǎng)絡(luò)新聞評(píng)論,以及電子商務(wù)平臺(tái)是企業(yè)網(wǎng)絡(luò)輿情傳播的主要渠道。

        越來(lái)越多的企業(yè)開(kāi)始重視企業(yè)自身的口碑在網(wǎng)絡(luò)輿情傳播中的重要作用。包括網(wǎng)絡(luò)新聞媒體、社交網(wǎng)絡(luò)平臺(tái)(微博、微信、QQ等)以及電子商務(wù)平臺(tái)。企業(yè)網(wǎng)絡(luò)輿情具有網(wǎng)絡(luò)輿情的一般特征:輿情信息存在空間的虛擬性;輿情傳播的實(shí)時(shí)性;網(wǎng)絡(luò)參與主體發(fā)表、傳播和反饋輿情信息的交互性;互聯(lián)網(wǎng)結(jié)構(gòu)的開(kāi)放性所決定的企業(yè)網(wǎng)絡(luò)輿情傳播方式的開(kāi)放性等。企業(yè)網(wǎng)絡(luò)輿情在管理上與社會(huì)網(wǎng)絡(luò)輿情又存在著明顯的不同:

        (1)在網(wǎng)絡(luò)信息處理范圍上:企業(yè)網(wǎng)絡(luò)輿情管理僅針對(duì)網(wǎng)絡(luò)上與企業(yè)自身利益相關(guān)的輿情信息進(jìn)行處理。因此,在從輿情信息源獲取原始信息時(shí),可以有針對(duì)性地進(jìn)行信息過(guò)濾,大大減少了企業(yè)輿情管理系統(tǒng)的信息處理量。

        (2)在語(yǔ)料的積累和交互歷史的積累上:在社會(huì)網(wǎng)絡(luò)中企業(yè)與客戶的交互往往集中在企業(yè)的官方微博、微信公眾號(hào)、企業(yè)產(chǎn)品銷售平臺(tái)及行業(yè)論壇,所以很容易收集積累的語(yǔ)料;而政府級(jí)的輿情管理往往缺少相應(yīng)的語(yǔ)料,因?yàn)檩浨槭录l(fā)生時(shí),網(wǎng)民的留言是比較分散的。

        (3)在輿情管理的時(shí)效上:企業(yè)網(wǎng)絡(luò)輿情往往因某個(gè)突發(fā)事件致使其在短時(shí)間內(nèi)大規(guī)模的傳播與爆發(fā),而且其影響會(huì)立刻傳導(dǎo)到企業(yè)的生產(chǎn)和銷售業(yè)績(jī)上,因此,企業(yè)對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)控與管理的時(shí)效性方面要求比較高。而政府對(duì)社會(huì)輿情的管理相對(duì)來(lái)說(shuō)所涉及的范圍更大,對(duì)網(wǎng)絡(luò)輿情進(jìn)行正確引導(dǎo)的時(shí)間相對(duì)較長(zhǎng),輿情產(chǎn)生的影響力更加平均,因此,政府對(duì)社會(huì)輿情管理的時(shí)效性的要求不如企業(yè)輿情管理高[5]。

        (4)在靶向目標(biāo)方面:企業(yè)輿情管理有較強(qiáng)的靶向性,主要針對(duì)的是企業(yè)相關(guān)的人群,包括客戶、合作伙伴、主要競(jìng)爭(zhēng)者、潛在目標(biāo)客戶等。而政府級(jí)的社會(huì)輿情管理針對(duì)的是整個(gè)國(guó)家的、全方位的輿情管理,與企業(yè)相比廣度更寬,靶向性較企業(yè)較弱。

        (5)在輿情的處理方式上:企業(yè)輿情管理偏向于積極的運(yùn)用和發(fā)揮,而政府級(jí)的輿情管理則偏向于監(jiān)督和防范。具體來(lái)說(shuō),企業(yè)輿情一般是對(duì)企業(yè)品牌的口碑、競(jìng)爭(zhēng)對(duì)手動(dòng)態(tài)、行業(yè)狀況和熱點(diǎn)事件等內(nèi)容進(jìn)行信息的收集、匯總分析及進(jìn)一步的傳播,進(jìn)而達(dá)到商業(yè)盈利的目的。而政府級(jí)的社會(huì)輿情管理則注重利用網(wǎng)絡(luò)及時(shí)發(fā)現(xiàn)對(duì)國(guó)家利益產(chǎn)生不利影響的信息及時(shí)進(jìn)行監(jiān)管和處理,把對(duì)社會(huì)造成的不利影響降到最低。

        3 模型設(shè)計(jì)

        在大數(shù)據(jù)背景下,企業(yè)網(wǎng)絡(luò)輿情數(shù)據(jù)具有分布廣泛、數(shù)據(jù)類型多樣化、數(shù)據(jù)體量大、產(chǎn)生速度快等特點(diǎn),對(duì)企業(yè)網(wǎng)絡(luò)輿情分析系統(tǒng)模型的設(shè)計(jì)提出了挑戰(zhàn)[6]。企業(yè)網(wǎng)絡(luò)輿情管理系統(tǒng)在大數(shù)據(jù)背景下應(yīng)該滿足如下要求:

        (1)輿情信息獲取的全面性。企業(yè)網(wǎng)絡(luò)輿情信息來(lái)源廣泛,作為數(shù)字化記錄的用戶內(nèi)容,可能以文字、圖片、視頻等形式分布在相關(guān)新聞網(wǎng)站、論壇、銷售網(wǎng)站、點(diǎn)評(píng)網(wǎng)、聊天平臺(tái)中,而且這些內(nèi)容在大數(shù)據(jù)環(huán)境下增長(zhǎng)非???,為使獲取的企業(yè)網(wǎng)絡(luò)輿情信息比較全面,需要采用并行搜索技術(shù)和大數(shù)據(jù)處理技術(shù)。

        (2)輿情信息獲取的針對(duì)性。企業(yè)網(wǎng)絡(luò)輿情信息管理系統(tǒng)相對(duì)社會(huì)輿情系統(tǒng)而言,所關(guān)注的信息面的廣度比較窄,只關(guān)心與企業(yè)有關(guān)的主題信息。因此,為提高系統(tǒng)的效率,需要對(duì)系統(tǒng)爬取的信息進(jìn)行過(guò)濾。

        (3)輿情信息處理的時(shí)效性。由于企業(yè)的輿情常常因?yàn)槟骋煌话l(fā)事件的觸發(fā)導(dǎo)致在短時(shí)間內(nèi)大規(guī)模的爆發(fā)與傳播,因此,為減小輿情對(duì)企業(yè)業(yè)績(jī)的不良影響,留給企業(yè)進(jìn)行輿情管理和控制的時(shí)間非常短。

        網(wǎng)絡(luò)輿情分析包括通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等工具從互聯(lián)網(wǎng)上采集信息開(kāi)始到最后將獲取的輿情信息服務(wù)于輿情管理的一系列流程,首先從網(wǎng)絡(luò)上采集輿情數(shù)據(jù)資源,對(duì)采集得到的Web頁(yè)面等數(shù)據(jù)進(jìn)行預(yù)處理,抽取其中的關(guān)鍵信息,然后將關(guān)鍵信息進(jìn)行建模并通過(guò)相關(guān)算法進(jìn)行內(nèi)容上的分析,最后將分析結(jié)果提供給用戶[3]。因此,結(jié)合上述要求進(jìn)行企業(yè)網(wǎng)絡(luò)輿情分析模型的設(shè)計(jì),設(shè)計(jì)的基本原則包括:利用Hadoop大數(shù)據(jù)平臺(tái)和HDFS及MapReduce技術(shù)實(shí)現(xiàn)企業(yè)網(wǎng)絡(luò)輿情海量數(shù)據(jù)的存儲(chǔ)與處理,提高企業(yè)輿情處理效率;對(duì)反映企業(yè)輿情的文字、圖片等信息能夠自動(dòng)采集、處理和分析,并及時(shí)發(fā)現(xiàn)企業(yè)輿情熱點(diǎn)。企業(yè)網(wǎng)絡(luò)輿情分析模型的信息處理流程總體設(shè)計(jì)如圖1所示。

        圖1 基于大數(shù)據(jù)的企業(yè)主題網(wǎng)絡(luò)輿情分析系統(tǒng)模型

        (1)輿情數(shù)據(jù)采集:即從互聯(lián)網(wǎng)中抓取與企業(yè)輿情事件相關(guān)的數(shù)據(jù),形成目標(biāo)數(shù)據(jù)集。

        數(shù)據(jù)采集完成從網(wǎng)絡(luò)信息資源中獲取頁(yè)面數(shù)據(jù)的工作,數(shù)據(jù)抓取過(guò)程中解決的主要問(wèn)題是網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)以及優(yōu)化,具體包括Deep Web下載、網(wǎng)頁(yè)腳本解析、爬行策略控制等。相對(duì)于通用輿情系統(tǒng),企業(yè)輿情系統(tǒng)所關(guān)注的信息面比較窄,往往集中在和企業(yè)相關(guān)的信息,因此,我們將數(shù)據(jù)采集過(guò)程中獲得的原始數(shù)據(jù)通過(guò)“主題關(guān)鍵詞過(guò)濾”算法進(jìn)行過(guò)濾。具體包括以下幾步:

        ①網(wǎng)絡(luò)爬蟲(chóng)根據(jù)初始URL集合對(duì)相關(guān)新聞門(mén)戶網(wǎng)站、論壇、大眾點(diǎn)評(píng)網(wǎng)、微博平臺(tái)等進(jìn)行爬行并下載相關(guān)的網(wǎng)頁(yè)。

        ②對(duì)爬取的原始頁(yè)面按“主題關(guān)鍵詞過(guò)濾”算法進(jìn)行過(guò)濾,得到主題相關(guān)的頁(yè)面。

        ③在本地對(duì)每個(gè)網(wǎng)頁(yè)進(jìn)行解析分塊,過(guò)濾掉無(wú)用信息塊后將有效信息塊的信息保存到數(shù)據(jù)庫(kù),將塊內(nèi)文本和圖片分別保存起來(lái)。

        由于網(wǎng)絡(luò)輿情系統(tǒng)需要對(duì)多個(gè)不同網(wǎng)絡(luò)社群的網(wǎng)絡(luò)頁(yè)面進(jìn)行采集,這在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理工作量非常大、而且數(shù)據(jù)集中存儲(chǔ)的壓力也很大。我們可以利用Hadoop技術(shù)將輿情數(shù)據(jù)采集和初步的預(yù)處理過(guò)程(例如分詞、關(guān)鍵詞統(tǒng)計(jì)等)從輿情計(jì)算中心分散到各個(gè)網(wǎng)絡(luò)社區(qū)計(jì)算節(jié)點(diǎn)上,基于HDFS文件系統(tǒng)構(gòu)建HBase分布式存儲(chǔ)系統(tǒng)存儲(chǔ)輿情數(shù)據(jù),利用MapReduce來(lái)處理HBase中的海量數(shù)據(jù)。

        (2)數(shù)據(jù)預(yù)處理:網(wǎng)絡(luò)輿情的載體主要是網(wǎng)頁(yè)中的文本及圖片等信息,因此,企業(yè)網(wǎng)絡(luò)輿情信息預(yù)處理主要包括以下任務(wù):

        ①網(wǎng)頁(yè)解析與分塊。首先利用網(wǎng)頁(yè)中的空間特征、內(nèi)容特征及標(biāo)簽信息對(duì)網(wǎng)頁(yè)進(jìn)行分塊,然后對(duì)分塊的結(jié)果進(jìn)行識(shí)別合并,最后過(guò)濾掉無(wú)用信息塊后將有效的信息塊保存到數(shù)據(jù)庫(kù)。利用Eclipse開(kāi)發(fā)工具,擴(kuò)展Heritrix中的頁(yè)面分析與信息抽取中的Extractor組件來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)內(nèi)容的解析和網(wǎng)頁(yè)的分塊,為基于DOM分塊的特征項(xiàng)權(quán)重計(jì)算提供依據(jù)。

        ②特征選擇與語(yǔ)義特征轉(zhuǎn)換。采用改進(jìn)的NGram的特征項(xiàng)選擇方法對(duì)主題網(wǎng)絡(luò)輿情Web文本進(jìn)行特征選擇;然后在輿情信息特征選擇的基礎(chǔ)之上,采用語(yǔ)義特征抽取轉(zhuǎn)換的方法得到企業(yè)主題網(wǎng)絡(luò)輿情Web文本的語(yǔ)義特征。

        ③頁(yè)面相關(guān)度計(jì)算。把經(jīng)過(guò)分塊過(guò)濾后的頁(yè)面以特征詞文本向量的形式進(jìn)行表示,計(jì)算企業(yè)網(wǎng)絡(luò)輿情主題庫(kù)中的特征向量和頁(yè)面文本向量間的相似度,從而確定相關(guān)頁(yè)面。

        (3)企業(yè)主題網(wǎng)絡(luò)輿情分析模塊:主要完成企業(yè)主題網(wǎng)絡(luò)輿情話題檢測(cè)、話題追蹤、傾向性識(shí)別等功能。

        輿情信息聚類子模塊:該子模塊是主題網(wǎng)絡(luò)輿情話題檢測(cè)的主要技術(shù)實(shí)現(xiàn)手段,采用基于語(yǔ)義的主題網(wǎng)絡(luò)輿情信息聚類方法對(duì)采集得到的Web文本進(jìn)行自動(dòng)聚類,得到輿情話題。

        輿情信息分類子模塊:該子模塊是主體網(wǎng)絡(luò)輿情話題追蹤的主要技術(shù)實(shí)現(xiàn)手段,在輿情信息聚類的基礎(chǔ)之上,采用基于語(yǔ)義的主題網(wǎng)絡(luò)輿情信息分類方法對(duì)采集到的Web文本進(jìn)行自動(dòng)分類,得到與已有話題相關(guān)的后續(xù)報(bào)道,并將其歸入已有的話題之中。

        情感傾向性識(shí)別子模塊:采用基于情感本體的主題網(wǎng)絡(luò)輿情傾向性分析方法對(duì)企業(yè)主題網(wǎng)絡(luò)輿情進(jìn)行傾向性識(shí)別,得到Web文本的褒貶傾向類別。

        圖像內(nèi)容的識(shí)別。有研究表明,有圖像的微博、微信轉(zhuǎn)發(fā)率要明顯高于純文字的,因此,要分析企業(yè)的網(wǎng)絡(luò)輿情,圖像輿情是不可或缺的。圖像內(nèi)容識(shí)別的困難在于從圖像像素中提取的視覺(jué)特征和用戶對(duì)圖像內(nèi)容的含義的理解之間存在語(yǔ)義鴻溝。為消除語(yǔ)義鴻溝,對(duì)圖像識(shí)別分類器中的圖像訓(xùn)練數(shù)據(jù)通過(guò)人工的方法標(biāo)注類別信息標(biāo)簽,然后新圖像在經(jīng)過(guò)圖像識(shí)別分類器處理后自動(dòng)添加上所屬類別的語(yǔ)義標(biāo)簽。在這里,將企業(yè)的LOGO圖片、企業(yè)領(lǐng)導(dǎo)照片、企業(yè)名稱等圖片作為訓(xùn)練數(shù)據(jù),利用SIFT算法對(duì)圖像特征進(jìn)行提取,然后應(yīng)用SVM分類器實(shí)現(xiàn)對(duì)新收集的圖片進(jìn)行分類并標(biāo)注語(yǔ)義信息。

        Sipo-Ontology管理維護(hù)模塊:采用基于本體的主題網(wǎng)絡(luò)輿情知識(shí)模型構(gòu)建方法創(chuàng)建Sipo-Ontology,并對(duì)其進(jìn)行管理維護(hù)。

        情感Ontology管理維護(hù)模塊:采用情感本體構(gòu)建方法創(chuàng)建情感Ontology,并對(duì)其進(jìn)行管理維護(hù)。

        (4)輿情報(bào)告與預(yù)警:利用相關(guān)的工具和技術(shù)對(duì)網(wǎng)絡(luò)輿情分析模塊挖掘出來(lái)的知識(shí)進(jìn)行文字或圖形化的表示,并根據(jù)分析結(jié)果對(duì)企業(yè)網(wǎng)絡(luò)輿情管理的實(shí)踐提供決策參考。

        4 結(jié)語(yǔ)

        本文在分析大數(shù)據(jù)和企業(yè)網(wǎng)絡(luò)輿情相關(guān)概念和技術(shù)的基礎(chǔ)上,根據(jù)企業(yè)網(wǎng)絡(luò)輿情的特點(diǎn)構(gòu)建了大數(shù)據(jù)環(huán)境下的企業(yè)主題網(wǎng)絡(luò)輿情分析系統(tǒng)模型,并分析了模型各個(gè)模塊使用的關(guān)鍵技術(shù):數(shù)據(jù)采集模塊采用主題爬蟲(chóng),通過(guò)主題關(guān)鍵字過(guò)濾法,使獲得的網(wǎng)頁(yè)數(shù)據(jù)聚焦于企業(yè)的主題相關(guān);數(shù)據(jù)預(yù)處理模塊對(duì)文本向量轉(zhuǎn)換為語(yǔ)義特征表示;輿情分析模塊對(duì)采集的圖片進(jìn)行內(nèi)容識(shí)別,借助領(lǐng)域本體和情感本體進(jìn)行基于語(yǔ)義的分類和聚類處理,獲取對(duì)企業(yè)輿情管理有價(jià)值的信息。本文的輿情分析處理的重點(diǎn)在所涉及的文本信息,對(duì)圖像內(nèi)容識(shí)別做了初步分析,但是對(duì)其他多媒體信息、社會(huì)網(wǎng)絡(luò)關(guān)系所包含的輿情信息的挖掘還有待進(jìn)一步研究。

        [1]王蘭成.網(wǎng)絡(luò)輿情分析技術(shù).國(guó)防工業(yè)出版社,2014,10.

        [2]王靜婷,徐震.一種基于知識(shí)技術(shù)的網(wǎng)絡(luò)輿情內(nèi)容分析系統(tǒng)框架.圖書(shū)情報(bào)導(dǎo)刊,2016,2.

        [3]梁循,許媛等.社會(huì)網(wǎng)絡(luò)背景下的企業(yè)輿情研究述評(píng)與展望.管理學(xué)報(bào),2017,6.

        [4]王宇.基于云計(jì)算的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)研究.內(nèi)蒙古工業(yè)大學(xué)碩士論文,2016,6.

        [5]梁循,楊小平,李志宇.社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)下企業(yè)輿情建模和管理.清華大學(xué)出版社,2016,2.

        [6]馬梅,劉東蘇,李慧.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究.情報(bào)科學(xué),2016,3.

        国产精品玖玖资源站大全| 国产精品久久久久9999小说| 成人国产精品三上悠亚久久 | 国自产偷精品不卡在线| 国产AV高清精品久久| 国产精品夜色视频久久| 亚洲成av人片天堂网无码| 四川老熟女下面又黑又肥| 久久一区二区三区四区| 97久久久一区二区少妇| 尤物在线观看一区蜜桃| 国产精品制服| 伊人精品无码AV一区二区三区 | 色综合久久人妻精品日韩| 亚洲熟女精品中文字幕| 又污又爽又黄的网站| 国产精品视频免费的| 日韩人妻美乳中文字幕在线| 一本无码中文字幕在线观| 亚洲18色成人网站www| 亚洲是图一区二区视频| 国产亚洲一区二区精品| 久久无码字幕中文久久无码| 国产亚洲av片在线观看18女人| 无码吃奶揉捏奶头高潮视频| 亚洲国产国语对白在线观看 | 中国黄色一区二区三区四区| 精品久久久久久成人av| 国产在线观看入口| 亚洲一区二区三区乱码在线| 国产不卡精品一区二区三区| 痉挛高潮喷水av无码免费| 91精品国产福利尤物免费| 亚洲精品中文字幕乱码3| 中文字幕日韩精品有码视频| 欧美大香线蕉线伊人久久| av在线免费观看你懂的| 日本护士口爆吞精视频| 精品9e精品视频在线观看| 欧美 亚洲 国产 日韩 综AⅤ| av人妻在线一区二区三区|