亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時代的網(wǎng)絡評論數(shù)據(jù)處理技術應用

        2017-01-09 19:03:05沈艷宋燕燕
        今傳媒 2016年12期
        關鍵詞:網(wǎng)絡分析提取

        沈艷 宋燕燕?

        摘 要:Web2.0帶來了信息傳播的根本性變革,信息不僅僅總量大,更體現(xiàn)了及時性、流動性的特點。對于信息的掌握、分析和運用,利用文本挖掘技術對網(wǎng)絡評論的信息提取,可以說是近年來的熱點領域。本文重點探討網(wǎng)絡評論中具有較強應用性的四種分析:主題詞提取、社會網(wǎng)絡分析、輿情分析以及情感強度分析,這四種分析都是以計算機文本挖掘為技術支持,是新聞學、傳播學、營銷學以及社會學研究中具有較強應用性的領域。

        關鍵詞:網(wǎng)絡評論;文本挖掘;關鍵詞提取;網(wǎng)絡分析;情感傾向

        中圖分類號:G20 文獻標識碼:A 文章編號:1672-8122(2016)12-0112-02

        一、文本挖掘的概況

        1.研究意義

        互聯(lián)網(wǎng)自產(chǎn)生那天起就有著強大的功能,隨著世界網(wǎng)民數(shù)量的激增,近十年來,移動互聯(lián)網(wǎng)網(wǎng)民更是呈現(xiàn)指數(shù)級的增長[1]。在Web2.0的新環(huán)境下,基于互聯(lián)網(wǎng)的輿論平臺包括論壇、微博、微信、QQ、網(wǎng)絡購物商業(yè)平臺等所有開放平臺成為巨大的信息場,這些信息不僅巨大(數(shù)據(jù)存儲量已經(jīng)從TB級別升至PB級別),而且體現(xiàn)了及時性、互動性、流動性等屬性,傳統(tǒng)的數(shù)據(jù)收集(主要指結構性數(shù)據(jù))和輿情分析方法處理能力非常有限,也影響了有效分析網(wǎng)絡評論的效果。有鑒于此,從紛繁龐雜的海量非結構性數(shù)據(jù)中,挖掘提取有價值的信息變得非常重要。而基于Web2.0的文本挖掘在網(wǎng)絡營銷和輿情追蹤領域上,對于決策和未來趨勢的預測上能夠提供更加深層和豐富的信息。文本挖掘?qū)儆诖髷?shù)據(jù)分支領域,十三五期間,大數(shù)據(jù)應用更是提到了“助力產(chǎn)業(yè)升級轉型和社會治理創(chuàng)新”的高度[2]。目前我們看到的文獻大多基于計算機軟件科學研究不同算法和原理,比如提出新算法或者優(yōu)化原有算法,在精確度上不斷改進。在商業(yè)智能研判上,比如客戶產(chǎn)品需求、精準營銷上,各個大的網(wǎng)絡銷售平臺均由團隊做大數(shù)據(jù)分析,數(shù)據(jù)挖掘已經(jīng)比較成熟。而在社會科學領域中,比如傳播學、新聞學、社會學大多依賴傳統(tǒng)的抽樣調(diào)查,如何應對新的社會發(fā)展形態(tài),優(yōu)化社會治理模式,借助文本挖掘技術對于拓展研究領域,深化研究方法均具有重要的意義。網(wǎng)絡評論在互聯(lián)網(wǎng)信息中直接體現(xiàn)用戶個人態(tài)度、情感,這些信息特征是怎么樣的又是怎樣關聯(lián)的,運用文本挖掘方法可以回答這些問題。

        2.文本挖掘的特點和方法

        網(wǎng)絡評論屬于文本信息,文本挖掘也稱為文本數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大量文本的集合或者語料庫中提取事先未知的,可以理解的有潛在實用價值的模式和知識[3]。在大數(shù)據(jù)應用商業(yè)和社會治理層面,人們更看重的是精準預測。網(wǎng)絡評論屬于非結構性數(shù)據(jù),其中意見挖掘主要針對非事實性主觀文本,加之中文語法的特點,這三個因素增加了文本挖掘的難度,中文文本挖掘技術至今在算法和精確度方面還在不斷探索。概括而言,文本挖掘的方法主要有以下四個方面:(1)分詞技術。中文分詞時中文信息處理的基礎,比如中科院的ICTCLAS分詞系統(tǒng)可以提供詞性標注、新詞識別、用戶詞典等,是開源分詞系統(tǒng);(2)信息提取和關聯(lián)分析。信息抽取的目的是抽取出指定的事件、事實等信息供用戶查詢使用。如新聞報道中的時間、地點、人物、關系、事件。關聯(lián)分析是發(fā)現(xiàn)兩個或者兩個以上的變量取值之間存在某種規(guī)則,比如時序關聯(lián)、因果關聯(lián);(3)分類分析。找出并區(qū)分數(shù)據(jù)分類的模型,以便能夠使用模型預測給定數(shù)據(jù)對象所屬的數(shù)據(jù)類。比如,財經(jīng)新聞、社會新聞等新聞歸檔的應用,建立先模型(分類器),再將文檔通過分類器歸為某種類別;(4)聚類分析。將物理或抽象對象的集合分組成為由類似的對象組成的多個分析過程。它的目標就是在相似的基礎上收集數(shù)據(jù)來分類。比如圖書評論中抽取好、一般、比較差等。

        二、文本挖掘的技術實現(xiàn)

        文本挖掘技術屬于計算機、數(shù)學等學科,研究主要側重在研究技術層面,其中僅僅分詞方法和算法就有十幾種。目前的文本挖掘側重在不同領域中的應用,比如在輿情領域,商業(yè)智能研判領域中。越來越多的語言或者軟件的開源系統(tǒng)和界面友好的數(shù)據(jù)挖掘軟件比如KNIME,以及在線網(wǎng)站玻森,只需要“拖、拉、拽”就可以實現(xiàn)部分的數(shù)據(jù)挖掘,所以越來越多的商業(yè)領域和社會領域可以使用文本挖掘。本文主要介紹在文本關鍵詞提取、網(wǎng)絡輿情分析、社會網(wǎng)絡應用分析以及用戶情感傾向分析。這四種應用通過文本挖掘可以實現(xiàn),具體如下:

        1.文本關鍵詞提取。新聞學中的標題往往具有概況、總結的功能,需要新聞從業(yè)者或者讀者看完全篇再歸納整理出來新聞摘要。那么在海量的文章中,在全面把握文章的中心思想的基礎上,迅速(每小時至少處理50萬篇文章)提取出若干個代表文章語義內(nèi)容的詞匯或短語,相關結果可用于精化閱讀、精準排序。比如2015年李克強總理的政府工作報告,依據(jù)分詞技術計算詞頻,可以提取出市場化、改革等關鍵詞。這些關鍵詞往往能反映出政府工作報告的主干特征。比如數(shù)據(jù)挖掘工具KNIME軟件和Orange。另外,在線中文數(shù)據(jù)挖掘網(wǎng)站玻森中文語義開放平臺(http://bosonnlp.com/demo)可以進行分詞處理,關鍵詞提取,形成新聞摘要。表1是Boson根據(jù)寶馬車召回新聞形成的關鍵詞提取頁面[4]。

        2.輿情分析應用。在海量的網(wǎng)絡信息環(huán)境下,人們面臨的問題不是信息匱乏,而是信息過載和信息噪音,所以人們關注的重心已從搜索采集的信息序化變?yōu)榉治鰹橹鞯男畔⑥D化。輿情信息獲取的速度和質(zhì)量依賴于輿情系統(tǒng)技術。網(wǎng)絡輿情系統(tǒng)的主要功能有信息數(shù)據(jù)自動采集、文本自動聚類和自動分類、話題與跟蹤。目前輿情分析主要集中在信息采集、熱點問題發(fā)現(xiàn)和熱點評估[5]。信息采集主要用爬蟲Python以及Heritrix從web、博客、郵件、微博等采集數(shù)據(jù),存儲在PostgreSQL數(shù)據(jù)庫中,再進行主題提取等。熱點問題發(fā)現(xiàn)技術主要使用文本聚類分析的辦法發(fā)現(xiàn)網(wǎng)絡輿情熱點。熱點事件抽取方面主要是首先對微博數(shù)據(jù)進行預處理,去除數(shù)據(jù)中噪聲信息;文本聚類有很多算法,相對傳統(tǒng)的Single-pass和K-means規(guī)則簡單比較易用[6]。輿情處理本質(zhì)上是中文聚類和分類處理,關鍵是主要用到分詞系統(tǒng),Python語言調(diào)入的jieba詞包,再結合各個領域的詞庫可以實現(xiàn)。

        3.社會網(wǎng)絡分析。本文介紹應用社會網(wǎng)絡分析(關聯(lián)分析)技術實現(xiàn)KOL(Key Opinion Leade)意見領袖查找,KOL被稱為意見持有者的識別,是影響力較大的用戶。意見領袖能在短時間內(nèi)對數(shù)量眾多的用戶產(chǎn)生直接或間接的影響。因此,挖掘意見領袖成為了解決社交網(wǎng)絡中許多實際問題的關鍵點,社會治理當中的輿論引導,特別是傳播學領域中的社會網(wǎng)絡研究(如圖1所示),特別是近年來的商業(yè)上比較熱門的廣告投放和微商開展。比如用戶屬性分類方法進行意見領袖挖掘,主要依據(jù)關注度、粉絲數(shù)、發(fā)帖數(shù)以及是否認證對用戶重要性進行評分,以關系為處理單位的社會網(wǎng)絡分析方法在意見領袖識別當中應用越來越多。網(wǎng)絡分析有了非常多的理論成果和軟件分析工具,方法有隨機網(wǎng)絡、規(guī)整網(wǎng)絡、小世界理論等,Ucinet是主要處理數(shù)據(jù)的關聯(lián)規(guī)律軟件,結合網(wǎng)絡的可視化技術,用Netdraw軟件進行展現(xiàn),這兩款軟件均可以人機互動,操作比較簡單。

        4.情感傾向性分析。主要指的是用戶評價分析,主要是態(tài)度、評價等級的測量。過程如下:抓取獲得語料,其工具主要是Python網(wǎng)絡爬蟲,這是非常龐大的海量數(shù)據(jù),將原始數(shù)據(jù)存儲在PostgreSQL數(shù)據(jù)庫中。不過,原始數(shù)據(jù)中有很多無用信息、重復評論等這些都是屬于無效信息,所以要進行語料預處理,將PostgreSQL數(shù)據(jù)庫轉換成文本格式(txt)格式文件,再用停用詞表進行過濾垃圾。預處理之后,開始進行分詞處理,只有進行分詞計算機才能找到關鍵詞和特征詞,分詞技術和分詞方法已經(jīng)比較成熟,業(yè)界使用比較多的中文分詞工具是ICTCLAS中文分詞系統(tǒng)[8],分詞工具常用的有jieba和Ansj。首先是將海量的數(shù)據(jù)通過分詞找到主題詞,比如購物平臺上的服裝評論,其中有款式、質(zhì)量、物流三個主題詞,按照三個主題詞使用Word2Vec進行詞語聚類,把語義距離相近的詞歸為一類,比如在預處理后的可用語料庫中把時尚、休閑等歸為款式一類,把正品、不掉色等放在質(zhì)量一類,把塊、及時放在物流一類。之后分別進行HowNet情感詞典構建和程度級別詞典構建以及否定詞典構建,再進行主題詞分類,計算得出句子情感傾向,用戶情感傾向,最后分別得出質(zhì)量、內(nèi)容、物流情感傾向(如圖1所示)。

        這里需要說明,四種文本挖掘可以交叉使用,比如輿情分析中評論的情感性分析,可以通過上述第四種操作實現(xiàn)。不管是哪種分析,都包含數(shù)據(jù)爬取、存儲、分詞。

        三、探討和總結

        隨著數(shù)據(jù)挖掘技術在各個領域的不斷擴展和深入,實際生活中,文本挖掘還可以拓展更寬更深的應用,不僅僅限于本文列舉的四種。大數(shù)據(jù)變成人們生活中的思維意識離不開數(shù)據(jù)挖掘技術更多的使用,而文本挖掘可以一定程度上實現(xiàn)更多人的技術可能,這需要更多的團隊合作,更重要的是有更多的專業(yè)交叉,比如計算機應用和社會學、傳播學專業(yè)、漢語言學的交叉。

        參考文獻:

        [1] 中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布第37次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》:截至2015年12月,中國網(wǎng)民規(guī)模達到6.88億,互聯(lián)網(wǎng)普及率達到50.3%,手機網(wǎng)民規(guī)模達6.20億,有90.1%的網(wǎng)民通過手機上網(wǎng).

        [2] 出自2016.3月《國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要》第二十七章:“國家大數(shù)據(jù)戰(zhàn)略”

        [3] 費爾德曼.文本挖掘[M].北京:人民郵電大學出版社,2009.

        [4] http://www.chinadaily.com.cn/hqgj/jryw/2014-04-15/content_11593048.html.

        [5] 蔡淑琴,張靜,王旸.基于中心化的微博熱點研究方法[J].管理學報,2012,9(6):874-879.

        [6] 唐濤.大數(shù)據(jù)環(huán)境下輿情分析[J].現(xiàn)代情報,2014,34(3):3-6.

        [7] 張莉,蘇新寧,王東波.通用領域的中文意見的挖掘研究[J].情報理論與實踐,2012,35(4):103-108.

        [8] 劉志明,劉魯.基于機器學習的中文微博情感分類實證研究[J].計算機工程與應用,20112,48(1)1-4.

        [責任編輯:東方緒]

        猜你喜歡
        網(wǎng)絡分析提取
        基于ISM模型的EPC項目風險網(wǎng)絡分析
        鐵路有線調(diào)度通信的網(wǎng)絡分析
        現(xiàn)場勘查中物證的提取及應用
        土壤樣品中農(nóng)藥殘留前處理方法的研究進展
        中學生開展DNA“細”提取的實踐初探
        淺析城市老街巷景觀本土設計元素的提取與置換
        蝦蛄殼中甲殼素的提取工藝探究
        科技視界(2016年22期)2016-10-18 17:02:00
        2016年社交網(wǎng)絡分析
        環(huán)保新型緩蝕劑發(fā)展狀況與展望
        科技視界(2015年25期)2015-09-01 15:33:38
        基于需求拉動的戰(zhàn)略性新興產(chǎn)業(yè)創(chuàng)新價值網(wǎng)絡分析
        成人亚洲av网站在线看| 日韩丰满少妇无码内射| 中文在线8资源库| 久久精品国产亚洲av蜜臀| 日日摸夜夜添夜夜添无码免费视频 | 夜夜综合网| 欧美三级超在线视频| 久久人妻av不卡中文字幕| 国产精品美女一区二区av| 国产精品久久久久久妇女| 国产又爽又大又黄a片| 天堂а√在线最新版中文| 欧美国产日本精品一区二区三区| av无码电影一区二区三区| 亚洲女同免费在线观看| 亚洲av无码专区在线观看下载| 人妻暴雨中被强制侵犯在线| 久青草国产视频| 无码中文字幕av免费放| 亚洲国产一区中文字幕| 91九色最新国产在线观看| 人妻无码一区二区三区| 久久水蜜桃亚洲av无码精品麻豆| 免费一本色道久久一区| 白色月光在线观看免费高清| 美女被男人插得高潮的网站| 中文字幕人妻无码一夲道| 手机在线精品视频| 日韩精品有码在线视频| 91久久国产香蕉视频| 欧美大成色www永久网站婷| 玖玖资源站无码专区| 天堂69亚洲精品中文字幕| 亚洲中字永久一区二区三区| 美女下蹲露大唇无遮挡| 国产精品亚洲а∨天堂2021| 69久久夜色精品国产69| 一本大道久久a久久综合| 麻豆视频黄片在线免费观看| 在线播放免费人成毛片乱码| 国产成a人亚洲精v品无码性色 |