亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于行業(yè)與地域的股票輿情監(jiān)測分析系統(tǒng)設計

        2019-11-06 03:03:08
        關鍵詞:輿情監(jiān)測分析

        1.香港中文大學(深圳)物聯(lián)網(wǎng)與云計算實驗室,廣東深圳,518172

        2.武大吉奧信息技術有限公司,湖北武漢,430223

        引言

        2018年8月20日,中國互聯(lián)網(wǎng)絡信息中心(CNNIC)發(fā)布的第42次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[1]中指出,截至2018年6月30日,中國網(wǎng)民規(guī)模達 8.02 億,普及率為57.7%,手機網(wǎng)民規(guī)模達7.88 億,網(wǎng)民中使用手機上網(wǎng)人群的占比達 98.3%。微博月活躍用戶達到3.77億,微信的全球用戶量達到10.4 億,公眾號的數(shù)量超過 1000 萬。便捷的網(wǎng)絡信息服務也為股票投資者產(chǎn)生便利:投資者可以通過上市公司的官方網(wǎng)站與微博、微信公眾號平臺等了解公司當前經(jīng)營狀況;財經(jīng)及股票論壇的存在則使得投資者們可以第一時間了解財經(jīng)資訊,讓不同投資者可以分享投資策略、互動交流。龐大的網(wǎng)民基數(shù)、爆炸式增長的網(wǎng)絡信息量以及日益復雜的多元社交機制所帶來的是網(wǎng)絡輿情影響力的逐漸增大。另一方面,由于輿情管理系統(tǒng)的不完善,虛假的輿論極有可能通過多元化的傳輸渠道進行病毒式傳播,引發(fā)股票投資者的羊群效應,進而引發(fā)股票市場的劇烈波動。

        Fama[2]的有效市場理論指出,有效率的金融市場中,證券價格應當充分反映市場信息。因此,建立一個有效的股票輿情監(jiān)測系統(tǒng),不僅可以幫助政府部門加強市場監(jiān)管、維護市場秩序,更可以促進市場信息高效、透明地傳播,使得市場價格能更加充分反映市場信息、滿足投資者的需要。

        1 建設目標

        行為金融學作為一門新興的金融學科,主要從個體心理、個體情緒的角度來研究、預測金融市場的發(fā)展。Fisher,Statman[3]研究了個體投資者、機構投資者與投資相關媒體作者的投資情緒的關系。研究證明,個體投資者的情緒更容易受到半權威業(yè)界人士、也就是媒體作者的情緒影響。媒體的觀念在愈發(fā)發(fā)達的互聯(lián)網(wǎng)上不斷擴散、發(fā)酵、獲得認同,久而久之便形成了“人們對于該事件的所有認知、情感、態(tài)度和行為傾向的集合”,即網(wǎng)絡輿情(曾潤喜[4]),進而對股票價格產(chǎn)生影響。越來越多的研究者也從網(wǎng)絡情緒[5]、公眾情緒狀態(tài)變化[6]等角度研究證實了網(wǎng)絡輿情與股票價格變動的關系。

        近年來,輿情服務在進行行業(yè)規(guī)范和整合的同時,正面臨著大數(shù)據(jù)挑戰(zhàn)[7]。輿情產(chǎn)品服務提供者不僅需要強化輿情監(jiān)測分析系統(tǒng)的數(shù)據(jù)抓取能力與數(shù)據(jù)解讀能力,更得設法對數(shù)量繁多的輿情事件信息提供正確且高效的分析方法。具體而言,網(wǎng)絡輿情事件具有性質(zhì)與地域的特征:一方面,網(wǎng)絡輿情事件根據(jù)其事件性質(zhì)可劃分成不同類別,如金融類輿情、房地產(chǎn)類輿情、教育類輿情等。與之類似,股票市場上,一些具有相同要素的股票也會被劃分成同樣類別的股票板塊(中國證監(jiān)會《上市公司行業(yè)分類指引》[8]將所有上市公司依“行業(yè)要素”劃分成 19 大類、90 小類)。很明顯,特定類別的輿情事件將對與之具有相同性質(zhì)名稱的股票板塊數(shù)據(jù)產(chǎn)生影響;另一方面,輿情事件同樣具有其地域特征,而處于同一環(huán)境下的上市公司由于具有類似的政治經(jīng)濟特征[9],在受到當?shù)禺a(chǎn)生輿情事件的沖擊會產(chǎn)生類似的變動方向。

        因此,筆者將在本文所屬的股票輿情監(jiān)測分析平臺中引入基于網(wǎng)絡輿情對股票行業(yè)與地域的聯(lián)動分析功能。本文所述的股票輿情監(jiān)測分析系統(tǒng)是基于云服務模式的互聯(lián)網(wǎng)金融輿情信息監(jiān)測平臺,以提供 7*24 小時輿情信息的采集、分析,敏感事件監(jiān)測和預警,全文檢測等服務為目標,覆蓋了輿情事件的發(fā)現(xiàn)、預警、跟蹤、分析、處置和評價等全過程。在輿情信息抓取與解讀的基礎上,本平臺將以股票市場的行業(yè)板塊及股票上市公司的地域為劃分因素進行聯(lián)動分析,直觀展現(xiàn)當某一輿情事件出現(xiàn)時,其可能會對與之性質(zhì)類似的板塊的股票、與之地域相近的上市公司的股票所造成的影響。通過對歷史發(fā)生的輿情事件與對應的歷史股票價格進行機器學習分析,可將當下時點發(fā)生的輿情事件與歷史同性質(zhì)輿情事件進行對比、進而分析不同類別的輿情事件在不同時間點,對不同板塊、不同地域的股票所產(chǎn)生的影響方向及大小,進而為市場管理者、投資者的決策提供參考。

        2 平臺架構

        2.1 軟件架構

        本文所述基于行業(yè)與地域因素的股票輿情監(jiān)測分析系統(tǒng)的軟件架構如下。

        2.1.1 基礎設施

        基礎設施是該輿情監(jiān)測分析平臺運行的基礎軟件,包括操作系統(tǒng)、數(shù)據(jù)庫、大數(shù)據(jù)分析基礎軟件等。

        2.1.2 數(shù)據(jù)采集

        數(shù)據(jù)采集子系統(tǒng)主要提供網(wǎng)絡站點采集規(guī)則配置、網(wǎng)絡數(shù)據(jù)采集、數(shù)據(jù)清洗預處理和數(shù)據(jù)入庫等功能。數(shù)據(jù)采集子系統(tǒng)是平臺運行的數(shù)據(jù)基礎,通過數(shù)據(jù)采集子系統(tǒng)從上市公司網(wǎng)站、財經(jīng)論壇、微信公眾號、微博采集各類文章和網(wǎng)友評論等數(shù)據(jù),形成輿情監(jiān)測分析平臺的數(shù)據(jù)基礎。

        2.1.3 大數(shù)據(jù)處理與全文檢索

        大數(shù)據(jù)數(shù)據(jù)處理主要功能是對采集入庫的原始數(shù)據(jù)進行一系列的加工處理和分類分析,以達到將原始數(shù)據(jù)整理成各類輿情信息的目的。數(shù)據(jù)分析處理主要包括中文分詞、上市公司識別、股票代碼識別、主題詞提取、行業(yè)分類、文本聚類、文本相似度計算、文本摘要、熱點事件發(fā)現(xiàn)、情感傾向分析等。

        圖1 軟件架構Fig.1 Software Architecture

        全文檢索建設面向高效檢索的股票輿主題數(shù)據(jù)庫,將支持主題詞、邏輯表達式檢索方式,并可運用熱點關鍵字聯(lián)想功能。符合的搜索結果可以按照類別、時間、地域、部門、專題等多種維度進行歸類,類目中的信息將按照出現(xiàn)頻度、相似熱度排序展示,并進行信息排重和消噪、自動顯示輿情摘要,并對關鍵字部分高亮提示,點擊可以瀏覽和下載全文信息。

        搜索引擎采用分布式架構,總數(shù)據(jù)量為上億級;查詢速度為毫秒級;提供365×7×24高可用性的數(shù)據(jù)服務;數(shù)據(jù)更新間隔為分鐘級,具備在第一時間內(nèi)從互聯(lián)網(wǎng)的海量信息中監(jiān)測到輿情熱點的能力,滿足高效的檢索響應要求。

        2.1.4 輿情分析與輿論指標庫

        輿情分析主要是指對網(wǎng)上開放平臺(新聞、紙媒、博客、論壇、微博、微信、新聞客戶端等)的數(shù)據(jù)的挖掘分析。在對數(shù)據(jù)進行歸納、梳理的同時,將同步引入特定輿論事件的性質(zhì)所可能影響的股票板塊數(shù)據(jù)、或該輿論事件所發(fā)生地域的上市公司股票的實時數(shù)據(jù),進行金融數(shù)據(jù)定量分析或時空大數(shù)據(jù)關聯(lián)分析。

        通過對輿情事件的類型按性質(zhì)、地域進行分類,各類輿情事件將歸類存儲于“性質(zhì)輿論指標庫”與“地域輿論指標庫”。庫中所存儲的歷史輿情事件,將結合同期與當前選定庫、選定類別的輿情事件相同板塊性質(zhì)、或者相同地域上市公司所對應的歷史股票價格數(shù)據(jù),進行機器學習與深度學習分析,以計算、優(yōu)化特定類別、特定地域的輿情事件對股票價格可能造成的影響因子。

        投資者可以選擇當前任意特定輿情事件,系統(tǒng)將實時展示該輿情對與其性質(zhì)類似的板塊的股票、與之地域相近的上市公司的股票所造成的影響,并與歷史同類型的輿情事件所造成的影響因子進行對比,為投資者的決策提供參考。

        2.2 關鍵技術

        2.2.1 海量互聯(lián)網(wǎng)數(shù)據(jù)近實時數(shù)據(jù)抓取

        評價輿情監(jiān)測平臺是否好用有兩個重點指標:一是該平臺監(jiān)測的數(shù)據(jù)是否全面,二是該平臺數(shù)據(jù)采集是否及時。沒有數(shù)據(jù)的輿情監(jiān)測平臺絕不能稱為好用,網(wǎng)絡爬蟲作為輿情監(jiān)測平臺的重要數(shù)據(jù)來源,承擔了數(shù)據(jù)采集的絕大部分工作,互聯(lián)網(wǎng)上的站點有很多,輿情監(jiān)測平臺不可能將所有的站點數(shù)據(jù)都采集進來,另一方面輿情的特性要求數(shù)據(jù)采集必須及時,只有及時才能第一時間將輿情預警給用戶。因此,“海量”和“及時”兩個矛盾的指標出現(xiàn)了。本平臺側(cè)重于經(jīng)濟、時政網(wǎng)絡輿情監(jiān)測,使得監(jiān)測的互聯(lián)網(wǎng)站點少了很多,另一方面從網(wǎng)絡爬蟲著手優(yōu)化,主要從三個方面著手優(yōu)化:

        (1)建立采集緩存

        本平臺采用布隆過濾器建立采集緩存,首先建立一個布隆過濾器,將所有已采集站點 URL的MD5 加入到布隆過濾器中,記錄該 URL 已經(jīng)被采集,在下一輪數(shù)據(jù)采集時便不再采集。

        (2)動態(tài)調(diào)整站點采集周期

        每個網(wǎng)站有大道的頻道,如果按照相同的采集周期去遍歷所有頻道,只非常容易造成采集資源的浪費,應該將采集資源集中到更新更為頻繁的頻道,更新不頻繁的頻道少采集。該股票輿情監(jiān)測分析平臺綜合網(wǎng)站的級別、歷史采集量、頻道數(shù)、近期更新頻度等因素建立采集周期動態(tài)調(diào)整算法,使得數(shù)據(jù)更新頻繁的網(wǎng)站采集頻率更快,不經(jīng)常更新的網(wǎng)站采集頻率更慢,一方面減少資源的浪費,另一方面提高了采集效率。

        (3)偏量計算采集技術

        采集網(wǎng)站頻道的時候,經(jīng)常會碰到頻道列表有翻頁的情況,那么采集數(shù)據(jù)的時候采集多少頁則是個問題。所謂偏量采集技術是指在采集第一頁數(shù)據(jù)的時候,根據(jù)采集的時間間隔來預測跟離上一次采集后,本輪采集周期需要采集多少頁的數(shù)據(jù)的算法,采集這種技術可以大大減少了采集時翻頁的數(shù)量。

        2.2.2 網(wǎng)頁內(nèi)容結構化抽取。

        輿情數(shù)據(jù)采集屬于垂直行業(yè)數(shù)據(jù)采集,一般來說這要求能夠精準地采集到每篇文章的結構化數(shù)據(jù),傳統(tǒng)輿情系統(tǒng)大部分通過配置數(shù)據(jù)采集規(guī)則的方式來完成數(shù)據(jù)的抽取。通過配置規(guī)則的方式來采集數(shù)據(jù)的缺點是:一旦網(wǎng)站進行改版升級,造成網(wǎng)頁結構發(fā)生變化,則需要重新配置數(shù)據(jù)采集規(guī)則,這就給采集規(guī)則維護帶來很大的工作量。

        本平臺引入基于文本密度的網(wǎng)頁內(nèi)容結構化抽取技術,實現(xiàn)從網(wǎng)頁 HTML 文本中自動提取標題、時間和正文,新聞網(wǎng)頁提取準確率達到95% 以上,大大減少了人工配置數(shù)據(jù)采集規(guī)則的工作量。

        2.3.3 廣告、色情等垃圾信息有效過濾

        少部分網(wǎng)絡用戶利用互聯(lián)網(wǎng)開放的特性大肆發(fā)布廣告或色情等垃圾信息,嚴重影響了互聯(lián)網(wǎng)網(wǎng)民的用戶體驗,也影響互聯(lián)網(wǎng)輿情監(jiān)測平臺數(shù)據(jù)監(jiān)測的精準性,高效有用的垃圾信息過濾系統(tǒng)顯得很有必要。本平臺引入機器學習,利用已整理好的垃圾信息樣本不斷地迭代進行訓練,得到垃圾信息過濾模型,得到可用于生產(chǎn)環(huán)境的垃圾信息識別模型。

        2.3.4 輿情高發(fā)區(qū)域分析

        從互聯(lián)網(wǎng)采集到的文章數(shù)據(jù)沒有包括地址信息,無法直接用來做輿情高發(fā)區(qū)域分析。本平臺利用自然語言處理(NLP)技術自動識別輿情信息中的位置信息并進行聚合分析,并基于地理信息系統(tǒng)(GIS)技術以熱點力圖的形式展現(xiàn),同時將各上市公司所在位置在GIS 地圖上疊加展示,可以直觀地查看各類輿情的高發(fā)區(qū)域,方便對輿論事件所發(fā)生地域的上市公司的股票進行關聯(lián)分析。

        2.3.5 輿情影響因子分析

        本平臺將在前人關于輿情指標的研究的基礎上,基于內(nèi)容識別算法,對兩個輿論指標庫中存儲的各種類別的歷史輿情事件設計輿情變量指標,并對其運用機器學習與深度學習方法,結合特定輿情事件所對應同性質(zhì)或同地域的股票歷史價格,計算并不斷優(yōu)化特定類別的輿情事件對當前時點對應板塊或地域的股票的影響因子,供投資者參考。

        3 系統(tǒng)功能

        3.1 數(shù)據(jù)采集子系統(tǒng)

        數(shù)據(jù)采集子系統(tǒng)主要提供網(wǎng)絡數(shù)據(jù)采集、數(shù)據(jù)清洗預處理和數(shù)據(jù)入庫等功能。數(shù)據(jù)采集子系統(tǒng)是平臺運行的基礎,通過數(shù)據(jù)采集子系統(tǒng)從互聯(lián)網(wǎng)采集各類文章、微信公眾號、微博和網(wǎng)絡評論等數(shù)據(jù),形成股票輿情監(jiān)測分析系統(tǒng)的數(shù)據(jù)基礎。

        3.1.1 網(wǎng)絡數(shù)據(jù)采集

        網(wǎng)絡數(shù)據(jù)采集主要任務是采集互聯(lián)網(wǎng)各類站點的數(shù)據(jù),包括網(wǎng)媒、紙媒、論壇、博客、APP、微博、微信公眾號、網(wǎng)絡評論等。

        網(wǎng)絡數(shù)據(jù)采集采用分布式數(shù)據(jù)采集,支持多個采集節(jié)點同時采集,能夠動態(tài)增加、移除采集節(jié)點,當采集節(jié)點發(fā)生異常時,其他采集節(jié)點能夠自動接管,不影響數(shù)據(jù)采集進度。

        網(wǎng)絡數(shù)據(jù)采集支持 7×24 小時不間斷采集、支持百萬級頻道同時采集,并可以根據(jù)站點優(yōu)先級的不同,調(diào)整數(shù)據(jù)采集的頻率。網(wǎng)絡數(shù)據(jù)采集具有可視化采集狀態(tài)監(jiān)控功能,提供當前任務總數(shù)、正在執(zhí)行數(shù)量、已完成數(shù)量、異常采集數(shù)據(jù)數(shù)量、采集節(jié)點運行狀態(tài)、采集日志等監(jiān)控。

        3.1.2 數(shù)據(jù)清洗預處理

        從互聯(lián)網(wǎng)采集的各類原始數(shù)據(jù)形態(tài)各不一樣、存在相似文章或垃圾文章,數(shù)據(jù)清洗預處理的目的就是對這些數(shù)據(jù)進行垃圾過濾、數(shù)據(jù)排重、提取關鍵詞、中文分詞、語義指紋和文章摘要等處理。

        垃圾過濾。對于無效文章、廣告等垃圾文章排除過濾。

        數(shù)據(jù)排重。在數(shù)據(jù)采集過程中,需要對網(wǎng)站不間斷的進行數(shù)據(jù)抓取,對于重復采集的數(shù)據(jù)進行排重,避免重復采集,降低網(wǎng)絡帶寬要求,提高采集效率。

        提取關鍵詞。根據(jù)文章內(nèi)容自動提取關鍵詞。

        中文分詞。將一個漢字序列切分成一個一個單獨的詞,用于搜索引擎建立索引。

        語義指紋。根據(jù)文章正文內(nèi)容生成語義指紋,具有相同含義的文本具有相同的語義指紋。

        文章摘要。自動提取文章正文內(nèi)容的摘要。

        3.1.3 數(shù)據(jù)入庫

        數(shù)據(jù)入庫是將采集程序采集到的文章和評論數(shù)據(jù)導入到數(shù)據(jù)庫中,以便于系統(tǒng)進行分析處理和結果展示。

        數(shù)據(jù)入庫的內(nèi)容包括文章數(shù)據(jù)和評論數(shù)據(jù)。在入庫過程中,會自動生成文章的唯一編號,并導入與文章相關聯(lián)的語義指紋、關鍵詞、文章摘要、站點、頻道等信息。

        數(shù)據(jù)入庫流程包括:讀取已采集的互聯(lián)網(wǎng)信息,關聯(lián)文章對應的站點編號、子站點編號、站點類型等數(shù)據(jù),檢查采集庫是否已經(jīng)存在,如果不存在則添加到數(shù)據(jù)庫中,如果存在則直接跳過。

        3.2 數(shù)據(jù)分析處理子系統(tǒng)

        數(shù)據(jù)分析處理子系統(tǒng)主要功能是對采集入庫的原始數(shù)據(jù)進行一系列的加工處理和分類分析,以達到將原始數(shù)據(jù)整理成各類輿情信息的目的。

        3.2.1 數(shù)據(jù)處理

        垃圾過濾。通過關鍵詞矩陣,將一些匹配到非法詞的文章過濾掉,可以減少垃圾文章進入到平臺中。例如一些廣告相關的詞加入到非法詞列表中。

        自動分類。建立股票行業(yè)主題分類,如房地產(chǎn)、制造業(yè)、住宿和餐飲業(yè)、批發(fā)和零售業(yè)等,利用機器學習文本分類模型,實現(xiàn)對文本內(nèi)容自動行業(yè)主題分類。

        人名識別。通過建立上市公司高管人員庫和行業(yè)專家?guī)?,并結合人名識別算法,實現(xiàn)對文本內(nèi)容中的人物自動識別以及關聯(lián)。

        地域識別。利用地名識別算法,實現(xiàn)對文本內(nèi)容中的區(qū)域自動識別。

        熱點事件識別。在熱點事件發(fā)生后,系統(tǒng)自動根據(jù)文章的熱度和網(wǎng)友評論熱度,運行語義分析算法,識別最近發(fā)生的熱點事件。

        3.2.2 語義分析

        關鍵詞提取?;谥形恼Z義分析算法,實現(xiàn)對文本內(nèi)容的關鍵詞自動提取。

        自動摘要?;谥形恼Z義分析算法,實現(xiàn)對文本內(nèi)容的摘要自動提取。

        相似分析。通過對采集入庫的所有文章進行相似分析,實現(xiàn)對相似文章的排重和文章熱度的計算。

        情感分析?;谥形恼Z義分析算法,實現(xiàn)對文本的輿情預警和正負面傾向情感分析。

        觀點分析。從大量互聯(lián)網(wǎng)網(wǎng)民的觀點中,找到事件傳播過程中網(wǎng)民的核心觀點,從而做出相應決策。

        3.3 全文檢索子系統(tǒng)

        全文檢索子系統(tǒng)建設面向高效檢索的輿情數(shù)據(jù)庫,支持遠程輿情庫檢索。支持主題詞、邏輯表達式檢索方式,支持熱點關鍵字聯(lián)想功能,符合的搜索結果可以按照專題類別、時間、地域、部門、專題等多種維度歸類,類目中的信息按照出現(xiàn)頻度、相似熱度排序展示,支持信息排重和消噪,自動顯示輿情摘要,點擊可以瀏覽和下載全文信息,并對關鍵字部分高亮提示。

        3.4 輿論監(jiān)測分析研判子系統(tǒng)

        3.4.1 輿情信息監(jiān)測

        今日輿情導讀。今日輿情導讀展示股票證券相關的重要政策、重大輿情事件和敏感事件等信息,并按照主流媒體和所有媒體進行分類展示,同時給出輿情信息影響因子。

        來源監(jiān)測。來源監(jiān)測頻道是按照網(wǎng)媒、論壇、博客、紙媒、微信、APP、微博等來監(jiān)測最新輿情信息。并按照信息來源量展示媒體關注前十位信息。頻道提供按分類統(tǒng)計總量餅狀圖和一個月內(nèi)信息按來源走勢的折線圖,多種渠道對信息進行分析。

        綜合輿情。綜合輿情集中展示近期的國家政策、財政新規(guī)、證券交易所新頒布的交易條例等,為開展輿情工作提供政策信息參考。

        熱點監(jiān)測。熱點事件集中監(jiān)測了媒體、論壇對近期發(fā)生的熱點交管事件的集中報導與評論。并提供關鍵詞統(tǒng)計排行柱狀圖和數(shù)據(jù)走勢統(tǒng)計折線圖,用各種圖表對輿情進行多方面的分析。支持熱點事件按熱度排定,發(fā)布每日、每周、每月熱度(指轉(zhuǎn)載、點擊、回帖量)前 10 排行榜。

        重點人物。重點人物主要是對經(jīng)濟學家、金融大鱷及各種網(wǎng)絡名人(微博“大 V”)進行重點監(jiān)控,支持按微博賬號進行監(jiān)測。

        地區(qū)輿情。根據(jù)設置的監(jiān)測關鍵詞,將國內(nèi)股票證券相關輿情信息按區(qū)域進行展示。

        微博監(jiān)測。微博監(jiān)測通過對新浪、騰訊、搜狐、網(wǎng)易等微博進行內(nèi)容監(jiān)測,提取內(nèi)容,并按照內(nèi)容的來源,數(shù)據(jù)量生成統(tǒng)計報表,并在提取微博內(nèi)容的同時保存原文鏈接。

        微信監(jiān)測。微信監(jiān)測通過對微信公眾號進行內(nèi)容監(jiān)測,并按照內(nèi)容的公眾號,數(shù)據(jù)量生成統(tǒng)計報表,并在提取微信公眾號文章內(nèi)容的同時保存原文鏈接。

        外媒監(jiān)測。通過對港澳臺以及境外主流媒體進行監(jiān)測,并在境外設置數(shù)據(jù)采集服務器監(jiān)測境外媒體新聞報道,并按報道的排行提供柱狀圖進行展示。

        3.4.2 熱點發(fā)現(xiàn)

        利用中文自然語言處理技術對自動發(fā)現(xiàn)輿情熱點,及時監(jiān)測網(wǎng)友關注度快速增加的事件。

        分析因子包括:站點重要程度、轉(zhuǎn)載媒體數(shù)據(jù)、網(wǎng)友評論數(shù)量、轉(zhuǎn)載文章相似度等

        3.4.3 事件分析

        系統(tǒng)運用主題聚類方法將同一事件的信息匯聚成專題。主題聚類方法具有如下三個方面的優(yōu)勢。首先主題聚類以主題分析、主題提取和描述為基礎,可以發(fā)揮主題法在組織信息方面的優(yōu)勢,對聚類特征進行主題或語義控制,提高信息服務的質(zhì)量。

        其次,主題聚類是在聚類對象的主題提取基礎上進行的,通過主題提取可以對聚類對象進行維度約簡,從而避免高維數(shù)據(jù)計算問題,大大縮短信息服務的響應時間。最后,主題聚類方法不同于傳統(tǒng)的文本聚類方法在于:它還可以對聚類的結果進行基于主題的描述,提高聚類結果的可讀性與可理解性。

        3.5 輿論指標庫子系統(tǒng)

        通過 3.2 節(jié)所提到的各類識別算法,本平臺將根據(jù)輿情事件的類別、地域?qū)⑵浞謩e引入性質(zhì)輿論指標庫、地域輿論指標庫?!靶再|(zhì)輿論指標庫”將根據(jù)《上市公司行業(yè)分類指引》(2012年修訂)劃分為包含 A 農(nóng)、林、牧、漁業(yè);B 采礦業(yè);C 制造業(yè)等在內(nèi)的19個大類,并細分為90個小類,與股票市場的股票板塊相對應;“地域輿論指標庫”則會在中國省級行政劃分的基礎上,依據(jù)《2018 中國城市商業(yè)魅力排行榜》對中國 338個地級以上城市的評選,在省級行政劃分大類的下屬細化出三線以上城市的子類。隨后,將具體的網(wǎng)絡輿情事件依據(jù)其性質(zhì)、地域特征分別歸納進對應的“性質(zhì)輿論指標庫”小類、“地域輿論指標庫”子類。

        基于戴媛[10]提出的輿情流通量、輿情內(nèi)容與輿情狀態(tài)等指標,本平臺將對不同的輿情事件進行量化處理、得到一個具體的輿情指標量,并存放于性質(zhì)輿論指標庫、地域輿論指標庫。當某一個類別、某一個地域的歷史輿情事件樣本量較大時,即可將這些歷史輿情事件指標與其所對應的歷史股票價格變動數(shù)據(jù)進行機器學習與深度學習分析、進而得到一個影響因子數(shù)值。隨著樣本量的增大,該影響因子也可得以不斷優(yōu)化、進而對當前時點的股票投資者產(chǎn)生參考意義。

        3 結語

        本文所述的基于行業(yè)與地域的股票輿情監(jiān)測分析系統(tǒng)是一個集云計算、數(shù)據(jù)挖掘、機器學習、時空大數(shù)據(jù)分析、金融數(shù)量分析為一體的多元化輿情監(jiān)測與分析平臺,其具有以下優(yōu)勢:

        1.本平臺具有優(yōu)秀的數(shù)據(jù)抓取能力與輿情解讀能力,可以從多元化的數(shù)據(jù)來源最大可能去抓取數(shù)據(jù)信息,并同時運用多類識別算法將原始數(shù)據(jù)整理成各類輿情信息,形成互聯(lián)網(wǎng)輿情信息大數(shù)據(jù)分析的數(shù)據(jù)基礎。

        2.本平臺具有獨特的輿情信息分析模式:一方面,本平臺將對各類輿情事件進行自動主題分類,可根據(jù)當前輿情事件的主題類別與具有相同性質(zhì)的股票板塊數(shù)據(jù)進行橫向?qū)Ρ?,直觀展現(xiàn)當前時間對該板塊股票市場所產(chǎn)生的影響;另一方面,本平臺運用時空大數(shù)據(jù)分析方法,利用自然語言處理(NLP)技術自動識別輿情信息中的位置信息并進行聚合分析,并基于地理信息系統(tǒng)(GIS)技術以熱點力圖的形式展現(xiàn),直觀地查看各類輿情的高發(fā)區(qū)域,并可橫向?qū)Ρ冗x定區(qū)域附近的上市公司對應股票的價格數(shù)據(jù)。對于存檔入庫的歷史輿情數(shù)據(jù),本平臺支持將該“性質(zhì)”、或該“地域”的輿情事件與歷史相關股票的價格變動進行機器學習分析,計算并不斷優(yōu)化不同類別的輿情事件對股票的影響因子,供投資者對當期的股票投資進行參考。

        圖2 熱點輿情自動發(fā)現(xiàn)流程Fig.2 The automatic discovering process of public opinion

        猜你喜歡
        輿情監(jiān)測分析
        特色“三四五六”返貧監(jiān)測幫扶做實做細
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        網(wǎng)絡安全監(jiān)測數(shù)據(jù)分析——2015年12月
        網(wǎng)絡安全監(jiān)測數(shù)據(jù)分析——2015年11月
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        不穿戴也能監(jiān)測睡眠
        久久精品女人av一区二区| 五月婷婷影视| 熟女人妻一区二区在线观看 | 亚洲国产美女在线观看| 亚洲免费看三级黄网站| 一区二区三区日韩亚洲中文视频| 人妻中文字幕无码系列| 少妇人妻在线视频| 国产呦系列呦交| 日本一区二区三区经典视频| 久久久中文久久久无码| 久久亚洲精品ab无码播放| 69国产成人综合久久精| 黑丝美腿国产在线观看| 亚洲国产日韩欧美综合a| 国产午夜福利精品久久2021| 色偷偷亚洲第一综合网| 国产精品亚洲一区二区三区在线| 亚洲精品动漫免费二区| 国产女精品视频网站免费| 国产亚洲无码1024| 久草手机视频在线观看| 亚洲妇女无套内射精| 在线不卡av天堂| 久久网站在线免费观看| 老女老肥熟女一区二区| 亚洲av永久无码精品| 高清无码精品一区二区三区| 国产精品人成在线观看不卡| 欧洲熟妇色xxxx欧美老妇软件| 亚洲日韩国产精品第一页一区| 亚洲AV无码日韩综合欧亚| 免费看黄视频亚洲网站| 久久久精品一区aaa片| 一级做a爰片久久毛片| 日韩av在线免费观看不卡| 97一期涩涩97片久久久久久久 | 精品无码成人片一区二区| 各类熟女熟妇激情自拍| 久久久久久久综合综合狠狠| 精品人妻无码视频中文字幕一区二区三区|