亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于眾包標(biāo)注的互聯(lián)網(wǎng)金融輿情情緒詞典構(gòu)建方法

        2020-05-18 02:39:38李燕
        商情 2020年18期

        李燕

        【摘要】巨量投資者情緒詞語(yǔ)義標(biāo)注是構(gòu)建金融輿情情緒詞典的一個(gè)難點(diǎn)問(wèn)題,論文將互聯(lián)網(wǎng)眾包這一分布式解決復(fù)雜問(wèn)題的新模式引入到大規(guī)模金融情緒語(yǔ)料標(biāo)注及金融情緒詞典構(gòu)建當(dāng)中,以人類(lèi)群體智慧與計(jì)算機(jī)技術(shù)相結(jié)合的方式來(lái)解決大規(guī)模語(yǔ)料標(biāo)注的難題,建立完善、標(biāo)準(zhǔn)的金融情緒語(yǔ)料人工標(biāo)注資源,為投資者情緒理論研究提供基礎(chǔ)性支撐,彌補(bǔ)目前對(duì)互聯(lián)網(wǎng)投資者輿情文本信息進(jìn)行分析處理時(shí)所存在的標(biāo)注語(yǔ)料資源匱乏的問(wèn)題。

        【關(guān)鍵詞】投資者情緒? 情緒詞典? 眾包

        一、引言

        社會(huì)化媒體中的文本情感量化分析為行為金融學(xué)領(lǐng)域很多關(guān)鍵性問(wèn)題提供了愈加重要的研究方式和內(nèi)容,成為投資者情緒研究領(lǐng)域中新的研究點(diǎn)(Graziano,2011;Rees,2012;Chen,2013;Loughran 2013;Huang,2013;C Fu,2015;D Perez-Liston,2016;A Frugier, 2016;D Bathia,2016)。但金融文本是非結(jié)構(gòu)化信息,挖掘其中的情緒傾向及強(qiáng)度需要面向機(jī)器的情緒詞典的支持,因此構(gòu)建金融情緒詞典是進(jìn)行金融文本情緒分析的一項(xiàng)相當(dāng)基礎(chǔ)且重要的工作。近年來(lái),情緒詞典的構(gòu)建及擴(kuò)展研究受到國(guó)內(nèi)外大量研究機(jī)構(gòu)及學(xué)者的重視,而專(zhuān)業(yè)領(lǐng)域情緒詞典的構(gòu)建工作是當(dāng)前該領(lǐng)域較新的研究點(diǎn)。目前,國(guó)內(nèi)對(duì)金融領(lǐng)域情緒詞典的相關(guān)研究還較為匱乏。情緒詞典的構(gòu)建需要完成對(duì)巨量語(yǔ)料的標(biāo)注,這是困擾研究人員的一個(gè)難點(diǎn)問(wèn)題。近幾年,互聯(lián)網(wǎng)眾包這一分布式解決復(fù)雜問(wèn)題的新模式逐漸興起,眾包迅速改變了海量數(shù)據(jù)的收集與處理模式,在海量數(shù)據(jù)語(yǔ)義標(biāo)注領(lǐng)域得到日益廣泛的應(yīng)用(Kittur,2008;Russel,2008;Sayeed,2011;Muhammadi,2015;NR Asheghi,2016;J Hu,2016)。

        二、文獻(xiàn)綜述

        近年來(lái),隨著文本量化分析技術(shù)的快速發(fā)展,社會(huì)化媒體文本情感量化分析為行為金融領(lǐng)域很多關(guān)鍵性問(wèn)題提供了愈加重要的研究方式和內(nèi)容。上市公司信息披露領(lǐng)域文本情感分析的代表性研究:Feldman 等(2008)、Henry 等(2009)、Li(2006,2010)、Demers 等(2011)、Ferris 等(2013)。關(guān)于媒體文章或報(bào)道的文本情感分析文獻(xiàn):Tetlock(2007)、Engelberg(2008)、Tetlock(2008)、Sinha(2010)、Carretta(2011)、Rees 和Twedt(2012)、Loughran(2013)、H.Ishijima 等(2015)?;ヂ?lián)網(wǎng)金融文本情緒分析文獻(xiàn):Antweiler(2004), Das 和Chen(2007),Chen和Hwang(2013),F(xiàn)erguson 等(2015),B Dickinson 等(2015),SWK Chan等(2016),Shapiro(2017)。目前,文本情感分析的方法大致有兩種:基于情緒詞典和機(jī)器學(xué)習(xí)方法?;跈C(jī)器學(xué)習(xí)方法的文本情感研究有:樸素貝葉斯(林江豪,2012;陽(yáng)愛(ài)民,2013)、支持向量機(jī)(任勇,2011)、最大信息嫡(Jung,2012)和感知器分類(lèi)法等。但在實(shí)際應(yīng)用中若有高質(zhì)量的領(lǐng)域情緒詞典可用,使用簡(jiǎn)單快速的算法就能獲得很好的分析效果(張克亮等,2016;王新宇,2016;肖江等,2015)。在國(guó)外很多金融學(xué)者使用GI(General Inquirer)詞典來(lái)研究投資者情緒,包括:Feldman(2008)、Tetloclc (2008)、 Henry 和Leone (2009)、Doran 等(2010)、Carretta(2011)、Engelberg(2012)、Maks(2012)、Ferris(2013)、B.Dickinson(2015)等。在國(guó)內(nèi),朱浩然(2013)構(gòu)造了基于Entropy (TF-IDF-L)關(guān)鍵詞的情緒詞典構(gòu)建算法,然后對(duì)金融領(lǐng)域微博文本的情感進(jìn)行了研究。朱艷輝等(2011)基于基礎(chǔ)情緒詞典構(gòu)建了文本情感特征抽取算法。孟雪井等(2106)構(gòu)建了我國(guó)投資者行為的關(guān)鍵詞詞庫(kù),利用因子分析法構(gòu)建了滬市投資者情緒指數(shù)??傮w而言,與國(guó)外相比我國(guó)在金融情緒詞典建設(shè)方面的基礎(chǔ)性研究不足,制約了我國(guó)在金融文本情感量化方面的研究。

        三、基于眾包標(biāo)注的金融情緒詞典構(gòu)建方法

        (一)金融領(lǐng)域情緒語(yǔ)料庫(kù)建設(shè)的研究思路

        金融領(lǐng)域情緒語(yǔ)料庫(kù)的建設(shè)是金融情緒詞典構(gòu)建的基礎(chǔ),可以使用互聯(lián)網(wǎng)文本抓爬軟件、開(kāi)發(fā)Python語(yǔ)言互聯(lián)網(wǎng)文本自動(dòng)獲取程序及中文分詞軟件(中科院開(kāi)發(fā)的ICTCLAS、哈工大的自然語(yǔ)言處理平臺(tái)IRLAS及N-gram 分詞模型)構(gòu)建金融情緒語(yǔ)料庫(kù)。使用互聯(lián)網(wǎng)文本抓爬軟件、Python語(yǔ)言文本程序開(kāi)發(fā),獲取互聯(lián)網(wǎng)金融博客、財(cái)經(jīng)網(wǎng)站(新浪、騰訊、搜狐、網(wǎng)易、和訊、鳳凰網(wǎng)等)專(zhuān)欄評(píng)論文章及財(cái)經(jīng)新聞評(píng)論、上市公司信息披露評(píng)論文章,中國(guó)證券報(bào)、上海證券報(bào)和證券時(shí)報(bào)等媒體的金融文本作為金融情緒語(yǔ)料庫(kù)建設(shè)的原始來(lái)源。金融博客、專(zhuān)欄評(píng)論文章及財(cái)經(jīng)新聞評(píng)論一般由具有豐富投資經(jīng)驗(yàn)和扎實(shí)理論基礎(chǔ)的專(zhuān)業(yè)投資者、股評(píng)分析家、行業(yè)領(lǐng)域?qū)<宜珜?xiě)和發(fā)布,文本用語(yǔ)規(guī)范,對(duì)這類(lèi)金融文本可以采用中科院開(kāi)發(fā)的ICTCLAS 及哈工大的自然語(yǔ)言處理平臺(tái)LTP 進(jìn)行分詞處理,獲得基礎(chǔ)金融情緒語(yǔ)料庫(kù)。投資者在網(wǎng)絡(luò)論壇上發(fā)布的帖子及回帖文本,用語(yǔ)不規(guī)范、多存在歧義性,詞序語(yǔ)序自由度比較高,通常會(huì)構(gòu)造一些網(wǎng)絡(luò)流行金融情緒詞語(yǔ),分詞技術(shù)處理此類(lèi)Web 金融文本存在一定困難,可采用N-gram 模型,設(shè)置一個(gè)大小為N 的滑動(dòng)窗口,以字節(jié)流對(duì)文本進(jìn)行劃分,獲得字節(jié)片段序列g(shù)ram,進(jìn)一步對(duì)字節(jié)片段gram 進(jìn)行頻率統(tǒng)計(jì),設(shè)置閾值,將小于閾值的字節(jié)片段gram 過(guò)濾掉,剩下的生成gram 列表。將切分后的結(jié)果作為基本的特征項(xiàng),采用二維滑動(dòng)窗口將近鄰特征項(xiàng)合并,構(gòu)成新的特征項(xiàng),從而將更多金融情感詞和一些流行的網(wǎng)絡(luò)詞匯擴(kuò)展到情感語(yǔ)料庫(kù)中。將切分后的結(jié)果作為基本的特征項(xiàng),采用二維滑動(dòng)窗口將近鄰特征項(xiàng)合并,構(gòu)成新的特征項(xiàng),從而將更多金融情感詞和一些流行的網(wǎng)絡(luò)詞匯擴(kuò)展到情感語(yǔ)料庫(kù)中。

        (二)金融情緒語(yǔ)料眾包標(biāo)注的任務(wù)管理模型構(gòu)建

        眾包標(biāo)注雖具有成本低、效率高的特點(diǎn),但由于參與眾包標(biāo)注的工作者為數(shù)量巨大的非特定互聯(lián)網(wǎng)人員,受標(biāo)注者專(zhuān)業(yè)背景、工作能力、工作態(tài)度及工作動(dòng)機(jī)等因素影響,導(dǎo)致收集到的標(biāo)注結(jié)果可能存在噪聲甚至錯(cuò)誤。因此對(duì)眾包標(biāo)注質(zhì)量的控制是一個(gè)關(guān)鍵問(wèn)題,具體包括如下幾個(gè)方面:

        (1)眾包標(biāo)注工作者的動(dòng)態(tài)選擇方法。眾包標(biāo)注工作者的選擇方法是否恰當(dāng)直接關(guān)系到情緒語(yǔ)料眾包標(biāo)注過(guò)程的可靠性,也直接影響到眾包標(biāo)注結(jié)果的質(zhì)量,因此是眾包實(shí)施和評(píng)估階段需要解決的核心問(wèn)題,構(gòu)建噪聲數(shù)據(jù)的識(shí)別方法,建立噪聲度量指標(biāo),提出噪聲過(guò)濾機(jī)制,實(shí)現(xiàn)對(duì)高噪聲數(shù)據(jù)地自動(dòng)過(guò)濾。研究金融情緒語(yǔ)料眾包標(biāo)注的實(shí)施過(guò)程,結(jié)合海量語(yǔ)料眾包標(biāo)注的眾包情境,分析眾包工作者的動(dòng)態(tài)篩選過(guò)程,并提出工作者篩選機(jī)制,設(shè)計(jì)相應(yīng)的算法。

        (2)眾包標(biāo)注者可信度統(tǒng)計(jì)測(cè)量模型構(gòu)建。統(tǒng)計(jì)眾包標(biāo)注工作者在眾包測(cè)試環(huán)節(jié)中的表現(xiàn),給出量化的可信度值,檢測(cè)標(biāo)注者是否具備金融領(lǐng)域情緒語(yǔ)料標(biāo)注的專(zhuān)業(yè)能力。

        (3)眾包標(biāo)注質(zhì)量評(píng)估模型研究。構(gòu)建多眾包標(biāo)注者間標(biāo)注結(jié)果的一致性檢驗(yàn)?zāi)P?,?jì)算不同類(lèi)型標(biāo)注者之間情緒語(yǔ)料標(biāo)注結(jié)果的一致性,檢測(cè)出一致類(lèi)型惡意眾包標(biāo)注者的標(biāo)注結(jié)果。對(duì)多眾包標(biāo)注者的標(biāo)注結(jié)果構(gòu)建期望最大值算法,計(jì)算語(yǔ)料情緒期望強(qiáng)度值及各標(biāo)注者的誤差率,誤差率用于檢測(cè)眾包標(biāo)注者工作的認(rèn)真程度,有效識(shí)別出隨機(jī)類(lèi)型惡意眾包工作者(雖然具備專(zhuān)業(yè)能力,但工作不負(fù)責(zé))。

        (4)構(gòu)建基于標(biāo)注任務(wù)特征的半監(jiān)督式眾包學(xué)習(xí)算法。對(duì)標(biāo)注任務(wù)特征和眾包標(biāo)注結(jié)果這兩類(lèi)資源進(jìn)行聚類(lèi)分析,對(duì)眾包標(biāo)注者的學(xué)習(xí)過(guò)程進(jìn)行建模,構(gòu)建基于標(biāo)注任務(wù)特征的半監(jiān)督式眾包學(xué)習(xí)算法。基于任務(wù)特征的半監(jiān)督式眾包學(xué)習(xí)算法可以監(jiān)測(cè)眾包標(biāo)注者的標(biāo)注質(zhì)量,工作表現(xiàn)及經(jīng)驗(yàn)增長(zhǎng)等方面的因素,反映眾包標(biāo)注者的客觀標(biāo)注能力。

        (三)構(gòu)建多標(biāo)注主體情緒語(yǔ)料眾包標(biāo)注結(jié)果的融合模型

        根據(jù)金融情緒語(yǔ)料HIE 標(biāo)注任務(wù)包的特征對(duì)任務(wù)包進(jìn)行聚類(lèi)分析,形成HIT 任務(wù)包簇。利用學(xué)習(xí)算法學(xué)習(xí)到各眾包標(biāo)注者在各HIT 任務(wù)包簇上的標(biāo)注能力、經(jīng)驗(yàn)知識(shí)及標(biāo)注結(jié)果歷史表現(xiàn),確定各眾包標(biāo)注者在各任務(wù)包簇上的標(biāo)注結(jié)果融合權(quán)重值,構(gòu)造多標(biāo)注主體情緒語(yǔ)料標(biāo)注結(jié)果融合模型,對(duì)多標(biāo)注者的標(biāo)注結(jié)果進(jìn)行融合,得出情緒語(yǔ)料二元標(biāo)注數(shù)據(jù)(情緒極性,情緒強(qiáng)度值),情緒詞典的存儲(chǔ)格式采用語(yǔ)料庫(kù)常用的xml標(biāo)記格式進(jìn)行存儲(chǔ)。

        (四)金融情緒語(yǔ)料眾包標(biāo)注的質(zhì)量管理模型構(gòu)建方案

        (1)眾包標(biāo)注工作者的動(dòng)態(tài)選擇及評(píng)估方法?;狙芯克悸肥遣捎梅蛛A段動(dòng)態(tài)評(píng)估的方法,動(dòng)態(tài)監(jiān)測(cè)出不合格的眾包標(biāo)注工作者,提升標(biāo)注結(jié)果的整體質(zhì)量。此部分分為兩個(gè)方面:一是標(biāo)注的質(zhì)量評(píng)估;二是工作者的選擇與評(píng)估。首先分別建立兩個(gè)不同狀態(tài)的標(biāo)注任務(wù)集合(待標(biāo)注微任務(wù)集;已標(biāo)注微任務(wù)集),每個(gè)任務(wù)的目標(biāo)值是未知的;建立眾包工作者池,初始狀態(tài)時(shí)每個(gè)標(biāo)注者的能力是未知的,都可以參與眾包任務(wù)分配。然后根據(jù)參與眾包任務(wù)的眾包工作者的標(biāo)注情況提取出兩個(gè)列表:一個(gè)是專(zhuān)家列表,他們能夠提供良好的金融情緒語(yǔ)料標(biāo)注結(jié)果;另一個(gè)是淘汰列表,提供低質(zhì)量的標(biāo)注結(jié)果的眾包工作者,將阻止在下個(gè)階段分配給其標(biāo)注任務(wù)。對(duì)上述眾包標(biāo)注工作者的動(dòng)態(tài)選擇及評(píng)估方法研究中涉及的算法,主要采用算法仿真的手段實(shí)現(xiàn),考慮采用Matlab 或者R語(yǔ)音等工具進(jìn)行編程和實(shí)現(xiàn)。

        (2)標(biāo)注者可信度統(tǒng)計(jì)測(cè)量模型構(gòu)建方案。每個(gè)HIE 金融情緒語(yǔ)料標(biāo)注任務(wù)包包含待標(biāo)注語(yǔ)料(實(shí)際需要標(biāo)注者標(biāo)注的語(yǔ)料)和黃金測(cè)試標(biāo)注語(yǔ)料(已經(jīng)由金融領(lǐng)域?qū)<覙?biāo)注的語(yǔ)料)。將新眾包標(biāo)注結(jié)果存放在“標(biāo)注結(jié)果表”中,黃金庫(kù)語(yǔ)料標(biāo)注結(jié)果存放在“測(cè)試結(jié)果表”中。將眾包標(biāo)注獲得的黃金語(yǔ)料的標(biāo)注結(jié)果存放在“篩選標(biāo)準(zhǔn)表”中,用于同金融領(lǐng)域?qū)<业臏y(cè)試標(biāo)注結(jié)果進(jìn)行一致性檢測(cè),假若眾包標(biāo)注者的篩選標(biāo)注結(jié)果與測(cè)試標(biāo)注結(jié)果的一致性較低(低于設(shè)置的閾值),則視該眾包標(biāo)注者的金融情緒語(yǔ)料標(biāo)注結(jié)果不可信,將其標(biāo)注結(jié)果舍去,從而保證眾包標(biāo)注的質(zhì)量。設(shè)置此項(xiàng)檢測(cè)能夠檢驗(yàn)標(biāo)注者是否有相應(yīng)專(zhuān)業(yè)能力勝任金融情緒語(yǔ)料標(biāo)注工作,對(duì)可靠性較差的標(biāo)注者停止提供眾包任務(wù),這樣既控制眾包標(biāo)注成本、提高標(biāo)注效率,同時(shí)也排除了部分眾包標(biāo)注結(jié)果噪聲、提升標(biāo)注質(zhì)量。

        (3)設(shè)計(jì)眾包標(biāo)注質(zhì)量評(píng)估模型研究方案。針對(duì)眾包標(biāo)注結(jié)果的質(zhì)量控制策略及質(zhì)量評(píng)估方法,設(shè)計(jì)如下三種方法:設(shè)計(jì)隨機(jī)類(lèi)型惡意標(biāo)注者及一致類(lèi)型惡意標(biāo)注者的判斷標(biāo)準(zhǔn);構(gòu)建多眾包標(biāo)注者間標(biāo)注結(jié)果的一致性檢驗(yàn)?zāi)P?,?jì)算不同類(lèi)型標(biāo)注者之間情緒語(yǔ)料標(biāo)注結(jié)果的一致性。對(duì)多眾包標(biāo)注者的標(biāo)注結(jié)果使用期望最大值算法(EM 算法)估計(jì)出語(yǔ)料情緒強(qiáng)度值及各標(biāo)注者的誤差率。誤差率用于檢測(cè)眾包標(biāo)注者工作的認(rèn)真程度,有效識(shí)別出惡意眾包工作者(雖然具備專(zhuān)業(yè)能力,但工作不負(fù)責(zé))。質(zhì)量控制與評(píng)價(jià)機(jī)制既能檢測(cè)出惡意眾包工作者的標(biāo)注結(jié)果,同時(shí)也能夠阻止惡意眾包工作者繼續(xù)參與標(biāo)注任務(wù)的分配。

        參考文獻(xiàn):

        [1]高大良, 劉志峰, 楊曉光. 投資者情緒、平均相關(guān)性與股市收益[J].中國(guó)管理科學(xué),2015,23(2): 10-20.

        [2]俞紅海, 李心丹, 耿子揚(yáng). 投資者情緒、意見(jiàn)分歧與中國(guó)股市IPO 之謎[J]. 管理科學(xué)學(xué)報(bào), 2015(03): 78-89.

        [3]邵新建, 何明燕, 江萍, 薛熠, 廖靜池. 媒體公關(guān)、投資者情緒與證券發(fā)行定價(jià)[J].金融研究,2015(09):190-206.

        [4]宋作艷, 趙青青, 亢世勇. 漢語(yǔ)復(fù)合名詞語(yǔ)義信息標(biāo)注詞庫(kù):基于生成詞庫(kù)理論[J].中文信息學(xué)報(bào),2015(03): 27-33.

        [5]賈君枝,王醒. 基于微數(shù)據(jù)的語(yǔ)義標(biāo)注應(yīng)用研究[J]. 情報(bào)理論與實(shí)踐, 2016(02):58-62.

        基金項(xiàng)目:教育部人文社會(huì)科學(xué)基金青年項(xiàng)目(16YJC790052)、湖南省哲學(xué)社會(huì)科學(xué)基金項(xiàng)目(14YBA306)資助。

        AV无码系列一区二区三区| 欧美性猛交xxxx富婆| 吸咬奶头狂揉60分钟视频| 日韩亚洲制服丝袜中文字幕| 国产大学生自拍三级视频 | 漂亮人妻被中出中文字幕久久| 国产精品无码精品久久久| 亚洲欧美日韩一区在线观看| 中国男女黄色完整视频| 三年片免费观看影视大全视频| 麻豆高清免费国产一区| 国产日韩欧美911在线观看| 国产一区二区三区av观看| 国产亚洲成性色av人片在线观| 人人妻人人澡人人爽人人精品97| 亚洲综合自拍| 青青草最新在线视频观看| 亚洲国产精品亚洲一区二区三区 | 朝鲜女人大白屁股ass| 欧美黄色免费看| 手机av在线观看视频| 日本av在线一区二区| 777午夜精品免费观看| 欧美人成在线播放网站免费| 亚洲日本精品一区二区三区| 老太婆性杂交视频| 久久久久久伊人高潮影院| 男人天堂av在线成人av| 亚洲一区二区三区色偷偷| 久久99国产精品久久| 真人二十三式性视频(动)| 国产人禽杂交18禁网站| 黄色影院不卡一区二区| 日韩人妻一区二区三区蜜桃视频| 国产成人精品午夜福利在线| 日本精品熟妇一区二区三区| 99国产精品久久99久久久| 欧美日韩中文国产一区发布| 亚洲国产精品综合久久20 | 成人国产一区二区三区精品不卡 | 中国妇女做爰视频|