亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于句子語義挖掘的上市公司風險事件知識聚合模型

        2022-03-24 12:16:14譚明亮游強華楊達森周禾深唐曉波
        關鍵詞:語義金融文本

        譚明亮,游強華,楊達森,周禾深,唐曉波

        (1.川北醫(yī)學院 管理學院,四川 南充 637100;2.中國人民大學 信息資源管理學院,北京 100872;3.武漢大學 信息管理學院,湖北 武漢 430072)

        上市公司在現(xiàn)代經(jīng)濟發(fā)展中扮演著十分重要的角色,是證券市場的基石以及推動經(jīng)濟發(fā)展的核心動力。目前中國A股市場已有四千多家上市公司,股市總市值僅次于美國,達到了60萬億元以上,占整個國內生產(chǎn)總值總量的比例達60%以上。在美國、英國和加拿大等證券市場發(fā)達的國家,股市總市值往往會超過該國的GDP總量。與此同時,上市公司一旦發(fā)生重大風險事件會導致巨大的社會成本和經(jīng)濟成本損失。一方面,這會讓投資者、債權人等利益相關主體蒙受巨大的經(jīng)濟損失,沉重打擊人們對上市公司和證券市場的信心;另一方面,這也會對證券市場的運行秩序和穩(wěn)定發(fā)展造成一定的沖擊,甚至會引發(fā)相應的連鎖反應,從而影響到整個金融市場的穩(wěn)定性,使得發(fā)生系統(tǒng)性金融風險的概率增加[1]。

        大數(shù)據(jù)時代,對上市公司風險事件相關的多源異構文本數(shù)據(jù)資源進行有效的挖掘和聚合,從而為投資者、債權人、銀行、基金管理公司、證券公司和政府監(jiān)管部門等主體的金融管理決策提供智能化的決策支持,具有十分重要的應用實踐價值。當前的研究主要集中于金融事件的表示和抽取,以及基于金融事件實現(xiàn)股票預測、行業(yè)趨勢分析等領域應用。但是通過從非結構化文本數(shù)據(jù)中抽取金融事件,并對其進行形式化表示的方式來實現(xiàn)金融知識服務的準確率和可用性還不夠高,并且會損失部分對決策有價值的情報知識。文章的研究視角則是以句子為粒度,將上市公司風險事件相關的重要信息按照主題進行聚合,從而為上市公司風險事件監(jiān)測提供完整清晰的視圖。

        1 相關研究

        (1)金融事件智能分析處理。當前國內外針對金融事件智能分析處理的研究主要集中于:①金融事件的表示,主要研究金融事件的形式化表示,如強韶華等[2]將本體和案例相結合來實現(xiàn)金融事件表示。②金融事件抽取,主要研究如何從財經(jīng)新聞、上市公司公告等非結構化文本數(shù)據(jù)中抽取出事件類型、事件元素和觸發(fā)詞等事件知識,如QIAN等[3]綜合利用詞嵌入、聚類、分類等技術來從財經(jīng)新聞中識別和抽取企業(yè)的商業(yè)事件。③基于金融事件的領域應用,主要研究基于文本中的金融事件來實現(xiàn)股票預測、上市公司風險識別和行業(yè)趨勢分析等領域應用,如HAN等[4]發(fā)現(xiàn)財經(jīng)新聞文本中的事件信息在股票收益分析和行業(yè)趨勢分析等多個方面有著重要的應用價值。

        (2)知識聚合。知識聚合是圖情領域近些年來的熱點研究課題之一,旨在對知識資源進行動態(tài)關聯(lián)和篩選組織,以實現(xiàn)知識單元的有機連接和知識資源的多維組合,從而為用戶提供智能化的知識服務[5]。當前的研究主要針對圖書館、檔案館、網(wǎng)絡社區(qū)中的知識資源進行聚合,相關研究文獻主要是從詞語和篇章兩種粒度來實現(xiàn)文本資源的聚合[6]。一篇文檔中可能包含了多個主題的多層語義內容,以篇章為單元實現(xiàn)文本資源聚合粒度過粗;而詞語表征文本資源內容的能力有限,可讀性和可理解性較差。句子是保持語義完整和邏輯連貫的最小文本單元,具有完整的語法和語義結構,包含了清晰、豐富和具體的語義語境信息,可讀性和可理解性高。當前將句子作為知識聚合粒度的研究還較為缺乏,文章以句子粒度來對上市公司風險事件相關的文本資源進行有效聚合,通過主題報告的形式為管理決策者提供智能化的知識服務。

        2 模型構建

        上市公司在經(jīng)營管理過程中一旦發(fā)生重大風險事件,需要根據(jù)證券監(jiān)管部門對上市公司信息披露的相關規(guī)定和要求,在臨時公告中進行及時、準確地披露和說明事件的起因、目前的狀態(tài)和可能產(chǎn)生的影響。與此同時,各種新聞媒體和網(wǎng)站也會進行各種采訪、調查、跟進和報道。上市公司的臨時公告和新聞報道數(shù)據(jù)具有價值性高、及時性強、可獲得性高的特征,為開展上市公司風險事件監(jiān)測提供了重要的數(shù)據(jù)源,但是若不對其進行智能化的處理而直接將其推送給決策者,這勢必會造成決策者的信息過載,這是由于以下兩點原因。

        (1)上市公司一旦發(fā)生重大風險事件,除了上市公司發(fā)布的臨時公告文件以外,各種新聞報道往往層出不窮,其中包含了很多上市公司在臨時公告文件中未披露的對管理決策有重要價值的信息,上市公司未披露這些信息的原因在于這些信息不屬于有關部門規(guī)定的上市公司應當披露的信息的范疇,例如新聞媒體報道的長生生物被多家基金公司下調估值等情況。

        (2)單篇臨時公告、單篇新聞報道以及多篇臨時公告和新聞報道組成的文本集合在內容上往往包含了多個事件主題。例如,針對長生生物疫苗事件的單篇新聞報道“被證監(jiān)會立案調查,長生生物六個跌停后股權質押風險暴露”內容上就包含了長生生物被證監(jiān)會立案調查、股價連續(xù)跌停以及股權質押風險暴露等多個事件主題。

        為了幫助決策者及時、動態(tài)、持續(xù)地跟蹤和掌握上市公司風險事件的相關情況,筆者以文本數(shù)據(jù)挖掘、知識組織和知識服務等領域的理論、方法和技術為基礎,構建了由數(shù)據(jù)采集與數(shù)據(jù)預處理模塊、知識獲取與知識組織模塊、知識利用與知識服務模塊等3個模塊所構成的基于句子語義挖掘的上市公司風險事件知識聚合模型,如圖1所示。

        圖1 基于句子語義挖掘的上市公司風險事件知識聚合模型

        數(shù)據(jù)采集與數(shù)據(jù)預處理模塊主要對上市公司的臨時公告和新聞報道文本數(shù)據(jù)進行采集,并完成數(shù)據(jù)的預處理工作;知識獲取與知識組織模塊的任務是構建金融情感詞典以及提取上市公司風險事件相關的文本數(shù)據(jù),該模塊需要基于種子情感詞、Word2Vec詞向量模型和外部知識庫半自動構建面向金融領域的情感詞典,并利用構建的金融情感詞典來提取與上市公司風險事件相關的臨時公告和新聞報道文本數(shù)據(jù);知識利用與知識服務模塊的任務是生成上市公司風險事件的主題報告并實現(xiàn)主題報告的自動推送,該模塊利用LDA主題模型和BERT模型來捕獲和表示句子的語義特征,并將獲取到的句子語義特征進行融合,對句子進行聚類和重要度計算,形成上市公司風險事件的文本主題報告,并將其推送給管理決策者。

        3 金融情感詞典的構建與文本數(shù)據(jù)的提取

        上市公司的很多臨時公告和新聞報道的內容是關于上市公司日常經(jīng)營管理活動中的正常事件甚至是利好事件,例如訂立重要合同、獲得大額政府補貼等事件。而文章所需要分析和挖掘的是上市公司風險事件相關的臨時公告和新聞報道數(shù)據(jù),因此需要對采集到的臨時公告和新聞報道文本進行提取。對于上市公司臨時公告和新聞報道文本數(shù)據(jù)的提取手段主要有如下兩種:通過收集正負樣本來訓練機器學習模型,然后利用擬合的模型來實現(xiàn)文本的自動分類;通過構建領域知識庫來對文本進行自動提取。文章通過半自動構建領域情感詞典來實現(xiàn)臨時公告和新聞報道文本數(shù)據(jù)的提取,這也可以為金融決策支持的相關研究和產(chǎn)業(yè)實踐提供可復用的知識庫和易于操作的方法。

        3.1 中文金融情感詞典構建的必要性

        LOUGHRAN等[7]研究發(fā)現(xiàn),英文通用情感詞典(哈佛情感詞典)中幾乎75%的消極情感詞匯在金融文本中并非表達的是消極負面的情感。例如通用情感詞典中的消極情感詞“癌癥(cancer)”一詞在上市公司的年報、招股說明書和新聞報道等金融文本中往往表達的并非是消極負面的情感,而可能是一些從事生物醫(yī)藥的研發(fā)、生產(chǎn)和銷售的上市公司用于闡述癌癥相關的藥物研發(fā)和專利技術等。LOUGHRAN等[7]針對通用詞典在金融文本情感分析中存在的缺陷,構建了一個包含積極、消極、訴訟、不確定性、模態(tài)和約束性等6類情感詞的LM英文金融情感詞典。

        為了更好地對中文金融文本數(shù)據(jù)進行分析,國內也有部分研究者嘗試通過手工、自動或者翻譯英文LM詞典的方式來構建面向金融領域的中文情感詞典[8-10]。但是筆者發(fā)現(xiàn)上述構建和翻譯的中文金融情感詞典在實際應用的過程中存在著諸多的問題:首先,這些情感詞典中的情感詞的覆蓋面不夠全面和廣泛;其次,這些情感詞典中的很多情感詞的情感傾向并不準確。

        針對當前構建和翻譯的中文金融情感詞典存在的缺陷,文章需要在此基礎上構建一個可復用的可用性較高的面向金融領域的中文情感詞典。通過對情感詞典構建方法的綜合比較分析,筆者首先構建面向金融領域的語料庫和訓練Word2Vec模型,然后在此基礎上以半自動的方式構建面向金融領域的中文情感詞典。

        3.2 面向金融領域的語料庫構建與Word2Vec模型訓練

        筆者從互聯(lián)網(wǎng)上獲取了70 000余篇搜狐財經(jīng)新聞,并利用Jieba分詞工具對財經(jīng)新聞文本進行中文分詞和去停用詞。Word2Vec詞向量模型包括CBOW模型和Skip-Gram模型兩種。研究者們在應用實踐中發(fā)現(xiàn):相較于Skip-Gram模型,CBOW模型更加適用于處理小型語料數(shù)據(jù)[11]。文章構建的包含70 000余篇財經(jīng)新聞的語料庫屬于小型語料庫,因此文章選用CBOW模型來訓練面向金融領域的Word2Vec詞向量模型。參考國內外的有關研究,筆者將CBOW模型訓練所涉及到的關鍵參數(shù)設置如下:窗口大小window設置為5,詞向量的維度size設置為200。

        詞向量模型訓練完成后,通過對比可以發(fā)現(xiàn),相較于使用中文維基語料訓練的面向通用領域的Word2Vec詞向量模型,筆者利用財經(jīng)新聞語料訓練的面向金融領域的Word2Vec詞向量模型在領域詞匯的語義表示與語義理解上具有明顯的優(yōu)越性。例如,分別輸出兩個Word2Vec詞向量模型中與“跳水”一詞語義距離最近的10個詞,筆者訓練的面向金融領域的Word2Vec詞向量模型的輸出有“急跌”“下挫”“暴跌”“大幅下挫”“狂瀉”“大幅下跌”等形容股票等下滑的速度迅速和幅度很大的詞。而面向通用領域的Word2Vec詞向量模型則輸出的是“跳遠”“跳高”“花樣滑冰”“短跑”“鐵人三項”“中長跑”“體操”等描述體育運動項目的詞匯。

        3.3 金融情感詞典的半自動構建與文本提取

        文章從以往研究者構建和翻譯的中文金融情感詞典中獲取種子情感詞,以面向金融領域的Word2Vec詞向量模型為基礎,利用外部知識庫和統(tǒng)計方法來半自動地構建面向金融領域的中文情感詞典。然后,利用構建的中文金融情感詞典來對上市公司的臨時公告和新聞報道數(shù)據(jù)進行提取。

        3.3.1 獲取面向金融領域的種子情感詞

        文章從文獻[8]和文獻[9]構建的情感詞典以及文獻[10]翻譯的中文LM詞典這3個中文金融情感詞典中獲取面向金融領域的種子情感詞,獲取種子情感詞的方法如下:對于積極詞匯和消極詞匯這兩類種子情感詞,獲取的規(guī)則是若一個詞在兩個中文金融情感詞典相應類別中存在,則將其作為種子情感詞;訴訟詞匯類別的情感詞則通過手工的方式在文獻[10]翻譯的中文LM詞典中獲取。最終文章獲得積極類別的種子情感詞143個,消極類別的種子情感詞477個,訴訟類別的種子情感詞275個,部分種子情感詞如表1所示。

        表1 面向金融領域的種子情感詞(部分)

        3.3.2 獲取面向金融領域的種子情感詞

        利用余弦相似度來衡量種子情感詞與候選情感詞的語義相似度,將Word2Vec詞向量模型中與種子情感詞余弦相似度最高的20個詞作為候選情感詞。例如,輸出Word2Vec詞向量模型中與“暴跌”一詞余弦相似度最高的10個詞如表2所示。

        可以很明顯地發(fā)現(xiàn),獲得的候選情感詞大部分都是與“暴跌”一詞語義相同或者相近的消極情感詞,如“大跌”“大幅下跌”“大幅下挫”“重挫”“跳水”等。但是候選情感詞中與也有少部分情感詞并不屬于消極情感詞,如“暴漲”和“大漲”這兩情感詞個詞明顯屬于積極情感詞。文獻[4]在Word2Vec詞向量模型的訓練與使用中也發(fā)現(xiàn),利用Word2Vec模型獲得的候選詞中大部分是目標詞的同義詞或者近義詞,但仍存在有一些不相關的詞,甚至是反義詞。出現(xiàn)這個問題是因為這些不相關的詞或者反義詞與目標詞在訓練Word2Vec詞向量模型的語料庫中有著相似的上下文。因此,鑒于此,還需要對候選情感詞進行進一步的過濾與篩選。

        3.3.3 候選情感詞的篩選與過濾

        (1)基于規(guī)則的候選情感詞的篩選與過濾。筆者首先借助于哈爾濱工業(yè)大學信息檢索實驗室構建的哈工大同義詞詞林擴展版這一外部知識庫來對3類候選情感詞進行初步的自動篩選與過濾:對于訴訟類別的候選情感詞,直接將種子情感詞的同義詞和同類詞從候選情感詞中篩選出來;對于積極詞匯和消極詞匯這兩類候選情感詞,首先篩選出候選情感詞中本類別種子情感詞的同義詞,然后過濾掉消極類候選情感詞中積極類種子情感詞的同義詞,以及積極類候選情感詞中消極類種子情感詞的同義詞。

        筆者還從搜狗輸入法官網(wǎng)中下載了刑事訴訟詞庫、民法常用詞匯、審判詞庫、法律開庭筆錄用語、法律文書法規(guī)法條、法律術語辭典、法律詞匯大全等7個詞庫,并將7個詞庫中的詞進行合并去重形成詞表。筆者并未將該詞表中的詞直接作為訴訟類別的情感詞的原因在于該詞表中的一部分詞明顯不屬于法律訴訟類別,因此筆者利用該詞表和候選情感詞來聯(lián)合確定訴訟類別的部分情感詞。具體的方法是:將訴訟類別的候選情感詞和上述詞表中共同存在的情感詞篩選出來。

        (2)基于統(tǒng)計的候選情感詞的篩選與過濾。除了引入外部的同義詞詞典知識庫來實現(xiàn)基于規(guī)則的候選情感詞篩選和過濾以外,筆者還利用基于統(tǒng)計的方法來對積極詞匯和消極詞匯這兩大類的候選情感詞進行進一步的篩選和過濾。

        文章以TURNEY等[12]提出的SO-PMI算法為基礎,基于種子情感詞、Word2Vec詞向量模型和余弦相似度公式來判斷候選情感詞的情感極性,將候選情感詞word的情感極性的計算公式確定為:

        (1)

        式中:Pset和Nset分別為本文獲取的積極類種子情感詞所構成的集合和消極類種子情感詞所構成的集合;m和n分別為積極類種子情感詞的數(shù)量和消極類種子情感詞的數(shù)量;Similarity是指兩個詞語之間的語義相似度,筆者用詞向量之間的余弦相似度來進行度量。當SO(word)>0時,表示候選情感詞word屬于積極詞匯;當SO(word)=0時,表示候選情感詞word不具有情感極性;當SO(word) <0時,表示候選情感詞word屬于消極詞匯。

        利用計算機對候選情感詞進行自動化的篩選和過濾后,筆者還通過領域專家對計算機自動判別的結果進行審核和人工輔助判斷,以形成學術研究和產(chǎn)業(yè)實踐中可復用的高質量的中文金融情感詞典;然后,將獲取到的情感詞與種子情感詞進行合并和去重,形成最后的中文金融情感詞典;最終,本文構建的中文金融情感詞典中共包含積極類別的情感詞共計1 206個,消極類別的情感詞共計2 356個,訴訟類別的情感詞共計1 156個。

        3.3.4 上市公司的臨時公告和新聞報道數(shù)據(jù)的提取

        文章使用疫苗事件發(fā)生后長生生物披露的臨時公告,以及相關的新聞報道數(shù)據(jù)來驗證構建的基于句子語義挖掘的上市公司風險事件知識聚合模型。本文從巨潮資訊網(wǎng)上獲取疫苗事件發(fā)生的前3天以及之后7天內長生生物披露的所有臨時公告文件,從東方財富上爬取了疫苗事件發(fā)生的前3天以及之后7天內長生生物的相關新聞報道。最終,筆者獲得長生生物的臨時公告和新聞報道共計242篇。

        筆者利用構建的中文金融情感詞典來對上市公司臨時公告和新聞報道數(shù)據(jù)進行提取,具體的方法和過程如下:首先,將消極類別的情感詞和訴訟類別的情感詞進行合并和去重,形成消極與訴訟類別情感詞,共計3 022個;然后,基于如下的公式對上市公司的每一篇臨時公告和新聞報道進行提?。?/p>

        (2)

        其中,sf(消極與訴訟)和sf(積極)分別為文本數(shù)據(jù)中消極與訴訟類別情感詞的頻次、積極類別情感詞的頻次。文章利用構建的中文金融情感詞典對實驗數(shù)據(jù)進行提取后,獲得了長生生物的臨時公告和新聞報道共219篇。

        4 上市公司風險事件主題報告的生成

        4.1 基于LDA模型與BERT模型的句子語義特征獲取

        對利用領域情感詞典提取出來的長生生物的臨時公告和新聞報道文本進行分句,并去除包含5個字及以下的句子,共得到4 237個句子;然后,將每個句子看作一個文檔,將所有句子構成一個文本集合。利用LDA模型和BERT模型來對句子的語義特征進行挖掘,然后將兩個模型分別獲取到的語義特征進行融合,從而形成每個句子的語義特征表示。

        4.1.1 基于LDA模型的句子語義特征獲取

        LDA(latent dirichlet allocation)模型是由BLEI等[13]提出的一種對文本數(shù)據(jù)的主題信息進行建模的概率主題模型,該模型包含文檔層、主題層和詞匯層等三層的清晰層次結構。LDA主題模型的主要思想是:文檔由若干個潛在主題所構成,可以將文檔表示為若干個潛在主題的概率分布;而這些潛在主題又由文本中的若干個特定的詞匯所體現(xiàn),可以將潛在主題表示為若干個詞項的概率分布[14]。

        主題數(shù)目是運用LDA主題模型實現(xiàn)文本分析所需要設定的重要參數(shù),文章參考曾子明等[15]的研究,將LDA主題模型困惑度最小的時候所對應的主題數(shù)目作為文本集合的最優(yōu)主題數(shù)。困惑度(perplexity)是評估LDA主題模型的重要標準之一,困惑度的值越小,則表明模型在文本集合上的擬合性越高,模型的泛化能力越強。困惑度的計算公式如下:

        (3)

        式中:D為文本集合;wd為文檔d中的詞語;Nd為文檔d的詞語數(shù)量;p(wd)為文檔中的詞wd產(chǎn)生的概率;M為文本集合中文檔的數(shù)量。利用開源的自然語言處理工具包Gensim中的LDA模型來對4 237個句子所構成的文本集合進行主題挖掘,得到最小困惑度(最優(yōu)主題數(shù)目為64)下的句子-主題分布,形成一個4 237×64的矩陣。

        4.1.2 基于BERT模型的句子語義特征獲取

        BERT模型是由Google公司的DEVLIN等[16]提出的深度雙向表示預訓練模型,該模型融合了預訓練語言模型ELMo模型和GPT模型的優(yōu)點,采用基于Transformer的多層雙向編碼器在大規(guī)模無標注語料上進行文本特征抽取及訓練,從而獲得包含豐富語義信息的文本表征。BERT模型具有很強的文本特征表示能力,能夠深層次地提取文本數(shù)據(jù)中的語義信息。

        文章使用開源的工具Bert-as-service來加載預訓練模型,將4 237個句子輸入BERT模型中,將每個句子的深層次語義映射和表征到BERT模型輸出的768維的稠密向量上,形成一個4 237×768的矩陣。

        4.1.3 句子語義特征的融合

        筆者將LDA模型和BERT模型獲取的句子的語義特征進行融合,以更好地獲得句子的語義特征表示。將LDA主題模型輸出的4 237×64矩陣與BERT模型輸出的4 237×768矩陣進行拼接,最終形成一個4 237×832的矩陣,如圖2所示。該矩陣的每一行表示了每個句子832維的語義特征。

        圖2 句子的語義特征矩陣(部分)

        4.2 基于凝聚層次聚類算法的句子聚類

        根據(jù)獲取的句子的語義特征,筆者利用凝聚層次聚類算法來對句子進行聚類,從而將句子劃分到若干個類簇中,每個類簇中的句子集中描述了上市公司風險事件的一個主題。凝聚層次聚類算法首先將每個數(shù)據(jù)對象都當做單獨的一類,然后逐步合并相似的類簇,直到達到預先設定的條件或者最終形成一個類簇為止。

        凝聚層次聚類需要在類簇間距離計算的基礎上實現(xiàn)類簇的合并,筆者基于Ward離差平方和法來計算類簇間的距離,該方法源于方差分析的思想,認為同一個類簇中樣本有著較小的離差平方和,而不同類簇間則應該有著較大的離差平方和。Ward離差平方和的計算公式如下:

        (4)

        式中:μCi∪Cj為類簇Ci和類簇Cj合并后的中心點;Distance為距離函數(shù),筆者選擇的距離計算函數(shù)是歐氏距離。

        文章將凝聚層次聚類算法的聚類數(shù)目設定為LDA主題模型困惑度最小的時候所對應的主題數(shù)目,即將4 237個句子聚類到64個類簇中。

        4.3 上市公司風險事件文本主題報告的生成

        完成句子的聚類后,需要選擇各個類簇中一定數(shù)量的句子組成上市公司風險事件的主題報告。文章主要從情感特征和事件特征兩個方面來衡量句子的重要度:考慮情感特征的原因在于,句子中出現(xiàn)的“暴跌”“惡化”“凍結”“查封”“立案”“罰款”“刑事責任”等消極與訴訟情感詞對于上市公司風險事件的監(jiān)測具有十分重要的作用;考慮事件特征的原因在于,需要降低文本數(shù)據(jù)中與當前的風險事件并不緊密相關的句子的權重,例如一些新聞報道中描述長生生物發(fā)展歷程的句子。

        綜合考慮句子的情感特征和事件特征,將句子的重要度計算公式確定如下:

        Weight(Sentence)=λ·Weight(Sentiment)+

        (1-λ)·Weight(Event)

        (5)

        式中:λ為平衡參數(shù),λ∈[0,1];Weight(Sentiment)為句子的情感特征值,計算方法為句子中消極與訴訟類別情感詞的數(shù)目除以句子的長度;Weight(Event)為句子的事件特征值,計算方法為句子中事件特征詞的數(shù)目除以句子的長度。臨時公告和新聞報道的標題往往反映了風險事件的核心內容與關鍵動態(tài),而標題中的名詞和動詞則是描述事件的重要語義單元[17],文章將各個類簇中的句子所對應的標題中的名詞和動詞作為事件特征詞。

        句子的重要度計算完成后,針對每個類簇選擇一定數(shù)量的重要度較高的不重復句子,按照句子所對應的臨時公告或新聞報道產(chǎn)生的時間順序組成上市公司風險事件的文本主題報告。句子的數(shù)量通過壓縮比來確定和控制,各個類簇形成的文本主題報告的句子數(shù)目為該類簇中的句子總數(shù)乘以壓縮比并取整。筆者將平衡參數(shù)λ設置為0.6,將壓縮比設置為10%,生成各個類簇下的文本主題報告。例如,針對包含了108個句子的第19個類簇,生成的事件主題報告如圖3所示,可以發(fā)現(xiàn)該主題報告較為集中和有針對性地描述了長生生物被多家基金公司下調估值的情況。

        圖3 第19個類簇的文本主題報告

        5 結論

        (1)構建了基于句子語義挖掘的上市公司風險事件知識聚合模型,將包含了清晰、豐富語義語境信息且可讀性和可理解性高的句子作為語義粒度來對上市公司風險事件相關的文本資源進行有效聚合,通過主題報告的形式為管理決策者提供智能化的知識服務。模型為上市公司風險事件智能監(jiān)測提供了切實可行的解決路徑,豐富了金融知識服務理論,拓展了金融事件的研究視角。

        (2)從以往研究者構建和翻譯的中文金融情感詞典中獲取種子情感詞,以面向金融領域的Word2Vec詞向量模型為基礎,利用外部知識庫和統(tǒng)計方法來半自動地構建了面向金融領域的中文情感詞典,為金融文本分析、挖掘與利用提供了可復用的知識庫資源。

        (3)當前金融文本分析領域的研究尚處于起始階段,而產(chǎn)品評論挖掘領域的情感詞典資源較為成熟和豐富,有很多情感詞典包含了情感詞具體的權重。在今后的研究中,可以基于產(chǎn)品評論挖掘領域的情感詞典,結合金融領域的具體情況來確定金融情感詞典中情感詞的權重。

        猜你喜歡
        語義金融文本
        語言與語義
        在808DA上文本顯示的改善
        何方平:我與金融相伴25年
        金橋(2018年12期)2019-01-29 02:47:36
        君唯康的金融夢
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        “上”與“下”語義的不對稱性及其認知闡釋
        P2P金融解讀
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        認知范疇模糊與語義模糊
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        中文字幕亚洲精品专区| 亚洲AⅤ永久无码精品AA| 区无码字幕中文色| 快射视频网站在线观看| 日本真人边吃奶边做爽电影| 青青草视频免费观看| 亚欧中文字幕久久精品无码| 老头巨大挺进莹莹的体内免费视频| 一区二区三区放荡人妻| 天堂网av在线| av一区二区在线网站| 久久伊人少妇熟女大香线蕉| 美女大量吞精在线观看456| 人妻在线中文字幕| 亚洲国产精品一区亚洲国产| 一本久道高清视频在线观看| 在线观看热码亚洲av每日更新| 亚洲美女影院| 人妻系列无码专区久久五月天| 亚洲中文中文字幕乱码| 在办公室被c到呻吟的动态图| 国产又黄又大又粗视频| 人妻精品一区二区免费| 免费观看一区二区三区视频| av无码小缝喷白浆在线观看| 国产70老熟女重口小伙子| 中文字幕av无码一区二区三区电影| 亚洲av手机在线播放| 国产又粗又猛又黄又爽无遮挡| 久久亚洲黄色| 一本久久伊人热热精品中文| 黄片大全视频在线播放| 影音先锋每日av色资源站| 久久久久久岛国免费网站| 日韩精品一区二区三区av| 人人超碰人人爱超碰国产 | 久久dvd| 中文字幕一区二三区麻豆| 一本色道久久综合无码人妻| 伊人色综合久久天天人手人停| 亚洲码无人客一区二区三区|