亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA和GBDT算法的對文學作品愛國主義特征的分類研究

        2019-06-18 11:44:54毛頻對外經濟貿易大學外語學院北京100029
        文化創(chuàng)新比較研究 2019年13期
        關鍵詞:愛國主義分類模型

        毛頻(對外經濟貿易大學外語學院,北京 100029)

        愛國主義是社會主義核心價值觀,自古至今,愛國主義一直是文學作品中最重要、最能引起讀者共鳴的主題之一,可謂日月高懸,激勵了一代又一代的仁人志士,為了國家和民族的利益,毅然承擔起歷史賦予的重任,赴湯蹈火在所不惜,在中國歷史上留下了濃墨重彩的一幕又一幕。弘揚愛國主義,傳遞正能量是毋庸置疑的,因此所有相關媒體、平臺在推介文學作品時,價值取向是首先要面對的問題,優(yōu)先推薦愛國主義題材的佳作,淘汰宣揚分裂、背叛國家等思潮的不符合社會主義價值觀的作品。膾炙人口的現當代愛國主義小說有《紅日》《紅巖》等。進入當代消費社會,文學的互聯網化越來越成為當代文學創(chuàng)作和閱讀的重要特征。文學創(chuàng)作活動異?;钴S,閱文等互聯網文學企業(yè)不斷產生發(fā)展,政府意識形態(tài)主管部門把控價值取向時,不可能對所有文學作品進行分析和判斷,文學企業(yè)在評價某個文學作品的特征時,也需要掌握文學作品本身的特點以及讀者對這部作品的感受?,F在已經進入大數據時代,隨著互聯網海量數據的產生,以及自然語言處理算法的不斷革新,使得使用機器學習技術處理自然語言成為可能[1],我們認為,對文學作品本身的文本以及用戶閱讀文學作品后的反饋進行量化分析,判斷該作品對讀者產生了怎樣的價值取向,該文以讀者是否產生愛國主義情感為例,進行分析研究。

        1 概述

        該任務本質上是機器學習中的分類問題。分類問題屬有監(jiān)督學習,在離線的模型訓練階段需要有標注的樣本集,樣本集可被分割為訓練集、測試集、驗證集。樣本由多個特征構成,其中有個特殊的特征被稱為目標特征,對應的是人工標注的文學作品類標簽(愛國主義作品、反面題材作品、中性作品)。類標簽可以從官方對文學作品的定性來獲取,值得一提的是,愛國主義與反面題材作品占到了全部文學作品的小部分,大部分是中性題材的,因此在控制樣本比例時需要考慮這一點。樣本數據的其他特征可以通過自然語言理解技術中的Topic Model(如PLSA、LDA等)來抽取作品的關鍵詞及其權重來構造。國內已有部分學者使用LDA方法用于歷史研究[2],還有的成功運用于對海量微博話題進行主題抽取。對于待分析的新作品(閱讀量大、傳播范圍廣的),則可以使用GBDT算法,基于從讀者評論中抽取的特征來進行分類。

        2 邏輯與算法原理

        2.1 處理流程概述

        處理流程分兩類:離線處理和在線預測。離線處理包括數據預處理(特征提取,構造樣本集)和模型。在線預測指的是利用分類模型對沒有標簽的數據的愛國主義傾向進行預測,可以發(fā)現主題的演化內容,超越了Blei等人的動態(tài)主題模型[3]。關鍵步驟包括數據預處理、離線訓練和在線預測三部分。在數據預處理時,如果處理的是樣本集,輸出結果中目標特征值為(0,1,2),如果處理的是待預測實例,則不包含目標特征值。離線預測的訓練集、測試集和驗證集都同時包含了愛國主義評論、負面評論和中性評論。

        2.2 關鍵技術

        文學作品愛國主義影響力分類算法涉及兩類關鍵技術,它們分別是數據預處理涉及的特征提取和分類算法。前者主要涉及自然語言理解中的Topic Model技術,該方案選擇了前沿的LDA模型(隱性狄利克雷分布模型)。后者主要涉及分類算法的構造,該方案選擇了主流的GBDT算法。

        2.2.1 LDA模型

        LDA模型一種TopicModel,TopicModel即主題模型,顧名思義就是諸如一篇文章、一段話、一個句子所表達的中心思想。不過從統計角度來說是用一個特定的詞頻分布來刻畫主題的,并認為一篇文章、一段話、一個句子是從概率模型生成的,每個實體可能由若干個主題合成,主題概率之和為1。LDA本質上是一個多重貝葉斯模型。假設我們有M篇文檔,對應第d篇文檔中有Nd個詞。

        模型的目標是找到每篇文檔的主題分布和每個主題中詞的概率分布。首先需要確定合成文檔的主題個數,記作K,所有的分布基于K個主題展開。

        LDA假設文檔主題的先驗分布滿足Dirichlet分布,即對于任一文檔d,其主題分布滿足θd:θd=Dirichlet),其中α為分布的超參數,是一個K維向量。

        LDA假設主題中詞的先驗分布分布也是Dirichlet分布,即對任一主題k,其詞分布βk為:βk=Dirichlet),η為分布的超參數,是一個V維向量。V代表詞匯表的大小。

        對于任意一篇文檔d中的第n個詞,主題分布θd的后驗分布為:

        βk的后驗分布為:Dirichlet(βk)

        由于主題詞產生不依賴具體某一個文檔,因此文檔主題分布和主題詞分布是獨立的。理解了上面這M+K組Dirichlet-multi共軛,就理解了LDA模型原理。

        剩下的問題是,基于這個LDA模型如何求解我們想要的每一篇文檔的主題分布和每一個主題中詞的分布呢?一般有兩種方法,第一種是基于Gibbs采樣算法求解,第二種是基于變分推斷EM算法求解。

        用我們的分類算法,可以將每部作品或該部作品的全部讀者評論看成一個文檔,主題數設置為1,那么就能抽取出該作品或讀者評論的主題詞及其權重。

        2.2.2 GBDT算法

        GBDT(Gradient Boosting Decision Tree)被稱為梯度提升決策樹,可用于回歸或分類。隨著深度學習的不斷發(fā)展,以其自動提取特征的優(yōu)勢被更多的應用在關系抽取任務中。關系抽取可以看成是多分類問題,奠雨潔等人將GBDT用于微博立場檢測當中,通過對語料庫手動提取特征,完成文本分類[4]。

        在GBDT的迭代中,假設前一輪迭代得到的強學習器是 ft-1(x),損失函數是 L(y,ft-1(x)),我們本輪迭代的目標是找到一個CART回歸樹模型的弱學習器ht(x),讓本輪的損失函數 L(y,ft(x))=L(y,ft-1(x)+ht(x))最小。也就是說,本輪迭代找到決策樹,要讓樣本的損失盡量變得更小。

        通過損失函數的負梯度來擬合,我們可以通過擬合損失誤差的辦法,這樣無論是分類問題還是回歸問題,都可以通過其損失函數的負梯度的擬合,就可以用GBDT來解決分類和回歸問題。區(qū)別僅僅在于損失函數不同導致的負梯度不同而已。

        在我們的應用中,實際上是多元(3個類標簽)GBDT分類算法,假設類別數為K=3,則此時對數似然損失函數為:

        其中如果樣本輸出類別為k,則yk=1。第k類的概率 pk(x)的表達式為:

        3 實證研究

        《紅巖》這部小說以解放前夕“重慶中美合作所集中營”敵我斗爭為主線,展開了對當時國統區(qū)階級斗爭全貌的描寫。作品結構錯綜復雜又富于變化,善于刻畫人物心理活動和烘托氣氛,語言樸實,筆調悲壯,被譽為革命的教科書。該書被中宣部、文化部、團中央命名為百部愛國主義教科書。該研究爬取了豆瓣網《紅巖》的讀者評論5199份,其中有文字的評論1480份,使用python3.6調用對LDA和GBDT算法編寫程序進行了測試。在運用LDA算法時,分別調用了NLTK,stop_words,gensim的python包,漢語分詞使用開源的中科院漢語詞法分析系統ICTCLAS,使用測試結果現實,對于讀者評論,刪除了停用詞、書名、人名、出版等與主題無關的詞。我們設定了愛國主義題材關鍵詞為六個,分別是:信仰,紅色,黨,革命,感動,英雄所占比例為46%。反面題材作品使用六個主題,關鍵詞分別為:洗腦、不真實、套路、文革、惡心、政治色彩,所占比例為12%,其余沒有這些關鍵詞的為中性評價,比例為42%。從讀者評論看,不少負面評論是閱讀結束以后,讀者感覺故事不真實而做出的評論,這表明讀者對同一作品在不同的時間閱讀,會有不同的感受,時間越長異樣的感受越明顯。

        根據第一步LDA的主題模型計算結果,對每個讀者評論的每句話進行GBDT的三分類,有愛國主義題材關鍵詞的為句子賦值為1,有反面題材作品關鍵詞的句子賦值為-1,均沒有的賦值為0,仍然使用python語言,對數據進行GBDT分類,訓練后的模型表達式為:pk(x)=exp(fk(x))/∑Kl=1exp(fl(x)),使用此式,隨機選擇100個的讀者評論句子進行了驗證,成功率為91%,說明可以判定大部分讀者的感受判定,基本實現了機器判定文學作品是否為愛國主義題材的目的。

        猜你喜歡
        愛國主義分類模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        在疫情大考中彰顯愛國主義力量
        創(chuàng)造(2020年6期)2020-11-20 05:58:40
        重尾非線性自回歸模型自加權M-估計的漸近分布
        分類討論求坐標
        數據分析中的分類討論
        教你一招:數的分類
        3D打印中的模型分割與打包
        愛國主義教育
        中國火炬(2014年7期)2014-07-24 14:21:22
        无码国产精成人午夜视频一区二区 | 中国人妻与老外黑人| 欧美尺寸又黑又粗又长| 亚洲国产天堂久久综合网| 国产又黄又爽又色的免费| 免费人成黄页在线观看视频国产| 亚洲视频1区| 一本久久综合亚洲鲁鲁五月夫| 免费看黄色亚洲一区久久| 人与禽性视频77777| 性欧美暴力猛交69hd| 久久国产成人免费网站| 一区二区三区不卡免费av | 国产女人体一区二区三区| 国产一区二区三区蜜桃av| 好看的中文字幕中文在线| 中文字幕午夜精品久久久| 亚洲码欧美码一区二区三区| 人妻少妇精品视频无码专区| 国产精品美女白浆喷水| 二区三区视频在线观看| 日日噜噜噜夜夜狠狠久久蜜桃| 白白色发布免费手机在线视频观看| 午夜性色一区二区三区不卡视频 | 日日躁夜夜躁狠狠久久av| 国产成人无精品久久久| 日本高清二区视频久二区| 国产亚洲成人精品久久| 亚洲va无码手机在线电影| 在线观看无码一区二区台湾| av是男人的天堂免费| 中文字幕av伊人av无码av| 特级毛片a级毛片100免费播放| 成人小说亚洲一区二区三区| 99re国产电影精品| 天堂丝袜美腿在线观看| 国产欧美va欧美va香蕉在线| 中国凸偷窥xxxx自由视频妇科 | 免费大片黄在线观看| 91久久精品国产性色tv | 亚洲高清国产一区二区|