亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BiLSTM-CRF 的體育新聞主題詞抽取方法

        2020-04-28 06:06:24江逸琪趙彤洲高佩東
        武漢工程大學學報 2020年1期
        關鍵詞:體育新聞新聞標題主題詞

        江逸琪,趙彤洲,柴 悅,高佩東

        武漢工程大學計算機科學與工程學院,湖北 武漢 430205

        主題詞抽取廣泛應用于新聞事件識別。在事件識別領域,將用于表征事件內容的要素稱為事件主題詞。新聞主題詞是由單個字或多個字組成的詞,是指能反映新聞主題的概括性詞語,時間、地點、人物和事件描述是用于表征新聞事件的四個要素[1]。對于體育新聞,除了具有新聞的一般性之外,還具有其領域的特殊性,人們重點關注的是時間、地點、人物、涉及的國家和體育項目,文中將這些要素統(tǒng)稱為主題詞。用戶憑借主題詞,可從大量的新聞中快速地獲得有用的信息。

        進入大數(shù)據(jù)時代,主題詞抽取技術在新聞檢索、新聞文本聚類、分類等自然語言處理(natural language processing,NLP)任務中發(fā)揮著重要作用。例如,在新聞事件識別中,通過主題詞標識及分類,可迅速為新聞定性;在新聞主題聚類時,可以以主題詞為依據(jù),將主題詞相似的多篇新聞文本看成一個簇,這樣可以大大提高K-Means 聚類的效果。

        針對新聞主題詞抽取任務,傳統(tǒng)方法主要有基于統(tǒng)計的方法和基于機器學習的方法。

        詞頻-逆文檔頻率方法是典型的統(tǒng)計抽取方法,這類方法以詞頻及逆文檔頻率作為指標選取前k 個詞為主題詞[2]。這種無監(jiān)督的方法無需人工標注訓練集,簡單快捷,但是無法有效地利用句子的語法、語義特征。

        最大熵模型、支持向量機模型以及貝葉斯模型是基于機器學習的方法。這種有監(jiān)督的方法,需要在大量人工標注的樣本上進行主題詞抽取,將主題詞抽取問題轉化為判斷每個候選詞是否為主題詞的二分類問題[3]。機器學習的方法對每個候選詞單獨判斷其是否為主題詞,失去了文本本身的情感信息和句子結構的有效信息,導致模型的識別效果較差。

        針對上述問題,研究者將主題詞抽取問題轉變?yōu)樾蛄袠俗栴},如隱馬爾科夫模型、最大熵馬爾科夫和條件隨機場。這種方法結合人工設計的特征,目前在NLP 中有廣泛的應用,如分詞、詞性標注等[4-6]。但是,這種基于機器學習的序列標注模型,在人工設計特征時需要反復嘗試,耗時耗力。

        近年來,循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)已被有效用于各類NLP 問題,包括語言模型[7-8]和語音識別[9]。RNN 可記憶歷史信息,在解決長序列依賴任務時效果顯著,圖1 是RNN結構圖[10]。

        圖1 中,xt表示t 時刻輸入層的特征可以是表示詞或字特征的one-hot 向量,也可以是密集的矢量特征。ht為t時刻的隱藏狀態(tài),由當前時刻的輸入和上一隱藏狀態(tài)決定,因此,隱藏層可以用來存儲歷史信息。yt表示輸出層在每個時刻的輸出。隱藏單元ht和輸出單元yt的計算如式(1)、式(2)所示。

        圖1 RNN 結構圖Fig.1 Structure diagram of RNN

        式(1)~(2)中,U,W,V 是連接權重,它們在訓練時計算得出。f(z),g(z)分別為如式(3)、式(4)所示的sigmoid、softmax 激活函數(shù)。

        長短期記憶網(wǎng)絡(long short-term memory network,LSTM)作為RNN 的代表,被廣泛應用于各種NLP 任務中。LSTM 模型在處理如情感分析[11]、詞性標注[12]、命名實體識別[13-14]、關鍵詞識別[15]等問題時非常有效。但是,LSTM 模型進行新聞主題詞識別時每個字是相互獨立的,最終得到的是每個字的最優(yōu)預測,如果字與字之間存在較強的依賴關系(例如,以“B-”“I-”分別表示主題詞的首字和非首字,主題詞的第一字的標簽應以“B-”開頭,而非“I-”;預測標簽“B-label1 I-label2”則無效),LSTM 模型無法對這些約束進行建模,預測性能將受到限制。

        為了解決傳統(tǒng)機器學習需要反復構建特征工程和LSTM 模型無法得到全局最優(yōu)解的問題,本文在處理體育新聞主題詞抽取的問題上提出雙向長短期記憶網(wǎng)絡聯(lián)合條件隨機場(bidirectional long short-term memory network conditional random field,BiLSTM-CRF)模型,雙向長短期記憶網(wǎng)絡(bidirectional long short-term memory network,BiLSTM)對長期的信息進行記憶并將其應用到當前的輸出中,條件隨機場(conditional random field,CRF)自動從訓練數(shù)據(jù)中學習字與字之間的約束,計算聯(lián)合概率來尋找最優(yōu)解,優(yōu)化整個句子序列以確保最終預測結果有效,最終實現(xiàn)主題詞抽取。

        1 體育新聞主題詞抽取方法

        1.1 抽取流程

        體育類新聞的主題詞抽取,不僅具有其領域的特殊性,還存在網(wǎng)絡新聞的冗余現(xiàn)象,直接在新聞文本上抽取的主題詞不具有代表性,并且體育新聞的人名識別面臨著人名長度不等、中英文名字用字多變的挑戰(zhàn);體育項目、新聞地點、國家名稱的構成復雜,存在簡稱和全稱的多種表示。本文提出的體育新聞主題詞抽取框架如圖2 所示。

        圖2 主題詞抽取框架Fig.2 Framework of topic word extraction

        具體過程為:

        第一步,使用Python3.5 中的Request 和BeautifulSoup 庫從新聞網(wǎng)站獲取真實新聞文本,清洗數(shù)據(jù)后得到新聞正文和新聞標題。

        第二步,對新聞正文采用TextRank 算法提取主題句。

        第三步,以新聞標題和主題句為對象進行新聞主題詞抽取。

        1.2 TextRank 提取新聞主題句

        新聞標題能反映新聞的主要內容,但標題文字較少,僅僅依靠標題進行抽取對主題詞抽取的準確率、覆蓋程度有一定影響。而新聞正文是對事件完整的描述,因此,在進行主題句抽取時,考慮新聞正文是對僅考慮新聞標題抽取方法的補充,該方法對主題詞的準確率和覆蓋程度都有一定程度的提升。首先采用TextRank 算法對新聞正文進行主題句自動提取,在主題句的基礎上再抽取主題詞,這種方法避免了僅僅依賴新聞標題進行主題抽取導致的關鍵信息遺漏或覆蓋不全的問題。TextRank 算法擬定一個權重的評分標準,給新聞正文的每個句子進行打分,之后選取排名靠前的k 個句子作為結果。TextRank 算法將文本中句子作為節(jié)點,組成帶權重的有向圖模型G=(V,E)(V 為節(jié)點集合,即句子構成的節(jié)點集合,E 為邊集合),用來表示句子間的關系,并經(jīng)過圖的迭代計算實現(xiàn)句子權重的排序。句子Vi權重計算如式(5)所示。

        式(5)中,ω(Vi)表示句子i 的權重。d 為阻尼系數(shù),取值范圍在0 到1 之間,表示圖模型中某節(jié)點指向下一節(jié)點的概率。In(Vi)和Out(Vi)分別為指向句子Vi的句子集合和句子Vi指向的句子集合。wjk表示句Vj和句子Vk之間的權重,wji表示句子Vi和Vj之間的權重,用句子Vi和Vj的相似度表示,計算方法如式(6)所示。

        式(6)中,Si和Sj為句子Vi和Vj在去除停用詞后的詞集合,tk表示兩個句子的共現(xiàn)詞。

        1.3 BiLSTM 模型

        以主題句和新聞標題為對象,使用基于字的BiLSTM 模型將主題詞抽取問題轉化為序列標注問題。本文采用BIO 標準標注,即B-PER、I-PER代表體育新聞中人名首字、人名非首字,B-LOC、I-LOC 代表體育新聞中出現(xiàn)的國家和地名的首字、地名非首字,B-SPO、I-SPO 代表體育項目名首字、體育項目名非首字,O 代表該字不屬于主題詞的部分。例如句子“中/國/馬/龍/奪/冠/。”中每個字的標注為“B-LOC/I-LOC/B-PER/I-PER/O/O/O”。

        為獲取上下文語義信息,本文用LSTM 進行序列標記。LSTM 與RNN 相同,只是隱藏層更新被專用內存單元替換,增加了輸入門、遺忘門和輸出門。因此,相比于RNN,LSTM 更善于發(fā)現(xiàn)和利用數(shù)據(jù)中的長期依賴性,如圖3 所示。

        圖3 單個LSTM 單元Fig.3 A LSTM cell

        圖3 中,xt為當前時間步的輸入,ht為當前時間步的隱藏狀態(tài),LSTM 單元的計算如式(7)~(11)所示。

        式(7)~(11)中,σ 為sigmoid 激活函數(shù),it,ft,ot,ct,ht分別為輸入門、遺忘門、輸出門、單元向量和隱藏向量,它們的維度大小相同,bi,bf,bc,bo均為偏置向量,權重矩陣W 分別表示與下標相對應單元之間的連接權重矩陣。

        序列標注時,利用BiLSTM 模型獲得過去和未來的輸入特征。BiLSTM 利用前向狀態(tài)獲取過去的特征,后向狀態(tài)獲取未來的特征來預測當前標簽。BiLSTM 提取主題詞的模型如圖4所示。

        圖4 BiLSTM 網(wǎng)絡結構Fig.4 Network structure of BiLSTM

        模型的第一層為look-up 層,利用隨機初始化的嵌入矩陣將句子中每個字的one-hot 向量映射為含有嵌入特征的低維稠密的字向量xi(m 維)。

        模型的第二層為BiLSTM 層,將字向量作為每個時刻的輸入,前向隱藏狀態(tài)ht和后向隱藏狀態(tài)進行拼接得到該時刻完整的隱藏狀態(tài)(m 維)。利用一個線性層將隱藏向量從m 維映射為k 維(k 是標注的標簽數(shù))得到pi,pi中的每一維pij為字xi到標簽j的打分值。

        模型的第三層為Softmax 層,對各個位置進行分類,得到最后的結果。

        1.4 BiLSTM-CRF 模型

        BiLSTM 模型Softmax 層是對單個字進行獨立分類,舍去了整個句子的特征,不利于主題詞抽取。因此,在BiLSTM 模型后接入CRF 層進行句子級的標注,圖5給出了基于字的BiLSTM-CRF模型。

        圖5 BiLSTM-CRF 網(wǎng)絡結構Fig.5 Network structure of BiLSTM-CRF

        基于字的BiLSTM-CRF 模型與基于字的BiLSTM 模型前兩層相同,第三層為CRF 層,該層具有一個狀態(tài)轉移矩陣的參數(shù)。通過這一層,模型可以有效地利用過去的標簽和未來的標簽來預測當前的標簽。用式(12)來計算句子α 的標簽等于y 的分數(shù)。

        式(12)中,A 是一個加了初始狀態(tài)和終止狀態(tài)的(k+2)×(k+2)矩陣,Aij表示從第i 個標簽到第j 個標簽的轉移分數(shù)。可以看出完整序列的分值即所有位置的分值和,而每一個位置的分數(shù)由兩部分得到,一部分是BiLSTM 輸出的pi,另一部分由CRF的轉移矩陣A 決定。

        模型最后采用式(13)所示的Viterbi 算法求解最優(yōu)解。

        2 實驗部分

        2.1 數(shù)據(jù)集

        數(shù)據(jù)來自騰訊、環(huán)球和新浪主流新聞網(wǎng)站的1 800 余篇文章、約6 MB 體育新聞報道,新聞標題字數(shù)約為20~40 個,正文長度不等。經(jīng)過數(shù)據(jù)清洗后建立了體育新聞數(shù)據(jù)庫,數(shù)據(jù)集基本信息如表1所示。

        表1 數(shù)據(jù)集信息統(tǒng)計表Tab.1 Statistic information table of datasets

        一般新聞文本篇幅過長,內容復雜,不利于主題詞的抽取。因此,實驗先利用TextRank 算法進行主題句提取,提取新聞正文中2 個權重最大的句子作為新聞主題句,主題句標題的信息如表2 所示。將主題句和標題組成的文本作為模型的輸入對象,進行主題詞的抽取。

        經(jīng)過上述信息處理后,最后得到來自不同新聞網(wǎng)站的3 個標注數(shù)據(jù)集,實驗采用BiLSTM-CRF模型進行新聞主題詞抽取,并采用BiLSTM 模型作為對照。

        2.2 評價標準

        采用準確率P(precision)、召回率R(recall)、F1值作為新聞主題詞抽取的評價指標,計算方法如式(14)~(16)。

        表2 主題句+標題信息統(tǒng)計表Tab.2 Statistic information table of topic sentences and titles

        式(14)~(16)中,Strue是準確抽取的標簽數(shù)目,Spredicted是模型預測的所有標簽數(shù)目,Sactual是數(shù)據(jù)集中總的標簽數(shù)目。

        2.3 結果及分析

        結合新聞文稿的寫作規(guī)律,本文對經(jīng)TextRank 提取的主題句進行了主題詞的抽取,重點關注體育項目、人名、國家以及地名。對主題詞類別做如下約定:體育項目標記為“SPO”,人名標記為“PER”,地名和國家統(tǒng)一標記為“LOC”,“B-”“I-”分別表示標簽的首位和非首位,例如體育新聞文本中“在雅加達剛剛結束的田徑女子100 m 的決賽中,巴林選手奪冠,印度選手摘銀,中國選手韋永麗獲得第3 名?!敝黝}詞:雅加達、田徑、巴林、印度、中國、韋永麗。具體標簽信息如表3 所示。

        表3 實例標簽信息Tab.3 Label information of examples

        為了測試本文提出方法對體育新聞中主題詞的抽取效果,對數(shù)據(jù)集分別使用BiLSTM-CRF 模型和BiLSTM 模型進行實驗,采用了準確率(P)、召回率(R)、F1值進行評價,實驗結果如表4 所示。

        由表4 結果可見,對于新聞主題詞抽取,不同數(shù)據(jù)集上BiLSTM-CRF 模型顯然在準確率、召回率和F1值均優(yōu)于BiLSTM 模型,從實驗數(shù)據(jù)上來看,在環(huán)球體育數(shù)據(jù)集上,BiLSTM-CRF 在三項抽取任務上準確率P、召回率R 和F1值優(yōu)于BiLSTM 的比例較平均;在新浪體育數(shù)據(jù)集上,BiLSTM-CRF 在地名(LOC)的識別任務中比BiLSTM 高4.2%,能夠識別出更加復雜的地名;在較大的騰訊數(shù)據(jù)集上,尤其在人名(PER)的識別任務中,BiLSTM-CRF 的F1值比BiLSTM 高5.1%,從測試數(shù)據(jù)的對比結果來看,BiLSTM-CRF 能夠識別BiLSTM 得不到的標簽,如比較復雜的外國人名“科伊”。

        在訓練數(shù)據(jù)集相同的情況下,BiLSTM-CRF 模型一個epoch需要36.5 s,而BiLSTM模型需要35.1 s,兩種模型的訓練總時長分別為91.25 min(36.5 s×150 epochs)和87.75 min(35.1 s×150 epochs),相差不大。由圖6 可知兩種模型對于不同字數(shù)文檔的主題詞抽取時長的差異較大,在新聞文檔字數(shù)較長(字數(shù)≥200)時兩種模型的差異不大,但對于短篇新聞文檔(字數(shù)<200)BiLSTM-CRF 模型明顯小于BiLSTM 模型。

        表4 主題詞抽取結果Tab.4 Results of topic word extraction %

        圖6 主題詞抽取效率Fig.6 Efficiency of topic word extraction

        3 結 論

        本文采用聯(lián)合TextRank 的BiLSTM-CRF 方法實現(xiàn)了體育新聞主題詞的抽取,在提取的不同體育新聞數(shù)據(jù)集上均取得較好的識別效果,證明了該方法的魯棒性。本方法由于考慮了新聞正文信息,先利用TextRank 方法提取新聞主題句,相較于僅從新聞標題分析在數(shù)據(jù)源上有更高的覆蓋率;在算法方面,由于用CRF 在句子級上考慮了上下文語義信息去除了更多錯誤分類,提升了識別的準確率并對算法效率有一定提升。

        但是體育新聞主題詞抽取任務仍然存在挑戰(zhàn)。由于中文姓名用字和英文人名用詞比較靈活且中文人名和英文人名長度不一,在脫離上下文語境的情況下無法判斷是否是人名,基于深度學習的方法對抽取學習的特征干擾比較大,因此,目前的方法在人名的抽取上還有提升空間。下一步,將重點解決人名和地名的抽取問題,可以通過對人名特征的分析,加入人名特征模板等方法進行改進;對于地名,可以考慮與地理信息數(shù)據(jù)集中的地名詞庫預先匹配,過濾出地名后再用模型識別,以提高新地名的識別效果。通過一定的預處理手段并結合模型改進策略,可進一步提升新聞主題詞的自動抽取性能。

        猜你喜歡
        體育新聞新聞標題主題詞
        體育新聞中的辭格運用
        談新聞標題的現(xiàn)實性
        活力(2019年22期)2019-03-16 12:49:06
        網(wǎng)絡新聞標題與報紙新聞標題的對比
        活力(2019年22期)2019-03-16 12:48:00
        論體育新聞報道內容和形式的改變
        新聞傳播(2018年12期)2018-09-19 06:26:56
        體育新聞娛樂化現(xiàn)象思考
        新聞傳播(2018年1期)2018-04-19 02:08:57
        無意間擊中幽默的新聞標題
        喜劇世界(2016年9期)2016-08-24 06:17:26
        淺談新聞標題的裝扮技巧
        新聞傳播(2015年22期)2015-07-18 11:04:06
        我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
        我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        男人无码视频在线观看| 亚洲国产精品久久精品 | 免费AV一区二区三区无码| 亚洲国产av一区二区三| 一区二区三区四区中文字幕av| 妺妺窝人体色www聚色窝仙踪| 韩日美无码精品无码| 欧洲AV秘 无码一区二区三| 日日麻批免费高清视频| 少妇扒开毛茸茸的b自慰| 麻豆精产国品| 天堂av在线免费播放| 亚洲国产丝袜久久久精品一区二区 | 精品露脸熟女区一粉嫩av | 亚洲粉嫩高潮的18p| 一区在线播放| 曰日本一级二级三级人人| 精品久久久久久无码人妻蜜桃| 亚洲中文字幕无码中字| 美女扒开内裤露黑毛无遮挡| 亚洲婷婷久悠悠色悠在线播放| 国产乱码精品一区二区三区四川人| 国产一级毛片AV不卡尤物| 女同同成片av免费观看| 美女视频黄是免费| 欧美人与动牲交a欧美精品| 四虎国产精品免费久久麻豆| 亚洲av手机在线播放| 亚洲精品www久久久久久| 在线播放人成午夜免费视频| 青青自拍视频成人免费观看| 久久精品国产亚洲av精东| 国产99久久久久久免费看| 欧美精品久久久久久三级| av在线播放亚洲天堂| 偷偷色噜狠狠狠狠的777米奇| 国产一级毛片AV不卡尤物| 国产一区二区三区蜜桃| 久久人妻少妇嫩草av| 亚洲中文字幕无码爆乳av| av网址不卡免费在线观看|