摘? 要:移動互聯(lián)時代資訊泛濫,導(dǎo)致違規(guī)采編發(fā)布互聯(lián)網(wǎng)新聞信息、散播虛假信息等“標題黨”網(wǎng)絡(luò)傳播亂象,識別“標題黨”已成為當(dāng)前互聯(lián)網(wǎng)整治的重要任務(wù)。文章分析了當(dāng)前互聯(lián)網(wǎng)“標題黨”的核心特征。對其中5類“標題黨”進行詳細分析。對比了當(dāng)前流行的多種識別算法的表現(xiàn),給出了對應(yīng)的查全率和查準率。提出一種基于規(guī)則匹配的“標題黨”識別算法,在綜合類型“標題黨”語料集中表現(xiàn)較好,彌補當(dāng)前“標題黨”識別算法的局限性。
關(guān)鍵詞:規(guī)則匹配;自動化;“標題黨”識別;自然語言處理
中圖分類號:TP391.1? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)20-0124-04
Research on the Recognition Method of“sensational headline writer”
Based on NLP Technology
YANG Xiaofeng
(Zhongyuan Converging Media Technology Research Center,Zhengzhou? 450007,China)
Abstract:In the era of mobile internet,information is overload,leading to illegal editing and publishing of internet news information,dissemination of false information and other “sensational headline writer” network dissemination chaos,identification of “sensational headline writer” has become an important task of the current internet rectification. This paper analyzes the core characteristics of the current internet “sensational headline writer”. Five categories of “sensational headline writer” are analyzed in detail. Compared with the performance of many popular recognition algorithms,the corresponding recall rate and precision rate are given. This paper proposes a “sensational headline writer” recognition algorithm based on rule matching,which performs well in the comprehensive type of “sensational headline writer” corpus,and makes up for the limitations of the current “sensational headline writer” recognition algorithm.
Keywords:rule matching;automation;“sensational headline writer” recognition;natural language processing
0? 引? 言
隨著互聯(lián)網(wǎng)的發(fā)展,終端設(shè)備資源的不斷完善,人們對新聞的關(guān)注度、和需求也不斷地提高,而網(wǎng)絡(luò)新聞則成為現(xiàn)階段互聯(lián)網(wǎng)應(yīng)用的新寵。在互聯(lián)網(wǎng)據(jù)CNNIC中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,截至2019年6月,我國網(wǎng)絡(luò)新聞用戶規(guī)模達6.86億,較2018年底增長1 114萬,占網(wǎng)民整體的80.3%,手機網(wǎng)絡(luò)新聞用戶規(guī)模達6.60億,較2018年底增長734萬,占手機網(wǎng)民78.0%。2019年上半年,手機網(wǎng)民各類APP應(yīng)用使用時長占比調(diào)查結(jié)果中,網(wǎng)絡(luò)新聞的使用時長占比4.1%。
在我國網(wǎng)絡(luò)媒體快速發(fā)展的時代背景下,網(wǎng)絡(luò)媒體已迎來平臺、技術(shù)、內(nèi)容、資本和人才競相迸發(fā)的新高峰,但依然面臨著內(nèi)容真實性不足、可信度與嚴肅性缺失等新的矛盾。2020年國家網(wǎng)信辦召開專項部署會議,決定自7月24日起,針對社會反映強烈的商業(yè)網(wǎng)站平臺和“自媒體”擾亂網(wǎng)絡(luò)傳播秩序突出問題,在全國范圍內(nèi)開展集中整治。
2018年中原工學(xué)院中原融媒體技術(shù)研究中心與河南廣播電視臺進行科研合作,主要針對新聞內(nèi)容質(zhì)量與新聞傳播路徑進行跟蹤分析,本課題為該研究方向的子課題。本課題目標為解決“自媒體”片面追逐商業(yè)利益,為吸引“眼球”炒作熱點話題、違規(guī)采編發(fā)布互聯(lián)網(wǎng)新聞信息、散播虛假信息、搞“標題黨”等網(wǎng)絡(luò)傳播亂象,提高廣播電視臺自媒體頻道新聞質(zhì)量。
1? “標題黨”特征分析
互聯(lián)網(wǎng)內(nèi)容傳播不單純以“新聞”平臺為媒介,還包括各類博客、公眾號等平臺發(fā)布的“技術(shù)類”文章、“科普類”文章、“教育類”文章等,本文“標題黨”研究對象包括“新聞”在內(nèi)的所有“超媒體”。將通過發(fā)布不實標題,吸引網(wǎng)友點擊查看的行為的“超媒體”統(tǒng)稱為“標題黨”。在當(dāng)前互聯(lián)網(wǎng)中“標題黨”文章以不同的文案形態(tài),不同的目標而存在,例如,吸引點擊量,軟文廣告等。本文對當(dāng)下互聯(lián)網(wǎng)文章進行歸納整理,將文章根據(jù)不同的展現(xiàn)形態(tài)分為以下類別:
(1)圖片類文章:文章內(nèi)容由新聞標題、圖片構(gòu)成。
(2)視頻類文章:文章內(nèi)容由新聞標題、正文文本、視頻資源、音頻資源構(gòu)成。
(3)文字類文章:文章內(nèi)容由新聞標題、正文文本構(gòu)成。
(4)圖文類文章:文章內(nèi)容由新聞標題、正文文本、圖片構(gòu)成。
不同的用戶在對文章表現(xiàn)出關(guān)注的第一印象都是來自文章標題,本文通過對文章內(nèi)容是否符合用戶期待為分析目標,確認文章是否屬于“標題黨”內(nèi)容。因此本文將“標題黨”文章歸納為以下類別:
(1)營銷類“標題黨”:該類文章的特點是標題內(nèi)容豐富吸引人,并且與文章內(nèi)容符合度較高。但文章最后以廣告、營銷為目標,降低內(nèi)容的可信度,降低用戶期待。該類“標題黨”文章主要集中于技術(shù)類文章中,以圖片類、圖文類文章為主要表現(xiàn)形態(tài)。
(2)熱點新聞“標題黨”:該類文章的特點是將文章標題設(shè)定為當(dāng)下最火最熱的標題內(nèi)容,或作為熱點標題后續(xù),吸引用戶。而文章內(nèi)容多以已發(fā)布內(nèi)容掐頭去尾的形式展現(xiàn),用戶期待落差較大。該類“標題黨”可能出現(xiàn)上述4種表現(xiàn)形態(tài)。
(3)誘導(dǎo)類描述“標題黨”:該類文章的特點是多以情欲類、違背價值觀類、極致類內(nèi)容作為標題,文章內(nèi)容為廣告、小說,該類“標題黨”以圖片類、圖文類文章為主要表現(xiàn)形態(tài)。例如,在某些娛樂類消息中,對明星進行贊美類的文字,卻多數(shù)以負面消息標題展示進行吸睛,一些小說文字,會被冠以夸張修飾的辭藻,如標題為“聰慧兒童嚴守家門,兇殘犯人偽裝其母聲欲進屋慘被識破”的文章,實際是經(jīng)典童話故事《小紅帽》。
(4)多媒體歧義“標題黨”:該類文章的特點是文章內(nèi)容以純圖片或視頻為主,幾乎不含有任何相關(guān)文字介紹,被標以歧義標題吸睛,給用戶帶來誤導(dǎo)。
(5)時間、地點誤導(dǎo)式“標題黨”:該類文章的特點是介紹的新聞、事件,對于時間、地點故意不進行說明,將其他國家發(fā)生的事件,或者發(fā)生在很早之前的事情換一中描述標題,誤導(dǎo)用戶是最近在國內(nèi)發(fā)生的事件。該類“標題黨”多表現(xiàn)為純多媒體形態(tài),如圖1所示,媒資為“視頻”,被冠以“女子確診感染新冠,被丈夫狠心推下五樓!”的標題吸睛,不表明消息來源地,從而誤導(dǎo)用戶。
在移動互聯(lián)時代資訊泛濫的背景下,無論是自媒體,還是專業(yè)媒體人都會廣泛使用“標題黨”方法吸引眼球,從而增加流量與點擊量。然而,媒體制作的標題只要不違反法律與職業(yè)道德,當(dāng)然可以依靠提升標題的“吸引力”的方式來吸引廣大讀者,這無可厚非。但是,違背公序良俗,或者文題不符、刻意“嘩眾取寵”似的“標題黨”行為是不可取的。
2? “標題黨”識別算法
2.1? 相關(guān)識別算法分析
近年來在“標題黨”新聞識別相關(guān)研究中,以羅佳[1]的《基于潛在語義分析的標題黨新聞識別技術(shù)研究》,梅鐘宵[2]的《基于文本挖掘的新聞標題與內(nèi)容契合度評價研究》為代表的一類識別算法,是以研究文章標題與文章內(nèi)容的契合度為切入點,通過提取文章的主題詞為核心,進行“標題黨”文章的評判。以王志超等[3]的《基于主題句相似度的標題黨新聞鑒別技術(shù)研究》,趙帥[4]的《基于改進型VSM-HowNet融合相似度算法在“標題黨”新聞識別中的研究》為代表的另一類識別算法,以研究文本語義相似度為切入點,通過主題句提取算法,對標題和主題句的相似度進行分析,從而來判別“標題黨”文章。
無論是基于主題詞分布的“標題黨”判別方法,還是基于主題句相似度的“標題黨”識別方法,兩者都僅僅在“純文本”類型的“標題黨”文章識別中具有一定的表現(xiàn)效果。但是,對于以圖片、視頻為主的“標題黨”識別表現(xiàn)較差。
2.2? 基于規(guī)則匹配的“標題黨”識別算法
“標題黨”識別算法的核心,是分析標題與文章內(nèi)容之間的匹配程度。通過第1節(jié)的分析可知,文章內(nèi)容的表現(xiàn)形態(tài)有多種,本文通過研究目前已發(fā)表的多種“標題黨”識別算法的表現(xiàn)發(fā)現(xiàn),不同的算法,在不同類型的“標題黨”類型文章中的表現(xiàn)不同。因此,對“標題黨”的識別,首先需要采集全面的“標題黨”類型,在識別過程中,應(yīng)根據(jù)“標題黨”類別匹配不同的識別算法。
本文提出一種基于規(guī)則匹配的“標題黨”識別算法,通過提取“標題黨”新聞的語法結(jié)構(gòu)特征,構(gòu)建“標題黨”新聞結(jié)構(gòu)模板規(guī)則庫,結(jié)合主題詞分布和主題句相似度計算方法,提高“標題黨”識別準確率。
如圖2所示,首先對訓(xùn)練語料庫中的新聞數(shù)據(jù)進行基本特征提取,完成以新聞稿件為單位的文檔分詞、詞性標注以及句法分析。然后抽取文檔對應(yīng)的主題句,在基于主題詞分布和主題句相似度匹配之前,先通過規(guī)則庫進行“標題黨”過濾識別,將具有明顯“標題黨”特征的文章直接篩選出來。最后,通過主題詞相似度計算模型進行標題黨識別評分,通過評分結(jié)果識別規(guī)則庫外的“標題黨”新聞。
其中,根據(jù)“標題黨”常見標題結(jié)構(gòu),本文構(gòu)建規(guī)則庫內(nèi)容為:
(1)標題長度限制,標題內(nèi)含有字符長度短,標題沒有具體含義,無法讓用戶辨識出新聞內(nèi)容的概要,此類新聞具有明顯的“標題黨”嫌疑,在新聞中應(yīng)處于較為劣質(zhì)的文章。
(2)標題中使用“極致”修辭手法的,例如:類似于“史上最……”“最強……”“超越想象的……”的虛假宣傳類的劣質(zhì)文章。
(3)標題中含有誘導(dǎo)類信息,例如:“某貧困女博士面試名企,竟被要求量三圍”“某外國美女不要求中國男方有房有車,但竟然提出這個要求”“美少婦買彩票中頭彩,竟是因為”等。
(4)內(nèi)容為“眾所周知”的“標題黨”,例如《小紅帽》等經(jīng)典故事作為文章內(nèi)容,標題與原著不匹配的劣質(zhì)文章。
(5)標題中含有違背價值體系的標題,這類“標題黨”容易煽動人內(nèi)心的負面情緒,比如:“某名牌大學(xué)生勤工儉學(xué),卻檢查得了某癌癥,人生最后時刻說出一句話震驚世人”。
(6)標題中內(nèi)含有敏感詞類的標題,例如含有色情類敏感詞。
(7)標題屬于專業(yè)類領(lǐng)域,例如物理、數(shù)學(xué)、天文等學(xué)科,內(nèi)容包含已知知識內(nèi)容,例如“你知道宇宙有多大嗎”“宇宙的邊緣竟然在這里”“最接近神的科學(xué)家”“人類竟然起源于這里”等,實際內(nèi)容為隨意拼接的劣質(zhì)文章。
3? “標題黨”識別算法對比實驗
3.1? 語料集構(gòu)建
本文構(gòu)建“標題黨”語料庫共包含1 156篇文章,其中被標注為“標題黨”的文章共371篇?!胺菢祟}黨”文章來自河南廣播電視臺2019年1月至2020年6月發(fā)布至其內(nèi)容管理平臺下的通過審核的文章,“標題黨”文章來自網(wǎng)絡(luò)資源及自創(chuàng)。具體數(shù)據(jù)分布如表1所示。
3.2? 實驗結(jié)果
本文將被正確識別為“標題黨”的數(shù)量記錄為“TP”,被正確識別為“非標題黨”的數(shù)量記錄為“TN”,被錯誤識別為“標題黨”的數(shù)量記錄為“FP”,被錯誤識別為“非標題黨”的記錄為“FN”。并通過查全率和查準率兩個度量值來比較三種“標題黨”識別算法的優(yōu)劣。
其中,查全率(Recall)是指從數(shù)據(jù)庫內(nèi)檢出的相關(guān)信息量與總量的比率。查準率(Precision)是檢出的相關(guān)文章與檢出的全部文章的比率。查全率與查準率計算公式如下。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
在3.1節(jié)描述的語料庫下,基于主題詞分布的“標題黨”識別算法、基于主題句相似度的“標題黨”識別算法以及基于規(guī)則匹配的“標題黨”識別算法在不同類別語料集中具體表現(xiàn)如表2、表3、表4所示。
通過對3.2小節(jié)的算法的實驗結(jié)果可以看出,基于規(guī)則匹配的“標題黨”識別算法在整體語料庫上表現(xiàn)較好,因熱點新聞“標題黨”主要以歷史新聞“掐頭去尾”展現(xiàn),無法建立規(guī)則庫,算法表現(xiàn)較差。而基于主題詞分布和基于主題句相似度的“標題黨”識別算法在圖片、視頻類文章上表現(xiàn)最差,無法識別,因為此類文章不含有任何文字類描述,對于主題內(nèi)容抽取帶來了較大的影響。
4? 結(jié)? 論
“標題黨”識別過程中,應(yīng)根據(jù)“標題黨”類別匹配不同的識別算法進行識別,才能讓算法更準確,建立完善的“標題黨”類別庫和“標題黨”規(guī)則庫將有效提高“標題黨”識別準確率。
雖然本文論述的基于規(guī)則匹配的“標題黨”識別算法在實驗語料中表現(xiàn)良好,但是因為規(guī)則庫有限,依然存在一定的識別局限性,需要構(gòu)建靈活、動態(tài)、完善的規(guī)則庫,才能讓算法在實際應(yīng)用中具有更好的表現(xiàn)。
參考文獻:
[1] 羅佳.基于潛在語義分析的標題黨新聞識別技術(shù)研究 [D].湖北:湖北工業(yè)大學(xué),2015.
[2] 梅鐘霄.基于文本挖掘的新聞標題與內(nèi)容契合度評價研究 [D].北京:首都經(jīng)濟貿(mào)易大學(xué),2018.
[3] 王志超,翁楠,王宇.基于主題句相似度的標題黨新聞鑒別技術(shù)研究 [J].現(xiàn)代圖書情報技術(shù),2011(11):48-53.
[4] 趙帥.基于改進型VSM-HowNet融合相似度算法在“標題黨”新聞識別中的研究 [D].吉林:吉林大學(xué),2018.
作者簡介:楊小峰(1987—),男,漢族,江西吉安人,助教,碩士,研究方向:軟件工程。