宮 媛 馮瑋杰
(新疆大學,新疆 烏魯木齊 830046)
新聞是傳播要點信息、記錄社會事件以及反映時代風貌的一種文體。隨著社會信息化程度的加深,新聞步入了“融媒體”時代。但語言文字仍然是新聞傳播的重要媒介。新聞標題是新聞的重要組成部分,新穎有趣的新聞標題可以吸引讀者閱讀新聞?wù)?。而新聞標題中的一些關(guān)鍵高頻詞可以反映出某一時間段的社會關(guān)注點。因此,新聞標題語言的詞頻研究對于新聞標題的制作、反映社會面貌具有一定意義。
關(guān)于新聞標題語言的詞頻研究,馬子恩(2012)《熱點事件新聞?wù)Z料庫的研制及詞匯研究》一文以《揚子晚報》部分熱點事件新聞標題作為原始語料,研究新聞?wù)Z域詞頻分級、熱點事件特殊詞匯的分類。[1]班文沖(2016)《基于語料庫的網(wǎng)絡(luò)新聞標題詞頻研究——以人民網(wǎng)、新華網(wǎng)和新浪網(wǎng)、網(wǎng)易網(wǎng)為例》,在對處理后的原始語料的基礎(chǔ)上制成4個語料庫,并對高頻詞統(tǒng)計進行了研究。[2]
但是,鮮有學者對新疆新聞進行研究,所以,本文選取天山網(wǎng)新疆新聞的標題,建立“天山網(wǎng)新聞標題語料庫”并對新聞標題進行分析研究。對新聞標題的詞頻分析,可以直接從統(tǒng)計的角度分析高頻詞的使用情況、詞頻與詞頻排名的關(guān)系,這些分析可以直觀地看出詞頻與其他要素間的關(guān)系,有助于新聞編寫者在編寫新聞時挑選合適的詞語。對于新聞標題的社會價值分析,有助于讀者理解該時間段在該地區(qū)的熱詞及所發(fā)生的熱點事件。
語料庫(Corpus)是指經(jīng)過科學取樣和加工的大規(guī)模電子文本庫。[3]借助計算機語言分析工具后,研究者可以開展相關(guān)的語言理論與應(yīng)用研究。語料庫語言學研究的基礎(chǔ)就是語料庫,它被廣泛地應(yīng)用于語言教學、自然語言處理(NLP)等方面。
本文選用天山網(wǎng)新聞標題來進行高頻詞統(tǒng)計研究。天山網(wǎng)是新疆維吾爾自治區(qū)唯一一家重點新聞宣傳網(wǎng)站,由新疆維吾爾自治區(qū)黨委宣傳部、人民日報網(wǎng)絡(luò)中心合作建設(shè),由新疆維吾爾自治區(qū)人民政府新聞辦公室主管、新疆新媒體中心承辦。
本文采用手工錄入的方法,收集了2019年1月29日至2020年11月4日天山網(wǎng)新疆新聞標題,共計3659條標題作為語料源,建立了新聞標題語料庫,這些新聞標題涉及政治、經(jīng)濟、文化等各個方面。
例1.陳全國:堅定不移推動黨中央各項改革部署落到實處(2019年2月15日,時政類)
例2.去年新疆口岸與“一帶一路”沿線國家進出口額同比增13.5%(2019年2月15日,經(jīng)濟類)
例3.額敏縣:新春活動加保健知識宣傳 超贊(2019年2月20日,文旅類)
對中文的自然語言處理,分詞是基本的預(yù)處理手段之一。[4]只有先把原始語料以空格為分界符,分出一個個最小的能夠獨立運用的詞,才可以進行詞頻統(tǒng)計。不然,只能對原始語料進行字頻統(tǒng)計,而不是詞頻。所以,本文進行的詞頻研究,必須在對原始語料進行中文分詞后進行研究。
本文使用的是NLPIR-ICTCLAS漢語分詞系統(tǒng)。該軟件由北京理工大學的張華平教授領(lǐng)導的大數(shù)據(jù)挖掘與搜索實驗室研發(fā),具有一定的權(quán)威性與準確性。例如:
例4.元宵節(jié)出疆機票價格有折扣(2019年2月15日)
元宵節(jié) 出 疆 機票 價格 有 折扣
從以上新聞標題的分詞例子中可以看出,NLPIRICTCLAS漢語分詞系統(tǒng)基本可以準確切分出漢語詞,所以該軟件可以滿足本文的研究要求。
在對原始語料進行分詞處理后,本文對分詞后的語料進行詞頻統(tǒng)計,得出某一個詞在語料庫中的詞頻、占比以及排名。本文使用國家語言文字工作委員會開發(fā)的MyZiciFreq字詞頻率統(tǒng)計工具進行詞頻統(tǒng)計,具有權(quán)威性和科學性。該軟件可以自動對分詞后的語料進行詞頻統(tǒng)計,并輸出詞頻和占比。
天山網(wǎng)新疆新聞標題詞表共計有73951個字,包含6424個詞條,總詞次為42381。在第一列中將該詞表中的詞頻以1、2、3……進行排序,在第二列中列出相對應(yīng)排名的詞匯,在第三列中生成詞頻,詞頻統(tǒng)計是全面統(tǒng)計該詞在語料庫中出現(xiàn)的總次數(shù),在第四列中計算出該詞在語料庫中的占比,計算方法是:占比=詞頻/總詞次,在得出占比數(shù)據(jù)之后把小數(shù)保留至小數(shù)點后兩位,以保證精確性,并把得出的占比數(shù)據(jù)依次生成到第四列中。
這樣直接生成的高頻詞表,包含了大量無特色的詞條,例如“月”“日”“的”“大”“是”等。所以,將部分無意義、無特色的高頻詞剔除,并從天山網(wǎng)新疆新聞標題詞表中,按照詞頻排名的順序,選出具有社會性、地域性的詞條進行遞補,得出天山網(wǎng)新疆新聞標題詞表最高頻的30個有特色的詞條(見表1)。并按高頻詞所代表的領(lǐng)域,把它們歸為四大類(見表2)。
表1 天山網(wǎng)新疆新聞標題詞表具有特色的詞頻最高的30個詞
表2 高頻詞分類
在表2中,高頻詞被分為了防疫類、地名類、文旅類和發(fā)展類四大類。除去地名類僅代表新聞報道的地區(qū),不具備體現(xiàn)新聞熱點的特性??梢园l(fā)現(xiàn),在2019年1月29日至2020年11月4日這個時間段內(nèi),新疆融媒體的新聞報道把重心放在了防疫、文旅和發(fā)展上。透過高頻詞來看的話,疫情、文旅以及發(fā)展就是新疆在2019年1月29日至2020年11月4日內(nèi)的熱點事件。下面,依據(jù)表1和表2,進一步討論每一個高頻詞大類中的詞出現(xiàn)的新聞標題,以及從社會性、地域性的角度,對大部分高頻詞進行分析。
第一,由于該表的語料來源是天山網(wǎng)新疆新聞,所以在高頻詞中出現(xiàn)了很多具有地域性的詞條。例如,“新疆”“烏魯木齊”“自治區(qū)”“兵團”等詞條。包含這些詞條的新聞標題,基本上涵蓋了新疆的各個方面,對新疆的宣傳工作作出了很大的貢獻。例如,
例5.新疆喀納斯湖畔迎來全國700對佳人 還創(chuàng)造一項為愛表白的世界紀錄(2019年7月3日)
例6.烏魯木齊市米東區(qū)千人同吃1.7米巨碗“國慶面”(2019年10月1日)
例7.2018年生產(chǎn)總值比上年增長6%兵團糧棉產(chǎn)量呈現(xiàn)“雙增長”(2019年2月15日)
所以,包含這些高頻詞條的新聞標題反映了新疆發(fā)展穩(wěn)中帶好,呈現(xiàn)出了社會繁榮穩(wěn)定、人民安居樂業(yè)的良好局面,充分展現(xiàn)了黨總攬全局、協(xié)調(diào)各方的領(lǐng)導核心作用。同時,在地名類里,還有一個高頻詞是“中國”,例如:
例8.想借涉疆“法案”干涉牽制中國,只能是癡心妄想(2019年12月6日)
“中國”一詞的高頻出現(xiàn),表現(xiàn)了新疆融媒體不僅立足于新疆本土而且放眼全國的廣闊視野。更加體現(xiàn)了,在中國共產(chǎn)黨和中國政府的堅強領(lǐng)導下,隨著“兩個一百年”奮斗目標和中華民族偉大復(fù)興中國夢的實現(xiàn),新疆會奮力書寫好中國特色社會主義的新疆篇章。
第二,新疆的旅游業(yè)很發(fā)達,新疆一直是全國各族人民旅游的首選地之一。所以,在該表中,高頻詞也包括了許多與旅游、交通和天氣相關(guān)的詞條,例如,“旅游”“天氣”“鐵路”“高溫”“氣溫”“交警”“高速”“旅客”“國際”“機場”“景區(qū)”等詞條。這表現(xiàn)了新疆堅持綠色發(fā)展,努力建設(shè)天藍地綠水清的美麗新疆。例如:
例9.富蘊縣加快景區(qū)建設(shè)推動旅游業(yè)高質(zhì)量發(fā)展(2019年4月10日)
例10.烏魯木齊市今日天氣晴好 最高氣溫30℃(2019年6月19日)
例11.新疆升級53對高速公路服務(wù)區(qū)讓旅游更暢行(2019年7月12日)
例12.從新疆國際大巴扎到喀納斯:國慶假期游客暢游新疆好地方(2019年10月7日)
這些與旅游相關(guān)的高頻詞條,從側(cè)面體現(xiàn)了自“旅游興疆”戰(zhàn)略實施以來,新疆各地區(qū)以旅破題,以旅游為龍頭、帶動產(chǎn)業(yè)發(fā)展的格局初步形成,新疆新聞業(yè)也通過旅游宣傳的工作,向疆外持續(xù)展示“大美新疆”的形象。要充分認識實施旅游興疆戰(zhàn)略的重大意義,切實把大力發(fā)展旅游業(yè)擺在關(guān)系各族人民福祉、關(guān)系社會穩(wěn)定和長治久安的戰(zhàn)略高度,推動旅游業(yè)高質(zhì)量發(fā)展。
第三,由于本次采集的語料時間跨年度為2019年1月29日至2020年11月4日,而在2020年初又暴發(fā)了嚴重的新冠肺炎疫情,所以在天山網(wǎng)新疆新聞詞表中,可以發(fā)現(xiàn)一些有關(guān)疫情的詞的頻率較高。例如,詞頻排名第三的“新增”,例如包含它的新聞標題有:
例13.4月22日新疆(含兵團)無新增新冠肺炎確診病例(2020年4月23日)
例14.喀什目前所有無癥狀感染者未明確有疑似病例、確診病例、發(fā)熱病人接觸史(2020年10月26日)
例15.新疆(含兵團)新增1例新型冠狀病毒感染的肺炎確診病例(2020年2月1日)
另外,從與疫情有關(guān)的新聞標題中,可以反映出新疆維吾爾自治區(qū)各級黨委、政府、社會群體對新冠疫情的重視以及正確應(yīng)對。例如:
例16.自治區(qū)召開視頻會議研究部署新型冠狀病毒感染的肺炎疫情防控工作(2020年1月28日)
例17.心理專家談疫情:要有節(jié)制地獲取信息(2020年1月29日)
例18.【眾志成城 打贏疫情防控阻擊戰(zhàn)】新疆13家信息技術(shù)企業(yè)在防疫期間顯身手(2020年2月21日)
我們要進一步提高政治站位,堅持把疫情防控作為重大政治責任、擺在突出位置,深入貫徹落實習近平總書記關(guān)于做好常態(tài)化疫情防控工作的重要指示精神,堅決打好疫情防控阻擊戰(zhàn),堅決維護各族群眾生命安全和身體健康。
第四,全疆1660000平方千米,擁有2523.22 萬人口(截至2019年年末截止),新疆維吾爾自治區(qū)實現(xiàn)地區(qū)生產(chǎn)總值(GDP)13797.58億元(截至2020年),從各個方面來看,新疆都具有極其重要的戰(zhàn)略地位。在表1中,許多高頻詞條也體現(xiàn)了新疆對脫貧攻堅、經(jīng)濟發(fā)展等方面的重視程度。例如,“企業(yè)”“項目”“服務(wù)”“建設(shè)”“啟動”“工作”“中國”“脫貧”“就業(yè)”等詞條。包含有這些詞條的新聞標題都可以展現(xiàn)出新疆社會穩(wěn)定形勢發(fā)生根本變化,各族人民群眾的獲得感、幸福感、安全感顯著增強。新疆一直把經(jīng)濟發(fā)展放在重要位置,要以推進絲綢之路經(jīng)濟帶核心區(qū)建設(shè)為引領(lǐng),推進新疆貿(mào)易持續(xù)高質(zhì)量發(fā)展。例如:
例19.新疆投入1億專項資金支持中小企業(yè)發(fā)展(2019年10月11日)
例20.烏魯木齊2020年將高標準建設(shè)河馬泉新區(qū) 同時加快兩河片區(qū)基礎(chǔ)設(shè)施建設(shè)(2020年1月18日)
例21.阿巴·阿尤甫的脫貧色彩:從沙漠黃到辣椒素紅(2020年7月1日)
以上高頻詞條以及新聞標題,反映了新疆各級黨委、政府、社會各級,對保障社會持續(xù)穩(wěn)定、推動經(jīng)濟平穩(wěn)發(fā)展、不斷改善營商環(huán)境、不斷改善人民生活環(huán)境、三大攻堅戰(zhàn)取得重大進展、民族團結(jié)、宗教和諧等方面做出了重大貢獻。新疆深入貫徹落實習近平總書記重要講話指示精神和黨中央決策部署,經(jīng)濟社會發(fā)展和民生改善取得了前所未有的成就,脫貧攻堅取得了決定性成就。新疆媒體將以充沛飽滿的熱情,講述好脫貧攻堅故事,弘揚好脫貧攻堅精神,分享好脫貧攻堅經(jīng)驗,為推動新疆經(jīng)濟社會發(fā)展貢獻力量。
本文借助Python進行語料收集,使用NLPIRICTCLAS漢語分詞系統(tǒng)進行中文詞切分,使用MyZiciFreq字詞頻率統(tǒng)計工具進行詞頻統(tǒng)計,建立了天山網(wǎng)新疆新聞標題詞表。之后,對具有社會性、地域性的高頻詞進行提取和分析研究。所以,新聞標題語料庫通過高頻詞匯,可以反映出該新聞媒體的側(cè)重點,也可以反映出新聞編者經(jīng)常使用簡略的高頻重點詞匯來體現(xiàn)出正文的內(nèi)容。但是,本文所建立的語料庫還有原始語料不足、時間跨度太小等問題,因此沒有對天山網(wǎng)新疆新聞標題進行全面、詳細、深入的描寫。另外,新疆新聞媒體還有許多,新聞也有標題、正文等多個方面急需研究,本文僅以天山網(wǎng)新疆新聞的標題作為研究對象,研究范圍還是稍顯狹小。在新疆,除了網(wǎng)絡(luò)新聞媒體,報紙刊物還有新疆日報、烏魯木齊晚報、兵團日報、阿克蘇日報等,它們都十分缺乏研究。綜上,對新疆新聞媒體,今后還需要時間跨度足夠大、原始語料足夠多、研究內(nèi)容足夠深入、研究范圍足夠廣泛的研究。