亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        新聞媒體領(lǐng)域中文語(yǔ)義分析技術(shù)智能化、知識(shí)化之路的研究與探索

        2018-10-21 11:04:54李澤魁孫霏陳珺
        中國(guó)傳媒科技 2018年8期

        李澤魁 孫霏 陳珺

        摘 要:媒體融合發(fā)展是一項(xiàng)復(fù)雜的系統(tǒng)工程,離不開(kāi)技術(shù)系統(tǒng)的變革與創(chuàng)新。在新聞媒體領(lǐng)域數(shù)據(jù)爆炸,同時(shí)人工智能領(lǐng)域飛速發(fā)展的大背景下,本文針對(duì)國(guó)內(nèi)新聞媒體領(lǐng)域中文文本語(yǔ)義分析過(guò)程中存在的諸多難題和現(xiàn)狀,對(duì)中文文本語(yǔ)義分析在新華社業(yè)務(wù)系統(tǒng)中的智能化、知識(shí)化的探索之路進(jìn)行闡述與展望。

        關(guān)鍵詞:中文語(yǔ)義分析;新聞媒體領(lǐng)域;智能分析;知識(shí)分析

        中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1671-0134(2018)08-035-03 DOI:10.19483/j.cnki.11-4653/n.2018.08.009

        引言

        在媒體格局、輿論生態(tài)、受眾對(duì)象、傳播技術(shù)都在發(fā)生深刻變化的今天,數(shù)據(jù)在新聞媒體轉(zhuǎn)型發(fā)展過(guò)程中已成為全新的富礦。以新華社為例,一條新聞從生產(chǎn)源頭的“采編發(fā)供”到用戶讀者端的傳播與反饋,都離不開(kāi)文本作為文學(xué)的載體和傳播的媒介。這些蘊(yùn)含著巨大潛力的文本大數(shù)據(jù),合理、充分地挖掘其價(jià)值很有必要。

        另一方面,伴隨著自然語(yǔ)言處理技術(shù)的飛速發(fā)展,文本語(yǔ)義分析已經(jīng)從20世紀(jì)基礎(chǔ)的詞典規(guī)則匹配、統(tǒng)計(jì)學(xué)概率計(jì)算的方法,漸漸轉(zhuǎn)變?yōu)楫?dāng)前主流的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的智能分析算法。同時(shí),分析對(duì)象與應(yīng)用場(chǎng)景也越來(lái)越廣泛,涵蓋了包括新聞、評(píng)論、社交媒體等領(lǐng)域的各個(gè)方面。

        黨的十八大以來(lái),以習(xí)近平同志為總書(shū)記的黨中央高度重視傳統(tǒng)媒體和新興媒體融合發(fā)展。新華社作為媒體融合發(fā)展的排頭兵、先行者,每天都需要對(duì)社內(nèi)數(shù)萬(wàn)條稿件及海量的互聯(lián)網(wǎng)文本進(jìn)行實(shí)時(shí)準(zhǔn)確的分析,中文語(yǔ)義分析作為基礎(chǔ)技術(shù),不可或缺。

        1.新聞媒體領(lǐng)域智能化的中文語(yǔ)義分析技術(shù)

        1.1結(jié)合新聞稿件特性的智能化詞語(yǔ)切分

        新華社日均有數(shù)以萬(wàn)條的稿件需要進(jìn)行文本語(yǔ)義分析,而種類(lèi)繁多的智能分析的背后,都離不開(kāi)對(duì)文本進(jìn)行詞語(yǔ)的切分,即自然語(yǔ)言處理中的分詞算法。眾所周知,英文文本以空格切分單詞,而中文文本需要根據(jù)語(yǔ)義切分詞語(yǔ),對(duì)連續(xù)字符按照語(yǔ)義規(guī)范進(jìn)行重新組合,切分難度更大。針對(duì)新聞媒體領(lǐng)域的歧義識(shí)別與新詞挖掘等中文語(yǔ)義分析難點(diǎn),著力從三個(gè)方面對(duì)其進(jìn)行智能化探索。

        1.1.1新聞媒體分詞詞庫(kù)的自動(dòng)化挖掘

        實(shí)際應(yīng)用的分詞系統(tǒng)往往是多種算法的融合,但一般都依賴一套高精度的新聞媒體行業(yè)詞庫(kù)。為此,結(jié)合我社稿件文本特點(diǎn),提出了基于共現(xiàn)詞頻過(guò)濾的新詞發(fā)現(xiàn)、少量人工校驗(yàn)輔助的分詞詞庫(kù)挖掘算法,一定程度上提升了分詞準(zhǔn)確率。

        1.1.2構(gòu)建大而全的新聞媒體領(lǐng)域語(yǔ)料庫(kù)

        除了基于詞庫(kù)規(guī)則的分詞算法,還有一種是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。這種方法依賴一定數(shù)量的“機(jī)器學(xué)習(xí)的教材”,即標(biāo)注好正確切分結(jié)果的訓(xùn)練數(shù)據(jù)(語(yǔ)料)。為使分詞模型更適合我社業(yè)務(wù)需求,我們收集了人民日?qǐng)?bào)、國(guó)家語(yǔ)委、各大評(píng)測(cè)等高質(zhì)量標(biāo)注的訓(xùn)練數(shù)據(jù)集,充分利用新聞媒體領(lǐng)域的漢語(yǔ)組詞的規(guī)律切分詞組。

        1.1.3針對(duì)實(shí)體短語(yǔ)進(jìn)行優(yōu)化加強(qiáng)

        作為國(guó)家通訊社,新華社從誕生起就在黨中央的直接領(lǐng)導(dǎo)下開(kāi)展工作,肩負(fù)黨和人民賦予的神圣使命,發(fā)揮喉舌、耳目、智庫(kù)和信息總匯作用。當(dāng)然,稿件也以正確輿論導(dǎo)向與時(shí)代主旋律為主。為此,我們針對(duì)部分時(shí)事政策類(lèi)的實(shí)體詞組進(jìn)行了大力優(yōu)化,例如“一帶一路”,“供給側(cè)改革”等,提高了相關(guān)詞組的切分能力。具體效果如圖1。

        1.2基于知識(shí)屬性的智能化主題分類(lèi)

        文字新聞報(bào)道是新華社的傳統(tǒng)報(bào)道形式,也是核心報(bào)道形式之一。它及時(shí)、準(zhǔn)確、權(quán)威地報(bào)道黨和國(guó)家的方針政策及國(guó)內(nèi)外時(shí)政、經(jīng)濟(jì)、軍事、外交、文化等領(lǐng)域的重要新聞。為了更好地對(duì)我社文字稿件進(jìn)行智能分析、智能檢索與推薦,一套新聞稿件智能主題分類(lèi)算法很有必要。

        當(dāng)前,新華社知識(shí)屬性為多類(lèi)、多級(jí)體系(13種一級(jí)知識(shí)屬性分類(lèi)、千余種多級(jí)指數(shù)屬性分類(lèi))。結(jié)合這套知識(shí)屬性,我們建立了多級(jí)主題分類(lèi)體系(為了保證智能分類(lèi)的準(zhǔn)確性,最深可達(dá)二級(jí)分類(lèi),詳見(jiàn)表1),同時(shí)結(jié)合當(dāng)前流行的深度神經(jīng)網(wǎng)絡(luò)算法,訓(xùn)練出一套可靠、高效的智能主題分類(lèi)算法。

        1.3多個(gè)角度智能化情感分析

        新華社在重大新聞報(bào)道上,除了要打贏新聞首發(fā)權(quán)搶奪戰(zhàn),同時(shí)也要兼顧熱點(diǎn)事件的全方位、多維度的精準(zhǔn)統(tǒng)計(jì)與分析,這樣才可以始終保持輿論導(dǎo)向的正確性。

        情感分析作為中文語(yǔ)義分析的一項(xiàng)基礎(chǔ)任務(wù),又稱(chēng)傾向性分析或意見(jiàn)挖掘。新聞?lì)I(lǐng)域的情感分析是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程。

        對(duì)熱點(diǎn)事件新聞及評(píng)論進(jìn)行情感分析,有助于對(duì)互聯(lián)網(wǎng)輿論的全面監(jiān)測(cè)與管理。在提升負(fù)面信息發(fā)現(xiàn)處置、情報(bào)預(yù)警和輿情導(dǎo)控能力的同時(shí),又充分利用互聯(lián)網(wǎng)數(shù)據(jù)服務(wù)于新聞生產(chǎn)全流程。為此,我們提出了從同一熱點(diǎn)事件的不同角度進(jìn)行深度情感挖掘的算法,各個(gè)話題的情感立場(chǎng)在界面中會(huì)一目了然地展現(xiàn)。如圖2所示。

        1.4文本主旨的智能化自動(dòng)摘要

        自動(dòng)文本摘要是利用智能化算法自動(dòng)編寫(xiě)和生成摘要。面向新聞文本的自動(dòng)摘要技術(shù)是解決當(dāng)前我社大量稿件素材信息過(guò)載問(wèn)題的一種輔助手段,有助于“采編發(fā)供”流程中各類(lèi)用戶更加快速、準(zhǔn)確、全面地獲取新聞文本信息。如何對(duì)這些新聞文本進(jìn)行高效存儲(chǔ)、信息檢索與挖掘成為一個(gè)迫切需要解決的重要問(wèn)題。

        針對(duì)新聞?lì)I(lǐng)域智能化自動(dòng)摘要的應(yīng)用場(chǎng)景,結(jié)合新聞文本結(jié)構(gòu)、句法及語(yǔ)義相關(guān)的知識(shí)特征,通過(guò)大量的迭代優(yōu)化與試驗(yàn),提出了面向新聞文本主旨的智能化自動(dòng)摘要方法。

        2.新聞媒體領(lǐng)域知識(shí)化的中文語(yǔ)義分析技術(shù)

        2.1結(jié)合新聞要素和特性的知識(shí)標(biāo)簽體系

        眾所周知,西方新聞界首先提出新聞要素的概念,即何時(shí)、何地、何人、何事、何故、如何。

        為了使新聞文本要素與新聞知識(shí)標(biāo)簽抽取相銜接,讓機(jī)器更加規(guī)范、智能地自動(dòng)提取新聞標(biāo)簽,我們提出了新聞的標(biāo)簽體系,包括時(shí)間、地點(diǎn)、人物、概念、事件五類(lèi)。其中,概念標(biāo)簽和事件標(biāo)簽的定義本文擬定如下:

        概念標(biāo)簽: 可概括為語(yǔ)義概念的文本詞條實(shí)體。

        事件標(biāo)簽: 可表征事件的文本詞條,直接引發(fā)事件的產(chǎn)生,是決定事件類(lèi)別的關(guān)鍵特征。

        其分類(lèi)與舉例詳見(jiàn)表2。

        本文涉及的新聞體系結(jié)構(gòu)圖如3:

        2.2基于標(biāo)簽類(lèi)別與權(quán)重的知識(shí)自動(dòng)提取

        面對(duì)鋪天蓋地的各類(lèi)型新聞與素材數(shù)據(jù),如何從中挖掘出真正有用的信息,是大數(shù)據(jù)應(yīng)用的一道門(mén)檻。以我社稿件文本為例,在大量數(shù)據(jù)面前,本文首先提出了知識(shí)標(biāo)簽體系規(guī)范,再根據(jù)規(guī)范將稿件按時(shí)間、地點(diǎn)、人物、概念、事件等要素進(jìn)行標(biāo)注。具體算法分為基礎(chǔ)中文語(yǔ)義智能分析、基于語(yǔ)義緊密度挖掘的短語(yǔ)合并、標(biāo)簽候選集的生成與過(guò)濾和依據(jù)語(yǔ)義關(guān)鍵度的排序輸出等步驟,如圖4所示。

        伴隨富標(biāo)簽體系的建立與智能抽取算法的設(shè)計(jì),新華社現(xiàn)有稿件分類(lèi)與檢索存在的諸多問(wèn)題將進(jìn)一步緩解。同時(shí),下一步我們會(huì)繼續(xù)提升系統(tǒng),以滿足數(shù)字網(wǎng)絡(luò)時(shí)代用戶對(duì)稿件精細(xì)搜索、智能檢索及個(gè)性化定制的需求,提高稿件存儲(chǔ)和檢索的高效性與準(zhǔn)確率,深度挖掘稿件在不同領(lǐng)域的應(yīng)用價(jià)值。

        2.3面向業(yè)務(wù)系統(tǒng)的知識(shí)圖譜初探

        知識(shí)圖譜作為知識(shí)工程的一個(gè)重要分支,以語(yǔ)義網(wǎng)絡(luò)作為理論基礎(chǔ),并且結(jié)合了自然語(yǔ)言處理和知識(shí)表示和推理等優(yōu)秀算法,在大數(shù)據(jù)的推動(dòng)下受到了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。

        構(gòu)建知識(shí)圖譜的主要目的是獲取大量有關(guān)聯(lián)的、計(jì)算機(jī)可理解的知識(shí)網(wǎng)絡(luò)。新華社建社之日起,八十余年的歷史中,海量非結(jié)構(gòu)化的稿件文本、半結(jié)構(gòu)化的表格和網(wǎng)頁(yè)以及生產(chǎn)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)含了大量待挖掘的新聞知識(shí)與關(guān)系(如圖5所示),這部分資源猶如待開(kāi)發(fā)的金礦,非常寶貴。

        知識(shí)圖譜構(gòu)建,包含了許多關(guān)鍵性技術(shù)。從較為基礎(chǔ)的自然語(yǔ)言處理技術(shù),對(duì)稿件文本進(jìn)行較為精確的分詞、實(shí)體提取、句法識(shí)別等工作,到進(jìn)階的實(shí)體關(guān)系識(shí)別、知識(shí)融合、實(shí)體鏈接和知識(shí)推理技術(shù)等。

        鑒于垂直領(lǐng)域詞典匱乏、知識(shí)人力標(biāo)注成本高等現(xiàn)狀,當(dāng)前新聞?lì)I(lǐng)域缺乏一套規(guī)范性強(qiáng)、可用性高的成型知識(shí)圖譜構(gòu)建技術(shù)。針對(duì)上述兩項(xiàng)研究困境,各大研究機(jī)構(gòu)可與我社資源互補(bǔ),真正提出一套面向新華社實(shí)際業(yè)務(wù)系統(tǒng)的知識(shí)圖譜技術(shù),相信對(duì)于解決新聞稿件文本智能分析問(wèn)題上將發(fā)揮重要作用。

        結(jié)論

        本文介紹了在媒體融合發(fā)展的大趨勢(shì)下,新聞媒體領(lǐng)域中文語(yǔ)義分析技術(shù)的智能化、知識(shí)化之路的研究與探索。

        在智能化的中文語(yǔ)義分析技術(shù)部分,本文首先介紹了結(jié)合新聞稿件特性的智能化詞語(yǔ)切分方面的研究,使分詞效果更符合新聞媒體業(yè)務(wù)要求;其次,分別從應(yīng)用場(chǎng)景出發(fā),簡(jiǎn)要說(shuō)明了語(yǔ)義分析算法,介紹了智能化主題分類(lèi)、情感分類(lèi)和自動(dòng)摘要技術(shù)。

        在知識(shí)化的中文語(yǔ)義分析技術(shù)部分,本文提出了結(jié)合新聞要素和特性的知識(shí)標(biāo)簽體系,并結(jié)合五類(lèi)標(biāo)簽的實(shí)際特征,設(shè)計(jì)了基于語(yǔ)義緊密度挖掘與關(guān)鍵度排序的標(biāo)簽自動(dòng)抽取算法;同時(shí),面向新華社業(yè)務(wù)系統(tǒng),對(duì)新聞媒體領(lǐng)域規(guī)范性強(qiáng)、可用性高的知識(shí)圖譜技術(shù)進(jìn)行了探索與展望。

        參考文獻(xiàn)

        [1]宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.

        [2]李航.統(tǒng)計(jì)學(xué)習(xí)方法[J].北京:清華大學(xué)出版社,2012.

        [3]俞士汶等.現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解[M].北京:清華大學(xué)出版社,2003.

        日本二区在线视频观看| 精品国产免费久久久久久| 亚洲大尺度动作在线观看一区| 深夜日韩在线观看视频| 无码一区二区三区| 国产色秀视频在线播放| 全免费a级毛片免费看| 国产精品午夜高潮呻吟久久av | 日韩av在线不卡一区二区| 中国午夜伦理片| 99精品视频在线观看| 亚洲欧洲美洲无码精品va| 亚洲熟女乱一区二区三区| 99久久99久久精品免费看蜜桃| 亚洲精品国产v片在线观看| 色窝综合网| 日韩人妻精品视频一区二区三区| 久久久亚洲av成人网站| 国产欧美日韩在线观看| 美女露屁股无内裤视频| 日本午夜理论片在线观看| 尤物网址在线观看| 一本无码人妻在中文字幕| 开心五月激动心情五月| 国产午夜福利片在线观看| 欧美巨大xxxx做受中文字幕| 亚洲中文字幕日产喷水| 国产一区白浆在线观看| 亚洲国产成人精品无码区二本 | 极品av在线播放| 麻豆国产精品一区二区三区| 成人性生交大片免费看96| 试看男女炮交视频一区二区三区| 免费看黄在线永久观看| 亚洲 日本 欧美 中文幕| 中文字幕人妻丝袜美腿乱| 国产精品一区二区AV不卡| 人妻制服丝袜中文字幕| 在线综合亚洲欧洲综合网站| 婷婷一区二区三区在线| 亚洲综合在不卡在线国产另类|