亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)下智能寫稿輔助服務(wù)的設(shè)計(jì)與實(shí)踐

        2018-08-21 03:56:54任海平
        傳媒論壇 2018年4期
        關(guān)鍵詞:代碼語義聚類

        任海平

        (浙江日?qǐng)?bào)報(bào)業(yè)集團(tuán)產(chǎn)品研發(fā)中心,浙江 杭州 310039)

        一、引言

        隨著媒體大數(shù)據(jù)時(shí)代的到來,媒體用戶獲取信息的渠道變得越來越豐富,也越來越便利,而日益快速增長(zhǎng)的新聞資源不僅給新聞出版行業(yè)發(fā)展帶來巨大的機(jī)遇,更帶來了前所未有的挑戰(zhàn)。這些挑戰(zhàn)是多層次、多方面的,本文聚焦其中的技術(shù)挑戰(zhàn)——如何高效利用海量新聞資源提升新聞制作水平,立足浙報(bào)集團(tuán)媒體出版特色,利用深度學(xué)習(xí)的模型設(shè)計(jì)并實(shí)現(xiàn)智能寫稿輔助服務(wù)平臺(tái)。

        要實(shí)現(xiàn)高質(zhì)量的智能寫稿輔助功能,關(guān)鍵技術(shù)難點(diǎn)是如何快速有效地從海量新聞文本中把與當(dāng)前撰寫稿件相關(guān)的新聞資料匯聚起來,形成有價(jià)值的創(chuàng)作素材。由于這種匯聚要求在語義上是高度相關(guān)的,因此簡(jiǎn)單利用關(guān)鍵詞搜索不僅費(fèi)時(shí)費(fèi)力,也無法取得匯聚的良好效果。利用機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)新聞文本資源的自動(dòng)聚類是一個(gè)較好的解決方案。傳統(tǒng)面向文本聚類的機(jī)器學(xué)習(xí)方法主要包括:基于決策樹、基于概率圖模型和基于向量空間等各類方法。然而,這些方法都屬于淺層模型,無法利用不斷增長(zhǎng)的文本數(shù)據(jù)來提高聚類效果,甚至?xí)陆?。因此,本文采用深度學(xué)習(xí)的模型,實(shí)現(xiàn)新聞文本資源的高質(zhì)量聚類。具體而言,我們利用深度學(xué)習(xí)模型對(duì)文本進(jìn)行層層特征提取并降維,最終獲得較為精練的文本特征代碼,使得在語義上相關(guān)度較高的文本代碼,在語義空間中的距離也是相近的,從而實(shí)現(xiàn)相關(guān)資料的匯聚。

        在內(nèi)容創(chuàng)作過程中,利用訓(xùn)練好的深度模型,系統(tǒng)可以動(dòng)態(tài)提取當(dāng)前稿件內(nèi)容(甚至只是一個(gè)標(biāo)題),生成語義代碼,并快速?gòu)暮A棵劫Y庫(kù)中捕捉到與當(dāng)前最為相關(guān)的文本素材,第一時(shí)間推送至寫稿平臺(tái),供內(nèi)容創(chuàng)作者參考使用,這便是本文闡述的智能寫稿輔助服務(wù)。由此項(xiàng)技術(shù)衍生出“主題延展”“稿件背景”“自動(dòng)摘要”甚至機(jī)器寫作等場(chǎng)景應(yīng)用,讓內(nèi)容創(chuàng)作者真正享受到人工智能時(shí)代的紅利。

        二、基于深度學(xué)習(xí)的文本聚類模型

        寫稿的智能內(nèi)容輔助的關(guān)鍵技術(shù)難點(diǎn)在于如何根據(jù)寫稿人當(dāng)前錄入的部分內(nèi)容,在語義空間中生成相應(yīng)的語義代碼(向量),并快速在媒質(zhì)庫(kù)中獲取和該語義代碼距離最為接近的相關(guān)文本資料。因此,這在機(jī)器學(xué)習(xí)領(lǐng)域中是一個(gè)典型的文本聚類問題,即利用高效的算法實(shí)現(xiàn)針對(duì)在人看來語義相近的文本在虛擬語義空間中也是距離相近的。

        為此首先我們要對(duì)文本進(jìn)行建模,目前最為常用的建模方式是“文檔-詞”矩陣(簡(jiǎn)稱“D-T”矩陣):A=(aik),其中aik是矩陣中的元素,目前大多采用TF-IDF權(quán)重法。在此基礎(chǔ)上,本文利用深度學(xué)習(xí)模型從“D-T”矩陣中生成高質(zhì)量的語義特征代碼,利用這種代碼,可以高效地獲得和寫稿內(nèi)容相關(guān)文本資料。在闡述新方法之前,我們首先回顧一下傳統(tǒng)文本聚類的主要方法。

        (一)傳統(tǒng)文本聚類的主要方法

        為實(shí)現(xiàn)有效的文本聚類,機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)做了長(zhǎng)期的探索,并取得長(zhǎng)足進(jìn)展。從技術(shù)實(shí)現(xiàn)路線劃分,傳統(tǒng)文本聚類算法大致分為以下三種:

        1.基于決策樹的模型

        決策樹(Decision Tree)是一種利用樹狀結(jié)構(gòu)來描述一個(gè)決定和其產(chǎn)生結(jié)果的模型,并且在樹的結(jié)構(gòu)中,賦予每個(gè)結(jié)果一定的可能性。其中主要典型算法包括:ID5、C4.5、QUEST、PUBLIC等。決策樹的優(yōu)勢(shì)在于邏輯和規(guī)則的可解釋性,對(duì)于非大量的強(qiáng)數(shù)據(jù)集,結(jié)合領(lǐng)域?qū)<业慕?jīng)驗(yàn),決策樹可以取得較好的效果。

        2.基于概率圖的模型

        概率圖模型是文本挖掘中應(yīng)用最為廣泛的一種模型,它的基本假設(shè)是不同的文本擁有不同詞的聯(lián)合概率分布,換句話說,不同詞的概率組合將產(chǎn)生不同類型的文本,其中典型模型包括:樸素貝葉斯分類器(Na?ve Bayes Classifier),pLSA(Probabilistic Latent Semantic Analysis)和LDA(Latent Dirichlet Allocation)等。該類算法模型,能夠發(fā)展各種更加復(fù)雜的模型,并在新聞文本語義分析中做出很大的貢獻(xiàn)。

        3.基于向量空間的模型

        基于向量空間的模型立足“D-T”矩陣,每一行代表一個(gè)文檔,它在向量空間中為一個(gè)向量,每一個(gè)分量代表詞的權(quán)重。該類模型通過各種向量空間的變換來估算兩篇文本的相似度,其中典型模型包括:支持向量機(jī)(Support Vector Machine,SVM)、k個(gè)最鄰近(k-Nearest Neighbor,kNN)算法和支持向量聚類(Support Vector Clustering,SVC)模型等。

        這三類算法模型均屬于淺層模型,其主要局限性體現(xiàn)在,它們無法充分利用不斷增長(zhǎng)的文本大數(shù)據(jù)來提升其性能(甚至?xí)陆担?,同時(shí)無法實(shí)現(xiàn)多層次隱含語義的高效分析。因此,本文采用深度學(xué)習(xí)的方法實(shí)現(xiàn)高效語義代碼的提取并聚類。

        (二)基于深度學(xué)習(xí)的文本聚類模型

        圖1

        為充分利用媒資庫(kù)中海量的新聞文本數(shù)據(jù),提升聚類的效果,本文采用了深度學(xué)習(xí)模型,生成蘊(yùn)含有效語義的文本代碼的基礎(chǔ)上,實(shí)現(xiàn)高質(zhì)量文本聚類。目前深度學(xué)習(xí)比較主流的模型有CNNs(Convolutional Neural Networks)、DGMs(Deep Generative Models) 和 RNNs(Recurrent Neural Networks)。由于文本聚類是非監(jiān)督學(xué)習(xí),因此我們采用屬于DGMs中DBNs(Deep Belief Networks, DBNs),如圖1(b)所示。

        圖1是基于DBN的文本聚類模型示意圖,(a)是RBM,用于逐層預(yù)訓(xùn)練;(b)是DBN,為本文主模型[2000,800, 800, 256];(c)是在DBN精調(diào)過程中,展開的Deep Autoencoder。

        DBNs是一種混合多層概率圖模型,它可以利用RBMs(Restricted Boltzmann Machines)實(shí)現(xiàn)層層預(yù)訓(xùn)練(pre-training)來獲得多層次特征的提取。而RBM是一種基于能量的模型,預(yù)訓(xùn)練的詳細(xì)過程可詳見Hinton的成果。

        要提取文本的語義特征,并生成代碼,首先要利用首層RBM對(duì)文本進(jìn)行采樣和建模。首先,我們利用傳統(tǒng)方法獲得文本“D-T”矩陣。由于每篇文本的長(zhǎng)度不同,因此我們采用的方式是復(fù)制Softmax模型進(jìn)行首層采樣和預(yù)訓(xùn)練,具體采樣公式如下:

        公式(1)(2)

        其中vik,為第i篇文本的第k個(gè)分量,h(1)為第1隱藏層,{W(1),a(1),b(1),}為第1層RBM的參數(shù),g(x)=1/(1+exp(-x))為L(zhǎng)ogistic函數(shù)。在此基礎(chǔ)上,利用多層RBM分別對(duì){h(1),h(2),h(3),}進(jìn)行訓(xùn)練,并在h(3)上獲得文本的特征代碼。此時(shí)的特征代碼還不是最優(yōu)化的,需要將DBN展開成為一個(gè)稱之為Deep Autoencoder的深度編碼器,并利用反向傳播(Backprogation)機(jī)制,獲得最優(yōu)化的代碼,如圖1(c)所示。這里反向出傳播的目標(biāo)函數(shù)選擇交叉熵的偏差(cross-entropy error)函數(shù):

        公式(3)

        其中,vi(input)為第篇文本,vi(output)為第i篇文本通過層層采樣后的輸出,M為文本的數(shù)目。

        深度編碼器對(duì)DBN的參數(shù)做進(jìn)一步優(yōu)化之后,我們可以在深度模型的頂層h(3)獲得文本較高質(zhì)量的特征代碼,我們將該特征代碼存入媒資庫(kù)的每篇文稿的記錄中,并在智能寫稿輔助服務(wù)中,用于語義相關(guān)性的聚類和搜索。

        三、智能寫稿輔助服務(wù)的設(shè)計(jì)

        在確立了上述理論和技術(shù)模型后,接下來就是如何將其應(yīng)用于媒體內(nèi)容采編環(huán)節(jié),賦予更多的智能。為此,我們選擇了智能寫稿輔助服務(wù)作為切入點(diǎn)。在傳統(tǒng)的寫稿功能設(shè)計(jì)中往往只實(shí)現(xiàn)了一些常規(guī)性功能,如:發(fā)稿單欄設(shè)置、內(nèi)容編輯、文字修飾、字行統(tǒng)計(jì)、文章關(guān)聯(lián)、檢索等,這些功能只對(duì)成文方面提供了一定幫助。隨著媒體對(duì)內(nèi)容創(chuàng)作的數(shù)量、質(zhì)量、效率以及非同質(zhì)化要求越來越高,這些傳統(tǒng)功能早已無法滿足新的需求。創(chuàng)作者們渴望通過新技術(shù)手段來提升內(nèi)容策劃、內(nèi)容組織、背景資料查找以及關(guān)聯(lián)信息挖掘能力,為內(nèi)容“編碼”,實(shí)現(xiàn)知識(shí)增量,快速形成精品原創(chuàng)。

        (一)數(shù)據(jù)源采集

        要形成有效的智能寫稿輔助服務(wù),首先要構(gòu)建一套海量的、存放高質(zhì)量語義特征代碼的媒資庫(kù),這也是內(nèi)容基礎(chǔ)。目前能為媒體所用的數(shù)據(jù)源非常廣泛,就以浙報(bào)集團(tuán)“媒立方”項(xiàng)目而言,數(shù)據(jù)的采集分為了資源圈與分析圈,覆蓋了新聞、資訊、交互性內(nèi)容范疇,包括但不局限于集團(tuán)采編資源、歷史媒資數(shù)據(jù)、全網(wǎng)重點(diǎn)新聞(如:媒體網(wǎng)站、政府門戶、微博、微信、論壇、新聞爆料、數(shù)字報(bào)、APP)以及民眾互動(dòng)數(shù)據(jù)等,如圖2。

        (二)數(shù)據(jù)源處理

        接下來就是對(duì)這些采集數(shù)據(jù)的清洗處理,包括脫敏(保留隱私性)、清理(保留有效數(shù)據(jù))、加標(biāo)簽(分類)等前序工作,形成初始數(shù)據(jù)源(圖2-[S1])。若計(jì)算資源充足,還可對(duì)初始數(shù)據(jù)源按信息階段(信息發(fā)現(xiàn)、信息跟蹤、信息挖掘、信息推薦、信息評(píng)估)和信息性質(zhì)(速度、廣度、準(zhǔn)度、深度、流行度)兩大需求方向進(jìn)行二次結(jié)構(gòu)化預(yù)處理,形成初始數(shù)據(jù)源(圖2-[S2])。最后,利用深度學(xué)習(xí)模型,將預(yù)處理結(jié)果數(shù)據(jù)進(jìn)行特征代碼計(jì)算、提取、存儲(chǔ),形成真正可利用的優(yōu)質(zhì)信息,供智能寫稿服務(wù)使用。

        (三)功能應(yīng)用

        根據(jù)實(shí)際應(yīng)用需要,我們?cè)O(shè)計(jì)了兩類智能寫稿輔助服務(wù):主題延展和背景資料,并在浙報(bào)集團(tuán)“媒立方”項(xiàng)目的融合寫稿編輯器中應(yīng)用,并取得了非常好的效果。

        1.主題延展的實(shí)現(xiàn)與效果

        主題延展可動(dòng)態(tài)獲取當(dāng)前稿件相似主題、相似內(nèi)容在其他媒體的報(bào)道文章。對(duì)于該場(chǎng)景設(shè)計(jì),需要將智能輔助服務(wù)掛鉤內(nèi)容編輯的全過程,隨著創(chuàng)作內(nèi)容篇幅的越來越長(zhǎng),其文章主題也逐漸清晰,當(dāng)完成整段內(nèi)容輸入,系統(tǒng)即可觸發(fā)機(jī)器深度學(xué)習(xí)算法服務(wù),對(duì)當(dāng)前已輸入內(nèi)容進(jìn)行分析并抽取語義特征代碼。與此同時(shí),該服務(wù)與后臺(tái)媒資庫(kù)海量語義特征碼進(jìn)行匹配,當(dāng)超過預(yù)設(shè)的匹配值后,系統(tǒng)便可獲取相似度最高的文章推送至用戶端。

        對(duì)于相似主題文章的展示,我們?cè)谠O(shè)計(jì)上應(yīng)包括:標(biāo)題、摘要、來源、發(fā)布時(shí)間,具體控制如表1所示。

        表1 各要素設(shè)計(jì)說明

        在“媒立方”項(xiàng)目融合編輯器設(shè)計(jì)中,我們?yōu)榫庉嬈鞯挠覀?cè)欄專門設(shè)計(jì)了智能輔助頁簽欄,可別小看這幾個(gè)頁簽,已經(jīng)成為記者編輯在內(nèi)容采編過程中不可或缺的助手。一旦創(chuàng)作者開始內(nèi)容寫作,“主題延展”服務(wù)便根據(jù)編輯器中的內(nèi)容進(jìn)行智能分析,并實(shí)時(shí)地將匹配到的信息推送至編輯窗右側(cè)頁簽內(nèi),設(shè)計(jì)界面如圖3:

        圖3:主題延展界面展示

        (1)查閱結(jié)果:“主題延展”結(jié)果內(nèi)容以瀑布流式顯示,并分布在稿件編輯器右側(cè),用戶點(diǎn)擊任意一篇內(nèi)容即可打開查閱原文。對(duì)于長(zhǎng)標(biāo)題,只需將鼠標(biāo)放置標(biāo)題位置,便會(huì)彈出浮動(dòng)信息窗,完整顯示標(biāo)題內(nèi)容。當(dāng)結(jié)果文章數(shù)過多并超出本頁,可單點(diǎn)擊“展開更多”進(jìn)行全量查閱。

        圖2:數(shù)據(jù)源采集與處理框架

        (2)內(nèi)容選取:內(nèi)容選用方式在設(shè)計(jì)上要突出方便、快速,因此在本設(shè)計(jì)中,我們約定了鼠標(biāo)拖拽方式,通過鼠標(biāo)拖動(dòng)即可將所選文章內(nèi)容、圖片、音視頻,插入至編輯器正文光標(biāo)位置。

        (3)主題延展內(nèi)容更新:每次觸發(fā)“主題延展”功能,均會(huì)對(duì)當(dāng)前正文內(nèi)容進(jìn)行一次深度學(xué)習(xí),并同步更新“主題延展”結(jié)果內(nèi)容清單。內(nèi)容更新的觸發(fā)機(jī)制有很多種,可以在內(nèi)容增刪改查時(shí)觸發(fā),亦可在換行、換段以及保存時(shí)觸發(fā),為了最大程度避免影響寫作體驗(yàn),同時(shí)又能達(dá)到主題延展效果,最終我們選定了“回車換行”作為主要觸發(fā)機(jī)制。

        2.稿件背景的實(shí)現(xiàn)與效果

        “稿件背景”是從當(dāng)前稿件內(nèi)容中抽取人名、地名、機(jī)構(gòu)名等關(guān)鍵詞,加以解釋,或列舉這些關(guān)鍵詞在歷史重要媒體報(bào)道中的描述,為內(nèi)容創(chuàng)作者提供稿件背景資料。同理,在該場(chǎng)景設(shè)計(jì)中,用戶在內(nèi)容創(chuàng)作到達(dá)一定篇幅后,系統(tǒng)會(huì)根據(jù)已輸入內(nèi)容觸發(fā)機(jī)器深度學(xué)習(xí)服務(wù),確立人名、地名、機(jī)構(gòu)名等關(guān)鍵詞以及語義特征代碼,并與媒資庫(kù)海量語義特征碼進(jìn)行匹配,獲取相似度最高的文章推送給用戶端,為內(nèi)容創(chuàng)作者提供文章相關(guān)的高價(jià)值信息。對(duì)于稿件背景結(jié)果的展示,在設(shè)計(jì)上包括:標(biāo)題、摘要、來源、發(fā)布時(shí)間,展示控制與“主題延展”相同。但不同的是,稿件背景的核心匹配目標(biāo)是文章關(guān)鍵詞,如:人名、地名、機(jī)構(gòu)名以及其他關(guān)鍵詞,通過不同組合的關(guān)鍵詞選擇,將會(huì)產(chǎn)生不同的背景資料呈現(xiàn)結(jié)果。

        在“媒立方”項(xiàng)目融合編輯器設(shè)計(jì)中,我們同樣為編輯器的右側(cè)欄專門設(shè)計(jì)了“稿件背景”智能輔助頁簽。在內(nèi)容創(chuàng)作過程中,系統(tǒng)會(huì)自動(dòng)從當(dāng)前稿件中抽取人名、地名、機(jī)構(gòu)名等關(guān)鍵詞,并列舉這些關(guān)鍵詞在各類媒體報(bào)道中的詳細(xì)描述,為內(nèi)容創(chuàng)作者提供文章相關(guān)背景信息。例如:一篇稿件中引用了某一句詩(shī)歌、典故,通過背景資料就可以快速定位到這句詩(shī)歌、典故的完整原創(chuàng)內(nèi)容。設(shè)計(jì)界面如下:

        圖4:稿件背景界面展示

        “稿件背景”以瀑布流方式顯示關(guān)鍵詞所定位的原文內(nèi)容,用戶可在稿件編輯器右側(cè)“稿件背景”欄點(diǎn)擊查閱。各類關(guān)鍵詞間以“and”搜索關(guān)系約束,且同一類關(guān)鍵詞約束為單選,不同類關(guān)鍵詞允許多選。內(nèi)容選用方式、內(nèi)容更新與“主題延展”功能設(shè)計(jì)一致。

        四、結(jié)束語

        本文詳細(xì)闡述了基于深度學(xué)習(xí)的智能寫稿輔助服務(wù)的關(guān)鍵技術(shù)和設(shè)計(jì)方案,其出發(fā)點(diǎn)是讓機(jī)器(服務(wù)器計(jì)算資源)充分進(jìn)入內(nèi)容信息源領(lǐng)域,幫助我們完成第一道最費(fèi)時(shí)費(fèi)力的數(shù)據(jù)收集和結(jié)構(gòu)化處理工作,讓海量的內(nèi)容資源庫(kù)成為真正有價(jià)值的知識(shí)庫(kù)。當(dāng)然對(duì)算法模型的優(yōu)化與實(shí)踐還需要一個(gè)過程,可以預(yù)見,在不久的將來,通過人工智能深度學(xué)習(xí),必然會(huì)帶來包含內(nèi)容生產(chǎn)要素在內(nèi)的衍生變化,甚至引發(fā)傳統(tǒng)信息流生產(chǎn)方式的顛覆。

        猜你喜歡
        代碼語義聚類
        語言與語義
        創(chuàng)世代碼
        創(chuàng)世代碼
        創(chuàng)世代碼
        創(chuàng)世代碼
        基于DBSACN聚類算法的XML文檔聚類
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        認(rèn)知范疇模糊與語義模糊
        亚洲欧美日韩另类精品一区 | 99国产精品无码专区| 人妻一区二区三区免费看| av中文字幕在线直播| 欧美午夜理伦三级在线观看| 国产精品成人aaaaa网站| 少妇饥渴xxhd麻豆xxhd骆驼| 无码人妻丝袜在线视频| 亚洲天堂av中文字幕| 亚洲一区二区三区少妇| 久久久久无码国产精品一区| 成年午夜无码av片在线观看 | 人成午夜大片免费视频77777 | av影片在线免费观看| 免费人成网站在线观看欧美| 亚洲精品久久久无码av片软件| 亚洲无码性爱视频在线观看| 99国语激情对白在线观看| 加勒比东京热中文字幕| 人妻少妇中文字幕乱码| 国产偷国产偷亚洲清高| 日本一区二区三区在线 | 亚洲网站免费看| 99视频偷拍视频一区二区三区| 国产午夜视频在线观看.| 亚洲熟妇少妇任你躁在线观看无码| 午夜福利视频合集1000| 特级毛片a级毛片在线播放www| 自拍偷区亚洲综合第一页| 精品亚洲成a人在线观看| 国产精品18久久久久久麻辣| 美女高潮流白浆视频在线观看| 亚洲精品色播一区二区| 亚洲精品1区2区在线观看| 久久久www成人免费精品| 亚洲AⅤ无码国精品中文字慕| 久久综合这里只有精品| 精品人伦一区二区三区蜜桃91| 色 综合 欧美 亚洲 国产| 欧美日韩一区二区三区色综合| 国产在线播放免费人成视频播放 |