亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向自然語(yǔ)言處理的流式計(jì)算框架

        2018-08-19 09:26:48陳珉彭鸞李釗
        科學(xué)與財(cái)富 2018年23期
        關(guān)鍵詞:傳統(tǒng)媒體

        陳珉 彭鸞 李釗

        摘要:近年來(lái),自媒體發(fā)展速度非常迅猛,傳統(tǒng)媒體積極擁抱新媒體,加速媒體深度融合步伐。媒體生產(chǎn)數(shù)據(jù)、互聯(lián)網(wǎng)發(fā)布的數(shù)據(jù),每天有海量的數(shù)據(jù)需要分析處理,用于熱點(diǎn)新聞發(fā)現(xiàn)、新聞選題評(píng)價(jià)、傳播效果分析等應(yīng)用場(chǎng)景。傳統(tǒng)的數(shù)據(jù)分析框架已經(jīng)不能滿足用戶實(shí)時(shí)數(shù)據(jù)分析和查詢的需求。本文提出一種能夠適應(yīng)用戶連續(xù)處理分析海量文本數(shù)據(jù)的框架,具有低延時(shí)、可擴(kuò)展的特點(diǎn)。

        關(guān)鍵詞:自然語(yǔ)言處理;流式計(jì)算;傳統(tǒng)媒體

        一、背景

        當(dāng)前,大數(shù)據(jù)產(chǎn)業(yè)深刻改變著人類的生產(chǎn)和生活。地方媒體詳細(xì)記錄了地區(qū)發(fā)展變遷的歷程,存有大量的文字、圖片、視頻等歷史資料。同時(shí),在互聯(lián)網(wǎng)上每天有海量的新聞產(chǎn)品發(fā)布。將這些沉睡的、分散的數(shù)據(jù)有效匯聚、管理、挖掘、應(yīng)用。在支撐媒體產(chǎn)品生產(chǎn)同時(shí),服務(wù)于媒體自身的精準(zhǔn)營(yíng)銷,還可以高效便捷的為政府機(jī)構(gòu)、社會(huì)企業(yè)與民眾提供資料網(wǎng)絡(luò)查詢、城市資訊綜合服務(wù)等。逐步實(shí)現(xiàn)傳統(tǒng)媒體和新媒體的融合發(fā)展,變“內(nèi)容為王”為“信息服務(wù)為王”。

        二、面向自然語(yǔ)言處理的流式計(jì)算框架設(shè)計(jì)

        本文選用JStorm框架為流式計(jì)算平臺(tái)的基礎(chǔ),完整的面向自然語(yǔ)言處理的流式計(jì)算框架,包含數(shù)據(jù)源模塊、預(yù)處理模塊、實(shí)時(shí)計(jì)算模塊、存儲(chǔ)模塊以及反壓機(jī)制。

        (1)數(shù)據(jù)源模塊

        數(shù)據(jù)源模塊的作用是將數(shù)據(jù)不斷的送入JStorm中。本框架中采用的方法是接收用戶提交TXT、WORD、PDF、XML格式的文件,通過(guò)不同格式的文件解析器,解析文件中的內(nèi)容信息。之后,將大文本拆分為多個(gè)小文本以及進(jìn)行數(shù)據(jù)格式封裝。數(shù)據(jù)封裝是為了加入文本標(biāo)簽、文本歸屬、唯一標(biāo)識(shí)、調(diào)用的算法等信息,完成封裝后,進(jìn)入Redis緩存。

        (2)預(yù)處理模塊

        預(yù)處理模塊的作用是對(duì)需要處理的文本進(jìn)行預(yù)處理。預(yù)處理模塊在JStorm中是一個(gè)Bolt組件,包含了中文分詞、信息抽取等基礎(chǔ)算法。對(duì)待分析文本調(diào)用哪些基礎(chǔ)算法,根據(jù)數(shù)據(jù)源模塊中的封裝定義的。

        (3)實(shí)時(shí)計(jì)算模塊

        文本數(shù)據(jù)流通過(guò)實(shí)時(shí)計(jì)算模塊分別流入不同的具有高并行度的任務(wù)中,任務(wù)中運(yùn)行的是不同的算法,使用分布式鎖來(lái)保證數(shù)據(jù)的最終一致性。對(duì)任務(wù)的管理使用動(dòng)態(tài)平衡算法對(duì)任務(wù)分配規(guī)則加載,而不會(huì)影響正常的處理過(guò)程。這樣的機(jī)制具有很高的動(dòng)態(tài)穩(wěn)定性,無(wú)論是動(dòng)態(tài)增加計(jì)算能力,還是動(dòng)態(tài)管理算法配置,都不會(huì)影響正常的服務(wù)。開(kāi)發(fā)人員需要實(shí)現(xiàn)框架針對(duì)應(yīng)用開(kāi)發(fā)人員提供的API,對(duì)數(shù)據(jù)對(duì)象、計(jì)算邏輯進(jìn)行內(nèi)部封,也可以完成詞庫(kù)和算法模型的調(diào)用。

        針對(duì)自然語(yǔ)言處理的使用場(chǎng)景,對(duì)JStorm的實(shí)時(shí)計(jì)算框架進(jìn)行了一些優(yōu)化處理。實(shí)時(shí)任務(wù)查詢功能,根據(jù)數(shù)據(jù)源模塊中封裝的唯一任務(wù)標(biāo)識(shí)進(jìn)行任務(wù)進(jìn)度查詢。圖形化任務(wù)發(fā)布功能,是在網(wǎng)頁(yè)上可以將算法任務(wù)發(fā)布成處理的任務(wù)。任務(wù)分配模塊,主要是優(yōu)化算法調(diào)用的順序,通過(guò)Redis通知來(lái)實(shí)現(xiàn)?;瑒?dòng)窗口管理,通過(guò)定時(shí)輸出采樣數(shù)據(jù),使用TOPN算法,輸出滑動(dòng)窗口內(nèi),系統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)特征。

        (4)存儲(chǔ)模塊

        存儲(chǔ)模塊是將分析處理后的結(jié)果落地,用于可視化的展示使用。存儲(chǔ)模塊分兩類,一類NoSQL數(shù)據(jù)庫(kù),一類是網(wǎng)絡(luò)文件系統(tǒng)NFS。在實(shí)時(shí)計(jì)算平臺(tái)最后一個(gè)Bolt節(jié)點(diǎn),使用Redis數(shù)據(jù)庫(kù)將計(jì)算結(jié)果緩存下來(lái),并發(fā)送消息通知給可視化展示模塊。可視化展示模塊,在收到通知后,將最終的結(jié)果用JSON格式存儲(chǔ)在文件系統(tǒng)中。對(duì)于中間過(guò)程,可視化模塊通過(guò)展示Redis緩存數(shù)據(jù),可顯示中間過(guò)程。使用Redis作為緩存,保證了在計(jì)算節(jié)點(diǎn)宕機(jī)的情況,數(shù)據(jù)的恢復(fù)能力。

        (5)反壓機(jī)制

        由于Spout數(shù)據(jù)源的處理能力不均及承載算法Bolt節(jié)點(diǎn)的任務(wù)處理時(shí)長(zhǎng)的差異性,導(dǎo)致Tuple數(shù)據(jù)流有時(shí)存在超時(shí)現(xiàn)象,影響系統(tǒng)整體的吞吐量及其性能。本系統(tǒng)是在Spout節(jié)點(diǎn)中使用基于隊(duì)列的數(shù)據(jù)流反壓機(jī)制來(lái)優(yōu)化上述問(wèn)題。在Spout節(jié)點(diǎn)中訂閱Redis通知,在收到Redis推送的通知后,將消息ID和消息內(nèi)容壓入消息隊(duì)列,消息隊(duì)列使用LinkedTransferQueue和ConcurrentHashMap實(shí)現(xiàn)數(shù)據(jù)對(duì)象的臨時(shí)緩存。不斷調(diào)用的nextTuple函數(shù)會(huì)從消息隊(duì)列中拉取消息,并發(fā)射數(shù)據(jù)到Bolt算法節(jié)點(diǎn)中。

        三、物理部署

        流式計(jì)算系統(tǒng)部署主要分為五大塊,實(shí)時(shí)計(jì)算集群、離線計(jì)算集群、網(wǎng)絡(luò)應(yīng)用服務(wù)器、數(shù)據(jù)庫(kù)集群以及性能監(jiān)控預(yù)警;實(shí)時(shí)計(jì)算集群主要提供實(shí)時(shí)計(jì)算平臺(tái)用于實(shí)時(shí)數(shù)據(jù)分析服務(wù);離線計(jì)算集群提供的是離線計(jì)算平臺(tái),主要用于語(yǔ)料處理、詞庫(kù)訓(xùn)練以及語(yǔ)料存儲(chǔ)等功能;網(wǎng)絡(luò)應(yīng)用服務(wù)器用于向外提供基于Web的顯示服務(wù),數(shù)據(jù)庫(kù)集群部署關(guān)系型數(shù)據(jù)和非關(guān)系型數(shù)據(jù)庫(kù),分別用于存儲(chǔ)業(yè)務(wù)數(shù)據(jù)和詞庫(kù)數(shù)據(jù)。各個(gè)分隔的模塊之間用消息服務(wù)連接。整個(gè)平臺(tái)使用性能監(jiān)控預(yù)警服務(wù)對(duì)平臺(tái)的運(yùn)行情況進(jìn)行全面的監(jiān)控管理。

        四、結(jié)語(yǔ)

        面向自然語(yǔ)言處理的流式計(jì)算系統(tǒng)符合目前主流的云平臺(tái)結(jié)構(gòu)設(shè)計(jì),確保實(shí)用性、開(kāi)放性系統(tǒng)易維護(hù)的原則。系統(tǒng)以B/S結(jié)構(gòu)為主,系統(tǒng)提供的自然語(yǔ)言處理計(jì)算服務(wù),滿足傳統(tǒng)媒體對(duì)于熱點(diǎn)新聞發(fā)現(xiàn)、新聞選題評(píng)價(jià)、傳播效果分析等場(chǎng)景下的業(yè)務(wù)需求。

        參考文獻(xiàn):

        [1]蔣晨晨,季一木,孫雁飛,王汝傳.基于Storm的面向大數(shù)據(jù)實(shí)時(shí)流查詢系統(tǒng)設(shè)計(jì)研究.南京郵電大學(xué)學(xué)報(bào)2016.6

        [2]李昊鵬.流式計(jì)算的研究與應(yīng)用.理論探索.2017.10

        [3]熊安萍,朱恒偉,羅宇豪.Storm流式計(jì)算框架反壓機(jī)制研究.計(jì)算機(jī)工程與應(yīng)用.2018.54(1)

        猜你喜歡
        傳統(tǒng)媒體
        微博與傳統(tǒng)媒體新聞生產(chǎn)互動(dòng)關(guān)系的探討
        新聞傳播(2018年2期)2018-12-07 00:56:32
        關(guān)于傳統(tǒng)媒體能否打造“名公號(hào)”的思考
        傳統(tǒng)媒體為什么要包裝自己的“網(wǎng)紅”
        當(dāng)前傳統(tǒng)媒體版權(quán)保護(hù)的難點(diǎn)及對(duì)策
        傳統(tǒng)媒體版權(quán)保護(hù)面臨八大難關(guān)
        新聞傳播(2016年9期)2016-09-26 12:20:15
        論網(wǎng)絡(luò)時(shí)代傳統(tǒng)媒體的應(yīng)對(duì)之策
        新聞傳播(2016年18期)2016-07-19 10:12:06
        傳統(tǒng)媒體在新形勢(shì)下如何實(shí)現(xiàn)突圍
        新聞傳播(2016年2期)2016-07-12 10:52:13
        五問(wèn)傳統(tǒng)媒體:你以為熬過(guò)寒冬就是春天嗎?
        新聞傳播(2016年1期)2016-07-12 09:24:44
        淺析傳統(tǒng)媒體的優(yōu)勢(shì)與不足
        西藏科技(2015年5期)2015-09-26 11:55:29
        傳統(tǒng)媒體PK新媒體,向新媒體學(xué)習(xí)什么?
        新聞傳播(2015年13期)2015-07-18 11:00:41
        国产自国产在线观看免费观看| 国产肥熟女视频一区二区三区| 精品久久久亚洲中文字幕| 伊人婷婷综合缴情亚洲五月| 国产国产精品人在线视| 久久夜色精品国产| 国产91 对白在线播放九色| 超短裙老师在线观看一区二区| 手机在线播放成人av| 精品亚洲国产成人蜜臀av| 67194熟妇在线永久免费观看| 肉体裸交丰满丰满少妇在线观看| 2021精品国产综合久久| 国产精品成人有码在线观看| 漂亮人妻被强了完整版| 在线欧美中文字幕农村电影| 成人激情四射网| 国产精品亚洲av无人区一区蜜桃| 免费国产一区二区视频| 免费人成年激情视频在线观看| a级大胆欧美人体大胆666| 国产女高清在线看免费观看| 日韩av综合色区人妻| 国产精品亚洲一区二区三区| 中文字幕亚洲欧美日韩2019| 久久99精品中文字幕在| 国产av精选一区二区| 日韩日韩日韩日韩日韩| 亚洲av理论在线电影网| 九色精品国产亚洲av麻豆一 | 日本精品无码一区二区三区久久久| 久久99久久99精品免观看| 亚洲一区二区自拍偷拍| 亚洲乱码av一区二区蜜桃av| 欧美大片aaaaa免费观看| 热の国产AV| 亚洲一区二区女优视频| 丝袜美腿亚洲一区二区| 欧美成a人片在线观看久| 久久婷婷国产综合精品| 男女av免费视频网站|