亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AI技術(shù)的新媒體自動(dòng)采編系統(tǒng)設(shè)計(jì)

        2022-09-14 02:30:58
        中國新技術(shù)新產(chǎn)品 2022年11期
        關(guān)鍵詞:資料庫分詞架構(gòu)

        楊 昆

        (辰溪縣融媒體中心,湖南 懷化 419500)

        0 引言

        在網(wǎng)絡(luò)快速發(fā)展的今天,新媒體的自動(dòng)采編系統(tǒng)為媒體事業(yè)的發(fā)展奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。但是,由于目前的采編系統(tǒng)功能較為單一,缺乏完整的作品分享庫,且存在權(quán)限不明確等問題,造成了工作效率低下,同時(shí)也不能保障系統(tǒng)資源的安全性。針對(duì)上述問題,該文提出一種基于AI技術(shù)的新型新媒體采編系統(tǒng)。能夠?qū)崿F(xiàn)新媒體內(nèi)容的網(wǎng)上協(xié)同工作,以及稿件資源的共享,將業(yè)務(wù)和辦公相結(jié)合,為企業(yè)的新媒體采編業(yè)務(wù)發(fā)展提供了一套完整的解決方案。在系統(tǒng)模塊的設(shè)計(jì)上,通過層次劃分,把控制層、服務(wù)層、數(shù)據(jù)層、應(yīng)用層等層次進(jìn)行了劃分,使整個(gè)系統(tǒng)更加高效,更加好維護(hù)。在功能設(shè)計(jì)上,要充分考慮到新媒體的特性和不同的編輯生產(chǎn)要求,從而提高編輯處理系統(tǒng)的實(shí)用性。另外,還要考慮到系統(tǒng)的安全需求。從系統(tǒng)的可用性角度出發(fā),針對(duì)系統(tǒng)的具體應(yīng)用進(jìn)行了測(cè)試,從功能和非功能兩個(gè)方面進(jìn)行了驗(yàn)證,結(jié)果表明該系統(tǒng)是可行的,滿足了對(duì)采編流程優(yōu)化、圖片管理、績效管理等功能性要求以及易用性、可靠性和安全性等非功能性要求。利用人工智能技術(shù),設(shè)計(jì)出一套新媒體的自動(dòng)化采編系統(tǒng),實(shí)現(xiàn)了網(wǎng)上采編的全過程,以及新媒體辦公的集成系統(tǒng)。

        1 新媒體自動(dòng)采編系統(tǒng)功能分解

        1.1 系統(tǒng)功能設(shè)計(jì)

        在基于AI技術(shù)的新媒體采編系統(tǒng)開發(fā)的流程中,結(jié)構(gòu)設(shè)計(jì)具有重大作用。在此基礎(chǔ)上,該文將整個(gè)采寫體系的總體框架劃分成五層,從底層到頂層,分別是平臺(tái)層、數(shù)據(jù)層、應(yīng)用層和用戶層。具體內(nèi)容如圖1所示。

        圖1 系統(tǒng)邏輯結(jié)構(gòu)圖

        平臺(tái)級(jí)為操作系統(tǒng),包括應(yīng)用服務(wù)器集群、緩存服務(wù)器集群以及系統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)。在已有的數(shù)據(jù)架構(gòu)基礎(chǔ)上,使用MySQL數(shù)據(jù)庫,并能適應(yīng)當(dāng)前的爬蟲界面、檢索界面等。整合異質(zhì)的數(shù)據(jù)和信息來源,提供一個(gè)單一的接入端口,并針對(duì)不同的客戶需要,為其提供相應(yīng)的接口和服務(wù)。接受和檢視相關(guān)的資料,并執(zhí)行相關(guān)的交易。按照其對(duì)應(yīng)的服務(wù)職能,將其劃分成2類,即后臺(tái)管理和前端系統(tǒng)。由于該系統(tǒng)是對(duì)多個(gè)服務(wù)器進(jìn)行采編,因此需要對(duì)各服務(wù)器進(jìn)行不同的設(shè)計(jì),將資料整理、文章編輯和審核等部分置于內(nèi)聯(lián)網(wǎng)的狀態(tài)下,服務(wù)器就是內(nèi)部網(wǎng)路伺服器,采購者可以利用網(wǎng)路接入外部網(wǎng)路伺服器傳送來自附近的突發(fā)訊息。根據(jù)新聞編輯體系結(jié)構(gòu),將外部網(wǎng)絡(luò)的用戶分成2個(gè)部分,即移動(dòng)電話等平面媒體以及計(jì)算機(jī)的瀏覽。移動(dòng)電話使用者通過移動(dòng)電話或微信進(jìn)行登錄,而PC瀏覽者則可以通過計(jì)算機(jī)上所安裝的瀏覽器進(jìn)行登錄。在材料收集者找到新的材料后,可以不受時(shí)間和設(shè)備的限制,將所收集的材料迅速地存儲(chǔ)在資料庫中。在內(nèi)聯(lián)網(wǎng)環(huán)境下,使用者可以利用PC上的網(wǎng)頁,對(duì)收集到的資料進(jìn)行整理、編輯和修改,并在審查后上傳至相關(guān)的網(wǎng)站。

        1.2 人工智能采編流程設(shè)計(jì)

        對(duì)相關(guān)軟件來說,快速檢索和良好的數(shù)據(jù)處理是非常關(guān)鍵的。該文的應(yīng)用程序采用了MySQL的數(shù)據(jù)庫,該系統(tǒng)的數(shù)據(jù)庫按以下步驟進(jìn)行。1) 需求剖析。與新傳媒員工進(jìn)行溝通與交流,跟著工作人員深入現(xiàn)場(chǎng),觀摩從收集到發(fā)行的全流程,對(duì)企業(yè)的主要經(jīng)營行為進(jìn)行紀(jì)錄和剖析,進(jìn)而對(duì)數(shù)據(jù)庫的設(shè)計(jì)需求進(jìn)行深入剖析。2) 概念性架構(gòu)的設(shè)計(jì)。利用此步驟建立資料的概念化模型,并對(duì)資料庫的邏輯架構(gòu)進(jìn)行規(guī)劃,反映出資料庫的運(yùn)作方式。3) 邏輯架構(gòu)的設(shè)計(jì)。依據(jù)前一步所提的概念模型,對(duì)數(shù)據(jù)庫進(jìn)行邏輯架構(gòu)的規(guī)劃,以反映企業(yè)的業(yè)務(wù)邏輯。4) 實(shí)體架構(gòu)的設(shè)計(jì)。在此基礎(chǔ)上,根據(jù)所選取的資料庫和所設(shè)計(jì)的邏輯架構(gòu)來決定資料庫中各個(gè)資料庫的具體實(shí)施方法。5) 數(shù)據(jù)庫實(shí)現(xiàn)。根據(jù)上述步驟所設(shè)計(jì)的邏輯與實(shí)體架構(gòu),構(gòu)建一個(gè)資料庫及其對(duì)應(yīng)的數(shù)據(jù)庫,將資料儲(chǔ)存在資料庫內(nèi),并透過執(zhí)行來確認(rèn)資料庫的合理性,若有不符合要求的情況,則即時(shí)變更資料庫與資料表的型式。6) 資料庫操作與維修。上述各工作步驟完成后,資料庫將正式投入使用,并要求系統(tǒng)管理員與維修者追蹤記錄資料庫的運(yùn)作狀況,特別是在初期,出現(xiàn)問題后能即時(shí)處理。

        2 軟件設(shè)計(jì)

        新媒體自動(dòng)采編系統(tǒng)需要解決的是熱點(diǎn)信息的收集與整理,實(shí)現(xiàn)對(duì)敏感熱詞的自動(dòng)化確認(rèn)、搜索、識(shí)別和采集,并經(jīng)過整理后完成文稿提交。因此偵搜熱點(diǎn)信息是新媒體自動(dòng)采編的核心組成。

        2.1 熱詞偵搜算法設(shè)計(jì)

        要實(shí)現(xiàn)智能化的文字潤色,須有包括大量優(yōu)秀表達(dá)語句的語料庫。對(duì)該文的研究而言,干擾信息大多是廣告、作者信息和叢書信息等,這些信息本身的標(biāo)簽權(quán)重值就較低。因此,基于AI技術(shù)的新媒體自動(dòng)采編系統(tǒng)熱詞偵搜信息算法即可滿足需求,去除干擾信息的算法如公式(1)所示。

        式中:為輸入的新媒體文章序列;為輸出的總媒體文章序列;為序列的標(biāo)簽;()為標(biāo)簽過濾函數(shù)。

        標(biāo)簽權(quán)重在0.5及以下時(shí),基本是屬于無法為文字潤色提供服務(wù)的干擾文本信息。因此,標(biāo)簽權(quán)重低于0.5的文章序列將被濾除。去除干擾信息之后的內(nèi)容資源就可以進(jìn)行資源拆分了,資源拆分主要是為了提高資源處理效率。將一篇文檔拆分成多個(gè)文本片段,可以按段拆分,也可以按句拆分。拆分完成的文本片段包括的數(shù)據(jù)量大幅縮小,為后續(xù)的分詞處理環(huán)節(jié)提供了便利。

        分詞算法的3個(gè)層級(jí)表達(dá)如下:第一個(gè)層級(jí)為“詞語最大長度匹配”,它的含義為分詞結(jié)果都是從詞語庫中能夠匹配的最長詞語。第二個(gè)層級(jí)為“拆分詞組最少匹配方案”,它的含義為拆分后獲得的詞語個(gè)數(shù)最少的方案為最終選取的方案。第三個(gè)層級(jí)為“最小詞方差匹配方案”。如果前2個(gè)層級(jí)都無法很好地獲取到分詞結(jié)果,就需要使用第三個(gè)層級(jí)的分詞方案進(jìn)行分詞?!白钚≡~方差匹配方案”的表達(dá)如公式(2)所示。

        式中:,…,L為各種分詞方案輸出的不同詞語序列;L為詞語序列L的詞語長度方差。

        方差最小的分詞結(jié)果即是當(dāng)前方案下的輸出,拆分后的文本片段通過上述分詞環(huán)節(jié)能夠輸出大量詞語,這些詞語會(huì)作為基本元素存儲(chǔ)到基礎(chǔ)資源庫中?;A(chǔ)資源庫里存儲(chǔ)的資源是經(jīng)過分詞處理之后的文本片段,要實(shí)現(xiàn)對(duì)用戶輸入內(nèi)容的語義理解,還需要對(duì)這些資源進(jìn)行語義處理。關(guān)鍵詞提取功能能夠提取一段內(nèi)容的關(guān)鍵詞。關(guān)鍵詞是描述這段文字的核心信息,它可以代表這段文字的主題,根據(jù)研究本身的特征設(shè)計(jì)了如公式(3)和公式(4)所示的關(guān)鍵詞提取算法。

        式中:()為詞語出現(xiàn)的詞頻;n為詞語在輸入文本序列中出現(xiàn)的次數(shù);x為詞語所在句子的標(biāo)簽權(quán)重;()為詞語i的關(guān)鍵詞權(quán)重值;為用一個(gè)完整標(biāo)簽的輸入文本序列總個(gè)數(shù);M為包括詞語的用一個(gè)完整標(biāo)簽的文本序列總個(gè)數(shù)。

        為降低某些常用詞語帶來的影響,在算法中引入了詞頻計(jì)算因子。概念擴(kuò)展功能能夠在提取關(guān)鍵詞后使用關(guān)鍵詞和語義網(wǎng)進(jìn)行概念擴(kuò)展,將多個(gè)相同的概念指向同一段文字,以豐富、擴(kuò)展檢索的內(nèi)容。根據(jù)公式(1)~公式(5),基于AI技術(shù)的新媒體自動(dòng)采編系統(tǒng)偵搜熱點(diǎn)信息設(shè)計(jì)成立,可方便下一步的自動(dòng)采編設(shè)計(jì)。

        2.2 新聞自動(dòng)采編設(shè)計(jì)

        多渠道信息采集是新聞素材的來源,該體系可以采用多種方法進(jìn)行收集??梢圆捎贸R?guī)方法,將收集到的材料通過數(shù)據(jù)庫進(jìn)行整理和存儲(chǔ);也可以通過爬蟲技術(shù)獲取對(duì)應(yīng)網(wǎng)站的信息,除收集工作者積極收集資料,也可由讀者自行撰寫,材料獲取的模塊框架如圖2所示。

        圖2 素材采集功能模塊圖

        當(dāng)收集到的材料被上傳時(shí),首先將收集到的材料放在MaterailAdd.php頁面中,然后在相應(yīng)的頁面中單擊“加入”,把材料加入名為“材料管理類”的MaterailController.php中,隨后材料被錄入“材料表格”中。如果此資訊被成功地錄制,將會(huì)傳回已儲(chǔ)存的資訊,反之,會(huì)顯示儲(chǔ)存已失效。不合格的理由是必須填好的資料或者所填資料超出了字?jǐn)?shù)的限度,收集者所提供的錯(cuò)誤資訊會(huì)被重新修改和儲(chǔ)存。在執(zhí)行檢索功能時(shí),在用戶界面中鍵入檢索關(guān)鍵詞或選定時(shí)段進(jìn)行檢索,然后將所選的關(guān)鍵詞和所選定的時(shí)段發(fā)送至材料控件,利用此類中的方式,從資料庫中檢索出相應(yīng)的資料,并將檢索的結(jié)果反饋給資料庫,若檢索的結(jié)果超過10條將會(huì)出現(xiàn)頁面,如果未找到將會(huì)自動(dòng)刪除。

        2.3 系統(tǒng)管理模塊

        系統(tǒng)管理員也被稱為超級(jí)管理員,具備上述用戶的全部功能,管理用戶、部門和角色,其功能架構(gòu)如圖3所示。

        圖3 系統(tǒng)管理功能結(jié)構(gòu)圖

        用戶的基本資料管理主要有添加用戶、刪除用戶和修改用戶基本資料等,用戶基本資料的管理有用戶名稱、密碼、角色權(quán)限以及所屬單位等。部門的信息管理功能包括新增部門、刪除部門和修改部門基本資料等,部門的變化很小,將部門的屬性被設(shè)定為0不會(huì)出現(xiàn)部門被刪除的情況。管理員對(duì)部門進(jìn)行管理時(shí),可以在頁面上對(duì)其進(jìn)行增加、刪除和修改,將操作信息發(fā)送給項(xiàng)目控件,利用這個(gè)模塊中的方式,在類中使用相應(yīng)的方式,可以增加新的欄目,可以從欄目類別中移出方法,在邏輯類別中進(jìn)行調(diào)用,進(jìn)而可以對(duì)條目的內(nèi)容進(jìn)行編輯。按照上述的步驟,對(duì)資料庫的欄目表進(jìn)行相應(yīng)更改,并將作業(yè)后的資料反饋至系統(tǒng)管理員以便查看。

        3 系統(tǒng)測(cè)試

        3.1 測(cè)試準(zhǔn)備

        在此基礎(chǔ)上,該文結(jié)合基于AI的新媒體采編系統(tǒng)的架構(gòu),構(gòu)建了采編服務(wù)器,并初步實(shí)現(xiàn)了對(duì)新媒體內(nèi)容的簡單收集與分發(fā)。校園網(wǎng)的內(nèi)部用戶可以在ChinaNet上不需要直接進(jìn)入大型站點(diǎn),就可瀏覽到主要內(nèi)容,同時(shí)還能降低中國網(wǎng)絡(luò)的流量。在RedhatLinux7.1操作系統(tǒng)中,該文采用了MySQL3.23.44、Apache1.3.22、PHP4.0.6以及FastTemplate模板等軟件。使用PHP、MySQL和Apache構(gòu)建Web站點(diǎn)是目前比較受歡迎的一種方式。MySQL2是一款比其他大型數(shù)據(jù)庫系統(tǒng)更易于操作的自由數(shù)據(jù)庫服務(wù)器。Apache3是當(dāng)前應(yīng)用最廣泛的Web服務(wù)器應(yīng)用軟件,其源碼是自由的,可以在UnixWindows平臺(tái)上運(yùn)行。在Apache中將PHP4作為一個(gè)靜態(tài)模塊,并提供MySQL的支持,以便使用PHP功能存取MySQL數(shù)據(jù)庫。

        3.2 測(cè)試結(jié)果

        該文采用PHP的命令方法實(shí)現(xiàn)了后臺(tái)數(shù)據(jù)的采集,并使用Linux操作系統(tǒng)的Cron指令完成了采集整理。該測(cè)試將介紹如何對(duì)特定的源文件進(jìn)行分析,以獲取所需的新媒體信息。在一個(gè)網(wǎng)站上,從一個(gè)網(wǎng)站的HTML源文件中提取2個(gè)不同的新聞列表,就可以得到一個(gè)頁面1和一個(gè)內(nèi)容2的絕對(duì)網(wǎng)址,因此,可以將一個(gè)相對(duì)網(wǎng)址前后的唯一區(qū)別代碼作為一個(gè)特別的識(shí)別點(diǎn)。由于頁面的格式比較固定,收集器將網(wǎng)頁的原始資料下載后,通過特定的識(shí)別找到相應(yīng)的網(wǎng)頁,然后與網(wǎng)站的網(wǎng)址構(gòu)成絕對(duì)網(wǎng)址,以供下一步內(nèi)容網(wǎng)頁的下載。這種特定的識(shí)別方式應(yīng)該能夠識(shí)別出新媒體內(nèi)容的相對(duì)地址,而內(nèi)容頁面的分析原理與之相似,即將新聞標(biāo)題、正文和圖片等從其來源文檔中提取出來。收集到的消息存儲(chǔ)到MySQL數(shù)據(jù)庫,相應(yīng)的表結(jié)構(gòu)見表1。

        表1 新媒體內(nèi)容正文表

        當(dāng)新媒體內(nèi)容發(fā)行時(shí),會(huì)自動(dòng)產(chǎn)生一個(gè)標(biāo)題清單的javascript。每次有使用者訪問時(shí),該系統(tǒng)會(huì)使用FastTemplate模板來動(dòng)態(tài)產(chǎn)生一個(gè)清單頁,當(dāng)使用者點(diǎn)擊該網(wǎng)頁時(shí),會(huì)動(dòng)態(tài)地將包括文本和圖片的內(nèi)容從資料庫中提取出來,并使用FastTemplate模板動(dòng)態(tài)地產(chǎn)生一個(gè)網(wǎng)頁。同時(shí),系統(tǒng)還可以通過點(diǎn)擊來統(tǒng)計(jì)每天、每周的熱點(diǎn)話題。該系統(tǒng)架構(gòu)具有很強(qiáng)的擴(kuò)展性,可以在基礎(chǔ)數(shù)據(jù)采集功能的基礎(chǔ)上對(duì)其他相關(guān)的功能進(jìn)行擴(kuò)充,以滿足用戶的各種需要。

        4 結(jié)語

        隨著網(wǎng)絡(luò)新媒介的日益增多,如何利用人工智能技術(shù)建立新的媒介,減少員工的工作壓力并提高工作效率已成為研究重點(diǎn)。該文設(shè)計(jì)的新媒體采編系統(tǒng)架構(gòu)具有很強(qiáng)的擴(kuò)展性,可以在原有的基礎(chǔ)數(shù)據(jù)采集基礎(chǔ)上對(duì)其他相關(guān)功能進(jìn)行擴(kuò)充,以適應(yīng)不同的用戶需要。在此基礎(chǔ)上開發(fā)的抓取服務(wù)器,目前僅具有基本的數(shù)據(jù)采集和動(dòng)態(tài)發(fā)布功能,需要不斷地改善和進(jìn)步。下一步的研究重點(diǎn)是利用AI技術(shù)進(jìn)行數(shù)據(jù)采集,以提高相關(guān)數(shù)據(jù)采集工作效率,并將各功能模塊自動(dòng)化,為企業(yè)的業(yè)務(wù)發(fā)展注入新的生機(jī)。以人工智能為基礎(chǔ)的新媒體采編系統(tǒng)的應(yīng)用領(lǐng)域也從局域網(wǎng)向手機(jī)網(wǎng)絡(luò)延伸,進(jìn)而使采編工作者擺脫了時(shí)空的限制,提高了新聞內(nèi)容的時(shí)效性。

        猜你喜歡
        資料庫分詞架構(gòu)
        基于FPGA的RNN硬件加速架構(gòu)
        基于內(nèi)容與協(xié)同過濾的GitHub學(xué)習(xí)資料庫推薦
        功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
        汽車工程(2021年12期)2021-03-08 02:34:30
        國家社科基金重大項(xiàng)目“‘古今字’資料庫建設(shè)與相關(guān)專題研究”成果鑒定會(huì)順利召開
        施工企業(yè)技術(shù)資料庫的建立與完善
        天津科技(2020年5期)2020-01-08 12:27:35
        結(jié)巴分詞在詞云中的應(yīng)用
        LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
        值得重視的分詞的特殊用法
        一種基于FPGA+ARM架構(gòu)的μPMU實(shí)現(xiàn)
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        加勒比东京热中文字幕| 黄色三级国产在线观看| 国产无遮挡又黄又爽在线视频| 一本色道久久综合亚洲精品不卡| 内射中出无码护士在线| 国产又黄又大又粗视频| 极品尤物高潮潮喷在线视频| 中文字幕在线码一区| 日本a在线播放| 无码 免费 国产在线观看91| 91蜜桃国产成人精品区在线| 精品在线亚洲一区二区三区 | 自拍偷拍亚洲视频一区二区三区| 亚洲精品在线一区二区| 三级国产精品久久久99| 综合五月激情二区视频| 任我爽精品视频在线播放| 亚洲男人的天堂在线aⅴ视频| 久久无码高潮喷水| 国产99re在线观看只有精品| 欧美精品高清在线xxxx| 亚洲一区二区三区偷拍自拍 | 国产女同va一区二区三区| 无码国产成人午夜电影在线观看| 亚洲av无码专区在线观看成人| 中文日韩亚洲欧美制服| 高潮毛片无遮挡高清免费| 亚洲AV肉丝网站一区二区无码 | 国产91色在线|亚洲| 国产高清女人对白av在在线| 日本在线观看一区二区视频| 国产精选自拍视频网站| 欧美性xxxx极品高清| 亚洲av无码一区二区二三区| 精品第一页| 最近中文字幕一区二区三区| 亚洲国产免费不卡视频| 无码喷潮a片无码高潮| 亚洲国产精华液网站w| 国产乱人伦偷精品视频| 久久人妻av无码中文专区|