亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “5G+AI”環(huán)境下個(gè)性化內(nèi)容生產(chǎn)技術(shù)應(yīng)用研究

        2022-08-19 13:36:00孫甲飛馮恩達(dá)
        西部廣播電視 2022年13期
        關(guān)鍵詞:聚類稿件機(jī)器人

        孫甲飛 馮恩達(dá) 邱 夕

        (作者單位:新華報(bào)業(yè)傳媒集團(tuán))

        1 研究背景

        2019年6月6日,我國工業(yè)和信息化部向中國聯(lián)通、中國電信、中國移動(dòng)和中國廣電發(fā)放了5G商用牌照,標(biāo)志著我國的5G技術(shù)進(jìn)入了全面商用化的新時(shí)代。5G通信技術(shù)高速率、高帶寬、低時(shí)延的特性可以大大提升現(xiàn)有信息傳輸?shù)馁|(zhì)量與速度。同時(shí),其泛在網(wǎng)的特點(diǎn)使得業(yè)界對“萬物皆媒”的設(shè)想有了實(shí)現(xiàn)的可能。截至2019年8月底,中國5G使用人數(shù)已突破1億人。與此同時(shí),隨著5G技術(shù)的普遍運(yùn)用,用戶閱讀新聞的習(xí)慣也發(fā)生了轉(zhuǎn)變[1]。

        依托于云計(jì)算、大數(shù)據(jù)、人工智能等技術(shù)領(lǐng)域里的機(jī)器深度學(xué)習(xí)、自然語義理解和推薦系統(tǒng)等應(yīng)用技術(shù)的發(fā)展,基于算法的新聞生產(chǎn)日益興起,寫稿機(jī)器人成為各大媒體內(nèi)容生產(chǎn)隊(duì)伍中的新武器。寫稿機(jī)器人最早出現(xiàn)在2009年,一款名為StatsMonkey的人工軟件完成了一篇關(guān)于美國職業(yè)棒球大聯(lián)盟季后賽的新聞稿,速度完勝人類記者,人工智能(Artificial Intelligence,AI)自動(dòng)寫稿技術(shù)自此進(jìn)入人們的視野。之后,洛杉磯時(shí)報(bào)、美聯(lián)社等媒體都相繼 引入了新聞智能平臺(tái)。我國在這方面起步較晚,但是發(fā)展速度迅猛。2015年9月,騰訊的寫稿機(jī)器人Dreamwriter在騰訊財(cái)經(jīng)頻道發(fā)布了一篇名為《8月CPI同比上漲2.0% 創(chuàng)12個(gè)月新高》的報(bào)道,引起了行內(nèi)不小的反響,此舉可謂開啟了國內(nèi)新聞界利用機(jī)器人寫稿的先河。隨后,新華社的“快筆小新”、南方報(bào)業(yè)集團(tuán)的“小南”、字節(jié)跳動(dòng)的“Xiaomingbot”、錢江晚報(bào)的“小冰”等一系列基于人工智能技術(shù)應(yīng)用的寫作機(jī)器人也相繼投入使用,且內(nèi)容產(chǎn)出能力驚人。

        2 個(gè)性化內(nèi)容生產(chǎn)技術(shù)的應(yīng)用

        2.1 適應(yīng)高速內(nèi)容生產(chǎn)要求的熱點(diǎn)捕捉方法

        5G技術(shù)的廣泛應(yīng)用將帶來媒介的敘事話語權(quán)的轉(zhuǎn)變,話語權(quán)正隨著媒介生產(chǎn)關(guān)系的改變而改變,以前處于價(jià)值鏈末端的媒體消費(fèi)者借助網(wǎng)絡(luò)和新媒體技術(shù),逐漸擺脫被動(dòng)的消費(fèi)地位,向價(jià)值鏈中端甚至上游環(huán)節(jié)轉(zhuǎn)移,變成主動(dòng)的參與者、生產(chǎn)者,他們不再是價(jià)值的消耗者,而是價(jià)值的創(chuàng)造者[2]。網(wǎng)絡(luò)上將會(huì)有比現(xiàn)在數(shù)量級大得多的媒體信息,要從這些信息中抓取熱點(diǎn),再組織成熱點(diǎn)新聞報(bào)道,就對熱點(diǎn)捕捉的效率提出了更高的要求。

        2.1.1 改良捕捉算法提高海量數(shù)據(jù)抓取效率

        目前,比較流行的中文信息歸納方法是基于劃分或基于密度的聚類方法。針對新聞資訊海量的數(shù)據(jù)量,以及新聞熱點(diǎn)捕捉分類明確、時(shí)效性較高的要求,本文推薦采用搜索能力強(qiáng),且快速收斂的經(jīng)過改良的K-MEANS算法捕捉文本熱點(diǎn)。在聚類之前,可以選用針對文本特征抽取且算法簡單、計(jì)算效率高的TF-IDF算法,對大量資訊數(shù)據(jù)降維,進(jìn)一步提升熱點(diǎn)捕捉、數(shù)據(jù)挖掘的效率。

        2.1.2 優(yōu)化聚類算法快速挖掘新聞熱點(diǎn)

        考慮到傳統(tǒng)的TF-IDF算法只根據(jù)詞頻和文本頻率進(jìn)行特征抽取,而忽略了詞匯其他屬性對于文本的貢獻(xiàn),所以為了提高效率可以采用優(yōu)化的TF-IDF算法。優(yōu)化的TF-IDF算法是在傳統(tǒng)的TF-IDF算法理論基礎(chǔ)上,對于特征詞符號、詞匯詞性、出現(xiàn)位置及詞匯長度等特征添加權(quán)重。優(yōu)化的TF-IDF算法基于多因子權(quán)重選擇,可以更具針對性、更高效地實(shí)現(xiàn)新聞特征向量抽取。同時(shí),傳統(tǒng)聚類算法結(jié)果常常收斂于局部最優(yōu),且由于聚類中心初始選取容易產(chǎn)生聚類干擾。針對這一問題而構(gòu)造的改進(jìn)果蠅優(yōu)化算法(Ameliorated Fruit Fly Optimization Algorithm,AFOA),通過設(shè)定文本編碼、優(yōu)化fitness適應(yīng)值計(jì)算、調(diào)整個(gè)體搜索步長及計(jì)算群體適值度方差,避免了傳統(tǒng)聚類算法的缺點(diǎn)。使用AFOA算法結(jié)合大數(shù)據(jù)技術(shù),可以實(shí)現(xiàn)熱點(diǎn)新聞話題的快速發(fā)現(xiàn)與挖掘[3],生成熱點(diǎn)卡片輔助采編寫稿。

        2.2 帶有溫度感的內(nèi)容生成方法

        2.2.1 結(jié)合溫度采樣的自動(dòng)內(nèi)容生成

        對于給定的選題,可以通過LSTM長短記憶算法來完成文本的自動(dòng)生成(如圖1所示)。LSTM是一種深度學(xué)習(xí)算法,它能夠?qū)ξ谋镜慕y(tǒng)計(jì)潛在空間進(jìn)行機(jī)器學(xué)習(xí),對當(dāng)前標(biāo)記詞的下一個(gè)標(biāo)記進(jìn)行建模和訓(xùn)練進(jìn)而得到語言模型[4]。一旦訓(xùn)練得到這樣的字符級神經(jīng)語言模型,即可從中采樣,利用循環(huán)神經(jīng)網(wǎng)絡(luò),生成與訓(xùn)練數(shù)據(jù)具有相似特征的文本。

        在研究中,筆者在模型中輸入選題,即模型的條件數(shù)據(jù),模型會(huì)循環(huán)生成接下來的文本內(nèi)容。生成的輸出文本將被循環(huán)添加作為LSTM層的輸入。其中通過對語料庫中的詞匯進(jìn)行softmax得到概率分布來生成輸出。由此,循環(huán)可以根據(jù)實(shí)際需要生成任意長度的文本序列。通過對語料庫的篩選限制,可以在一定程度上對機(jī)器生成內(nèi)容的文風(fēng)進(jìn)行約束,從而避免生成和公用機(jī)器寫稿平臺(tái)文風(fēng)極度相似的新聞稿件。

        在生成文本的過程中,生成下一個(gè)輸出的采樣策略尤其關(guān)鍵。經(jīng)研究,貪婪采樣的概率分布的熵最小,會(huì)得到預(yù)測度最高的結(jié)果,但這樣形成的文本重復(fù)詞匯較多且不連貫。與之相反的純隨機(jī)采樣概率分布的熵最大,會(huì)得到最有創(chuàng)造性的結(jié)果但采樣過程中無法控制隨機(jī)性的大小。因此引入softmax溫度參數(shù)temperature∈[0,1]來表示采樣分布的熵的大小,用于對模型softmax輸出進(jìn)行加權(quán),得到合適的概率分布。更低的溫度參數(shù)會(huì)產(chǎn)生文風(fēng)更確定的文本,而更高的溫度會(huì)生成更具創(chuàng)造性也更不可控的文本(當(dāng)溫度參數(shù)temperature=1時(shí),甚至可以創(chuàng)造出新的詞匯)。

        2.2.2 基于情感分析的文本采納

        情感分析又稱為意見挖掘,可以自動(dòng)分析文本中包含的情感,是自然語言研究的重要領(lǐng)域之一[5]。其基本過程是通過抽取計(jì)算文本中包含情感的詞匯,得到該文本的正負(fù)情感導(dǎo)向。在寫稿機(jī)器人的應(yīng)用中,對于完成的稿件,可以使用情感分析識(shí)別挑選合適當(dāng)前情感導(dǎo)向的文本。

        在實(shí)際應(yīng)用中,可以在使用NLTK自然語言工具對選題進(jìn)行中文分詞后,將得到的情感詞匯使用SentiWordNet基于WordNet進(jìn)行情感分析。SentiWordNet將詞林中的每個(gè)詞條對應(yīng)不同的情感值(Sentiment Score of the Meaning,SSM)。目前,詞庫包含十多萬條記錄,每條記錄都由6部分組成,即詞性分類、詞條ID、正向情感分值、負(fù)向情感分值、同義詞詞條名、注釋。在SentiWordNet中,同一個(gè)詞可以包含不止一種詞性,如名詞、形容詞、副詞和動(dòng)詞等。而在同一詞性中,一個(gè)詞也可以有不同種含義。不同的詞性和含義將對應(yīng)不同的情感值。同時(shí),每一種含義都有對應(yīng)的指數(shù)值(IndexNum),1/IndexNum即該詞義的權(quán)重系數(shù)。對于某詞第i種含義的情感值有:

        考慮該含義權(quán)重系數(shù),由此得到情感得分:

        在對稿件文本進(jìn)行情感計(jì)算之后,可以根據(jù)其情感傾度,選擇情感導(dǎo)向更合適的文本。例如:對于期望具有正面情感傾向的稿件,可以挑選情感得分更趨近1的文本;對于期望描述客觀中立的稿件,可以挑選情感得分更趨近0的文本,篩去情感得分為負(fù)的文本。鑒于此,可以利用情感分析對LSTM自動(dòng)生成的稿件進(jìn)行篩選。

        2.3 個(gè)性化內(nèi)容訂制

        2.3.1 從訂閱到訂制

        進(jìn)入Web 2.0時(shí)代以來,網(wǎng)絡(luò)上的信息開始和瀏覽者有了交互,信息訂閱功能的加入使某一位作者或者欄目有新的內(nèi)容發(fā)布時(shí)用戶可以收到提醒并可以快速瀏覽到指定內(nèi)容。之后“訂閱”理念慢慢衍生為現(xiàn)在普及率很高的“關(guān)注”功能,成為現(xiàn)在互聯(lián)網(wǎng)內(nèi)容與用戶交互的基礎(chǔ)手段之一。而訂閱和關(guān)注都是需要用戶作為興趣的主動(dòng)暴露者來實(shí)現(xiàn)的內(nèi)容定向推送。隨著科技的進(jìn)步,用戶呈現(xiàn)出了越來越“懶”的趨勢。字節(jié)跳動(dòng)等公司利用大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)算法,根據(jù)機(jī)器對內(nèi)容的理解、用戶畫像、受眾情境等信息,預(yù)估并在應(yīng)用程序中推送用戶可能感興趣的新聞內(nèi)容[6]。

        基于人工智能等技術(shù)進(jìn)行個(gè)性化推送現(xiàn)在已經(jīng)得到各大媒體的廣泛應(yīng)用,但目前主要是把互聯(lián)網(wǎng)上與用戶匹配度較高的內(nèi)容推送給用戶。隨著“5G+AI”在媒體行業(yè)的深度應(yīng)用,智能引擎可以在5G網(wǎng)絡(luò)快速回傳大量實(shí)時(shí)用戶數(shù)據(jù)的情況下通過智能算法利用用戶畫像、用戶場景等信息幫助內(nèi)容生產(chǎn)者發(fā)現(xiàn)選題、確定事件切入點(diǎn),拓展報(bào)道的廣度、深度,預(yù)判內(nèi)容的傳播效果,從而根據(jù)內(nèi)容推送前置指導(dǎo)內(nèi)容生產(chǎn),實(shí)現(xiàn)內(nèi)容定制化。

        2.3.2 適應(yīng)交互式閱讀的內(nèi)容定制生產(chǎn)

        《2019年中國網(wǎng)民新聞閱讀習(xí)慣變化的量化研究》基于3萬人的問卷調(diào)查得出結(jié)論:新媒體已經(jīng)成為我國公眾獲取新聞信息的主要渠道。其中騰訊微信是用戶最多、最廣泛的新聞信息獲取平臺(tái)[7]。微信正以其社交屬性與強(qiáng)聯(lián)系的傳播特點(diǎn)成為目前和未來的主要傳播媒介,可以適應(yīng)此類帶有強(qiáng)聯(lián)系、社交屬性的渠道傳播、閱讀的內(nèi)容,極有可能成為“5G+AI”時(shí)代新聞內(nèi)容的爆款。

        目前,寫稿機(jī)器人僅用0.3秒就可以生成一篇新聞稿件,這為交互式新聞生產(chǎn)提供了速度上的保證。在此基礎(chǔ)上,使用目的導(dǎo)向的對話機(jī)器人模型,在人機(jī)對話的過程中逐步收斂用戶需求,便可實(shí)現(xiàn)快速的、個(gè)性化的交互式新聞生產(chǎn)。例如:每年“兩會(huì)”都會(huì)有大篇幅的報(bào)道稿件,但不同用戶關(guān)注的點(diǎn)很可能不一樣,新媒體平臺(tái)就可以通過對話過程聚焦用戶的不同關(guān)注點(diǎn),匹配智能媒資庫中的編目數(shù)據(jù)實(shí)時(shí)生成內(nèi)容,將圖、文、視音頻通過交流的形式傳遞給受眾。

        任務(wù)導(dǎo)向的對話機(jī)器人系統(tǒng)在指定的自然語言生成語料庫中預(yù)訓(xùn)練后,使用SC-LSTM模型進(jìn)行編碼,可以幫助用戶通過交互模式更準(zhǔn)確地獲取期望的資訊[8]。任務(wù)導(dǎo)向的對話機(jī)器人實(shí)現(xiàn)交互式新聞的過程如圖2所示。

        3 結(jié)語

        人工智能及其機(jī)器人寫作技術(shù)正在蓬勃發(fā)展,伴隨著5G的發(fā)展,低延時(shí)、高速度的特性在熱點(diǎn)捕捉方面得到充分利用,由此機(jī)器化內(nèi)容生產(chǎn)和信息推送可以加入溫度感,加入深交互,使得內(nèi)容生產(chǎn)更加個(gè)性化,進(jìn)而推動(dòng)個(gè)性化內(nèi)容生產(chǎn)技術(shù)的應(yīng)用和發(fā)展。

        猜你喜歡
        聚類稿件機(jī)器人
        錄用稿件補(bǔ)充說明
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        Shanxi Agricultural University Visitor Professor Donald Grierson*
        基于改進(jìn)的遺傳算法的模糊聚類算法
        機(jī)器人來幫你
        認(rèn)識(shí)機(jī)器人
        機(jī)器人來啦
        認(rèn)識(shí)機(jī)器人
        本刊歡迎下列稿件
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        免费无码av片在线观看网址| 日本一区二区三区四区高清不卡| 伊人久久精品无码av一区| 粗壮挺进人妻水蜜桃成熟漫画| 视频一区欧美| 久久精品国产视频在热| 亚洲综合日韩一二三区| 成人精品视频一区二区三区尤物| 老熟女多次高潮露脸视频| 成人自拍视频国产一区| 青青草好吊色在线观看| 宅男666在线永久免费观看 | 国产在线观看入口| 亚洲综合久久久中文字幕| 国产高清在线视频一区二区三区| 国产精品第一国产精品| 久久精品免费一区二区喷潮| 国产大学生自拍三级视频| 国产日本精品视频一区二区 | 亚洲精品乱码久久久久久| 无码人妻精品一区二区三区不卡| 成年女人免费视频播放体验区| 亚洲人成网站77777在线观看 | 少妇高潮惨叫久久久久电影| 国产三级精品三级在线专区| 99国产精品自在自在久久| 国内精品一区视频在线播放| 国产精品av网站在线| 成人欧美一区二区三区黑人| 免费xxx在线观看| 中国免费av网| 校园春色日韩高清一区二区| 精东天美麻豆果冻传媒mv| 亚洲精品中国国产嫩草影院美女| 中文字幕乱码在线婷婷| 亚洲熟妇色自偷自拍另类| 国产午夜影视大全免费观看| 美腿丝袜美腿国产在线| 青春草在线视频观看| 国产成人vr精品a视频| 蜜桃视频中文在线观看|