亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        狂飆突進(jìn)的寫(xiě)稿機(jī)器人大軍來(lái)襲

        2017-07-05 13:28:13四月
        商業(yè)文化 2017年13期
        關(guān)鍵詞:頭條財(cái)經(jīng)機(jī)器

        文|四月

        狂飆突進(jìn)的寫(xiě)稿機(jī)器人大軍來(lái)襲

        文|四月

        4月7日,今日頭條估值超過(guò)120億美元的消息被刷屏。在內(nèi)容市場(chǎng)的紅海里,身價(jià)暴漲的今日頭條已成為一條讓BAT望而生畏的“大魚(yú)”,寡頭圍剿和壯士突圍間充滿變數(shù)與可能,技術(shù)優(yōu)勢(shì)牽一發(fā)而動(dòng)全身。

        一項(xiàng)內(nèi)容市場(chǎng)競(jìng)爭(zhēng)與人工智能技術(shù)結(jié)合的產(chǎn)物——寫(xiě)稿機(jī)器人,將視線聚焦在百度、阿里巴巴、騰訊、今日頭條的新戰(zhàn)役中,而逐漸起勢(shì)的機(jī)器寫(xiě)稿產(chǎn)業(yè)本身也已成為戰(zhàn)役中尤為重要的一環(huán)。

        在深入調(diào)查“機(jī)器寫(xiě)稿”產(chǎn)業(yè)的過(guò)程中,意料之外的兩大既成事實(shí)讓我開(kāi)始重新審視人工智能和內(nèi)容生產(chǎn)。這兩件事實(shí)分別是:

        1)在垂直領(lǐng)域的報(bào)道中,寫(xiě)稿機(jī)器人已經(jīng)被高頻率采用;

        2)騰訊、今日頭條、阿里和百度,是國(guó)內(nèi)寫(xiě)稿機(jī)器人技術(shù)應(yīng)用最早和最為成熟的平臺(tái)。

        了解人工智能技術(shù)在專業(yè)領(lǐng)域的應(yīng)用現(xiàn)狀,能夠更為直觀地感受技術(shù)革命臨近的前奏。更進(jìn)一步,其在內(nèi)容領(lǐng)域落地的深遠(yuǎn)意義在于,將為互聯(lián)網(wǎng)上游資訊生產(chǎn)流程和數(shù)據(jù)應(yīng)用方式的帶來(lái)顛覆式影響。

        而在當(dāng)下,這一關(guān)鍵閥門(mén)就掌握在BAT三巨頭和估值超120億美元的新勁敵手中。為此,智東西特采訪到騰訊內(nèi)容機(jī)器人項(xiàng)目負(fù)責(zé)人、騰訊財(cái)經(jīng)副總監(jiān)劉康,阿里巴巴大數(shù)據(jù)價(jià)值挖掘?qū)<?、第一?cái)經(jīng)首席數(shù)據(jù)專家湯開(kāi)智博士,今日頭條相關(guān)專家,行業(yè)資深人士,進(jìn)一步解構(gòu)這場(chǎng)互聯(lián)網(wǎng)內(nèi)容和數(shù)據(jù)重組的入口之爭(zhēng),窺探背后更大規(guī)模的文本范式生成市場(chǎng)。

        (注:近日有消息稱百度推出了其智能寫(xiě)作機(jī)器人Writing-bots,但據(jù)筆者調(diào)查暫無(wú)可查證的實(shí)際應(yīng)用案例,故此文中暫不做討論。以“度秘”的賽事解說(shuō)功能為參考。)

        一、 文字背后的機(jī)器人

        寫(xiě)稿機(jī)器人,并非指實(shí)體的機(jī)器人本身,而是將機(jī)器自動(dòng)生成文本,產(chǎn)出內(nèi)容的系統(tǒng)抽象化和擬人化。具體而言,寫(xiě)稿機(jī)器人多以特定的信息庫(kù)為基礎(chǔ),通過(guò)一定的篩選、分析、運(yùn)算等信息處理手段,將信息進(jìn)行重新組合、排列,并套用事先設(shè)置好的寫(xiě)作模板,最終輸出新聞報(bào)道。

        “機(jī)器寫(xiě)稿”,背后涉及數(shù)據(jù)挖掘、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、搜索技術(shù)、知識(shí)圖譜等多項(xiàng)人工智能技術(shù)。套用一般的人工智能的要素模型,“特定的信息庫(kù)”即支持該項(xiàng)技術(shù)的“大數(shù)據(jù)”,“針對(duì)文本信息的重組、排列”即為該項(xiàng)產(chǎn)品背后的核心算法。從早期的人工設(shè)定模板,到深度學(xué)習(xí)引入后的機(jī)器自我學(xué)習(xí)和模板優(yōu)化,“寫(xiě)稿機(jī)器人”本身正在不斷進(jìn)化。

        機(jī)器人介入寫(xiě)稿最早起始于美國(guó)老牌報(bào)業(yè)《華盛頓郵報(bào)》。早在2012年年末,《華盛頓郵報(bào)》就啟動(dòng)了名為“truth teller(吐真者)”的實(shí)時(shí)新聞核查項(xiàng)目。它能全程記錄新聞報(bào)道中的文字、語(yǔ)音等信息,隨后與“打假”數(shù)據(jù)庫(kù)進(jìn)行對(duì)比,一旦發(fā)現(xiàn)異常便會(huì)發(fā)出警報(bào)。

        從2015年開(kāi)始,中外媒體的“寫(xiě)稿機(jī)器人”走進(jìn)版面,開(kāi)始自立名號(hào)?!都~約時(shí)報(bào)》Blossom、《華盛頓郵報(bào)》Truth Teller、《洛杉磯時(shí)報(bào)》智能內(nèi)嵌模版、《衛(wèi)報(bào)》Open001、路透社的Open Calais、美聯(lián)社的Wordsmith六家國(guó)際頂級(jí)媒體設(shè)立各自的機(jī)器人服務(wù)系統(tǒng)。

        在國(guó)內(nèi),騰訊于2015年8月率先推出Dreamwriter寫(xiě)稿機(jī)器人。隨后的一年,今日頭條xiaomingbot、第一財(cái)經(jīng)DT稿王、百度度秘解說(shuō)相繼浮出水面。騰訊、阿里巴巴、百度、今日頭條,四方割據(jù)的局面正式形成。

        在信息流市場(chǎng),第一財(cái)經(jīng)能夠代表阿里巴巴的戰(zhàn)略布局。在于2015年阿里的12億元購(gòu)入第一財(cái)經(jīng)集團(tuán)30%股權(quán),隨后也將旗下的大數(shù)據(jù)價(jià)值挖掘?qū)<覝_(kāi)智博士調(diào)任至第一財(cái)經(jīng),任其首席數(shù)據(jù)科學(xué)家,為其自動(dòng)/輔助寫(xiě)稿產(chǎn)品提供技術(shù)支持。

        二、四大平臺(tái)的機(jī)器人賽稿

        為呈現(xiàn)一個(gè)更加具象的寫(xiě)稿機(jī)器人市場(chǎng),筆者集中體驗(yàn)了騰訊、今日頭條、百度、第一財(cái)經(jīng)四家產(chǎn)品在用戶界面、內(nèi)容呈現(xiàn)和出稿數(shù)量、效率等方面的表現(xiàn),并對(duì)比分析各家在產(chǎn)品布局和應(yīng)用領(lǐng)域的思路與特點(diǎn)。

        1)產(chǎn)品特點(diǎn)與應(yīng)用狀況

        從上述圖表分析中可以看出,上述四家的“寫(xiě)稿機(jī)器人”產(chǎn)品主要還處在自研自用階段,主要用于自家媒體平臺(tái)的內(nèi)容產(chǎn)出和分發(fā)。此外,第一財(cái)經(jīng)首席數(shù)據(jù)科學(xué)家湯開(kāi)智向智東西表示,旗下的DT稿王產(chǎn)品現(xiàn)還應(yīng)用到電商平臺(tái)“千牛”的資訊版塊。

        覆蓋領(lǐng)域以體育賽事、和財(cái)經(jīng)類新聞為主,多以短、平、快的處理方式產(chǎn)出賽事戰(zhàn)報(bào)、快訊等。其中騰訊在新聞內(nèi)容覆蓋面上最廣,其產(chǎn)品的對(duì)接平臺(tái)包括騰訊財(cái)經(jīng)、騰訊科技、騰訊體育等。第一財(cái)經(jīng)集團(tuán)因其更強(qiáng)的媒體屬性和廣泛的產(chǎn)品渠道,內(nèi)容分發(fā)領(lǐng)域更更廣,包括媒體產(chǎn)品端、微信內(nèi)容推送、電視新聞等。

        在報(bào)道形式上,賽事報(bào)道更傾向于圖文結(jié)合的方式,圖片采用自動(dòng)匹配的模式。當(dāng)然在面向不同終端和產(chǎn)品時(shí),報(bào)道風(fēng)格可能有所調(diào)整,比如在騰訊體育移動(dòng)端中,賽事報(bào)道就是以純文字方式呈現(xiàn);而在騰訊新聞客戶端,則保留了完整的圖文內(nèi)容。

        在產(chǎn)稿量方面,各家并沒(méi)有給出具體數(shù)值,筆者結(jié)合頁(yè)面呈現(xiàn)數(shù)量和參考值進(jìn)行統(tǒng)計(jì)。騰訊因其覆蓋領(lǐng)域最廣,在有效產(chǎn)稿量上占據(jù)一定優(yōu)勢(shì)?!皺C(jī)器寫(xiě)稿的機(jī)制是大規(guī)模地寫(xiě),最后用不用由人工編輯、CMS(Content Management System、內(nèi)容管理系統(tǒng))進(jìn)行判斷”,騰訊內(nèi)容機(jī)器人項(xiàng)目負(fù)責(zé)人、騰訊財(cái)經(jīng)副總監(jiān)劉康介紹。

        第一財(cái)經(jīng)則主要以股市異動(dòng)為新聞切入點(diǎn),報(bào)道更頻繁?!遍L(zhǎng)報(bào)道的使用頻率相對(duì)低一些,最多一天一篇,或者一個(gè)月一篇”。

        需要說(shuō)明的是,將只是用于“賽事解說(shuō)”的百度度秘平臺(tái)納入到分析對(duì)象中,主要原因在于度秘的“實(shí)時(shí)圖文內(nèi)容呈現(xiàn)+音頻播報(bào)”的產(chǎn)業(yè)化程度已經(jīng)達(dá)到機(jī)器寫(xiě)稿的程度,其背后的技術(shù)原理也十分相似?;蛟S是百度平臺(tái)本身缺少媒體屬性,抑或是作為內(nèi)容分發(fā)平臺(tái)不適合自產(chǎn)出內(nèi)容,百度并沒(méi)有在前端用新聞的形式呈現(xiàn)。

        2)用戶界面特點(diǎn)分析

        以上分別是調(diào)用第一財(cái)經(jīng)“7*24小時(shí)看板”、度秘APP“度秘直播籃球賽”、今日頭條“Xiaomingbot”頭條號(hào)作者專欄、騰訊新聞搜索“Dreamwriter”呈現(xiàn)的不同界面,統(tǒng)一以移動(dòng)用戶端進(jìn)行比較。

        從報(bào)道形式和內(nèi)容豐富程度來(lái)看,機(jī)器寫(xiě)稿與人類已經(jīng)無(wú)異。在標(biāo)題處理上,“擊敗雄鹿”、“創(chuàng)新高”、“奇才”、“遺憾”等用詞已經(jīng)脫離機(jī)械式的比分呈現(xiàn),帶有個(gè)性化的媒體報(bào)道屬性。滾動(dòng)式的股票類財(cái)經(jīng)快訊則更強(qiáng)調(diào)時(shí)效性和數(shù)據(jù)準(zhǔn)確性,在這個(gè)維度上,機(jī)器勝過(guò)人類。

        3)內(nèi)容呈現(xiàn)特點(diǎn)分析

        在報(bào)道形式與風(fēng)格上,各家根據(jù)用戶特點(diǎn)進(jìn)行了不同的呈現(xiàn)。騰訊Dreamwriter、今日頭條Xiaomingbot采用圖文結(jié)合得形式進(jìn)行報(bào)道,Xiaomingbot在圖片與現(xiàn)場(chǎng)感呈現(xiàn)上更為豐富,Dreamwriter則更強(qiáng)調(diào)比分和細(xì)節(jié)。在文章框架上,兩者都對(duì)賽事亮點(diǎn)和整體局勢(shì)進(jìn)行了提煉,而不是簡(jiǎn)單的陳述數(shù)據(jù)。

        百度度秘的解說(shuō)以對(duì)話框的形式呈現(xiàn),能夠?yàn)橛脩籼峁?shí)時(shí)的賽事戰(zhàn)況直播,并且配以部分動(dòng)圖和音頻,表情和語(yǔ)氣詞的也很到位,更加擬人化和形象化。

        第一財(cái)經(jīng),作為一個(gè)更加專業(yè)和垂直領(lǐng)域的媒體平臺(tái)。除去中文內(nèi)容呈現(xiàn),同時(shí)進(jìn)行了英化處理,“中文財(cái)經(jīng)模板很大一部分被翻譯成英文模板,省去了內(nèi)容翻譯的成本,在一財(cái)全球使用”,湯開(kāi)智博士介紹。

        總體而言,在寫(xiě)稿機(jī)器人這塊新業(yè)務(wù)上,BAT三家與今日頭條的技術(shù)和產(chǎn)品差距并不大。比較遺憾的是,百度并沒(méi)有將其背后的技術(shù)整合出完整的媒體產(chǎn)品,提到度秘的“賽事直播”功能很多人并不知曉。

        究其背后的原因,可能還是百度本身缺少媒體平臺(tái)基因,聚焦在用戶的被動(dòng)搜索與廣告業(yè)務(wù)。不過(guò),另一面,今日頭條的百度化卻比想象中快。

        三、外行看熱鬧 內(nèi)行看門(mén)道

        對(duì)于一個(gè)曾經(jīng)視“人工智能威脅論”為笑話的人,突然間發(fā)現(xiàn),機(jī)器人已經(jīng)侵入到自己所擅長(zhǎng)的領(lǐng)域,內(nèi)心多少有些驚訝和恐慌。不過(guò),人工智能的更大價(jià)值還在于了解之后為人類所用。“我個(gè)人偏向中性的認(rèn)知,機(jī)器寫(xiě)稿的確能夠取代一部分人力,但只是冗余的、低技術(shù)門(mén)檻的人力”,騰訊財(cái)經(jīng)副總監(jiān)劉康認(rèn)為。

        在與第一財(cái)經(jīng)湯開(kāi)智博士的交流中,他認(rèn)為機(jī)器寫(xiě)作的研究主要圍繞三種典型模式,“邏輯由淺入深,從精確到模糊”:

        1)第一類是基于數(shù)字進(jìn)行事實(shí)陳述,并進(jìn)行簡(jiǎn)單邏輯分析的文章,比如二級(jí)市場(chǎng)的監(jiān)控、體育賽事的簡(jiǎn)訊;

        2)第二類是根據(jù)每類稿件的信息要點(diǎn),對(duì)信息源進(jìn)行針對(duì)性的信息提取,把非結(jié)構(gòu)化的文本轉(zhuǎn)為結(jié)構(gòu)化及半結(jié)構(gòu)化的數(shù)據(jù),再根據(jù)不同的規(guī)則把信息要點(diǎn)組合寫(xiě)成單點(diǎn)內(nèi)容;

        3)第三類是單點(diǎn)內(nèi)容的關(guān)聯(lián)生成,此類稿件能彌補(bǔ)單點(diǎn)內(nèi)容信息量單一的缺點(diǎn),并為受眾尤其是投資者,及時(shí)關(guān)聯(lián)專家對(duì)基本數(shù)據(jù)的解讀及評(píng)論,生成更有深度、更立體、更綜合的稿件。

        在寫(xiě)稿機(jī)器人產(chǎn)品中,背后技術(shù)支持最為明確和清晰的是今日頭條的“Xiaomingbot”,它是由頭條實(shí)驗(yàn)室與北京大學(xué)計(jì)算所(萬(wàn)小軍團(tuán)隊(duì))聯(lián)合研發(fā)而成。今年2月今日頭條還挖走了前微軟亞洲研究院副院長(zhǎng)馬維英,擔(dān)任其負(fù)責(zé)人。

        在抽取式文本生成研究領(lǐng)域,北大萬(wàn)小軍老師于關(guān)于采用特征工程抽取句子的論文《Towards Constructing Sports News from Live Text Commentary》在ACL2016引起了廣泛關(guān)注。今年初,萬(wàn)小軍老師還以技術(shù)開(kāi)發(fā)團(tuán)隊(duì)負(fù)責(zé)人的身份,幫助南方都市報(bào)完成了寫(xiě)稿機(jī)器人“小南”的研發(fā)。

        從產(chǎn)品演進(jìn)路徑來(lái)看,一代寫(xiě)稿機(jī)器人語(yǔ)言偏向生硬,句式較為單一。在優(yōu)化后的產(chǎn)品中,具備更高的語(yǔ)言表達(dá)和邏輯思維能力,以及圖文信息處理能力。以下是寫(xiě)稿機(jī)器人的簡(jiǎn)化版工作流程:

        “現(xiàn)在大家都還處于技術(shù)過(guò)渡的過(guò)程”,業(yè)內(nèi)人士表述。前期產(chǎn)品以簡(jiǎn)單的結(jié)構(gòu)化自動(dòng)生成為主,將一些數(shù)據(jù)嵌入進(jìn)去,利用人工模板。因?yàn)闄C(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)的完善,大家希望能夠借助機(jī)器的自主學(xué)習(xí)功能,“比如,跑一百萬(wàn)篇文章,機(jī)器可以自建模板”。

        但在現(xiàn)實(shí)應(yīng)用中,因?yàn)榇怪?、專業(yè)領(lǐng)域的文章具備鮮明特點(diǎn)。自然語(yǔ)言理解技術(shù)有局限,目前機(jī)器讀取數(shù)據(jù)填充格式化模板是最成熟但也是最沒(méi)有技術(shù)水平的方案,寫(xiě)稿機(jī)器人產(chǎn)品仍主要用于體育和財(cái)經(jīng)類資訊 。

        體育和財(cái)經(jīng)文本信息較少,數(shù)據(jù)信息多,“每周幾十場(chǎng)NBA、足球賽、棒球賽等,以及每天全球主要市場(chǎng)上萬(wàn)家上市公司的各種披露信息和股票漲跌”,從這個(gè)角度上說(shuō),人群結(jié)構(gòu)化程度較高,垂直化需求強(qiáng)烈。

        四、商業(yè)價(jià)值所在:以一當(dāng)十五

        技術(shù)落地的最終訴求來(lái)自產(chǎn)業(yè)所向和商業(yè)價(jià)值。“多、快、好、省”,是騰訊財(cái)經(jīng)總監(jiān)劉康對(duì)于機(jī)器寫(xiě)稿紅利的提煉。

        他并未給出寫(xiě)稿機(jī)器人準(zhǔn)確的產(chǎn)出效益比。“一般來(lái)說(shuō),機(jī)器產(chǎn)出的稿件30-50%,會(huì)各個(gè)頻道的采用,最終呈現(xiàn)在頁(yè)面端”。實(shí)際上,寫(xiě)稿機(jī)器人的成效容易量化,基于其產(chǎn)出的稿件量或者字?jǐn)?shù),以量化成普通人力的規(guī)模。其核心的“快”,包含兩個(gè)層面,一是響應(yīng)速度,寫(xiě)稿機(jī)器人平均可達(dá)到1分鐘甚至更快產(chǎn)出快訊;二是分發(fā)速度快,與后臺(tái)無(wú)縫銜接,縮短至各平臺(tái)中間流程。

        作為技術(shù)輸出的第三方,面向B端的服務(wù)集成是另一種可循的商業(yè)模式。面向媒體企業(yè)收費(fèi),“例如某科技媒體平臺(tái)一年人工費(fèi)用為900萬(wàn),采用自動(dòng)寫(xiě)作或者輔助寫(xiě)作的產(chǎn)品,可以提高員工績(jī)效和產(chǎn)出,減少其人力成本”,從業(yè)人士介紹,寫(xiě)稿機(jī)器人可以24小時(shí)在線,而人工還需要輪班和調(diào)休

        在與阿里巴巴駐第一財(cái)經(jīng)首席科學(xué)家湯開(kāi)智的交流中,他更為系統(tǒng)地介紹了寫(xiě)稿機(jī)器人所產(chǎn)生的效益提升,主要包含以下三個(gè)方面:

        1)機(jī)器稿件產(chǎn)量的提升?!皬娜ツ?月25日開(kāi)始記錄到現(xiàn)在,”一財(cái)全球“總共產(chǎn)生19604篇稿件??紤]到機(jī)器寫(xiě)稿的簡(jiǎn)短性,平均每篇稿子64.5字,總字?jǐn)?shù)為1,264,458字, 平均每篇稿件約64.5個(gè)單詞。這相當(dāng)于同時(shí)期一個(gè)15人編輯團(tuán)隊(duì)人工監(jiān)控股市寫(xiě)稿的總產(chǎn)量。

        綜合分析,考慮到目前機(jī)器稿件的單調(diào)與重復(fù)等因素,稿王機(jī)器稿件的加入,相當(dāng)于為一財(cái)全球增加了一個(gè)3個(gè)人的編輯團(tuán)隊(duì)。

        2)成本下降和資訊反應(yīng)速度的提升?;跍?040家公司、深市1420家公司的即時(shí)監(jiān)控和異動(dòng)報(bào)道工作,至少需要15名以上的編輯進(jìn)行即時(shí)監(jiān)控,每人要同時(shí)監(jiān)控100多只股票,1名翻譯即時(shí)翻譯。并且,股票的異動(dòng)分成多種情況,人反應(yīng)和分析的時(shí)間將帶來(lái)5~10分鐘的延遲。

        因?yàn)閷?xiě)稿機(jī)器人的使用,這些稿件在沒(méi)有人工參與的情況下快速生成,延時(shí)也降低到1分鐘。此外,寫(xiě)稿機(jī)器人還能針對(duì)大盤(pán)、板塊進(jìn)行著監(jiān)控和稿件生成。

        3)流量的貢獻(xiàn)。根據(jù)Google Analytics匯總報(bào)告中顯示最近1個(gè)星期, 3月20日到3月29日之間機(jī)器稿件流量占到一財(cái)全球全部流量的25%,相對(duì)于之前有顯著提升。

        五、新聞之外 更大的文本范式“蛋糕”

        利用寫(xiě)稿機(jī)器人的工作思路:文本分類,文本中的信息提取,文本總結(jié),基于邏輯的自動(dòng)寫(xiě)作方法在“文本范式”的領(lǐng)域,均具備可遷移的想象空間,如法律、合同、電商數(shù)據(jù)等領(lǐng)域。

        “電商模式是來(lái)錢(qián)比較快的”,業(yè)內(nèi)資深人士分析,并提供值得借鑒的方向思路。電商數(shù)據(jù)多而龐雜,對(duì)于當(dāng)下盛行的電商導(dǎo)購(gòu)返利網(wǎng)站而言,UGC(用戶原創(chuàng)內(nèi)容)需要大量的人工審核,雖然編輯自己寫(xiě)的少,但是仍然需要花大量人力在審查上。

        機(jī)器審查又會(huì)過(guò)濾掉一些很有價(jià)值的商品推薦。所以建立一個(gè)機(jī)器寫(xiě)作的導(dǎo)購(gòu)網(wǎng)站,UGC或者機(jī)器只要去發(fā)現(xiàn)一些有價(jià)值的線索就好,“具體的內(nèi)容我們交給機(jī)器去寫(xiě),賺流量的同時(shí)也賺眼球”。

        綜合以上分析,四大平臺(tái)下的寫(xiě)稿機(jī)器人最具商業(yè)化前景和可能性?!捌淦脚_(tái)不僅具備完善的財(cái)經(jīng)數(shù)據(jù),同時(shí)得到了阿里巴巴的電商數(shù)據(jù)支持”,前文提及的“千?!彪娚唐脚_(tái)資訊服務(wù)也得益于此。

        此外,據(jù)湯開(kāi)智博士介紹,DT稿王產(chǎn)品的下一側(cè)重方向在于,“為專業(yè)的內(nèi)容生產(chǎn)方提供技術(shù)輸出,建立一套輔助寫(xiě)作系統(tǒng),能夠和編輯互動(dòng)”。

        “語(yǔ)言生成是一個(gè)非?;A(chǔ)的問(wèn)題,我們?nèi)绻梢园堰@個(gè)問(wèn)題解決好,自然語(yǔ)音的理解方面可能還會(huì)有更大的突破,我們很多方法可以把難問(wèn)題變簡(jiǎn)單,如果能夠設(shè)計(jì)成模型自動(dòng)的做這一步,最后得到的效果會(huì)更好”,今日頭條科學(xué)家、實(shí)驗(yàn)室總監(jiān)李磊表示,可以想象圍繞寫(xiě)稿機(jī)器人衍生的系列“文本范式”算法,將成為今日頭條后續(xù)的信息流源頭之一。

        騰訊方面,則朝著產(chǎn)品化的路徑進(jìn)一步完善。“近期,我們會(huì)有一個(gè)更具體的產(chǎn)品發(fā)布。類似一個(gè)服務(wù)系統(tǒng),可以用于前端展示”,騰訊財(cái)經(jīng)副總監(jiān)劉康向智東西。

        六、大數(shù)據(jù)時(shí)代下 高質(zhì)量數(shù)據(jù)源卻“一票難求”

        在本月初的IT領(lǐng)袖峰會(huì)上,馬化騰曾提到,就算是騰訊這樣規(guī)模的平臺(tái),在數(shù)據(jù)應(yīng)用上仍面臨難題?!坝脩糁苯赢a(chǎn)生的數(shù)據(jù)還需要脫敏(保留隱私性)、清理(保留有效數(shù)據(jù))、加標(biāo)簽(分類)等前序工作后才能產(chǎn)生出有價(jià)值的數(shù)據(jù)”。

        機(jī)器寫(xiě)作需要從大量的文字資料中或許稿源信息和文本數(shù)據(jù),然而實(shí)際上互聯(lián)網(wǎng)上的中文信息本來(lái)質(zhì)量就不高,清洗難度很大。

        此外,稿源信息清洗后需要格式化,然后通過(guò)數(shù)據(jù)調(diào)用載入模板的形式生成自動(dòng)化稿件,這里面模板越精細(xì)化,效果就越好。然而實(shí)際上沒(méi)有足夠好的信息源來(lái)配合模板,同時(shí),編寫(xiě)模板代碼的工作量,事實(shí)上不小。

        以技術(shù)基礎(chǔ)和數(shù)據(jù)庫(kù)為導(dǎo)向。類似NBA、奧運(yùn)會(huì)等大型賽事,大型媒體平臺(tái)本身需要對(duì)接到一個(gè)信息數(shù)據(jù)庫(kù),詳細(xì)的圖文數(shù)據(jù)?!斑@個(gè)數(shù)據(jù)庫(kù)是非常高質(zhì)量的,包含有很多細(xì)節(jié)的”。但在賽事數(shù)據(jù)和股市數(shù)據(jù)之外,很難再找到這樣結(jié)構(gòu)化、高質(zhì)量的數(shù)據(jù)庫(kù)。

        此外,因?yàn)榧兇庖粋€(gè)平面化的機(jī)器寫(xiě)作很難去做,一般還是要垂直行業(yè)能夠做精細(xì)化,比方說(shuō)棒球幾只安打怎么報(bào),每個(gè)投手或者擊球手什么特點(diǎn)。對(duì)應(yīng)到法律行業(yè)就是要了解司法體系,以及不同法律條文之間的關(guān)系,這遠(yuǎn)不是一個(gè)普通創(chuàng)業(yè)公司能做的事情。

        七、結(jié)語(yǔ):下一個(gè)“今日頭條”

        在你一次不經(jīng)意的推送點(diǎn)擊和頁(yè)面瀏覽間,得到的信息很有可能就不再出自人類編輯之手,而是機(jī)敏、不知疲倦的寫(xiě)稿機(jī)器人產(chǎn)物。如果不是這次深度調(diào)查和數(shù)據(jù)搜集,我也不會(huì)意識(shí)到寫(xiě)稿機(jī)器人產(chǎn)業(yè)的發(fā)展與落地速度會(huì)如此之快。這一切,正在悄無(wú)聲息地發(fā)生在你我身邊。

        當(dāng)機(jī)器人和人工智能不再依附于具象的實(shí)體,而是以一種虛擬手段侵入人類生活時(shí),將變得更加莫測(cè)和不可控。同時(shí),也是人類以一種更加理智和客觀的態(tài)度地審視技術(shù)革命的契機(jī)。

        當(dāng)新聞編輯室的資源越來(lái)越少,重復(fù)無(wú)創(chuàng)造性勞動(dòng)力的越來(lái)越多,不難想象,在未來(lái)的新聞報(bào)道中,人工智能將取代更多的“媒體工作者”。

        回到技術(shù)應(yīng)用前景。通過(guò)為信息流前端引入算法機(jī)制,今日頭條坐享內(nèi)容市場(chǎng)的技術(shù)紅利。如果將這一思路引入上層級(jí)的信息流源頭呢?在生產(chǎn)模式上進(jìn)行勞動(dòng)力改造和個(gè)性化匹配,勢(shì)必將產(chǎn)生更加劇烈的化學(xué)反應(yīng)。

        可以預(yù)見(jiàn),人工智能所引發(fā)的信息流生產(chǎn)方式顛覆,將成為BAT與今日頭條的下一個(gè)重要戰(zhàn)場(chǎng)。一項(xiàng)由技術(shù)驅(qū)動(dòng)的、更為核心的業(yè)務(wù)比拼。與此同時(shí),龐大的新興市場(chǎng)需求還將催生出一批可期待的技術(shù)領(lǐng)域創(chuàng)業(yè)新秀。

        但需要警惕的是,當(dāng)人工智能大戰(zhàn)晉升到寡頭層面,其核心仍是一場(chǎng)數(shù)據(jù)大戰(zhàn)!

        猜你喜歡
        頭條財(cái)經(jīng)機(jī)器
        微頭條
        小康(2022年20期)2022-07-20 02:34:22
        機(jī)器狗
        機(jī)器狗
        《頭條》(四首之三)
        財(cái)經(jīng)日歷
        陸家嘴(2020年2期)2020-05-14 13:30:13
        未來(lái)機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        頭條
        海峽姐妹(2017年8期)2017-09-08 12:16:45
        財(cái)經(jīng)閱讀時(shí)代
        電影(2017年5期)2017-06-15 16:30:16
        頭條
        無(wú)敵機(jī)器蛛
        国产精品1区2区| 国产精品无码久久综合| 国产精品无码一本二本三本色| 人人妻人人澡人人爽人人精品电影| 国产极品视觉盛宴在线观看| 亚洲精品中文字幕熟女| www国产亚洲精品| 另类老妇奶性生bbwbbw| 国产亚洲欧美日韩综合综合二区| 国内精品人人妻少妇视频| 国产成人自拍视频播放| 久久97久久97精品免视看| 青青草高中生在线视频| av鲁丝一区鲁丝二区鲁丝三区| 亚洲精品国偷拍自产在线观看蜜臀| 久久久99精品视频| 色婷婷久久综合中文蜜桃| 亚洲中文字幕一区精品自拍| 特级毛片a级毛片在线播放www | 国产成人亚洲精品| 中文字幕国产91| 日本一区二区三区精品不卡| 国产无套中出学生姝| 久久精品人人做人人爽| 国产69口爆吞精在线视频喝尿| 久久精品国产亚洲av网站| 国产乱子轮xxx农村| 久久精品国产亚洲av电影| 成在线人免费视频播放| 中文乱码字幕精品高清国产| 久久aⅴ人妻少妇嫩草影院| 99热这里只有精品国产66| av一区二区三区综合网站| 正在播放老肥熟妇露脸| 这里只有久久精品| 亚洲高清自偷揄拍自拍| 男人天堂网2017| 制服丝袜人妻中文字幕在线| 色偷偷亚洲第一综合网| 亚洲av熟女一区二区三区站| 国产无套内射久久久国产|