亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        每秒1000億數(shù)據(jù)行:21世紀早期的媒體分析 *

        2021-04-14 21:29:28列夫曼諾維奇
        國外社會科學(xué)前沿 2021年10期
        關(guān)鍵詞:內(nèi)容用戶分析

        列夫?曼諾維奇 /文 張 斌 / 譯

        今天的文化讓一切都變得千篇一律。電影、廣播和雜志形成了一個體系……利益團體喜歡用技術(shù)術(shù)語來解釋文化工業(yè)。他們爭辯說,數(shù)以百萬計的參與者需要復(fù)制過程,這不可避免地導(dǎo)致使用標準過程來滿足無數(shù)地方的相同需求……實際上,操縱和追溯需求的循環(huán)使系統(tǒng)更加緊密地統(tǒng)一起來。1Max Horkheimer and Theodor Wiesengrund Adorno, Dialectic of Enlightenment, trans. By E. Jephcott, Stanford, CA:Stanford University Press, 2002.

        斯庫巴(Scuba)是Facebook的快速切片數(shù)據(jù)存儲庫。它存儲了成千上萬表格,數(shù)據(jù)高達100TB。它每秒吸收數(shù)百萬新數(shù)據(jù)行并刪除同樣多的數(shù)據(jù)行。它的吞吐量峰值大約為每秒100個查詢,每秒掃描1000億行,大多數(shù)響應(yīng)時間低于1秒。1Jo-Ann Wiener and Nathan Bronson, Facebook’s Top Open Data Problems, https://research.fb.com/facebook-s-topopen-data-problems/.

        我們的數(shù)據(jù)真的很重要。衡量全球大多數(shù)主要網(wǎng)站的每一個頁面上的每一秒用戶參與度意味著科學(xué)定義的海量數(shù)據(jù)。2About Chartbeat, https://chartbeat.com/about/.

        技術(shù)媒體的歷史可以想象為一系列相互重疊的階段。在每一個階段,創(chuàng)建、存儲、分發(fā)和使用內(nèi)容的新技術(shù)和新實踐都很突出。但是這些實踐不會以線性的方式相互替換。相反,舊的系統(tǒng)會繼續(xù)與新系統(tǒng)共存。例如,印刷的大規(guī)模復(fù)制、廣播、使用個人電腦創(chuàng)建媒體、網(wǎng)絡(luò)作為出版和分發(fā)平臺、社交網(wǎng)絡(luò)和媒體共享網(wǎng)站等都只是這些實踐中的一部分。它們現(xiàn)在都很活躍,盡管在很長一段時間內(nèi),早期的實踐可能并不那么重要,或者以重要的方式進行了轉(zhuǎn)變。

        這篇文章旨在描述現(xiàn)代技術(shù)媒體發(fā)展的最新階段。我稱這個階段為“媒體分析”(media analytics)。與其他階段不同,它的核心不是創(chuàng)作、出版或發(fā)行,盡管它也會影響這些業(yè)務(wù)。這個新階段的核心是對所有在線媒體內(nèi)容以及在線個人和群體行為和交流的自動計算分析。因為這個行業(yè)沒有一個單獨的術(shù)語來指代這些實踐,所以我姑且命名為“媒體分析”。

        媒體分析的動機和用途是多種多樣的,但它們都與21世紀早期數(shù)字文化的規(guī)模有關(guān)。這個規(guī)模就是數(shù)字內(nèi)容的數(shù)量——網(wǎng)絡(luò)有140億網(wǎng)頁,每天分享20億張照片,流媒體Spotify有3000萬首歌曲,等等。它還包括分享、互動或購買這些內(nèi)容的人數(shù)。截至2017年初,世界有25億活躍社交網(wǎng)絡(luò)用戶和37億互聯(lián)網(wǎng)用戶,這些數(shù)字還在繼續(xù)增長。因此,說媒體分析和“大數(shù)據(jù)”范式的興起有關(guān)就有些輕描淡寫了。事實上,谷歌和Facebook開發(fā)的下一代存儲、檢索和分析大數(shù)據(jù)的技術(shù)現(xiàn)在也用在其他領(lǐng)域,因為它們的媒體和交互記錄的數(shù)量非常龐大。

        一、媒體分析案例

        通過網(wǎng)站或應(yīng)用程序(app)銷售文化商品和服務(wù)的公司(如亞馬遜、蘋果、 Spotify、Netflix),組織和制作可搜索的信息和知識(谷歌、百度、Yandex),提供推薦(Yelp、TripAdvisor),實現(xiàn)社交交流、信息共享(Facebook、QQ、微信、WhatsApp、推特等)和媒體分享(Instagram、Pinterest、YouTube)都依賴于對大量媒體數(shù)據(jù)集和數(shù)據(jù)流的計算分析。這些數(shù)據(jù)包括:

        ● 用戶在線行為的痕跡(即數(shù)字足跡):訪問網(wǎng)站、跟蹤鏈接、分享帖子和“點贊”、瀏覽和點擊廣告;

        ● 物理行為的痕跡:地理位置、用戶發(fā)布到社交網(wǎng)絡(luò)的日期和時間、連接到互聯(lián)網(wǎng)的用戶計算機的位置;

        ● 公司創(chuàng)建的媒體內(nèi)容:歌曲、視頻、書籍和電影;

        ● 社交網(wǎng)絡(luò)用戶創(chuàng)建的媒體內(nèi)容:帖子、對話、圖片和視頻。

        我用數(shù)據(jù)集(data sets)這個術(shù)語來指代在自動分析之前數(shù)據(jù)庫中的組織化的靜態(tài)或“歷史”數(shù)據(jù)。在工業(yè)數(shù)據(jù)分析應(yīng)用程序中,“歷史”一詞指的是過去幾秒鐘以上的事情,有時甚至是幾分之一秒。數(shù)據(jù)流(data streams)是指實時到達并使用諸如Spark streams和Storm這樣的平臺進行不間斷分析的數(shù)據(jù)。在這兩種情況下,收集的數(shù)據(jù)也使用平臺存儲,比如Cassandra、HBase、MongoDB。到目前為止,數(shù)字人文和計算社會科學(xué)只分析了歷史上靜態(tài)的數(shù)據(jù)集,與此同時,產(chǎn)業(yè)越來越多地使用數(shù)據(jù)流的實時分析,這些數(shù)據(jù)流的規(guī)模較大,需要前面提到的特殊平臺。

        讓我們考慮一個媒體內(nèi)容的計算分析和使用這種分析的例子。Spotify分析了3000多萬首歌曲中每首歌曲的許多特征。這些特征,或者說“特性”,也可以通過Spotify向外部開發(fā)者開放API方法“為歌曲獲取音頻特性”。該方法的當前規(guī)范列出了13個特性。其中許多都是建立在較低層次的特征之上,這些特征是由算法從音軌文件中提取的。這些特征是“聲學(xué)性”、舞蹈性、持續(xù)時間(以毫秒計)、能量、“器樂性”、聲調(diào)、“活躍”、響度、模式、“言語”、節(jié)奏、時間特征和效價。

        Spotify和其他音樂流媒體服務(wù)使用這種提取的功能,為用戶自動創(chuàng)建自定義播放列表,從一首歌、專輯、藝術(shù)家或流派開始。你可以從一首歌曲開始,然后應(yīng)用程序的算法會在一個功能空間中選擇和它相近的歌曲,并進行流媒體播放。這種方法的優(yōu)點是新歌不必屬于同一專輯或同一歌手,他們只需要與以前的歌曲共享一些音樂特征。

        媒體分析還有很多其他的例子。例如,為了使其搜索服務(wù)成為可能,谷歌不斷地分析全部內(nèi)容并標記數(shù)十億個Web頁面。它通過爬蟲軟件查看Web上可以觸及的每一個頁面以及它的文本、布局、使用的字體、圖像,等等。電子郵件的垃圾郵件檢測依賴于對大量電子郵件文本的分析。亞馬遜通過分析數(shù)百萬客戶的購買情況來推薦圖書。Netflix分析了數(shù)百萬用戶對推薦電影和電視節(jié)目的選擇。它還分析了所有產(chǎn)品的信息,創(chuàng)建了超過7萬種類型類別。語境廣告系統(tǒng),如AdSense,分析網(wǎng)頁內(nèi)容,并自動選擇相關(guān)廣告顯示。電子游戲公司捕捉數(shù)百萬玩家的游戲動作,并以此來優(yōu)化游戲設(shè)計。Facebook的算法會分析每個用戶所有好友的所有更新,然后自動選擇哪些更新會顯示在用戶訂閱中。媒體分析在產(chǎn)業(yè)中使用的其他例子包括自動翻譯(谷歌、Skype)和推薦人們關(guān)注或添加到你的朋友列表 (推特、Facebook)。使用語音界面進行谷歌搜索,谷歌語音轉(zhuǎn)錄(Beaufays)、微軟的小娜(Cortana),或蘋果的Siri也依賴于對之前數(shù)百萬小時語音交互的計算分析。

        使數(shù)據(jù)收集、分析和后續(xù)行動成為可能的算法和軟件的開發(fā)是由許多學(xué)術(shù)領(lǐng)域的研究人員進行的,包括機器學(xué)習(xí)、計算機視覺、音樂信息檢索、計算語言學(xué)、自然語言處理、數(shù)據(jù)挖掘和計算機科學(xué)的其他領(lǐng)域。其中許多領(lǐng)域是在20世紀50年代開始發(fā)展的,大約在1950年出現(xiàn)了關(guān)鍵的概念“信息檢索”。最新的術(shù)語是數(shù)據(jù)科學(xué)(data science),在2010年之后開始流行。它是指了解當代的數(shù)據(jù)分析算法和方法(今天是機器學(xué)習(xí)、數(shù)據(jù)挖掘和人工智能的重疊術(shù)語)以及經(jīng)典統(tǒng)計,能夠利用現(xiàn)有技術(shù),如我之前提到的平臺實現(xiàn)了大數(shù)據(jù)的收集、分析、報告和存儲。

        業(yè)界以外的人可能會驚訝地發(fā)現(xiàn),媒體分析技術(shù)的許多關(guān)鍵部分都是開源的。為了加快研究進度,大多數(shù)頂級公司會定期共享它們代碼的許多部分。例如,在2015年11月9日,谷歌開源了它的數(shù)據(jù)和媒體分析系統(tǒng)TensorFlow,以支持它的許多服務(wù)。其他公司,如Facebook和微軟也開放了用于組織海量數(shù)據(jù)集的軟件系統(tǒng)(Cassandra和Hive是Facebook的兩個流行系統(tǒng),現(xiàn)在很多商業(yè)和非營利組織都在使用它們)。反之亦然。擁有超過200萬會員的社區(qū)地圖項目Openstreetmap.org的數(shù)據(jù)被許多商業(yè)公司使用在它們的應(yīng)用程序中,包括微軟和Craigslist。目前用于媒體分析研究的最流行的編程語言是開源的R和Python。

        如果我們想確定跨文化產(chǎn)業(yè)對內(nèi)容和互動數(shù)據(jù)的大規(guī)模分析實踐的建立日期,我們可以選擇1995年(早期的網(wǎng)絡(luò)搜索引擎)作為開始的日期,而2010年(Facebook用戶數(shù)達到5億)是這些實踐完全成熟的日期。如今,媒體分析被認為是理所當然的,每一家提供社交網(wǎng)絡(luò)或在線銷售媒體產(chǎn)品的大公司每天都在做這件事,而且越來越實時。數(shù)百家提供社交媒體儀表盤(用于監(jiān)控和分析用戶活動和發(fā)布內(nèi)容的網(wǎng)絡(luò)工具)的公司也進行了同樣的分析,并為大量客戶進行定制分析。

        二、媒體分析的兩個部分

        媒體分析是媒體技術(shù)的新階段,它影響著數(shù)十個使用互聯(lián)網(wǎng)和計算設(shè)備的國家中很大一部分人口的日常文化體驗。媒體分析的一部分——用戶交互數(shù)據(jù)(如數(shù)字跟蹤)的收集和算法分析——已經(jīng)得到了很大的關(guān)注。然而,對這些實踐的討論大多集中在政治和社會問題上,如隱私、監(jiān)視、訪問權(quán)、歧視、公平、偏見等等,而不是技術(shù)媒體的歷史和理論。

        相比之下,媒體分析的第二部分,也就是業(yè)內(nèi)對所有類型的在線媒體內(nèi)容進行算法分析的實踐受到的關(guān)注較少。然而,只有當我們把媒體分析的兩個部分,用戶交互數(shù)據(jù)分析和媒體內(nèi)容分析放在一起考慮時,1995—2010年之間逐漸發(fā)生的轉(zhuǎn)變的規(guī)模才會完全顯現(xiàn)出來。盡管大眾媒體上的文章討論了在某些情況下對文化內(nèi)容和數(shù)據(jù)進行計算分析的細節(jié),比如谷歌搜索、Netflix的推薦系統(tǒng),或者2008年奧巴馬的競選活動,但它們沒有解釋媒體分析現(xiàn)在在整個文化產(chǎn)業(yè)中的使用情況。

        媒體分析實踐和技術(shù)被應(yīng)用于人們分享、購買和與文化產(chǎn)品互動的大多數(shù)平臺及服務(wù)中。公司使用其來自動選擇在這些平臺上將向每個用戶顯示什么、如何顯示、何時顯示,包括好友的更新和推薦內(nèi)容。也許最重要的是,這些技術(shù)內(nèi)置于許多應(yīng)用程序和Web服務(wù)中,不僅由企業(yè)和非營利組織使用,還被成千上萬的個人使用。這些人不僅作為消費者,而且也作為內(nèi)容和意見的生產(chǎn)者參與到文化產(chǎn)業(yè)中。喬治?瑞澤爾(George Ritzer)和奈森?杰根森(Nathan Jurgenson)稱這種混合了消費和生產(chǎn)的狀況為“產(chǎn)銷者資本主義”(prosumer capitalism)。例如,用于網(wǎng)站和博客的谷歌分析,以及由Facebook、Twitter和其他主要社交網(wǎng)絡(luò)提供的分析儀表板,被數(shù)以百萬計的人用來調(diào)整他們的內(nèi)容和發(fā)布策略。

        媒體分析的這兩個部分都是歷史上新出現(xiàn)的。馬克斯?霍克海默和西奧多?阿多諾撰寫《啟蒙辯證法》時,人際交往和群體互動不是文化產(chǎn)業(yè)的一部分。但是今天,它們也變得“工業(yè)化”了——部分受算法的影響,這些算法決定了網(wǎng)絡(luò)向你展示什么內(nèi)容、更新和信息。這些交互也在不同的意義上工業(yè)化了。社交網(wǎng)絡(luò)和通訊應(yīng)用的界面和工具都是由UI(用戶交互)科學(xué)家和設(shè)計師設(shè)計的,他們會測試無限的可能性,以確保每個UI元素,比如按鈕和菜單都經(jīng)過優(yōu)化和設(shè)計,以獲得最大的效果。

        媒體分析的第二部分——媒體內(nèi)容的計算分析在文化產(chǎn)業(yè)的應(yīng)用方面也是最近才出現(xiàn)的。20世紀40年代誕生了首個能夠響應(yīng)查詢要求、進行計算機編碼文本查詢的計算機技術(shù)。1948年的一次會議上,霍爾姆斯特倫(Holmstrom)描述了一種“名為Univac的機器”,它能夠搜索與主題代碼相關(guān)的文本引用。代碼和文本存儲在一個磁鋼磁帶上??栁?莫爾斯(Calvin Mooers)在其麻省理工學(xué)院的碩士論文中創(chuàng)造了信息檢索(information retrieval)這個詞,并于1950年發(fā)表了他對這個詞的定義。根據(jù)這個定義,信息檢索是“尋找那些位置不明,甚至不知存在與否的信息”。雖然最早的系統(tǒng)只使用主題和作者代碼,但在20世紀50年代末,IBM的計算機科學(xué)家漢斯?彼得?盧恩(Hans Peter Luhn)引入了全文處理,我認為這是媒體分析的真正開端。

        在20世紀80年代,最早的搜索引擎將信息檢索技術(shù)應(yīng)用到互聯(lián)網(wǎng)上。在萬維網(wǎng)開始成長后,新的網(wǎng)站搜索引擎被創(chuàng)造出來。首個著名的搜索網(wǎng)站文本的引擎是1994年發(fā)布的WebCrawler。在20世紀90年代的后半段,許多搜索引擎,包括Yahoo!、Magellan、Lycos、Infoseek、Excite和AltaVista陸續(xù)出現(xiàn)。在21世紀初,對其他類型的網(wǎng)絡(luò)媒體,包括圖片、視頻和歌曲的大量分析也開始了。例如,在2016年初,TinEye的圖片搜索服務(wù)收錄了超過140億張網(wǎng)絡(luò)圖片。Spotify和Deezer等流媒體音樂服務(wù)分析了數(shù)百萬首歌曲的特征,并以此為推薦依據(jù)。截至2017年初,Spotify分析了3000萬首歌曲,并自動生成了20億個播放列表。YouTube會分析發(fā)布的視頻內(nèi)容,以確定一個新視頻是否與數(shù)據(jù)庫中數(shù)百萬受版權(quán)保護的視頻的內(nèi)容相重合。

        三、媒體分析的自動化

        如果我們從自動化的角度來看媒體歷史的文化分析階段,它跟隨了軟件工具和計算機被用于創(chuàng)作個人媒體產(chǎn)品的早期階段。在這一歷史中,里程碑式的發(fā)展包括視頻效果軟件Quantel Paintbox(1981年)、寫作軟件Word(1983年)、視頻編輯軟件Amiga(1985年)、桌面發(fā)布軟件PageMaker(1985年)、矢量繪圖軟件Illustrator(1987年)和圖像編輯軟件Photoshop(1990年)等。這些軟件工具使得更快的工作流程、交換和共享項目的數(shù)字文件和資產(chǎn)、創(chuàng)建模塊化內(nèi)容成為可能(如Photoshop中的圖層),并且可以隨時便利地修改已創(chuàng)建內(nèi)容。后來,其他技術(shù)加入了這些工具,使計算媒體創(chuàng)作成為可能,例如渲染農(nóng)場(render farms)和媒體工作流管理。

        媒體分析的工具各不相同。它們可以自動分析:(1)數(shù)以十億計的在線媒體內(nèi)容;(2)來自用戶與軟件服務(wù)和應(yīng)用程序之間數(shù)以萬億計的交互數(shù)據(jù)。例如,用谷歌分析Web上的圖像內(nèi)容,當你輸入搜索詞時,系統(tǒng)將根據(jù)你在安全搜索選項中的選擇顯示全部或部分圖像。如果有需要,它們也可以在此分析的基礎(chǔ)上實現(xiàn)自動操作——例如,自動放置廣告。

        因此,現(xiàn)在自動化的不再是單個媒體條目的創(chuàng)建,而是所有網(wǎng)絡(luò)內(nèi)容的展示和相關(guān)內(nèi)容的檢索。這包括選擇和過濾(展示什么)、內(nèi)容放置(行為廣告)和發(fā)現(xiàn)(搜索、推薦)。另一個不斷增長的應(yīng)用是“如何展示”。例如,流行新聞門戶Mashable在推特上有850萬粉絲(截至2017年3月),它會根據(jù)對用戶與內(nèi)容互動的實時分析自動調(diào)整內(nèi)容塊的位置。媒體分析的另一個應(yīng)用是“要創(chuàng)造什么”。例如,在2015年,《紐約時報》的作者開始使用內(nèi)部應(yīng)用程序來推薦要報道的主題。

        正如采用計算機進行媒體創(chuàng)作并逐漸使這個過程民主化一樣,媒體分析的概念、技術(shù)、軟件和硬件的發(fā)展也使其使用民主化。如今,每一個網(wǎng)絡(luò)內(nèi)容的創(chuàng)建者都擁有免費的工具,而這些工具直到最近還有只有大型廣告公司或市場營銷者才能使用的。現(xiàn)在,每個經(jīng)營博客網(wǎng)站或在自己的社交媒體上發(fā)布內(nèi)容的人都可以像一家媒體公司一樣,研究有關(guān)點擊、分享和點贊的數(shù)據(jù),付費推廣任何帖子,并系統(tǒng)地規(guī)劃她或他分享的內(nèi)容和地點。所有流行的媒體共享和網(wǎng)絡(luò)平臺,從Facebook、YouTube、推特到Academia.edu,都會向人們展示與網(wǎng)絡(luò)用戶互動的詳細圖表和統(tǒng)計數(shù)據(jù)。

        另一個例子是MailChimp,它是用于發(fā)送和跟蹤大量電子郵件的流行服務(wù)。當我使用MailChimp向我的小型郵件列表發(fā)送電子郵件時,我使用它們的發(fā)送時間優(yōu)化選項。它分析了我以前的電子郵件活動的數(shù)據(jù),并“為你要發(fā)送的用戶確定最佳發(fā)送時間,并在最佳時間進行分發(fā)”。為了創(chuàng)建我在Facebook和推特上的帖子,我使用了一款應(yīng)用程序,它能計算出我在每個網(wǎng)絡(luò)上發(fā)帖的最佳時間。如果我想推廣我的Facebook頁面或推特帖子,我可以使用免費的廣告功能,通過在它們的網(wǎng)絡(luò)上根據(jù)數(shù)百種設(shè)置(包括國別、年齡、性別、興趣和行為)選擇用戶,為我的活動創(chuàng)建一個定制的受眾。雖然基于分類的市場細分早已經(jīng)在市場營銷和廣告中使用,推特也允許你觸達任何一個與關(guān)注“你”賬戶相似的“目標用戶”。在這種新情況下,我不再需要從明確的類別或術(shù)語開始,相反,我可以讓推特的媒體分析為我建立一個自定義的受眾。

        以谷歌和Facebook等網(wǎng)絡(luò)巨頭為例,它們用于數(shù)據(jù)分析的技術(shù)和人才資源,以及數(shù)億人每天使用其服務(wù)的數(shù)據(jù)訪問,都給了它們顯著的優(yōu)勢,用以分析用戶的互動和行為。這與對單個用戶或公司使用谷歌或Facebook分析其賬戶,或使用任何社交媒體儀表盤對其進行分析,在量化層面是有差異的,但從質(zhì)化層面上說,概念和大多數(shù)技術(shù)是完全一樣的。谷歌、Facebook、百度和易趣(eBay)等巨頭與小公司的一個關(guān)鍵區(qū)別在于,前者擁有頂尖科學(xué)家開發(fā)的自己的機器學(xué)習(xí)系統(tǒng)(即現(xiàn)代形式的人工智能),這些系統(tǒng)可以根據(jù)幾乎實時捕獲的數(shù)十億數(shù)據(jù)點進行分析并作出決策;另一個不同是谷歌和Facebook在許多國家主導(dǎo)著在線搜索和廣告。因此,與小公司相比,它們對數(shù)億用戶發(fā)現(xiàn)新內(nèi)容和信息的影響是不成比例的。

        所以媒體分析很重要,它被應(yīng)用于整個文化產(chǎn)業(yè)。但是,為什么我稱它為“舞臺”,而不是當代文化產(chǎn)業(yè)的“趨勢”之一呢?因為在某些行業(yè)中,媒體分析被用于算法化處理每一種文化產(chǎn)物并對其采取行動。例如,2014年,使用媒體分析的數(shù)字音樂服務(wù)就占了美國該行業(yè)音樂收入的70%。媒體分析也被用來對在數(shù)十個國家的大多數(shù)年輕人使用的平臺上的每一個用戶互動進行分析并采取行動。這是媒體內(nèi)部運作和社會運作的新邏輯??傊?,這在實踐上和理論上都是至關(guān)重要的。任何關(guān)于媒介理論或傳播的未來討論都必須從這種情況開始。

        當然,我并不是說在1993年之后媒體技術(shù)領(lǐng)域就沒有發(fā)生過其他事情。我可以列出許多其他重要的發(fā)展,如從信息的層級組織到搜索、社交媒體的興起、地理位置信息的整合、移動計算、相機和網(wǎng)頁瀏覽集成到手機和2010年后轉(zhuǎn)向跨媒體分析應(yīng)用程序和其他數(shù)據(jù)分析領(lǐng)域的機器學(xué)習(xí)。

        在“大媒體”數(shù)據(jù)處理領(lǐng)域扮演關(guān)鍵角色的公司只有10~15年的歷史——谷歌、百度、VK、亞馬遜、易趣、Facebook、Instagram等是在網(wǎng)絡(luò)時代發(fā)展起來的,而不是像電影公司或圖書出版商這樣的20世紀文化產(chǎn)業(yè)的老牌公司。這些老玩家過去是,現(xiàn)在仍然是“專業(yè)”內(nèi)容的生產(chǎn)者。新玩家則充當人們與這些專業(yè)內(nèi)容以及“用戶生成內(nèi)容”(UGC)之間的接口。老牌參與者正在逐漸采用分析技術(shù),但關(guān)鍵決策(如出版一本書)仍然是由個人按照自己的直覺作出的。相比之下,新玩家從一開始就把它們的業(yè)務(wù)建立在計算媒體分析之上。

        它們分析和優(yōu)化的主要是分銷、營銷、廣告、發(fā)現(xiàn)和推薦,也就是說,在文化產(chǎn)業(yè)中,消費者尋找、購買和“使用”文化產(chǎn)品的部分。然而,同樣的計算范式也被社交網(wǎng)絡(luò)公司所實現(xiàn)。從這個角度來看,這些網(wǎng)絡(luò)的用戶成為了彼此的“產(chǎn)品”。例如,亞馬遜的算法分析人們看什么商品和購買什么商品的數(shù)據(jù),并利用這些分析為每一位用戶提供個人建議。與此同時,F(xiàn)acebook的算法分析人們在其網(wǎng)站上做什么,以選擇每個人的新聞訂閱中出現(xiàn)什么樣的內(nèi)容。

        雖然“算法”和“算法文化”這兩個詞很方便,因為它們似乎很好地總結(jié)了自動分析和決策制定的概念,但它們也可能會誤導(dǎo)人。這就是我使用“媒體分析”的原因。如今,用于大數(shù)據(jù)分析和預(yù)測的最常用技術(shù)是機器學(xué)習(xí),它與我們通常所理解的為完成某項任務(wù)而執(zhí)行的有限步驟序列有很大不同。一些機器學(xué)習(xí)應(yīng)用程序是“可解釋的”,但很多(如果不是大多數(shù)的話)都不是。創(chuàng)建計算機系統(tǒng)的過程往往會導(dǎo)致一個“黑箱”,它具有良好的實用性能,但不可解釋,也就是說,我們不知道它是如何產(chǎn)生結(jié)果的。由于這些原因,當提及公司部署的用于分析數(shù)據(jù)、作出預(yù)測或基于分析執(zhí)行自動操作的真實系統(tǒng)時,我傾向于避免使用算法(algorithms and algorithmic)這樣的術(shù)語。我更喜歡的術(shù)語是軟件,它更通用,因為它不假設(shè)系統(tǒng)使用傳統(tǒng)的算法,也不假設(shè)這些算法是可解釋的。

        媒體分析是當今媒體“物質(zhì)性”的關(guān)鍵方面。15年前,這個概念可能已經(jīng)被用于計算機硬件、編程語言、數(shù)據(jù)庫、網(wǎng)絡(luò)協(xié)議以及媒體創(chuàng)作、出版和共享軟件的討論中)。如今,媒體的物質(zhì)性還與大數(shù)據(jù)存儲和處理技術(shù)(如Hadoop和Storm)、監(jiān)督機器學(xué)習(xí)和深度學(xué)習(xí)等范式,以及流行的機器學(xué)習(xí)算法(如k-means、決策樹、支持向量機器和KNN)有關(guān)。物質(zhì)性就是Facebook“每秒掃描1000億行”,谷歌每天處理100+TB的數(shù)據(jù)。物質(zhì)性也是谷歌自動創(chuàng)建的“根據(jù)時間為每個人建立的多重(預(yù)測)模型”。

        四、媒體行為的自動化

        到目前為止,我們的討論集中在媒體內(nèi)容的自動分析和用戶與內(nèi)容的交互?,F(xiàn)在我想討論一下今天媒體文化的另一個新方面,它是由媒體分析所促成的:基于先前和/或?qū)崟r分析結(jié)果的“媒體行為”的自動化。這些行為可以分為兩種類型:(1)部分由顯性用戶輸入或選擇設(shè)置控制的自動行為;(2)非由顯性用戶輸入控制的自動行為。

        部分由顯性用戶輸入或選擇設(shè)置控制的自動行為包括:為響應(yīng)文本搜索查詢返回的搜索結(jié)果;為響應(yīng)用戶選擇要查找的圖像類型而產(chǎn)生的圖像搜索結(jié)果;音樂流媒體服務(wù)響應(yīng)用戶對音樂家或音樂的初始選擇而推薦的音樂。例如,谷歌圖像搜索選項目前有面部、照片、剪貼畫、線條繪制或動畫,以及全彩和黑白。用戶可以更改的設(shè)置包括系統(tǒng)根據(jù)用戶的廣告偏好選擇顯示的廣告,以及根據(jù)“安全搜索”設(shè)置顯示的圖片類型。

        這些用戶的輸入和設(shè)置與內(nèi)容和交互分析的結(jié)果相結(jié)合,以確定軟件所采取的行動。操作的選擇可以來自特定用戶的先前數(shù)據(jù)或所有用戶的數(shù)據(jù),比如所有亞馬遜客戶的購買歷史記錄。還可以使用其他信息來確定操作。例如,涉及成千上萬個廣告的實時算法操作決定了在給定時刻哪些廣告將顯示在用戶的頁面上。

        不受顯性用戶輸入控制的自動行為依賴于對用戶交互活動的分析,但不要求用戶顯性地選擇任何內(nèi)容。換句話說,用戶用他或她以前的所有動作“投票”。谷歌自動將電子郵件過濾為“重要”和“一切”就是這類操作的一個很好的例子。大多數(shù)我們今天在網(wǎng)絡(luò)服務(wù)和應(yīng)用程序的互動中遇到的大多數(shù)自動行為,可以通過設(shè)置部分地由我們控制。然而,并不是每個用戶都愿意花時間去理解和更改每個服務(wù)的默認設(shè)置(比如https://www.facebook.com/settings)。

        我們還將自動行為分為兩種類型,這取決于它們是以確定性或非確定性的方式實現(xiàn)的。確定性行為是通過計算產(chǎn)生的,這些計算總是在相同的輸入下產(chǎn)生相同的輸出;不確定性行為也是通過計算產(chǎn)生的,然而這些計算可以在相同的輸入下產(chǎn)生許多不同的輸出。如今,大多數(shù)使用大數(shù)據(jù)的算法決策都依賴于概率論、統(tǒng)計學(xué)和機器學(xué)習(xí)。這包括文化產(chǎn)業(yè)的網(wǎng)絡(luò)服務(wù)和應(yīng)用程序中的自動決策。例如,推薦系統(tǒng)可以通過添加一個隨機參數(shù)來改變結(jié)果,從而每次生成不同的結(jié)果。但即使在一個計算系統(tǒng)使用確定性方法時,如果輸入的數(shù)據(jù)發(fā)生了變化,它仍然可以每次生成不同的動作——這通常發(fā)生在不斷發(fā)展的Web或社交網(wǎng)絡(luò)中。

        總的結(jié)果是另一種媒體的新情況——我們每次展示和推薦的內(nèi)容并不完全由我們或系統(tǒng)設(shè)計者決定。從20世紀文化產(chǎn)業(yè)的嚴格確定性技術(shù)和實踐到21世紀頭十年的非確定性技術(shù)的轉(zhuǎn)變是媒介文化新階段的另一個重要方面。在某種程度上,過去嚴格屬于實驗藝術(shù)領(lǐng)域的東西,如約翰?凱奇(John Cage)對不確定性的使用,或者伊安尼斯?塞納基斯(Iannis Xenakis)利用隨機過程來創(chuàng)作或表演作品這樣的做法已經(jīng)被文化產(chǎn)業(yè)采用,作為一種處理新出現(xiàn)的大規(guī)模可用內(nèi)容的方法。但是,當然,現(xiàn)在的目標是相當不同的——不是創(chuàng)造一種可能令人不舒服和震驚的審美體驗,而是讓一個人接觸更多的現(xiàn)有內(nèi)容,這些內(nèi)容符合這個人的現(xiàn)有品味,就像她或他之前的選擇所表現(xiàn)出來的那樣。但是,我們應(yīng)該記住,如果一個人逐漸遠離他或她最初的選擇,產(chǎn)業(yè)推薦系統(tǒng)也可以用于擴展一個人的品味和知識。當然還有Web超鏈接結(jié)構(gòu)、維基百科、開放訪問的出版物和各種其他Web內(nèi)容也可以用于此。

        除了我前面提到的基于媒體分析的自動行為的例子外,還有許多其他類型的此類操作也使得當代媒體有別于過去。例如,關(guān)于用戶與Web服務(wù)、應(yīng)用程序或設(shè)備交互的數(shù)據(jù)也經(jīng)常用于其自身的自動設(shè)計調(diào)整。這些數(shù)據(jù)還被用于創(chuàng)造更多的認知自動化,允許系統(tǒng)“預(yù)測”用戶在任何給定的情境下需要什么,并提供最適合該地點、時間、用戶畫像和活動類型的信息。情境感知(context-aware)這個術(shù)語通常用于描述計算機系統(tǒng)可以對位置、時間、身份和活動作出反應(yīng)。谷歌的Now assistant就是這種情境感知計算的一個例子。

        20世紀的工業(yè)和軟件設(shè)計師及廣告商使用用戶測試、焦點小組和其他技術(shù)來測試和改進新產(chǎn)品。但在媒體分析階段,服務(wù)或產(chǎn)品可以根據(jù)用戶的互動歷史以及對其他用戶與服務(wù)或產(chǎn)品互動的分析,自動調(diào)整每個用戶的行為。遵循谷歌推廣的模式,每個Web和應(yīng)用程序用戶都成為了不斷變化的系統(tǒng)的更好測試者,這些系統(tǒng)從每次交互中學(xué)習(xí)。

        五、媒體分析和文化分析

        相對于經(jīng)濟、社會和政治而言,新的計算媒體文化組織(computational organization of media culture)的許多文化效應(yīng)還沒有被產(chǎn)業(yè)或?qū)W術(shù)研究者系統(tǒng)地加以實證研究。例如,我們現(xiàn)在知道很多關(guān)于美國保守派和自由派推特用戶的語言,或者同一平臺上政治兩極分化的事情;但我們不知道Instagram上全世界成千上萬個城市分享的內(nèi)容類型的差異,也不知道過去10年里數(shù)億個博客主題的演變。業(yè)界確實從這中間提取了一些信息,并將其用在搜索和推薦服務(wù)中,但是它沒有公布這些信息。我們也應(yīng)該記住,業(yè)界通常感興趣的是對與某些內(nèi)容和用戶活動關(guān)系的趨勢分析,這和學(xué)者感興趣的歷史性的或大規(guī)模的跨文化分析不同。

        然而,有一件事對我來說是清楚的。文化產(chǎn)業(yè)中使用的數(shù)據(jù)分析方法也可以用于定量研究和理論化媒體分析的文化效應(yīng)。2005年,當產(chǎn)業(yè)媒體分析剛剛興起時,我介紹了一個術(shù)語,文化分析(cultural analytics),指的是使用計算方法來探索當代數(shù)字媒體的大樣本,以提出與媒體研究和人文學(xué)科相關(guān)的問題。在過去的10年里,計算機科學(xué)、計算社會科學(xué)和數(shù)字人文學(xué)科的研究人員發(fā)表了數(shù)以萬計有趣的研究,這些研究將這些方法應(yīng)用于社交網(wǎng)絡(luò)上對文學(xué)、音樂、藝術(shù)、歷史的分析,包括Facebook、推特、Flickr和Instagram。然而,對大量媒體內(nèi)容(例如圖像、視頻和聲音,而不是用戶的在線活動)進行計算分析還沒有成為媒體和傳播研究的范式。為了激勵這種未來的研究,并為之命名,我們可以創(chuàng)造一個術(shù)語:計算媒體研究。

        1944年,霍克海默和阿多諾在他們出版的《啟蒙辯證法》一書中引入了“文化工業(yè)”一詞。這本書是在洛杉磯寫的,當時好萊塢的演播室制度還在“古典”時期,也就是最完整的時期。當時有八大電影集團,其中五家(??怂?、派拉蒙、雷電華、華納兄弟和勒夫)有自己的制作工作室、發(fā)行部門、連鎖影院、導(dǎo)演和演員。一些電影理論家認為,這一時期這些電影公司制作的電影也有著非常一致的風(fēng)格和敘事結(jié)構(gòu)。無論霍克海默和阿多諾的想法是不是從德國移民抵達洛杉磯之前已經(jīng)完全成形了,這本書的基調(diào)和它的語句,如名言“今天的文化讓一切都變得千篇一律”,似乎特別適合好萊塢經(jīng)典時代。

        新的“計算基礎(chǔ)”(即媒體分析)如何影響文化產(chǎn)業(yè)創(chuàng)造的產(chǎn)品,以及消費者看到和選擇的東西?如亞馬遜、谷歌等公司現(xiàn)在使用的計算推薦系統(tǒng),是幫助人們更廣泛地選擇應(yīng)用程序、書籍、視頻、電影或歌曲(即長尾效應(yīng)),還是相反地,引導(dǎo)人們進入“排行榜”?推特和Facebook的系統(tǒng)又會如何向我們推薦哪些人可以關(guān)注?哪些群組可以加入?

        或者考慮一下流行媒體捕捉和共享應(yīng)用程序的接口和工具,例如它的標準濾鏡和調(diào)節(jié)控制以一定的順序出現(xiàn)在用戶的手機上。這是否會導(dǎo)致圖像樣式的同質(zhì)化,而使用相同的幾個過濾器來控制其他的?這些關(guān)于多樣性和同質(zhì)性的問題,現(xiàn)在可以用從來自網(wǎng)絡(luò)的大規(guī)模的文化數(shù)據(jù)和數(shù)據(jù)分析的計算方法進行定量研究。例如,在我們的文化分析實驗室(http://lab.culturalanalytics.info),我們對全球13個城市分享的230萬張照片進行了Instagram濾鏡使用比較,發(fā)現(xiàn)這些城市之間存在顯著的一致性。不同濾鏡在各個城市的相對頻率是相似的,它們的受歡迎程度幾乎與它們在Instagram應(yīng)用程序界面上出現(xiàn)的順序完全相關(guān)。

        歷史文化媒介(historical cultural media)的數(shù)字化也使得從歷史的角度分析文化的多樣性與同質(zhì)性的維度成為可能。一個研究小組發(fā)表了一篇文章《衡量當代西方流行音樂的演變》(Measuring the Evolution of Contemporary Western Popular Music)。在這項研究中,他們對1955—2010年期間的4464411份不同的音樂錄音數(shù)據(jù)進行了計算。近年來,許多計算機和信息科學(xué)的研究者也在研究社交網(wǎng)絡(luò)中的審美偏好和動態(tài)注意。例如《一張圖片價值超過一千個收藏》(An Image Is Worth More Than a Thousand Favorites),這篇文章使用了900萬張Flickr圖片,來呈現(xiàn)“普通人對網(wǎng)絡(luò)圖片的審美感知分析”。在對大量使用大數(shù)據(jù)的定量研究進行文獻回顧時,作者說:

        社交媒體中的動態(tài)注意傾向于服從權(quán)力法則。注意力集中在少數(shù)受歡迎的項目上,而忽略了群眾制作的絕大多數(shù)內(nèi)容。盡管受歡迎程度可以是一個項目在其社區(qū)內(nèi)的感知價值的指標,但以前的研究已經(jīng)暗示了一個事實,即受歡迎程度不等同于內(nèi)在質(zhì)量。因此,能見度低但質(zhì)量高的內(nèi)容潛伏在流行分布的尾部。這種現(xiàn)象在照片分享社區(qū)中尤為明顯。在那里,那些不太參與在線社交互動的有價值的攝影師提供了高質(zhì)量的照片,而這些照片卻沒有被看到。

        作者提出了一種算法,可以找到在審美質(zhì)量上與流行圖片相同的“不受歡迎”圖片(即只有一小部分用戶看過的圖片)。用這樣的算法將允許更多的創(chuàng)作者為他們的作品找到觀眾。這樣的研究例證了,計算媒體研究不只是對文化情境的描述和“批判”,它還能夠提供建設(shè)性的解決方案,以此改變特定的文化情境。

        雖然對內(nèi)容和來自成千上萬用戶的交互數(shù)據(jù)進行大規(guī)模的計算媒體分析,給了一些頂級公司很多權(quán)力,如谷歌、Facebook,但我們必須記住,它們不只是20世紀40年代緊密整合的好萊塢集團的新翻版。如果說20世紀的文化產(chǎn)業(yè)是在創(chuàng)造、發(fā)行和營銷內(nèi)容(電影、書籍、歌曲和電視節(jié)目),那么我們這個時代的新興文化產(chǎn)業(yè)則專注于組織、展示和推薦他人創(chuàng)作的內(nèi)容?!懊襟w分析”分析了媒體內(nèi)容和人們的在線互動,它是為了支持這一目標和支持這些平臺上的廣告,這通常是它們的主要收入來源(換句話說,在大多數(shù)情況下,這些公司本身并不是內(nèi)容創(chuàng)造者)。這些“其他人”包括專業(yè)制作人和數(shù)億偶爾使用的普通用戶,以及成千上萬處于這兩個極端之間的人。比如社交媒體上的網(wǎng)紅;自由職業(yè)者或擁有工作室的健身、瑜伽教練、發(fā)型師、室內(nèi)設(shè)計師;動漫音樂視頻創(chuàng)作者;在Deviantart.com網(wǎng)站上分享他們作品的3500萬藝術(shù)家;在academia.edu網(wǎng)站上有賬戶的2800萬學(xué)者等等。

        內(nèi)容本身也與霍克海默和阿多諾寫書的時候(20世紀40年代)有質(zhì)的不同。不僅是歌曲、電影、書籍和電視節(jié)目,還有我們在推特、Facebook、Vine、Instagram、YouTube、Vimeo上分享的個人帖子、信息、圖片、視頻、學(xué)術(shù)論文、代碼,等等。如果20世紀40年代美國整個文化產(chǎn)業(yè)發(fā)布的所有內(nèi)容每年大概只有幾百萬條,那么今天所有在社交網(wǎng)絡(luò)上分享的內(nèi)容加起來每天就有數(shù)十億條。只能運用計算的方法,我們才能通過“呈現(xiàn)”內(nèi)容的可變性來理解和解釋這些內(nèi)容。直到最近,只有計算機科學(xué)家使用這些方法,但就像數(shù)字人文、數(shù)字歷史和數(shù)字藝術(shù)史這些新領(lǐng)域已經(jīng)開始在研究中使用它們,媒體研究中使用這些方法也只是一個時間問題。

        猜你喜歡
        內(nèi)容用戶分析
        內(nèi)容回顧溫故知新
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        主要內(nèi)容
        臺聲(2016年2期)2016-09-16 01:06:53
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        亚洲 暴爽 av人人爽日日碰| 午夜福利一区二区三区在线观看| 国产乱人无码伦av在线a| 免费国产黄网站在线观看视频| 欧美又粗又长又爽做受| 超碰cao已满18进入离开官网 | 中文字幕日韩精品一区二区三区| 国产精品美女久久久久久| 国产香蕉尹人在线观看视频 | 国产成人亚洲精品77| 日本护士吞精囗交gif| 国产精品亚洲一区二区无码| 五月婷婷激情小说| 无码a级毛片免费视频内谢| 男男互吃大丁视频网站| 亚洲av极品尤物不卡在线观看| 人妖国产视频一区二区| 亚洲精品粉嫩美女一区| 凹凸国产熟女精品视频app| 亚洲国产精品嫩草影院久久| 精品少妇人妻成人一区二区| 精品女同一区二区三区不卡| 丝袜美腿高清在线观看| 天天做天天添av国产亚洲| 亚洲熟妇av日韩熟妇在线 | 国产成人涩涩涩视频在线观看| 亚洲欧洲日本综合aⅴ在线| 草草影院国产| 99国产精品欲av麻豆在线观看| 中文字幕人妻精品一区| 亚洲人成综合第一网站| 波多野结衣久久精品99e| 久久人人妻人人做人人爽| jlzzjlzz全部女高潮| 中文字幕一区,二区,三区| 开心五月激动心情五月| 免费久久久一本精品久久区| 中文字幕日韩精品一区二区三区| 93精91精品国产综合久久香蕉| 阿v视频在线| 综合图区亚洲偷自拍熟女|