沈浩
在今天,我們談論大數據,其實比大數據更火的一個概念是人工智能(AI)。有了云計算的基礎架構之后,各領域的大數據應用得以快速發(fā)展,當大數據遇到了深度學習技術,一種新的機器學習算法得到應用。深度學習是一種算法的革命,加上物聯(lián)網的融合發(fā)展,我們看到了人工智能應用的廣闊前景和應用場景。
人工智能,對于閱讀和出版行業(yè)將會產生什么影響?運用某種語言識別技術,人們說話的時候,聲音就可以同時轉換成文字。如今,這種轉換的準確率已經有了極大的提高?!都~約客》雜志曾經使用過一期封面,內容是人類在向機器人乞討,這就說明AI的影響是廣泛而深遠的。在思考閱讀遇上大數據的同時,我選擇了亞馬遜線下實體書店的一個視頻,通過深度學習算法,我們可以進行視頻對象偵測,識別書店內外出現(xiàn)的人和物。今天亞馬遜書店的經營模式包含線下和線上,以及從線上往線下轉移的過程,這種模式在國內被稱為“新零售”。實體書店也將融入這樣的新的經濟模式。
人工智能在這樣一個實體書店能夠起到什么作用呢?通過視頻圖像分析的深度學習的AI技術,我們可以用攝像頭捕捉每個人的購物過程,識別每一位顧客、每一本書出現(xiàn)的場景。通過這樣的分析方法,我們可以了解到,什么樣的消費者來到了書店,拿起了哪一本書。根據消費者拿起的圖書,就能夠感知到消費者后續(xù)可能產生的行為。人工智能如今已經可以處理視頻、圖像、聲音、語言和文字,而在技術應用過程中,圖書發(fā)行產業(yè)鏈的方方面面可以思考利用人工智能改進消費升級和讀者洞察。
什么是大數據,它如何助力了今天的人工智能?我們要去思考。在這樣一個過程中,計算機算法是怎么思考現(xiàn)實問題的?我通過兩個案例來說明大數據在內容分析和推薦方面的應用。
首先,我們輸入一份長篇幅的數字文本(比如《羅密歐與朱麗葉》這本電子書),我們可以用文本識別技術找到其中的關鍵詞,作為其內容篩選的基礎??梢蕴釤捚渲械娜宋?、地名,進而研究圖書當中的人物之間的關系、情節(jié)的演進等。
再舉一個針對圖像進行深度學習的案例。通過把一定數量的電影海報作為輸入,進行深度卷積神經網絡的學習,可以形成這樣一個應用,只要任意輸入一個電影海報的編碼,就能快速找到和這個海報最為類似的其他海報,圖書封面當然也可以做類似的研究。對圖書封面進行大數據建模之后,當消費者選擇了一本圖書,就可以在海量圖書當中快速找到與其類似的圖書封面。
當然,還可以將上述基于文本的分析和基于圖像的分析結合起來,提煉出一本書更多的特征,這些特征就可以用于圖書商品的個性化推薦。而在這當中,如果我們再結合更多消費者的行為信息,還可以讓這個過程更加精準。
我曾經為《爆發(fā)》一書寫了如下的推薦語:這是一個令人興奮的時代,也是一個大數據的時代,數據科學讓我們越來越多地從數據中觀察到人類社會的復雜行為模式。以數據為基礎的技術決定著我們的未來,但并不是數據本身,而是我們從數據中擁有更多的可用知識的增加。
這不是危言聳聽,而是大數據技術支持產生了大量基于個人的信息記錄,而機器學習讓以往很多不可快速計算和分析的信息獲得了被快速識別的可能。比如,在微博來臨的時候,一個人所寫微博就可以告訴我們很多信息,比如推測你的性格,你的品牌愛好,你的消費習慣,你的生活方式,甚至你的價值觀。因此,《爆發(fā)》一書的核心觀點是,人類行為的93%是可預知的。在圖書行業(yè),大數據最大的特點就是可以分析我們的讀者。
事實上,大數據和人工智能能夠實現(xiàn)的遠遠不止這么多。當閱讀遇上大數據,我們還在面臨著巨大的未知。軟件定義一切,數據驅動未來,算法統(tǒng)治世界。特別是今天在移動互聯(lián)網時代,算法更多地在重構我們的分發(fā)渠道,數據更多的在驅動我們的商業(yè)行為。未來不遠,未來已經發(fā)生,所以我們應該去擁抱大數據,擁抱人工智能。當閱讀遇到大數據時,首先改變的應該是我們工作、生活和思維方式,暢想未來無限的X。
(作者系中國傳媒大學新聞學院教授)