現(xiàn)在推薦算法已經(jīng)不是一個新名詞了,抖音、快手、B站、小紅書等內(nèi)容平臺,多多少少都用到推薦算法。在內(nèi)容平臺,推薦算法工程師的角色本質(zhì)上是一個中介,不直接生產(chǎn)內(nèi)容,而是把優(yōu)秀的內(nèi)容創(chuàng)作者生產(chǎn)的內(nèi)容介紹給喜歡它的用戶。
峰池,2014年從上海財經(jīng)大學(xué)工商管理專業(yè)畢業(yè)后,因為讀了吳軍的《浪潮之巔》《數(shù)學(xué)之美》后決定換專業(yè)。于是,他用三年時間全職考研,2016年考入中國人民大學(xué)應(yīng)用統(tǒng)計專業(yè),2018年碩士畢業(yè)加入字節(jié)跳動,擔任推薦算法工程師至今,目前主要從事今日頭條的推薦算法迭代
推薦算法是什么?
我們其實不知道用戶的心理活動,只能根據(jù)一些明確的用戶行為來判斷,最主要的判定依據(jù)是互動。如果用戶對某視頻點贊、評論,并因為這個視頻關(guān)注了發(fā)布者,我們就會加大這個視頻的權(quán)重,讓它得到更多人的喜愛,結(jié)果它就有了更多的流量。推薦算法就是通過建模用戶的行為,來決定內(nèi)容分發(fā)。最重要的是,怎么建模用戶的行為呢?這就是一個經(jīng)典的機器學(xué)習問題:預(yù)估用戶產(chǎn)生某一個行為的概率。這些行為通常是點或者不點,即機器學(xué)習里面的二分類問題,通過收集特征構(gòu)建數(shù)據(jù)集訓(xùn)練模型,最終得到一個理想的二分類模型問題的預(yù)估概率。
這和我考研選擇的專業(yè)——統(tǒng)計學(xué)是相關(guān)的?,F(xiàn)在的機器學(xué)習方法,還有一個名字叫統(tǒng)計學(xué)習方法。各種深度學(xué)習方法,目標就是為了學(xué)一個概率值,或者統(tǒng)計分布,這里面的基礎(chǔ)就是統(tǒng)計學(xué)。
關(guān)于推薦算法,一個熱點話題是信息繭房。客觀來說,每個人天生就在自己的信息繭房里。大家即使是不用推薦算法為主的平臺,比如交友、購物、興趣愛好等平臺,也是會存在信息繭房的。有種說法是,每個人只能賺自己認知內(nèi)的錢,這何嘗不是一種信息繭房。
實際上,我們在做算法建模的時候,會做多樣性的嘗試,比如推薦內(nèi)容時,不會連著推送同一個內(nèi)容分類下面的內(nèi)容。我們的實驗發(fā)現(xiàn),輕微的多樣性探索可以提升用戶的消費體驗,但是如果做多了,做重了,用戶的消費體驗就會下降。這意味著大家愿意在熟悉的基礎(chǔ)上做一些拓展,但當真正處在全部都是新內(nèi)容的分發(fā)邏輯里面,大家其實也沒有那么情愿。
如果您是一個內(nèi)容創(chuàng)作者,我的看法是,要做用戶愛看的高質(zhì)量內(nèi)容。因為我們做平臺的,肯定會“鼓勵”那些用戶真正喜歡的內(nèi)容,而“打壓”那些用各種技巧薅流量的內(nèi)容。
三年考研轉(zhuǎn)統(tǒng)計
本科前兩年,我跟多數(shù)工商管理專業(yè)學(xué)生一樣,非常不理解那些經(jīng)常需要寫作業(yè)到晚上10點的理科生,甚至認為,我們相對輕松地就可以成為經(jīng)管類人才,成為他們的領(lǐng)導(dǎo)。這樣一想,甚至有些洋洋得意。
大三,我開始讀一些課外書。最開始讀了很多小說,經(jīng)典的、中國的、世界的都翻了一些,后來開始讀一些雜書。比如《鄉(xiāng)土中國》《我們仨》《當我談跑步時我談些什么》《此間的少年》,等等。讀書的同時,也開始反思,一個人從事某個職業(yè),在社會上被認可,不是因為畢業(yè)于什么學(xué)校,而是因為有一些專業(yè)技能(考證的目的就是為此);而管理學(xué),至少當時我在學(xué)校里學(xué)的那些課程,好像并不能匹配相應(yīng)的技能崗位。所以我覺得應(yīng)該選一個可以稱之為技能的專業(yè)。因為我認為,只有專業(yè)技能才能直接創(chuàng)造價值,而收入不過是所創(chuàng)造的價值的貨幣表現(xiàn)。
在迷茫之際,讀到的書給了我啟發(fā)。其中對我影響最大的是,吳軍老師的《浪潮之巔》和《數(shù)學(xué)之美》?!独顺敝畮p》講的是,當前我們生活中各種各樣厲害的產(chǎn)品背后的大公司如何興衰沉?。弧稊?shù)學(xué)之美》講的是這些厲害的產(chǎn)品背后最關(guān)鍵的技術(shù)或者算法,都是用一些簡單的數(shù)學(xué)公式和算法來解決的。當時我對自己的數(shù)學(xué)水平還比較自信,從小到大我數(shù)學(xué)一直都還不錯(事后看真的是迷之自信),就覺得數(shù)學(xué)或許可以作為一個切入點,來讓自己參與到這些影響世界的大公司中去,能創(chuàng)造一些價值當然好,即使是做不了那個最出彩的弄潮兒,能夠成為其中的一分子也是很酷的事情。
那時候我剛剛20歲,覺得互聯(lián)網(wǎng)似乎是世界快速發(fā)展迭代的源頭所在。我并不想做一個等待別人告知這個世界正在發(fā)生著什么的人,我想成為一個努力參與到世界上最大創(chuàng)新中的人。所以當時我規(guī)劃的未來之路是,考研學(xué)統(tǒng)計,自學(xué)計算機,參與到這個世界最快速發(fā)展的行業(yè)里面來。
因為看到排名,想來國內(nèi)統(tǒng)計的最高學(xué)府,就是中國人民大學(xué)。(事后證明這個也不太靠譜,因為這個只是一級學(xué)科的排名,非財經(jīng)類的大學(xué)比如北大、清華通常是不統(tǒng)計一級學(xué)科的,也就不會納入這個排名中去)。
考研一戰(zhàn),我敗給了強大數(shù)定律的證明。這年數(shù)學(xué)題目異常難,有很多數(shù)學(xué)證明的部分。滿分150分的專業(yè)課我也只得了73分。
全職考研的那兩年是我人生最灰暗的兩年。我小學(xué)跳了兩級,16歲上的大學(xué),20歲本科畢業(yè)本來應(yīng)該是我人生的高光時刻,但卻成了一個沒有歸屬的人。畢業(yè)后,我在人大租了一個床位,一居室里面住了8個人,800元/月,再加上平時的伙食費,每個月2000多元,對我當時的家庭來說也是一筆不小的開銷。
我成了一個不能養(yǎng)活自己還在不斷啃老的人,且我也不知道這種啃老會持續(xù)多長時間。我心態(tài)變化很大,怕跟人接觸,關(guān)閉了朋友圈,退了幾乎所有的群。我不知道跟誰抒發(fā)這種苦悶,經(jīng)常在給父母的電話里面沒來由地暴哭,但也怕他們擔心。我媽后來跟我說,特別害怕我從此抑郁下去。
第二年的考研結(jié)果是,比第一年提升了70多分(考研總分500分),如果大家考過研就知道分數(shù)提升70分是一個什么概念。因為第二年的專業(yè)課又恢復(fù)了之前比較簡單的狀態(tài),所以分數(shù)線也有了非常大的提升,我雖然進了復(fù)試,但分數(shù)并不算高。復(fù)試是7個人錄取6個,我是唯一被刷下來的。我分析,主要原因可能是自己非數(shù)學(xué)或統(tǒng)計專業(yè)本科生,而我考的是學(xué)碩,是為繼續(xù)讀博做研究準備的。而要繼續(xù)做研究,數(shù)學(xué)基礎(chǔ)扎實是非常必要的。所以事后看,我也能理解面試老師們的選擇,但當時痛苦極了。
兩年考研后,我基本上已經(jīng)把能學(xué)的都學(xué)過了,實在是看不進去備考的書了。所以我自學(xué)了計算機知識,包括編程語言,還有數(shù)據(jù)結(jié)構(gòu),做一些簡單的小項目。雖然這些東西對考研幫助不大,但是對我更長期的目標——做互聯(lián)網(wǎng)行業(yè)而言,顯然是必須的。
第三年我選擇了專業(yè)碩士(專碩),這樣可以減輕我專業(yè)出身帶來的影響。另外統(tǒng)計專碩還有一個大數(shù)據(jù)方向,和我未來的理想非常契合。第三年,我終于考上了人大的應(yīng)用統(tǒng)計專碩,如愿進入了大數(shù)據(jù)方向??佳衅陂g學(xué)習的計算機基礎(chǔ),還幫助我在復(fù)試通過后找到了一份編程相關(guān)的實習。
職業(yè)發(fā)展方向
在人大讀研時,我也有過一段時間的糾結(jié)。繼續(xù)讀博嗎?考研我都花了三年,不上個博士,豈不是很虧?另外讀博是我父母一直以來對我的期盼。可當?shù)谝黄撐陌l(fā)出來之后,我發(fā)現(xiàn)自己其實沒有那么開心。而我在做研究的過程中意識到,我最大的興趣其實是,看到自己所學(xué)的東西能夠在實際的生產(chǎn)環(huán)境中發(fā)揮作用和價值。學(xué)術(shù)場景并不是很看重這一點,工業(yè)場景更看重。如果選擇工作,也不太需要一個博士學(xué)位作為敲門磚。
2018年畢業(yè),我去了當時還叫作頭條的字節(jié)跳動,成為了推薦算法工程師。
進入職場一段時間,我對所做業(yè)務(wù)比較熟悉了,又要面臨選擇:是成為技術(shù)專家,還是業(yè)務(wù)型人才?
業(yè)務(wù)路線通常指通過使用技術(shù),對我們來說主要是機器學(xué)習算法模型,來幫助業(yè)務(wù)實現(xiàn)突破。比如做電商業(yè)務(wù),就是提升整體的成交額;做推薦業(yè)務(wù),就是提升用戶留存等,不同的團隊所承擔的指標有比較大的區(qū)別。相對來說面廣一些,重視技術(shù),尤其是機器學(xué)習技術(shù)的應(yīng)用。
技術(shù)專家路線通常指,深鉆技術(shù),解決團隊里面其他人不容易解決的問題。比如你是模型方面的專家,那就把點擊率模型的進一步突破交給你,解決該用怎樣更好的模型結(jié)構(gòu),這個模型在新用戶上怎樣更好的生效等團隊里面的老大難問題。相對來說,面窄一些,但是解決的都是高精尖問題,問題一旦突破會對業(yè)務(wù)本身有比較大的貢獻。
我選擇轉(zhuǎn)業(yè)務(wù)路線。我是這樣思考的:技術(shù)的更新迭代速度是很快的,比如當chatGPT出來之后,NLP相關(guān)的技術(shù)就已經(jīng)完全被顛覆了。而業(yè)務(wù)問題是始終存在的,且不會發(fā)生太大的變化。
我選擇轉(zhuǎn)業(yè)務(wù)路線。我是這樣思考的:技術(shù)的更新迭代速度是很快的,比如當chatGPT出來之后,NLP相關(guān)的技術(shù)就已經(jīng)完全被顛覆了。而業(yè)務(wù)問題是始終存在的,且不會發(fā)生太大的變化。因為業(yè)務(wù)問題的背后是人,只要人沒有發(fā)生太大變化,人的需求就不會發(fā)生太大變化。另外我自己的興趣點也在能夠通過技術(shù)來解決實際問題,對大家共同鉆研的一個高精尖問題沒那么大的興趣。所以我選擇了更多靠近業(yè)務(wù),通過技術(shù)能力來解決別人不能解決的業(yè)務(wù)問題。
當然,這只是我個人的看法,這個選擇和行業(yè)還有個人偏好都有很大關(guān)系。對于有些行業(yè),高精尖的問題不會發(fā)生特別大的突變,就全靠在這個問題上的經(jīng)驗:新人解決不了的問題,老師傅就能很容易地解決,那這種行業(yè)里面技術(shù)專家就很重要。
成長心得
最近,我看了一本書,叫《金榜題名之后》,是一個社會學(xué)的調(diào)查研究論文,研究課題是不同家庭背景的學(xué)生,在考入名校之后(書里面是清華大學(xué)和復(fù)旦大學(xué))怎么度過大學(xué)生活。這本書提到了兩種規(guī)劃自己大學(xué)生活的方式,一種叫“目標掌控型”,含義是明白大學(xué)究竟能給自己帶來什么,然后按照明確的路線圖規(guī)劃自己的大學(xué)生涯;另外一種叫“直覺依賴型”,含義是不太明白大學(xué)究竟能給自己帶來什么,依賴自己從小學(xué)到高中一路以來的慣性去過大學(xué)生活。
我看完這本書就開始反思自己,是不是脫離了學(xué)校之后,這幾年在職場,依然是“直覺依賴型”的人,缺乏“目標掌控型”的設(shè)計和規(guī)劃。至少,我自己在開始考研前的幾年,毫無疑問就是這樣一個“直覺依賴型”的學(xué)生。
在描述清楚現(xiàn)狀之后,這本書在調(diào)研了眾多同學(xué)之后,發(fā)現(xiàn)那些從“直覺依賴型”轉(zhuǎn)到“目標掌控型”的同學(xué)通常有以下幾個特質(zhì):第一點是積極參加社會活動,在參加社會活動中認識高年級的學(xué)長、學(xué)姐,和他們的交流點醒了自己;第二點是樂于和師長交流,比如積極參加校內(nèi)的各種講座,了解這個社會正在發(fā)生些什么。
如何從“直覺依賴型”轉(zhuǎn)到“目標掌控型”呢?我總結(jié)的和書中提供的結(jié)論基本一樣。我覺得,提升自己,幫助自己做出正確人生選擇的方式有幾種:認識新朋友,打開自己;多和比自己高的人交流;多讀書、多表達、多參與、多思考。
這些樸素的道理需要長年累月地堅持,如果只是淺嘗輒止,就不會有大的改變?;乜醋约旱某砷L歷程,我是因為讀書改變了人生軌跡,從一名工商管理的學(xué)生成為了算法工程師。堅持行動,積硅步終至千里。
責任編輯:樸添勤