萬維鋼
事實證明使用搜索引擎還是需要點見識的。人工智能專家吳恩達不久前接受美國《華爾街日報》采訪,提到有百度用戶是這么進行語音搜索的:
在中國,有一些用戶還顯得不太成熟,所以你會得到你在美國不會得到的查詢。例如,“嘿,百度,你好嗎?上周我在街頭一家小店吃了面條,味道非常好。你認為這個周末他們還會營業(yè)嗎?”
你得知道搜索是跟機器而不是跟人打交道。搜索引擎只知道網(wǎng)上已有的信息,而且你要輸入的是關鍵詞,而不是一句完整的話。當然,選擇關鍵詞也有技巧,比如你想找個色情網(wǎng)站,你最好不要直接輸入“色情”——那樣的話你找到的更可能是一些有關反色情的頁面。
但搜索只是個簡單功夫。內(nèi)事不決問百度,外事不決問谷歌,高級問題直接去知乎和維基百科,這些一般人都會。我兒子才5歲根本不會打字,但是他能在YouTube使用語音搜索到任何想看的動畫片,他知道應該只說片名而不是說“你好嗎”。
能用非直覺思維跟機器打交道,這有點極客的意思。不過一個真正的極客也許并不滿足于解決自己的信息需求,他可能還想為社會創(chuàng)造點價值,甚至想要用信息去左右公共政策,那么他就得會三個更高級的功夫。
功夫一:閱讀學術論文
論文是知識的最前沿,而且是用最有條理的方式整理好的文本,一個真正的極客怎么可能不看論文呢?現(xiàn)在搞研究的人實在太多,從上天入地到娛樂管理,所有領域都有論文。很多社會科學甚至醫(yī)學方面的論文,只要有最基本的統(tǒng)計知識就能看懂,實在看不懂技術細節(jié)看看摘要也不錯。
假設你想問一個生活中的問題,比如“讀個商科的學位是否有利于找到工作”。問家人朋友,上論壇問網(wǎng)友,乃至直接搜索答案,最后得到的都可能是一些道聽途說的事例和極其個人化的見解。想獲得經(jīng)過統(tǒng)計檢驗的、具有普遍意義的過硬答案,最好的辦法是看論文。
美國奧本大學經(jīng)濟系的一個研究發(fā)現(xiàn),哪怕你想找的是商業(yè)工作,商科學位也沒啥用。這項研究隨機生成了9000份簡歷,投給銀行、金融、管理、市場、保險和銷售機構,簡歷中的學位包括會計、經(jīng)濟、金融、管理、市場這些商業(yè)相關學科,和生物、英語、歷史、心理學這些非商業(yè)學科。結果發(fā)現(xiàn)商科的學位并不能增加獲得面試的機會。有過實習經(jīng)歷倒是可以把面試機會增加14%。所以最佳策略是讀個自己喜歡的專業(yè),然后大三暑假出去實習3個月。
要得到這種高級知識,得去特別的地方。在人人都會用的百度谷歌入口之外,還有一種精英專用搜索引擎——學術搜索,對應的入口是Google Scholar和百度學術,其提供的一切搜索結果都來自論文??萍夹侣劸W(wǎng)站,比如Solidot(給極客看的中文資訊,強烈推薦)、果殼網(wǎng)和EurekAlert!是發(fā)現(xiàn)值得注意的新研究的好地方。
過去所謂的“科普文章”都在“鬼火是磷火”之類相信科學破除迷信的階段,講的都是最基本的常識;而現(xiàn)在的科學文章只有講到最新研究才拿得出手,背后往往有論文支持。
一方面是科學家花了大量的時間和金錢才得到的結果,另一方面是公眾根本不知道這些結果——不但不知道,而且不知道自己不知道。
論文里的主流意見跟微信朋友圈里信誓旦旦的說法很可能恰恰相反。人們的見識跟真實世界之間有一個鴻溝,而極客可以通過讀論文來跨越這個鴻溝。
當然論文中的結論也有很多都是錯的,能判斷各種研究的可信度是一個高級功夫,但只要是正規(guī)的學術論文,就一定比任何一個論壇上網(wǎng)友的有感而發(fā)可信得多。
功夫二:直接閱讀原始數(shù)據(jù)
最近經(jīng)濟學家Tyler Cowen在他博客貼了一篇有關韓國治理空氣污染的文章。文章說韓國曾是一個空氣污染非常嚴重的國家,2002年的空氣質(zhì)量在122個國家中排第120位。但是當韓國政府想要改善空氣質(zhì)量的時候,它很快就改善了——現(xiàn)在韓國排第43位。
這對中國太有借鑒意義了,我立即轉(zhuǎn)發(fā)到了自己的微博。
像這樣超出尋常的故事往往能刺激極客們展開自己的調(diào)查。我的微博發(fā)出5分鐘內(nèi),@煉金術士gewesen 就查到了韓國煤炭消費的數(shù)據(jù),并指出“同時韓國的煤炭消費比2002年增加了46%”。如果燒煤是空氣污染的最重要來源,韓國在沒有減少燒煤的情況下大幅減少空氣污染就不太可能。
又過了不到一小時,@盧昌海找到了空氣質(zhì)量排名的原始文件,并發(fā)現(xiàn)韓國在2002年的排名根本就不是第120位,而是第54位,Cowen博客中的數(shù)據(jù)是錯的!
這件事讓我特別自豪,要知道Cowen的文章貼出一天也沒人發(fā)現(xiàn)毛病。這就是極客的力量——對奇怪的事實非常敏感,產(chǎn)生疑問后不是空口無憑地質(zhì)疑,而是立即查找數(shù)據(jù),拿數(shù)據(jù)說話。有這樣的功夫不管說什么,別人都不得不嚴肅對待。
查數(shù)據(jù),是極客的膝跳反應。楊振寧自從82歲跟翁帆結婚以后,就經(jīng)常查閱年齡統(tǒng)計來判斷自己還能活多少年。他查的年齡表人人都可以很方便地查閱到,根本沒必要再拿“人生七十古來稀”這種過時的格言嚇自己。
互聯(lián)網(wǎng)上有很多優(yōu)質(zhì)的數(shù)據(jù)資源。Wolfram Alpha網(wǎng)站可以調(diào)閱和可視化有關當今世界的很多基本數(shù)據(jù);美國政府有一個專門的數(shù)據(jù)網(wǎng)站Data.gov,其中有從經(jīng)濟到教育科研各種數(shù)據(jù)庫;而USASpending.gov則列舉了各項政府花費的數(shù)據(jù),有心人可以拿這些數(shù)據(jù)搞出很有意思的東西來。
“大數(shù)據(jù)”現(xiàn)在很流行,但在中國,別說數(shù)據(jù)挖掘,哪怕僅僅是能自行尋找和閱讀數(shù)據(jù)、會拿數(shù)據(jù)說話的人,都還不夠多。在這方面一個美國女高中生也許可以給中國公知上一課。
新澤西某高中的Amanda Graves收到包括耶魯和芝加哥大學在內(nèi)很多名校邀請她申請這些大學的信,但是她成績一般,連全校前四分之一都沒進。Amanda據(jù)此懷疑這些名校明知她和很多她這樣的學生根本沒有被錄取的機會,還寫這些信給她們,純粹是故意忽悠人。
如果你有這種想法會怎么做?你也許會跟身邊人說說,或者上網(wǎng)吐槽,也許還會推測說名校這么做是為了多收申請費。
Amanda的做法是在華盛頓郵報發(fā)表了一篇非常漂亮的長文,充滿了拿數(shù)據(jù)說話的精神:
——耶魯每年吸引8萬人申請,只錄取1300人,被拒率93.7%;
——95%的耶魯學生的高中成績排在其高中的前10%,100%的學生排在高中前25%;
——芝加哥大學錄取學生的數(shù)學和閱讀SAT成績中位數(shù)是在1440到1540之間,而Amanda的成績只有1100;
——芝加哥大學只有1%的新生GPA在3.00到3.24之間,3.00以下的根本就沒統(tǒng)計,而Amanda的GPA只有2.9。
她使用的數(shù)據(jù)有些來自Google搜索,有些則來自CollegeBoard和CollegeData這樣的專業(yè)網(wǎng)站,她還引用了權威新聞渠道的報道作為論據(jù)。文章發(fā)表之后,她甚至還因為發(fā)現(xiàn)芝加哥大學的錄取GPA是使用加權平均法計算的,而自己的GPA沒有經(jīng)過加權平均法計算,二者不能直接比較,而重新計算了自己的GPA,并要求《華盛頓郵報》修改了文章。
另外值得注意的是,中文媒體轉(zhuǎn)發(fā)這條消息的時候,直接說名校這么做是為了多收申請費,而Amanda的原文卻根本沒這么說過——她只在數(shù)據(jù)支持下論證了名校這么做是為了提高申請被拒率,從而提高學校排名,甚至還特別說明芝加哥大學免除了她的申請費。整篇文章有理有節(jié)。
這就是一個數(shù)學和閱讀成績都一般的美國女高中生的水平。而她做這么多調(diào)查研究并不是為了論證自己應該進名校,是為了論證自己不應該進名校!
功夫三:主動采集和分析數(shù)據(jù)
Nate Silver可能是現(xiàn)在預測界風頭最勁的人物,他通過數(shù)據(jù)分析對棒球和美國選舉的預測已經(jīng)成為當代傳奇,但是他最早玩數(shù)據(jù)的時候,卻是一個業(yè)余選手。2002年,Silver還只是某個會計公司的小職員。但他有兩點跟一般的會計不一樣:第一,他非常喜歡棒球。第二,他是個極客。
我們都知道美國職業(yè)體育中有各種非常詳盡的統(tǒng)計數(shù)字。Baseball Prospectus是一本面向球迷的棒球雜志,上面刊登了每個大聯(lián)盟球員,以及每個可能進入大聯(lián)盟的球員的全面數(shù)據(jù),而極客球迷看這些數(shù)據(jù)非常過癮。
Silver在工作之余把這些數(shù)據(jù)輸入自己搞的一個非常大的電子表格中,用自己的方法評估和預測球員的表現(xiàn)。這套系統(tǒng)就是后來他賴以成名的棒球預測軟件PECOTA的前身。
2003年,Silver把這套系統(tǒng)賣給了Baseball Prospectus雜志。2007年,他開始發(fā)表對政治選舉的預測。2008年美國大選,Silver成功預測了美國50個州中49個州的選舉結果。
一般人恐怕不會有這樣的技術和時間來搞這么專業(yè)的數(shù)據(jù)分析——其實主要是沒有這么大的熱情——不過哪怕我們對統(tǒng)計不怎么感興趣,也可以搞一些簡單的玩法。
現(xiàn)在極客們有個時髦的活動是量化自我。
這通常涉及隨身帶一個手環(huán)之類的小電子設備,手機也可以。這個小工具將記錄你每天的一舉一動:睡了多長時間覺,走了多少步,去了哪里,燃燒了多少卡路里。
Mathematica的發(fā)明人,當今天才Stephen Wolfram,記錄了自己1998年以來發(fā)過的每一個電子郵件、記在日程表上的每一個事項、參加的每一次會議、打過的每一個電話、走過的每一步、甚至每一次敲擊鍵盤的時間。
這些數(shù)據(jù)使得我們可以更好地了解自己,監(jiān)督自己,乃至改進自己。我們可以設定健身目標,完成了自我表揚,完不成自己感到羞愧。
《奇特的一生》書中的時間管理傳奇人物柳比歇夫,他獲得高效率的辦法就是嚴格記錄自己在每一件事上所花的時間,通過分析這些數(shù)據(jù)來看看自己到底能干些什么。也就是說,量化自我的目的是成為自己生活的科學家:測量、處理、實驗、再測量,直到取得理想結果。
如果你對量化時間管理的重視程度達到柳比歇夫那樣的級別,Daytum是個現(xiàn)代化的工具。更輕量級的工具包括YAST和Slimtimer。如果你像我一樣只想記錄一下自己在計算機上都干了什么,RescueTime非常方便。類似的工具非常之多,Sleep Time可以通過手機震動監(jiān)督人的睡眠質(zhì)量,mint.com 則能監(jiān)督人的花錢習慣,等等。
很多人的個人數(shù)據(jù)綜合起來,可以幫助研究者更好地理解人類行為,所以量化自我也是對社會的貢獻。事實上個人也能拿自己的數(shù)據(jù)搞點小研究,比如玩微博的人每天記錄一下自己的粉絲數(shù)增長情況,也能發(fā)現(xiàn)一些有趣的事實。
總而言之,一大波極客正在襲來。他們用論文辟謠,用數(shù)據(jù)打臉,用自己的行動樹立榜樣。他們可能是科學家、工程師、教師、記者或者醫(yī)生,也可能是任何有評判性思維能力和理解科學方法的人。這些人是有功夫的參與者,對公共事務發(fā)言,他們也許會取代歷史上的讀書人和現(xiàn)代的公知。
(作者為美國科羅拉多大學物理系研究員)