徐子沛
2002年,卡內基梅隆大學的博士生路易斯發(fā)明了我們經(jīng)熟悉的驗證碼,即用一排人為扭曲、奇形怪狀的字符來判斷當下程序的使用者是人還是機器。機器無法自動識別這些變形的字符,驗證碼可以用來防止互聯(lián)網(wǎng)上廣泛存在的惡意機器注冊。
恰恰在這個時候,《紐約時報》 正面臨著一個令人頭疼的任務:他們試圖把一百多年的歷史報紙全部電子化,當時最可行的方法就是通過掃描進行光學字符識別。但是,因為舊報紙有油墨的痕跡、折疊的印記,并且發(fā)黃變色,加上幾十年前的字體與現(xiàn)在的也不一樣,因此識別率很低。當然,還有一個最笨的方法就是逐字敲打,再人工校對,這樣不僅速度慢,效果也差。
這時候,路易斯得知這件事后,他想到一個天才的辦法:全世界每天都有幾億個驗證碼在被校驗,他把《紐約時報》的文章切成小片,把它當作驗證碼發(fā)給全世界的人,這些人在使用驗證碼的時候,不知不覺中就幫助《紐約時報》完成輸入和校對了。對于難以識別的字符,系統(tǒng)可以發(fā)給多個驗證者,當幾個人返回的結果一致時,就說明識別的結果是正確的,然后再將其返回系統(tǒng)進行重新整合。
2007年,路易斯成立驗證碼公司,該公司利用這個辦法把《紐約時報》幾十年的報紙都電子化。2009年,該公司被谷歌收購。
(陳亮摘自中信出版社《數(shù)據(jù)之巔》)