文| 馬 迪
每輸入一個(gè)驗(yàn)證碼,你可能都付出了一次義務(wù)勞動(dòng),而且是能改變未來的那種。
你是否關(guān)注過我們每天都“破解”好幾次的各類驗(yàn)證碼,其實(shí)它一點(diǎn)都不簡單。
早期的互聯(lián)網(wǎng)是一片蠻荒叢林,黑客編寫的惡意程序橫行霸道。它們偽裝成人類,制造了大量的馬甲用戶、垃圾信息甚至詐騙郵件,網(wǎng)站被惡意灌水,郵箱被塞滿垃圾郵件,人們不勝其擾。那么,該如何把偽裝成人類的程序機(jī)器人鑒定出來呢?
2000年,從杜克大學(xué)數(shù)學(xué)系畢業(yè),來到卡內(nèi)基梅隆大學(xué)讀計(jì)算機(jī)科學(xué)博士的路易斯·馮·安第一次提出了驗(yàn)證碼的程序概念。該程序是指,向請(qǐng)求的發(fā)起方提出問題,能正確回答的即是人類,反之則為機(jī)器,全稱是“全自動(dòng)區(qū)分計(jì)算機(jī)和人類的公開圖靈測試”。
這個(gè)程序基于一個(gè)重要假設(shè):提出的問題要容易被人類解答,且讓機(jī)器無法解答。其具體設(shè)計(jì)是將隨機(jī)生成的字符加上隨機(jī)的扭曲、重疊、污染等效果—對(duì)人來說只是增加了一點(diǎn)點(diǎn)辨認(rèn)難度,卻足以阻擋當(dāng)時(shí)最高級(jí)的黑客程序了。飽受困擾的免費(fèi)郵箱巨頭雅虎第一個(gè)應(yīng)用了這個(gè)產(chǎn)品,很快解決了垃圾郵件的問題,圖形類驗(yàn)證碼開始了大發(fā)展時(shí)期,國內(nèi)外各大網(wǎng)站紛紛在關(guān)鍵的業(yè)務(wù)點(diǎn)上增加了驗(yàn)證碼,成為驗(yàn)證用戶真實(shí)性的重要手段。
道高一尺魔高一丈。破解驗(yàn)證碼的技術(shù)也隨之不斷地進(jìn)化,兩者的戰(zhàn)爭升級(jí),讓驗(yàn)證碼的花樣越來越多,從最常見的扭曲文字、堆疊文字,到要求用戶識(shí)別圖片的物體、把缺失部分拖到正確位置的拼圖、在規(guī)定時(shí)間內(nèi)按順序完成多次點(diǎn)擊等等,堪比一場場小型考試,因此也常常遭到用戶的吐槽和抱怨。
你相信嗎?每輸入一個(gè)驗(yàn)證碼,你可能都付出了一次義務(wù)勞動(dòng),而且是能改變未來的那種。
2005年,路易斯·馮·安完成了他的博士論文,創(chuàng)造了一個(gè)新概念“人本計(jì)算”,即把人的腦力和計(jì)算機(jī)的能力結(jié)合起來,完成兩者都無法單獨(dú)完成的工作。
彼時(shí),驗(yàn)證碼已經(jīng)廣泛普及,每天都會(huì)有近億次的海量識(shí)別數(shù)據(jù),閑置不用顯然是對(duì)人力的巨大浪費(fèi);另一方面,當(dāng)時(shí)的人們正在試圖將紙質(zhì)資料全部數(shù)字化,卻遇到了程序無法識(shí)別老報(bào)紙上模糊文字的問題等等。
這不巧了嗎?馮·安團(tuán)隊(duì)開發(fā)了reCAPTCHA技術(shù),把老舊文獻(xiàn)中難以識(shí)別的詞作為驗(yàn)證碼,讓全世界用戶一起“幫忙”辨認(rèn)。驗(yàn)證分為兩步,用戶需要兩次輸入驗(yàn)證碼,如果第一個(gè)詞輸入正確即被判別為人類,而第二次輸入就完全是“義務(wù)勞動(dòng)”了—如果多名用戶的答案一致,這個(gè)詞就算被認(rèn)出來了。
2009年,谷歌收購了reCAPTCHA,不到兩年就完成了超過2500萬本書、《紐約時(shí)報(bào)》全部1300萬篇文章的數(shù)字化。2012年起,谷歌又推出了reCAPTCHA的圖像識(shí)別版本,讓用戶識(shí)別街景中的門牌號(hào)碼和其他標(biāo)志。對(duì)此,官方曾經(jīng)表示這種合作“讓街景地圖更加精確,也讓驗(yàn)證碼更安全、更有效”。
粗略統(tǒng)計(jì),今天全世界每天都有2 億個(gè)字符通過reCAPTCHA錄入,相當(dāng)于一個(gè)人15萬小時(shí)的工作量。這些數(shù)據(jù)也被不斷地“投喂”給人工智能,幫助機(jī)器學(xué)習(xí)系統(tǒng)更精確地辨認(rèn)文字、數(shù)字和圖形,堪稱世界上最大規(guī)模、最成功的眾包項(xiàng)目。
經(jīng)歷過早期12306搶火車票的人可能還記得那些五花八門甚至匪夷所思的圖片驗(yàn)證碼,尤其是在十萬火急的時(shí)候被要求“請(qǐng)點(diǎn)擊下圖中所有的噴氣式飛機(jī)”,那一刻的體驗(yàn)簡直糟糕透頂,有沒有簡單又安全的驗(yàn)證碼呢?
答案當(dāng)然是肯定的。無知識(shí)型驗(yàn)證碼,顧名思義就是無需思考、判斷,只需要點(diǎn)擊或滑動(dòng)即可完成驗(yàn)證的方法。比如,谷歌的新驗(yàn)證碼系統(tǒng)reCaptcha V3,會(huì)自動(dòng)記錄使用者在網(wǎng)站中瀏覽的行為特征,根據(jù)這些記錄來給用戶打分,只有用戶分?jǐn)?shù)過低時(shí)才會(huì)被要求識(shí)別復(fù)雜的驗(yàn)證碼,否則不會(huì)打擾到用戶,上網(wǎng)體驗(yàn)很絲滑。
表面上雖然不用再輸入驗(yàn)證碼,本質(zhì)卻是AI模型時(shí)時(shí)刻刻地“觀察”用戶的行為,從中尋找自動(dòng)化的跡象,是一種“持續(xù)身份驗(yàn)證”。這需要讀取盡可能多的用戶信息,也可能涉及侵犯隱私的問題。
到底應(yīng)該讓渡隱私、節(jié)省時(shí)間,還是繼續(xù)一筆一劃地填寫答案呢?人在網(wǎng)絡(luò),身不由己,普通用戶只能接受結(jié)果。只要還有虛假賬戶、垃圾郵件、騷擾信息,我們就必須將人類用戶與機(jī)器人分開,某種形式的驗(yàn)證碼技術(shù)也將始終存在。