彭茜
在年底的網(wǎng)絡(luò)購票高峰期,中國鐵路客戶服務(wù)中心12306網(wǎng)站的圖形驗證碼系統(tǒng),被很多購票者“吐槽”。人們不禁要問,如此復(fù)雜的驗證碼系統(tǒng),到底有什么用?
其實,驗證碼存在的最大意義,就是區(qū)分在頁面上進行輸入操作的是人還是自動化的軟件。就拿12306網(wǎng)站的驗證碼來說,它的“進化史”就是一部不斷與黃牛和搶票軟件“斗智斗勇”的歷史,從一開始的簡單數(shù)字、字母、加減法,再到閃爍變形字母、干擾線變形字母……由于數(shù)字和字母組合可被搶票軟件自動分析識別,自2015年3月16日起,12306網(wǎng)站又啟用了圖形驗證碼。
驗證碼有一個充滿科學(xué)氣息的學(xué)名——“全自動區(qū)分電腦和人類的圖靈測試”(簡稱CAPTCHA)。眾所周知,圖靈測試通過讓被測試者回答人類提出的一系列問題,以鑒別對方是人還是機器,而驗證碼則是一場機器向人提問的“反圖靈測試”。
隨著計算機技術(shù)的進步,驗證碼被設(shè)計得越來越復(fù)雜是必然趨勢,這也顯示出人工智能的不斷進步,程序員正在與破解者進行著一場仿佛沒有終點的“拉鋸戰(zhàn)”。美國斯坦福大學(xué)的一項研究發(fā)現(xiàn),近兩年來,互聯(lián)網(wǎng)的驗證碼正變得越來越難以識別,并且每個網(wǎng)站平均有1/5的用戶因為驗證碼過于復(fù)雜而離開網(wǎng)站。
不過,驗證碼在進化過程中也有了新的應(yīng)用意義。美國卡內(nèi)基梅隆大學(xué)的路易斯·馮·安等人設(shè)計出了reCAPTCHA系統(tǒng),將驗證過程用于古籍的數(shù)字化。古籍經(jīng)掃描后,會出現(xiàn)一些難以準確辨識的字符,人工核對工作量巨大。對電腦前的單個人來說,辨認驗證碼字符所花的幾秒鐘也許微不足道,但如果把全球數(shù)以億計的網(wǎng)民辨認的字符收集起來,情況會怎樣呢?
于是reCAPTCHA派上用場了,把無法識別的古籍文字制成驗證碼,派發(fā)給網(wǎng)站用戶驗證,根據(jù)不同用戶反饋回來的單詞答案,就可以輕松得到模糊字符的正確結(jié)果了。這樣一來,每一次煩人的驗證都在為人類典籍?dāng)?shù)字化做貢獻。reCAPTCHA后來被谷歌買走,谷歌還把這個概念應(yīng)用到谷歌街景的門牌號識別中。
2014年年底,谷歌推出了全新的驗證碼識別系統(tǒng)“No CAPTCHA reCAPTCHA”,繁雜的驗證碼系統(tǒng)被一個簡單的復(fù)選框所取代,用戶只需勾選“我不是機器人”這個選項即可。其實,通過收集用戶在單擊前的鼠標軌跡,谷歌就可以辨識出人與機器之間的細微差異。
這一新系統(tǒng)會在“不經(jīng)意間”收集用戶的IP地址等變量,然后根據(jù)這些數(shù)據(jù),對比用戶當(dāng)前的行為是否與在互聯(lián)網(wǎng)上的歷史行為一致,由此來判定究竟是人還是機器人在操作。