方陵生/編譯
臉部識別系統(tǒng):個人隱私終結者
方陵生/編譯
面部識別軟件可以通過任何一張照片確認你的身份
抗議游行隊伍里,一家同性戀酒吧里,或一家墮胎診所里的一張照片,都有可能讓你的朋友認出你來。但機器不能,至少現在還不能,除非一臺配備了多張你的高質量圖片資料的計算機一直在負責搜索你,你的隱私始終是安全的。也沒有計算機可以通過隨機的、沒有標簽的圖片在互聯網上搜索找到你。但在收藏了至今為止世界上最大個人照片集的Facebook的“花園圍墻”內,這樣的前景正在開始慢慢展現在我們面前。
Facebook的臉部識別系統(tǒng)DeepFace在一些受限制的面部識別任務中,其準確程度堪比人類。紐約大學計算機科學家、領導Facebook人工智能研究的雅安·勒存(Yann LeCun)堅持認為,Facebook并非意圖要侵犯其超過13億用戶的隱私,而是意在保護個人隱私。一旦DeepFace在每天上傳新照片的4億用戶中“認出”了你的臉,“你會得到一個來自Facebook的警告,告訴你你出現在了這張照片中?!彼忉屨f,“你可以選擇模糊你在這幅圖中的臉,以保護你的隱私?!比欢芏嗳烁静幌M徽J出來,特別是在陌生人的照片中時。Facebook已開始使用該系統(tǒng),雖然其面部標記系統(tǒng)只向你顯示你“朋友”的身份。
DeepFace不是這場隱私保護賽中的唯一“黑馬”,美國政府為大學人臉識別研究投入了大筆資金,如谷歌等一些私營公司也在開發(fā)確定個人身份的照片和視頻自動識別技術。
自動面部識別技術如何付諸實際應用,以及法律如何加以限制等,目前仍不清楚。但是一旦技術成熟,在解決許多隱私問題的同時,也必將產生同樣多的新的隱私問題?!半[私問題這個妖魔或許很快就要破瓶而出,而我們已經沒有退回去的路了?!睈酆扇A州立大學研究隱私問題的信息系統(tǒng)研究員布萊恩·梅尼克(Brian Mennecke)說道。
簡單的臉部識別對于計算機來說,是一件輕而易舉的事情,至少比識別一些常見物體要容易得多,如花朵、毯子和燈具等。幾乎所有的臉部都有相同的幾個特征:眼睛、耳朵、鼻子和嘴,而且都在同樣的相對位置,這種一致性為計算機識別提供了有效的途徑?!皥D片的臉部識別技術已經存在有大約20年時間了?!崩沾嬲f道。如今即使是普通相機里的微型計算機也早就具備了臉部識別和聚焦的功能。
但是“確定一張臉比探測到一張臉要困難得多。”勒存說。你的臉代表了唯一的你,但與你的指紋不同的是,它是在不斷動態(tài)變化著的。只是一個簡單的微笑,你的臉就會發(fā)生很多變化,你的眼角會皺起,你的鼻翼會輕輕張翕,你的牙齒會露出來。當你仰頭大笑時,你的臉型甚至會明顯扭曲。即使你努力保持同樣的臉部表情,你每張照片上的頭發(fā)也不盡相同,特別是當你進了一趟理發(fā)店后,出來后更是形象大為改觀。但是大多數人都能在一系列照片中毫不費力地認出你來。
就感知周圍世界而言,面部識別可能是人類大腦做的最簡單也是最了不起的事情了。馬薩諸塞州立大學的計算機科學家埃里克·萊恩德-米勒(Erik Learned-Miller)說道,相比之下,計算機識別人臉時對于多個方面的考慮要困難得多:年齡、姿勢和表情等,這些方面的一些微妙差異都會干擾計算機對一個人臉部特征的區(qū)分辨認。
所幸的是,如今有了一種名為“深度學習”的技術,令計算機的人臉識別能力突飛猛進。像所有其他的機器學習技術一樣,深度學習從一組訓練數據開始,每張臉都做有標簽的大規(guī)模數據集,最理想的是包括了每個人多張照片的數據庫。萊恩德-米勒幫助建立了一個人臉數據集,名為“戶外臉部檢測數據庫(Labeled Faces in the Wild Home,LFW)”,其中包括了從網絡上收集到的5 749位名人的13 000張面孔圖片,有的人只有幾張,有的人甚至多達幾十張。這是一個可以免費使用的在線數據集,很受專門研究面部識別算法的計算機視覺研究者的歡迎。
對于計算機來說,人的面部只不過是一些或深或淡像素的集合而已,深度學習系統(tǒng)的培訓首先讓系統(tǒng)自行對比和發(fā)現臉部特征,例如,眼睛和鼻子的統(tǒng)計學特性,這些對于人類來說,并沒有直觀上的意義?!白寵C器和數據說話好了?!盌eepFace首席工程師雅尼夫·泰格曼(Yaniv Taigman)說道。
系統(tǒng)首先將臉部像素分成一些元素的集合,如構勒出面部輪廓的邊緣等,然后將一些相同但足以辨別出區(qū)別的臉的元素根據非直觀的統(tǒng)計學的特性進行層層分類組合的處理。這就是深度學習的“深度”:每個處理層次的輸入都是其下面一層的輸出,通過這種培訓,最終結果是一個具有代表性的人臉模型,統(tǒng)計機器可以將面孔圖像進行比較,猜測它們是否屬于同一個人,系統(tǒng)訓練的面孔越多,猜測結果就越準確。
DeepFace團隊去年3月在Facebook網站上發(fā)表的一篇論文描述了他們的這個創(chuàng)意,在機器視覺社區(qū)引起了很大的反響。人臉識別的一個基準是確定LFW數據庫里兩張照片中的臉是否屬于同一個名人。人類的準確率約為98%,DeepFace的準確率為97.35%,比同領域的其他技術高出27%。
DeepFace的一些優(yōu)勢源自于其更靈巧的編程,例如克服和完善了臉部信息不全的問題,如果照片只顯示了人的側面,程序利用它可以看到其他一些臉部照片的優(yōu)勢,重建可能的臉部正面圖。這種“對齊”步驟可以令DeepFace的識別效率更高,泰格曼說道,“我們可以將系統(tǒng)容量的大部分集中于一些細微差別上。”
“這種技術在單核計算機上運行只需要幾分之一秒?!碧└衤f。因此,DeepFace可以有效地運用于智能手機上。原則上,一個拇指驅動器就足以裝下一個10億人的面部照片識別數據庫。
但是DeepFace最大的優(yōu)勢是其訓練數據。DeepFace論文中提到一個“社會面孔分類(SFC)”數據集,里面包括了從Facebook頁面上收集到的4 030個用戶的440萬張有標簽的臉部照片。Facebook允許注冊用戶使用他們的個人資料庫,但論文卻未提到要得到照片主人的同意。
“這聽起來令人毛骨悚然,太可怕了?!痹贒eepFace現身一周后,發(fā)表在《赫芬頓郵報》的一篇文章如此形容道?!逗辗翌D郵報》的一位讀者在評論中寫道,“很顯然,警察和其他執(zhí)法部門將使用這種技術,在我們根本沒有意識到情況下搜索我們的照片。”Facebook承認,在法庭傳票責令下,確實為執(zhí)法部門提供了訪問用戶數據的權限。
“人們都非常害怕,”萊恩德-米勒說,但他認為,這種擔心是多余的,“像Facebook這樣的公司,如果真的越過了社會規(guī)則能夠接受的界限……他們可能將面臨倒閉。如果他們觸犯了法律,那么他們會被勒令關閉,涉案人員將可能被逮捕?!彼J為,人們的疑慮源自于缺乏透明度。
學術研究者要使用隱私數據進行研究,必須得到明確的同意,那些在Facebook上點擊“同意”簽署帶有一些附加條件的許可協(xié)議(EULA)的用戶授予公司許可使用他們的數據,這樣的在線合同“是完全違背透明度原則的,”萊恩德-米勒說道,“沒有人真正知道他們訪問數據的權限有多大?!比ツ?,該公司推出了一個尋找恐龍的卡通圖片,會不時在屏幕上彈出來,提醒用戶注意他們的隱私設置。
個人隱私數據已形成了一個繁榮的交易市場,其中一些是合法的,其他是不合法的,面部身份識別將成為另一種熱門商品,梅尼克預測道。例如,面部身份識別可以讓廣告商在有攝像頭的地方追蹤你的購物行為,迎合你對商品的喜好,甚至根據了解到的你的購物習慣或人口統(tǒng)計學特征的數據,提供不同的價格標準。但“真正令人們不安的是,”梅尼克指出,“是大街上的一些陌生人,他們隨時可以在人群中將你認出來……無處不在的面部識別讓你避無可避。”
美國的一家公司FacialNetwork利用其深度學習系統(tǒng),開發(fā)了一款名為“名簽”的應用軟件,通過智能手機或像“谷歌眼鏡”這樣的可穿戴設備,“名簽”不僅能夠透露某個人的姓名,還有其他更多的個人隱私,如來自社交媒體、交友網站和犯罪數據庫等的信息。Facebook很快丑聞纏身,它給Facial-Network發(fā)出停止和阻止收集用戶信息的命令。“我們不提供這種信息給其他公司,未來也沒有任何這樣的打算。”Facebook通過電子郵件告訴《科學》雜志道。
面部識別技術潛在的商業(yè)應用將有可能制造出更多的“麻煩”來,萊恩德-米勒說,但他更擔心的是政府可能會濫用這項技術。萊恩德-米勒說道,“我100%贊成斯諾登的觀點?!彼傅氖乔皣野踩殖邪趟怪Z登于2013年透露的美國政府大規(guī)模監(jiān)測美國公民電子郵件和電話記錄的事件,對此“我們必須保持警惕?!彼f。
萊恩德-米勒語出驚人,他的分級面部識別研究項目是由美國情報高級研究項目署部分投資的,也許正因為此,我們有更多的理由認真思考一下他的警告。
[資料來源:Science][責任編輯:彥隱]