麥肯錫咨詢公司最早提出“大數(shù)據(jù)”時代來臨之時,人們沉浸在海量數(shù)據(jù)挖掘與應(yīng)用帶來的生產(chǎn)盈余中,沒人想到能用它來尋找真愛。35歲的克里斯·麥克金雷(Chris Mckinley)做到了。
這位加利福尼亞大學(xué)洛杉磯分校的數(shù)學(xué)系博士像其他4000萬美國單身年輕人一樣,一直試圖通過OkCupid(美國知名婚戀交友網(wǎng)站)等社交網(wǎng)站尋找理想的約會對象。
在 OkCupid 里,每個用戶需回答350道題,問題隨機(jī)選取,包含政治、宗教、愛情觀等。系統(tǒng)會根據(jù)問題的答案自動計算用戶間的匹配程度并予以推薦。克里斯分到了一些冷門問題,只有不到100位姑娘勉強(qiáng)達(dá)到90%的匹配度。
面對滿屏代碼及空空如也的約會日程表,他想拿出專業(yè)辦法搞定這一難題。他決定通過抽樣與統(tǒng)計,知道他喜歡的姑娘們在意哪些問題,再根據(jù)這些問題建立一份新檔案,這樣,全洛杉磯適合他的姑娘就都能找到了。
克里斯不是數(shù)學(xué)宅男。他畢業(yè)于明德學(xué)院中文系,曾在紐約世貿(mào)中心從事翻譯工作,“9·11”那天,他因在家睡覺躲過一劫。之后他應(yīng)邀加入大名鼎鼎的MIT-21點(diǎn)記牌團(tuán)隊的一個分部,開始了職業(yè)賭徒生涯。在算牌的日子里,他發(fā)現(xiàn)自己為數(shù)學(xué)傾倒,毅然轉(zhuǎn)投加利福尼亞大學(xué)洛杉磯分校,成為數(shù)學(xué)系博士生。
現(xiàn)在,他的滿腔熱情被這個叫OkCupid的網(wǎng)站再次喚醒了。
為了獲取資料,克里斯申請了12個OkCupid賬戶,編了一個基于Python的腳本。利用這12個賬戶,該腳本自動搜索25至45歲的女性,訪問她們的主頁,獲取各種數(shù)據(jù)。在收集了一千個左右的樣本之后,程序因讀取信息過快被OkCupid的防御系統(tǒng)屏蔽??死锼贡阈薷淖约旱某绦?,通過模擬朋友的點(diǎn)擊率和打字速度來欺騙OkCupid。
僅僅3周,他獲取了600萬個問題和全國兩萬名女性的回答數(shù)據(jù)。他利用貝爾實(shí)驗(yàn)室的K-Modes算法,將姑娘們自動分為7組,隨后縮小范圍,用同樣的方式給一個月內(nèi)在洛杉磯登錄過OKCupid的5000名女性分了類。兩隊人馬脫穎而出:A組的姑娘二十出頭,特立獨(dú)行,熱愛音樂和藝術(shù)。B組的姑娘年齡稍長,從事設(shè)計類工作。
在計算機(jī)的幫助下,克里斯了解了這兩撥姑娘的喜好,對此精挑細(xì)選了500個問題,如實(shí)填寫了答案。他借此創(chuàng)建了兩份最終檔案,并針對性地附上照片:A組姑娘看到的他正在攀巖,而在B組眼中,他正憂郁地彈著吉他。
當(dāng)他再次運(yùn)行OkCupid配對搜索時,結(jié)果驚人:99% 匹配的姑娘有好多頁,拉到第1萬個,匹配度仍高達(dá) 90%。
為引起注意,他又編寫了一套程序自動訪問所有的高匹配度頁面,并以年齡為周期;周一訪問41歲女性,周二訪問40歲女性……回報很豐厚:他的主頁有時一天有400次的回訪量,信息也開始不斷涌入。
A組的網(wǎng)頁設(shè)計師謝拉達(dá)成了他的首位約會對象,他們在咖啡館共進(jìn)午餐,約會成了一次學(xué)術(shù)交流會。第二次約會是和一名網(wǎng)站編輯,來自 B 組。他幻想著兩人會在公園湖畔漫步,可姑娘一直吟詩,讓他無所適從。第三次約會是和一名學(xué)編劇的在校生,他們約在了酒吧,結(jié)果他大醉一場,怎么回的家都不知道。
一次次約會換來一次次失望。夏季結(jié)束時,他約會了近百次,只有3個姑娘給了他第二次機(jī)會,僅有一個約會了3次。
克里斯開始懷疑自己的人品及程序??删驮谶@時,28歲的克麗絲丁主動跟他打招呼。兩人同校,她是美術(shù)專業(yè)的碩士生,匹配度91%。他們在學(xué)?;▓@碰了頭,又一起在壽司店吃了飯,相談甚歡,彼此留下深刻印象。
這是克里斯的第88次約會,很快又成了第89次,兩周后,兩人都暫停了 OkCupid 的賬戶。
“我認(rèn)為我和其他人一樣,只是多了一點(diǎn)算法思維、大數(shù)據(jù)和機(jī)器學(xué)習(xí)視野?!笨死锼箍偨Y(jié)。
現(xiàn)在,他已經(jīng)拿到博士學(xué)位,在大學(xué)里做授課講師??他惤z丁遠(yuǎn)赴卡塔爾學(xué)習(xí)藝術(shù)。一天,視頻聊天時,克里斯拿出一枚鉆戒,她點(diǎn)頭了??死锼褂X得,自己需要再編個程序,讓計算機(jī)幫他們挑個黃道吉日。