閆珍珍
“爬蟲”,是一個(gè)“收集控”,它在各大航空公司的網(wǎng)站收集低價(jià)機(jī)票,在每個(gè)時(shí)間每個(gè)航段之間對(duì)比,選出最便宜的。這對(duì)于人類來說是一項(xiàng)非常煩瑣復(fù)雜的工作,但對(duì)于網(wǎng)絡(luò)“爬蟲”來說卻可以迅速完成;“爬蟲”又是一個(gè)“偽裝者”,它收集到特價(jià)機(jī)票后仿冒真人用戶搶訂機(jī)票
網(wǎng)絡(luò)爬蟲、Python語(yǔ)言……這些高科技黑話你懂嗎?
懂,說明你可能是折扣秒殺高手;不懂,那你就要看看這篇文章了?;蛟S今年再寫年終總結(jié)時(shí),用一個(gè)“爬蟲”軟件就可以一“爬”搞定,再也不用一頁(yè)一頁(yè)找材料了。
幕后黑手
特價(jià)機(jī)票輕輕松松被“爬”走
近日,為春節(jié)出游做準(zhǔn)備的小王正在各大航空公司網(wǎng)站搶購(gòu)特價(jià)機(jī)票。然而,設(shè)置了鬧鈴、把家里網(wǎng)速寬帶提高到100兆的她還是一無所獲。而她的閨蜜卻在某“爬蟲”軟件的幫助下,成功搶到特價(jià)機(jī)票。
這里所說的“爬蟲”,是一個(gè)“收集控”,它在各大航空公司的網(wǎng)站收集低價(jià)機(jī)票,在每個(gè)時(shí)間每個(gè)航段之間對(duì)比,選出最便宜的。這對(duì)于人類來說是一項(xiàng)非常煩瑣復(fù)雜的工作,但對(duì)于網(wǎng)絡(luò)“爬蟲”來說卻可以迅速完成;“爬蟲”又是一個(gè)“偽裝者”,它收集到特價(jià)機(jī)票后仿冒真人用戶搶訂機(jī)票。
由于“爬蟲”的效率遠(yuǎn)遠(yuǎn)超過正常的手動(dòng)操作,導(dǎo)致通過正常操作幾乎無法搶到票。代理公司搶到票后不會(huì)立即付款,他們會(huì)在航空公司允許的賬期內(nèi),尋找真正客源,然后退訂此前使用虛假客源身份預(yù)訂的低價(jià)票,再使用真實(shí)身份信息進(jìn)行訂購(gòu),最后實(shí)現(xiàn)該低價(jià)票的加價(jià)轉(zhuǎn)售。如果未能在規(guī)定賬期內(nèi)找到真正客源,代理公司會(huì)在訂單失效前再追加虛假身份訂單,繼續(xù)“霸占”該低價(jià)票,直至找到真正客源售出為止,而普通用戶在航企官網(wǎng)查看時(shí)卻顯示低價(jià)票已售罄。
其實(shí),“爬蟲”技術(shù)并不神秘,無非分為三步:“爬”上網(wǎng)頁(yè)、“鏟”下數(shù)據(jù),最后進(jìn)行加工清洗。
事實(shí)上,機(jī)票代理公司用“爬蟲”搶特價(jià)票再加價(jià)售賣也不是秘密。在線票務(wù)服務(wù)公司攜程的“反爬蟲”專家在技術(shù)分享中透露,某網(wǎng)站的一個(gè)頁(yè)面,每分鐘的瀏覽量是1.2萬,真實(shí)用戶只有500個(gè),“爬蟲”流量占比為95.8%。很多業(yè)內(nèi)人士也表示,即使在“爬蟲”活動(dòng)的淡季,虛假流量也占到訂票網(wǎng)站總流量的50%,高峰期更是占到90%以上。
功能強(qiáng)大
人臉識(shí)別輿情監(jiān)控都靠“爬”
“爬蟲”技術(shù)剛剛出現(xiàn)時(shí),并不是一個(gè)搶票工具,而是采集公開數(shù)據(jù)、然后進(jìn)行分析使用的工具。愛濟(jì)南APP的研發(fā)者之一、舜網(wǎng)研發(fā)部主任李濱告訴記者,“爬蟲”最早應(yīng)用在搜索引擎領(lǐng)域比如谷歌、百度、搜狗等,因?yàn)槊刻煨枰ト?shù)百億的網(wǎng)頁(yè),所以它們需要借助龐大的“爬蟲”集群來實(shí)現(xiàn)搜索功能。這種信息采集過程很像爬蟲或蜘蛛在網(wǎng)絡(luò)上漫游,因此得名。
隨著人工智能時(shí)代的到來,網(wǎng)絡(luò)“爬蟲”已是大數(shù)據(jù)概念的重要組成部分。爬取對(duì)象也從一些種子起始網(wǎng)址擴(kuò)充到整個(gè)互聯(lián)網(wǎng)數(shù)據(jù),比如新聞資訊、電商產(chǎn)品、折扣信息等?!皭蹪?jì)南APP就是通過收集用戶的閱讀習(xí)慣,從日常爬取的內(nèi)容中,進(jìn)行篩選分析,然后再推薦給用戶?!崩顬I說。一些低價(jià)打折的微信群和QQ群,也是通過爬取淘寶和京東等網(wǎng)站的折扣信息,計(jì)算出最低價(jià)格推薦給群友。
“爬蟲”還應(yīng)用于市政輿情系統(tǒng),通過爬取論壇、微博、微信內(nèi)容,自動(dòng)分析出色情、暴力等信息提交。除此之外,個(gè)人征信系統(tǒng)、醫(yī)院智慧健康系統(tǒng)等都離不開“爬蟲”。
大數(shù)據(jù)帶火了網(wǎng)絡(luò)“爬蟲”,網(wǎng)絡(luò)“爬蟲”又帶火了Python語(yǔ)言?,F(xiàn)在用百度搜索“網(wǎng)絡(luò)爬蟲”,前幾條都是Python語(yǔ)言培訓(xùn)廣告。山東最新出版的小學(xué)信息技術(shù)六年級(jí)教材,新增了Python語(yǔ)言編寫的內(nèi)容;2018年的全國(guó)計(jì)算機(jī)二級(jí)考試,也新增了Python科目。
邪惡一面
非法竊取信息淪為“黑暗武器”
小王終于明白,跟她搶票的根本不是人,而是技術(shù)黃牛。既然能搶機(jī)票,那么能不能搶火車票?
李濱表示:“不能。飛機(jī)票因?yàn)橛卸嗉颐窈焦?,同一航線、不同公司、不同時(shí)段,票價(jià)不同;但火車票目前只有鐵路部門負(fù)責(zé),同一線路票價(jià)固定,沒有爬取的意義?!逼鋵?shí),“爬蟲”的意義在于代替工人來分析和對(duì)比各大民航網(wǎng)站和在線平臺(tái)的票價(jià),通過數(shù)據(jù)分析得出最低價(jià),而不是搶票。
大數(shù)據(jù)時(shí)代,“爬蟲”有時(shí)會(huì)成為低成本獲取數(shù)據(jù)的捷徑,淪為“黑暗武器”。有財(cái)經(jīng)媒體爆料,在現(xiàn)金貸行業(yè),有的平臺(tái)直接用“爬蟲”竊取其他平臺(tái)的用戶注冊(cè)信息和風(fēng)控?cái)?shù)據(jù),類似于信用卡“以卡辦卡”,如果你有別的信用卡,不用自己申請(qǐng)就給你發(fā)卡;你在某個(gè)現(xiàn)金貸平臺(tái)注冊(cè)填寫的數(shù)據(jù),有可能被別的平臺(tái)“爬”出來,只需用戶授權(quán)賬號(hào)和密碼,但這個(gè)授權(quán)你本人可能并不知情。
而最近幾年被爆出的“爬蟲”產(chǎn)品遠(yuǎn)遠(yuǎn)不止這些。某大數(shù)據(jù)公司的業(yè)務(wù)員稱,公司最近開發(fā)了新項(xiàng)目,可爬取旅行網(wǎng)站、外賣平臺(tái)、地圖、共享單車等平臺(tái)的個(gè)人信息,甚至可以定制化抓取,“拿到第一手鮮活原始數(shù)據(jù)”。
“爬”支付寶、“爬”微信、“爬”現(xiàn)金貸……“爬蟲”看起來無所不能。
法律空白
惡意“爬取”成為監(jiān)管“灰色地帶”
“新技術(shù)如果被非法或者不當(dāng)應(yīng)用,便會(huì)產(chǎn)生嚴(yán)重危害?;ヂ?lián)網(wǎng)空間安全需要建立健全完善的保護(hù)體系,絕不能裸奔?!崩顬I說。
李濱介紹說,目前的反爬技術(shù)主要有兩種:一種是限制同一IP、同一電腦在一定時(shí)間內(nèi)訪問網(wǎng)站的次數(shù)。另一種是設(shè)置復(fù)雜的驗(yàn)證碼機(jī)制,讓機(jī)器“爬蟲”不好識(shí)別。對(duì)航空公司來說,封IP的做法可能誤傷真實(shí)用戶?!岸绻o消費(fèi)者設(shè)置一個(gè)非常復(fù)雜的驗(yàn)證碼,導(dǎo)致他難以輸入,可能其就不再購(gòu)買這個(gè)公司的票了?!币幻辉竿嘎缎彰暮娇展救耸勘硎?。他認(rèn)為,除了加大技術(shù)防范力度之外,司法機(jī)關(guān)也要通過完善管理和法律法規(guī)的手段來共同約束這種行為。
而在惡意“爬取”信息和技術(shù)黃牛搶票方面,正是法律法規(guī)監(jiān)管的“灰色地帶”。
《網(wǎng)絡(luò)安全法》規(guī)定,未經(jīng)授權(quán)“爬取”用戶手機(jī)通訊錄超過50條記錄,公司法人最高可獲刑3年;未經(jīng)授權(quán)讀取用戶公積金社保記錄超過5萬條的,公司法人最高可獲刑7年……但對(duì)于高科技“黃?!钡蛊毙袨椋形从忻鞔_規(guī)定。
業(yè)內(nèi)人士認(rèn)為,航企的目標(biāo)是要提升“爬蟲”搶票行為識(shí)別的準(zhǔn)確率和賬期管理,不給“爬蟲”提供機(jī)會(huì),“反爬蟲”不僅要依靠技術(shù)防范和業(yè)界自律,還應(yīng)該通過完善管理和法律法規(guī)手段來約束,尤其是法律手段。(來源:政法網(wǎng)絡(luò)輿情)endprint