◆冷濤 高彬晗 熊越 謝耕
基于暗網(wǎng)的監(jiān)控平臺設(shè)計(jì)與實(shí)現(xiàn)
◆冷濤1,2高彬晗1熊越1謝耕1
(1.四川警察學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系 四川 646000;2.刑事檢驗(yàn)四川省高校重點(diǎn)實(shí)驗(yàn)室(四川警察學(xué)院) 四川 646000)
暗網(wǎng)充斥著網(wǎng)絡(luò)犯罪,對暗網(wǎng)進(jìn)行監(jiān)控是獲取網(wǎng)絡(luò)情報(bào)的重要來源,開發(fā)暗網(wǎng)的監(jiān)控平臺對打擊暗網(wǎng)犯罪具有重要意義。本文通過對暗網(wǎng)的研究,搭建暗網(wǎng)訪問環(huán)境,基于網(wǎng)絡(luò)爬蟲,對目標(biāo)暗網(wǎng)網(wǎng)站進(jìn)行結(jié)構(gòu)分析,設(shè)計(jì)算法,爬取內(nèi)容,并作詞云分析。試驗(yàn)結(jié)果表明,該設(shè)計(jì)思路能高效跟蹤暗網(wǎng)發(fā)布內(nèi)容,并做數(shù)據(jù)分析。該監(jiān)控程序的設(shè)計(jì)方案有助于公安機(jī)關(guān)掌握暗網(wǎng)信息,跟蹤暗網(wǎng)情報(bào),具有實(shí)際意義。
暗網(wǎng);網(wǎng)絡(luò)爬蟲;詞云分析
暗網(wǎng)是指隱藏的網(wǎng)絡(luò),需要使用特殊瀏覽器(如TOR),經(jīng)過配置網(wǎng)絡(luò)方可進(jìn)入。暗網(wǎng)上存在著大量的違法犯罪信息,如販賣毒品,公民個(gè)人信息,傳播色情恐怖信息等,嚴(yán)重危害著未成年人的成長,甚至危及政權(quán)安全[1]。由于暗網(wǎng)訪問的私密性,公安機(jī)關(guān)對暗網(wǎng)案件打擊存在一定困難,針對暗網(wǎng)的監(jiān)控是公安機(jī)關(guān)重點(diǎn)關(guān)注的問題。針對此問題已有很多學(xué)者做了大量研究,文獻(xiàn)[2]設(shè)計(jì)基于Selenium的暗網(wǎng)爬蟲,自動(dòng)采集暗網(wǎng)網(wǎng)頁數(shù)據(jù),對暗網(wǎng)取證提供了借鑒意義。文獻(xiàn)[3]詳細(xì)介紹了基于Selenium的暗網(wǎng)爬蟲程序設(shè)計(jì),并檢驗(yàn)了該程序獲取暗網(wǎng)網(wǎng)頁的結(jié)果。文獻(xiàn)[4]基于Scrapy分布式的暗網(wǎng)爬蟲探測方法,將暗網(wǎng)使用的socks5協(xié)議轉(zhuǎn)為爬蟲支持的http協(xié)議,該方法發(fā)現(xiàn)了大量的暗網(wǎng)站點(diǎn)信息。文獻(xiàn)[5]基于scrapy設(shè)計(jì)賭博網(wǎng)站爬蟲程序,建立賭博網(wǎng)站數(shù)據(jù)庫,并采用jieba,wordcloud等工具對網(wǎng)站進(jìn)行簡單分析。本文通過暗網(wǎng)網(wǎng)站結(jié)構(gòu)分析,設(shè)計(jì)網(wǎng)絡(luò)爬蟲,爬取站點(diǎn)發(fā)布的內(nèi)容,并對內(nèi)容進(jìn)行分析,更有利于公安機(jī)關(guān)對目標(biāo)網(wǎng)站的監(jiān)控,獲取情報(bào)等。
暗網(wǎng)是由美國軍方的一個(gè)科研項(xiàng)目發(fā)展而來,該項(xiàng)目主要目的是為互聯(lián)網(wǎng)的用戶提供身份隱藏服務(wù),后來因?yàn)檫@個(gè)特性導(dǎo)致全球不法分子在暗網(wǎng)活動(dòng)頻繁。暗網(wǎng)通過Tor或者I2P等網(wǎng)絡(luò)訪問的Web站點(diǎn)服務(wù)。暗網(wǎng)網(wǎng)絡(luò)站點(diǎn)特征是域名后綴為“.onion”。
暗網(wǎng)原理簡單來講是利用多重轉(zhuǎn)發(fā)和層層加密,讓信息流追溯和信息解密變得非常困難。如下圖,A向E發(fā)送信息,中間經(jīng)過B、C、D三個(gè)轉(zhuǎn)發(fā)節(jié)點(diǎn)進(jìn)行轉(zhuǎn)發(fā),信息全程加密。發(fā)送方、接收方和轉(zhuǎn)發(fā)節(jié)點(diǎn),沒有一方能同時(shí)掌握發(fā)送方和接收方的真實(shí)地址。轉(zhuǎn)發(fā)節(jié)點(diǎn)B即使直接接收A發(fā)送的信息,但是無法判斷A是發(fā)送方還是轉(zhuǎn)發(fā)節(jié)點(diǎn),D同理。B、C、D三個(gè)節(jié)點(diǎn)是在節(jié)點(diǎn)池中隨機(jī)抽取,并且一定時(shí)間之后會更換轉(zhuǎn)發(fā)節(jié)點(diǎn)。
圖1 暗網(wǎng)轉(zhuǎn)發(fā)節(jié)點(diǎn)示意圖
結(jié)合現(xiàn)實(shí)需要,本文將監(jiān)控平臺設(shè)計(jì)為,本地環(huán)境Ubuntu虛擬機(jī)和Tor瀏覽器可視化訪問暗網(wǎng)網(wǎng)站;服務(wù)器環(huán)境提供Tor代理和爬蟲環(huán)境;暗網(wǎng)探測為暗網(wǎng)網(wǎng)址收集并針對重點(diǎn)網(wǎng)站監(jiān)控。如圖2所示:
圖2 基于暗網(wǎng)的監(jiān)控平臺
在云服務(wù)器上利用Linux系統(tǒng)服務(wù)器搭建具有進(jìn)入Tor網(wǎng)絡(luò)功能的代理服務(wù)器,并且安裝Python和爬蟲模塊構(gòu)建Python暗網(wǎng)爬蟲服務(wù)器。本地環(huán)境使用Ubuntu16.04版本虛擬機(jī),安裝Tor瀏覽器同時(shí)利用代理服務(wù)器的代理功能進(jìn)入Tor網(wǎng)絡(luò)。根據(jù)暗網(wǎng)網(wǎng)址“.onion”的特性,在公網(wǎng)中設(shè)計(jì)使用爬蟲收集暗網(wǎng)網(wǎng)址,根據(jù)收集的暗網(wǎng)網(wǎng)址進(jìn)入暗網(wǎng)。對收集的網(wǎng)址訪問分析后,研判具有較大監(jiān)控價(jià)值的網(wǎng)站。針對性地根據(jù)網(wǎng)站特點(diǎn)編寫Python爬蟲進(jìn)行網(wǎng)站數(shù)據(jù)監(jiān)控。
本文選取了一個(gè)比較有典型意義的暗網(wǎng)購物網(wǎng)站,里面有多種非法物品的出售,包括但不限于毒品、槍支、信用卡、各國貨幣和黑產(chǎn)信息。這個(gè)網(wǎng)站整體的出售物品不僅種類較多,而且每種類型的非法物品也較多,每件物品進(jìn)行了明碼標(biāo)價(jià),整個(gè)非法物品出售流程完善,所以具有較大的監(jiān)控價(jià)值。在網(wǎng)站分析的同時(shí),結(jié)合網(wǎng)站的特點(diǎn),編寫針對性的Python爬蟲。
圖3 目標(biāo)網(wǎng)站
通過對網(wǎng)站的基本結(jié)構(gòu)進(jìn)行分析,網(wǎng)站采用了PHP語言,物品信息主要以HTML呈現(xiàn),通過分析單個(gè)物品頁面的源代碼,編寫批量爬蟲可以爬取所有物品信息。
if not os.path.exists('/root/data/'+str(datetime.date.today())):
os.mkdir('/root/data/'+str(datetime.date.today()))
確定每日爬取的信息保存在對應(yīng)日期的文件夾中,這里持續(xù)跟蹤監(jiān)控了十天,以此觀察信息的變化。網(wǎng)頁數(shù)據(jù)爬取采用了Python的BeautifulSoup庫,通過pip3 install bs4即可在爬蟲服務(wù)器上安裝。
這個(gè)網(wǎng)站中的單個(gè)物品有四個(gè)特征點(diǎn),詳細(xì)購買頁面鏈接、物品名稱、物品簡介和物品價(jià)格(美元)。本爬蟲針對這四個(gè)點(diǎn)對所有物品信息進(jìn)行爬取。通過urllib.request模塊獲得頁面的HTML文檔。使用BeautifulSoup庫,根據(jù)標(biāo)簽
圖4 暗網(wǎng)網(wǎng)頁源碼圖
下面對上面四個(gè)點(diǎn)的信息獲取進(jìn)行爬蟲編寫,上述當(dāng)中已經(jīng)定位了這個(gè)標(biāo)簽。物品的名稱位于
圖5 暗網(wǎng)網(wǎng)頁產(chǎn)品信息源碼
物品描述在標(biāo)簽中,通過 description = data.find_all('p')[0].string獲取內(nèi)容;物品的價(jià)格在標(biāo)簽
中,通過price = data.find_all('p', class_="price")[0].string.strip()獲取內(nèi)容。
最后將物品四項(xiàng)信息匯總至一個(gè)字典中message = { "商品名": product_title,"描述": description,"價(jià)格": price, "鏈接": detail_url},然后把信息寫入以物品名命名的txt文件中。
圖6 自定義保存文本記錄圖
數(shù)據(jù)儲存采用三級結(jié)構(gòu),逐級為網(wǎng)頁鏈接、日期和數(shù)據(jù)文件。分別以鏈接、日期和物品名稱命名,結(jié)構(gòu)層次清晰,查看方便。
利用網(wǎng)絡(luò)爬蟲收集該網(wǎng)站2021年1月30日至2月8日的數(shù)據(jù),爬取網(wǎng)頁和內(nèi)容見下圖。
圖7 實(shí)驗(yàn)結(jié)果圖
以2021-01-30爬取的信息為例,對上述示例網(wǎng)站爬取的信息作詞云分析。詞云分析方法區(qū)別于傳統(tǒng)表格,以圖片占比的形式表現(xiàn)屬性的占比,具有相當(dāng)?shù)闹庇^性。
將每個(gè)物品被爬取的信息中的標(biāo)題部分整合到同一個(gè)TXT文檔,再使用Python的wordcloud庫進(jìn)行詞云分析,生成結(jié)果圖。
圖8 詞云分析圖
在圖中可以發(fā)現(xiàn)三個(gè)屬性比較突出,分別是“Gram”、“Pure”和“Pills”,中文對應(yīng)著“克”、“純度”和“藥丸”,很明顯可以初步估計(jì)該網(wǎng)站售賣的物品主要傾向于藥品類且需要純度和質(zhì)量的控制,再次一級三個(gè)關(guān)鍵詞“Cocaine”和“LSD”,這很明顯是“可卡因”和“郵票毒品”。這可以直觀的顯示出該網(wǎng)站的主要業(yè)務(wù)為毒品的售賣,次一級的售賣包括但不限于手機(jī)、信用卡和網(wǎng)絡(luò)黑產(chǎn)。
此網(wǎng)站主用語言為英文,同時(shí)支持中文,主要面向歐美國家,使用比特幣進(jìn)行交易,物品初步可分為管控類藥物、槍支子彈類、信用卡盜刷類、假身份信息類、電子產(chǎn)品類以及網(wǎng)絡(luò)黑產(chǎn)類;該網(wǎng)站出售物品種類多,覆蓋面大,符合暗網(wǎng)物品販賣網(wǎng)站的基本特征。
本文結(jié)合當(dāng)前我國公安機(jī)關(guān)面臨的網(wǎng)絡(luò)安全執(zhí)法形勢嚴(yán)峻問題,以暗網(wǎng)上充斥著大量的違法犯罪信息獲取為切入點(diǎn),利用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù),然后利用詞云分析算法做信息分析,能有效獲取情報(bào)資源。平臺采用了較為方便的搭建和使用方法,提高了對暗網(wǎng)偵測工作的效率,為了打擊更深層次的網(wǎng)絡(luò)犯罪提供了有利的幫助。在本文的研究基礎(chǔ)上可以與大數(shù)據(jù)結(jié)合,深度挖掘出暗網(wǎng)中違法犯罪分子的真實(shí)信息,進(jìn)一步提升了公安機(jī)關(guān)對暗網(wǎng)的打擊能力。
[1]王佳寧.“暗網(wǎng)”對國家安全的危害[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016(09):10-11.
[2]湯艷君,安俊霖.暗網(wǎng)案件的爬蟲取證技術(shù)研究[J].中國刑警學(xué)院學(xué)報(bào),2018.
[3]湯艷君,安俊霖.基于Tor的暗網(wǎng)數(shù)據(jù)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J].信息安全研究,2019,5(09):798-804.
[4]余志瑋,何月順.基于Scrapy分布式的暗網(wǎng)探測爬蟲構(gòu)建[J].計(jì)算機(jī)時(shí)代,2020(04):21-25.
[5]付順順.基于Scrapy的賭博網(wǎng)站數(shù)據(jù)采集與分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2020(06).
刑事檢驗(yàn)四川省高校重點(diǎn)實(shí)驗(yàn)室開放基金研究項(xiàng)目(2020ZD03),四川省大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(S202012212044)