洪良怡 朱松林 王軼駿 薛 質(zhì)
1(上海交通大學(xué)電子信息與電氣工程學(xué)院 上海 200240) 2(江蘇省南通市公安局 江蘇 南通 226001)
近年來隨著對網(wǎng)絡(luò)節(jié)點和身份信息的保護需求增長,大量匿名通信技術(shù)應(yīng)運而生。暗網(wǎng)是由匿名用戶產(chǎn)生的數(shù)據(jù)組成的,使用匿名、匿蹤技術(shù)和特定軟件才能訪問的網(wǎng)絡(luò)空間。通過路由中繼技術(shù)以及通信中的數(shù)據(jù)加密,掩蓋了用戶上網(wǎng)地址以及暗網(wǎng)主機托管地址,難以追溯服務(wù)器端和客戶端信息。因為不受監(jiān)管、匿名和不可溯源等特點,暗網(wǎng)的網(wǎng)絡(luò)空間中存在著大量非法出售、分享非法商品和數(shù)據(jù)的站點,包括偽造的證件、信用卡信息、槍支彈藥、毒品以及泄露數(shù)據(jù)。例如,2019年6月至少5萬條美國牌照數(shù)據(jù)被美國海關(guān)和邊境保護局CBP技術(shù)分包商泄露在暗網(wǎng)上;7月邁阿密和其他一些城市警方約1 TB執(zhí)勤拍攝數(shù)據(jù)在暗網(wǎng)流傳;12月欺詐情報公司Gemini Advisory發(fā)現(xiàn)850家商店被盜的3 000萬條支付卡數(shù)據(jù)被上傳到在線網(wǎng)絡(luò)犯罪市場Joker's Stash[1]。
在暗網(wǎng)中非法論壇的行為研究方面,Alnabulsi等[2]分析了三個暗網(wǎng)論壇中的犯罪類型,包括隱私、黑客、毒品、政治、革命、武器以及毒品。宋勝男[3]通過對暗網(wǎng)非法網(wǎng)站按照毒品交易、武器交易、信用交易、色情服務(wù)四種典型內(nèi)容進行分類,根據(jù)法律條文按照危害程度進行排序。He等[4]使用機器學(xué)習(xí)算法訓(xùn)練法律法規(guī)文本,用于暗網(wǎng)網(wǎng)絡(luò)上違法內(nèi)容分類。曹哲超等[5]提出了結(jié)合了頁面標簽特征和頁面文本特征識別的重要站點篩選方法。
暗網(wǎng)網(wǎng)頁文本呈現(xiàn)出數(shù)據(jù)量大、種類多樣、分布不均、內(nèi)容簡略、富含非標準用語以及標注困難的特征,給面向暗網(wǎng)海量網(wǎng)頁文本信息篩選需求的文本分類帶來了巨大挑戰(zhàn)?;鶞收Z料缺乏、擴展性差的問題使得近幾年機器學(xué)習(xí)以及深度學(xué)習(xí)自然語言處理方面的成果難以直接應(yīng)用在暗網(wǎng)網(wǎng)頁文本分類問題上。
本文為解決暗網(wǎng)網(wǎng)頁內(nèi)容分類問題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的模型,首先介紹暗網(wǎng)網(wǎng)頁文本特征,然后介紹該模型,最后通過實驗驗證模型的有效性,并研究了不同實驗參數(shù)對分類效果的影響。
暗網(wǎng)網(wǎng)頁文本具有普通網(wǎng)頁文本同樣的特征,即包括大量HTML標簽,HTML標簽對于網(wǎng)頁實際內(nèi)容分析會造成一定干擾。
如圖1所示,HTML中