◆李明哲
基于Tor網(wǎng)站文本內(nèi)容和特征的分類方法
◆李明哲
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 北京 100044)
所謂暗網(wǎng),指的是包含有意隱藏的內(nèi)容且無(wú)法被傳統(tǒng)搜索引擎檢索的深層網(wǎng)絡(luò),在目前主流的暗網(wǎng)形態(tài)中,洋蔥路由(Tor)是其中使用最廣泛的一個(gè)。洋蔥網(wǎng)站通過(guò)隱藏服務(wù)協(xié)議模糊網(wǎng)絡(luò)IP,導(dǎo)致近年來(lái)大量違法犯罪活動(dòng)在Tor網(wǎng)絡(luò)上托管。在本文工作中,我們探討了基于其文本內(nèi)容自動(dòng)引入外部知識(shí)在Tor暗網(wǎng)上識(shí)別非法活動(dòng)的可能性。在對(duì)2000個(gè)隱藏服務(wù)的網(wǎng)頁(yè)進(jìn)行爬取和過(guò)濾后,我們將它們分類為6個(gè)不同的非法類別,并使用異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練了分類器。在該模型中,使用TF-IDF作為文本特征加權(quán)方法來(lái)選擇對(duì)類別影響因子大的關(guān)鍵詞。然而,由于暗網(wǎng)非法網(wǎng)頁(yè)的短文本特性,經(jīng)典的機(jī)器學(xué)習(xí)分類器很難在有限的語(yǔ)境中進(jìn)行準(zhǔn)確的語(yǔ)義理解。為了克服這一缺點(diǎn),我們?cè)趫D神經(jīng)網(wǎng)絡(luò)模型中引入了實(shí)體和主題等外部知識(shí)捕捉文本與附加信息之間的豐富關(guān)系。結(jié)果表明,用圖神經(jīng)網(wǎng)絡(luò)建模代替經(jīng)典機(jī)器學(xué)習(xí)模型是有效果的,在相同數(shù)據(jù)集的前提下,基于圖神經(jīng)網(wǎng)絡(luò)的方法比現(xiàn)有的暗網(wǎng)文本分類方法提高了3個(gè)百分點(diǎn)。
暗網(wǎng);圖神經(jīng)網(wǎng)絡(luò);文本分類;非法活動(dòng);Tor
暗網(wǎng)是一種建立在互聯(lián)網(wǎng)基礎(chǔ)之上,經(jīng)過(guò)加密的匿名網(wǎng)絡(luò),由于無(wú)法直接訪問(wèn)暗網(wǎng),因此用戶需要使用特殊的軟件,目前最為流行與實(shí)用的匿名通信系統(tǒng)為Tor(洋蔥路由)。Tor依靠志愿者計(jì)算機(jī)網(wǎng)絡(luò)通過(guò)一系列其他用戶的計(jì)算機(jī)來(lái)路由用戶的Web流量,這樣流量就無(wú)法追蹤到原始用戶[1]。根據(jù)Tor Metrics顯示,截至2021年1月網(wǎng)絡(luò)中每天V2版本onion服務(wù)的唯一地址數(shù)超過(guò)17萬(wàn),Tor的直連用戶估計(jì)數(shù)目超過(guò)200萬(wàn)。
基于難以追蹤和匿名的特性,暗網(wǎng)中充斥著各類犯罪,諸如槍支買賣、毒品交易、人口販賣、淫穢信息傳播等。那些在現(xiàn)實(shí)中被嚴(yán)厲打擊的非法交易,卻在暗網(wǎng)中找到了藏身之地。根據(jù)Al-Nabki等人[2]的研究發(fā)現(xiàn),在他們從Tor暗網(wǎng)爬取的活躍域中,29%的域名包含不同種類的可疑或潛在的非法活動(dòng)。2017年7月,美國(guó)司法部與歐洲刑警組織宣稱,他們的聯(lián)手打壓促使世界上四個(gè)最大暗網(wǎng)市場(chǎng)中的兩個(gè)AlphaBay與Hansa關(guān)閉業(yè)務(wù)[3]。此外還有RAMP暗網(wǎng)市場(chǎng)最終的結(jié)局也是被徹底摧毀,此后買賣家又換到暗網(wǎng)黑市Dream Market和其他市場(chǎng)繼續(xù)進(jìn)行毒品交易。直到現(xiàn)在Dream Market宣布關(guān)閉,至此自 2010 年開(kāi)始崛起的暗網(wǎng)四大門戶網(wǎng)站全部被摧毀或關(guān)閉,無(wú)數(shù)交易者被捕。更令人擔(dān)憂的是,暗網(wǎng)逐漸成為非法信息販賣的主要渠道。2020年3月19日5億微博隱私數(shù)據(jù)被爆遭遇泄漏,大量被泄露的個(gè)人信息用于btc和eth交易,此事在國(guó)際暗網(wǎng)上產(chǎn)生巨大影響。這說(shuō)明暗網(wǎng)作為在惡意活動(dòng)中提供出售非法商品或服務(wù)的匿名交易平臺(tái)吸引了大量的犯罪分子,未來(lái)黑市的存在和需求將會(huì)更普及。因此,我們有必要對(duì)暗網(wǎng)上的非法活動(dòng)進(jìn)行識(shí)別和監(jiān)測(cè),從而為維護(hù)網(wǎng)絡(luò)空間安全和執(zhí)法機(jī)構(gòu)掌握暗網(wǎng)非法活動(dòng)類別分布提供幫助。
然而,現(xiàn)有的關(guān)于暗網(wǎng)網(wǎng)頁(yè)分類的研究面臨以下挑戰(zhàn):
(1)由于暗網(wǎng)空間域名存活期短,其中大部分網(wǎng)站上公開(kāi)的暗網(wǎng)數(shù)據(jù)已無(wú)法再次訪問(wèn),無(wú)法實(shí)時(shí)追蹤最新的暗網(wǎng)非法活動(dòng)。
(2)在實(shí)際的隱藏服務(wù)空間具有短文本特性,篇幅短小、特征稀疏等問(wèn)題導(dǎo)致傳統(tǒng)的網(wǎng)頁(yè)文本分類算法不能很好地適用,需要提出一種特征擴(kuò)展方法。
(3)隱藏服務(wù)空間中非法活動(dòng)分布并不均勻,某些可能造成嚴(yán)重安全威脅的非法活動(dòng)(如武器販賣、數(shù)據(jù)泄露等)網(wǎng)站數(shù)量十分有限,會(huì)導(dǎo)致分類過(guò)程中的數(shù)據(jù)集不均衡問(wèn)題。
為了應(yīng)對(duì)上述挑戰(zhàn),我們的研究重點(diǎn)在于設(shè)計(jì)和構(gòu)建一套集域名發(fā)現(xiàn)、驗(yàn)證和爬取為一體的暗網(wǎng)爬蟲(chóng)框架,同時(shí)結(jié)合網(wǎng)頁(yè)中的文本信息對(duì)Tor暗網(wǎng)上的非法活動(dòng)進(jìn)行精準(zhǔn)分類。因此,我們?cè)谘芯恐凶龀鲆韵仑暙I(xiàn)。
(1)我們開(kāi)發(fā)了一套基于暗網(wǎng)和明網(wǎng)兩種渠道的暗網(wǎng)爬蟲(chóng)框架,該爬蟲(chóng)持續(xù)運(yùn)行累計(jì)收集了超過(guò)3萬(wàn)個(gè)洋蔥頁(yè)面。
(2)提出了一種應(yīng)用圖神經(jīng)網(wǎng)絡(luò)建模進(jìn)行暗網(wǎng)非法活動(dòng)分類的方法,利用文本的潛在主題和實(shí)體標(biāo)注來(lái)豐富語(yǔ)義,從而緩解暗網(wǎng)網(wǎng)頁(yè)文本的稀疏性。
(3)在我們自己創(chuàng)建的文本數(shù)據(jù)集上訓(xùn)練文本分類器,在我們爬蟲(chóng)存儲(chǔ)庫(kù)中的子集上做小規(guī)模分類測(cè)試,其達(dá)到了0.967的精確度。
本文的其余部分安排如下。首先,第二節(jié)回顧相關(guān)工作。其次,第三節(jié)描述了我們提出的分類方法的設(shè)計(jì)思想。然后,第四節(jié)介紹了實(shí)驗(yàn)的部署和技術(shù)細(xì)節(jié)。最后,第五部分給出了結(jié)論和下一步的工作。
目前關(guān)于隱藏服務(wù)內(nèi)容的研究主要分為隱藏服務(wù)空間資源獲取和網(wǎng)頁(yè)內(nèi)容分類兩個(gè)方面。隱藏服務(wù)的大規(guī)模發(fā)現(xiàn)和收集是內(nèi)容分析的前提,關(guān)于Tor域名的采集來(lái)源,現(xiàn)有的研究主要集中在表層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)兩種渠道的搜索以及自己部署服務(wù)器節(jié)點(diǎn)捕獲[4]。Kang Li等人利用Tor2Web工具從明網(wǎng)搜索引擎上檢索特定關(guān)鍵詞來(lái)發(fā)現(xiàn)隱藏服務(wù),使用亞馬遜服務(wù)器在一小時(shí)內(nèi)收集到173667個(gè)獨(dú)特的洋蔥地址,其中4857個(gè)在線活躍可訪問(wèn),證明了該方法的可行性和有效性[5]。不同于明網(wǎng)的搜索引擎,暗網(wǎng)的許多隱藏服務(wù)列表包含在數(shù)據(jù)庫(kù)中,Clement Guitton通過(guò)使用暗網(wǎng)中三個(gè)主要的數(shù)據(jù)庫(kù)(Hidden Wiki、Snapp BBS和Ahmia.fi),對(duì)其中的Tor隱藏服務(wù)地址進(jìn)行采集爬取,統(tǒng)計(jì)結(jié)果表明,這三個(gè)數(shù)據(jù)庫(kù)提取的總體數(shù)據(jù)有很大的重疊,暗網(wǎng)目錄網(wǎng)站收錄的大多是影響力大的知名隱藏服務(wù)而忽略一些私人的、不受歡迎的網(wǎng)站[6]。Owen等人通過(guò)在6個(gè)月內(nèi)運(yùn)行大量的Tor服務(wù)器,從Tor分布式哈希表中捕獲數(shù)據(jù),以收集隱藏服務(wù)的列表,對(duì)其內(nèi)容進(jìn)行分類并統(tǒng)計(jì)請(qǐng)求數(shù)??偣灿^察到大約80000個(gè)隱藏服務(wù),其中在任何一個(gè)時(shí)間點(diǎn)都有大約45000個(gè)服務(wù)[7]。
在暗網(wǎng)網(wǎng)頁(yè)文本分類方面,由于數(shù)據(jù)集中不相關(guān)特征的存在,使用經(jīng)典的機(jī)器學(xué)習(xí)分類技術(shù)來(lái)檢測(cè)來(lái)自暗網(wǎng)網(wǎng)站的文本數(shù)據(jù)的性能會(huì)受到影響。Mohd Faizan研究團(tuán)隊(duì)提出了一種基于互信息和線性判別分析的兩步降維方案,對(duì)暗網(wǎng)文本內(nèi)容進(jìn)行分類。在兩種數(shù)據(jù)集上進(jìn)行了測(cè)試,結(jié)果表明,其所提出的兩步技術(shù)可以積極地提高分類性能,同時(shí)顯著減少特征數(shù)量[8]。Spitters等人提出了一種基于Web內(nèi)容的挖掘方法,用于分析TOR網(wǎng)絡(luò)上的1000多個(gè)隱藏服務(wù),以揭示它們的“主題組織”和“語(yǔ)言多樣性”[9]。另一方面,Ghosh等人提出了一種用于分析公共TOR HS生態(tài)系統(tǒng)內(nèi)容的自動(dòng)爬蟲(chóng)系統(tǒng),命名為“洋蔥自動(dòng)標(biāo)記工具”(ATOL)。它包括三個(gè)核心組件:1)一個(gè)新的關(guān)鍵詞發(fā)現(xiàn)機(jī)制:“ATOL關(guān)鍵詞”;2)一個(gè)分類框架:ATOL分類;3)一個(gè)聚類框架:“ATOL集群”。在武器、毒品和黑客三種類型暗網(wǎng)非法活動(dòng)數(shù)據(jù)集上,ATOLClassify比分析師提供的基線性能提高了12%,而ATOLCluster比最先進(jìn)的半監(jiān)督聚類算法提高了7%[10]。
通過(guò)大量的暗網(wǎng)網(wǎng)頁(yè)瀏覽分析,我們總結(jié)出暗網(wǎng)網(wǎng)站普遍具有的內(nèi)容結(jié)構(gòu)特點(diǎn),并針對(duì)性的設(shè)計(jì)檢測(cè)暗網(wǎng)中非法網(wǎng)頁(yè)的分類方法。下面將分別從網(wǎng)頁(yè)特征分析、分類模型設(shè)計(jì)兩方面展開(kāi)介紹。
在設(shè)計(jì)分類方法之前,我們首先對(duì)拿到的待分類的暗網(wǎng)網(wǎng)頁(yè)進(jìn)行觀察,發(fā)現(xiàn)其與明網(wǎng)普通網(wǎng)頁(yè)在內(nèi)容和結(jié)構(gòu)上存在一定差異,這也決定了傳統(tǒng)的網(wǎng)頁(yè)分類方法不能完全適用于暗網(wǎng)分類任務(wù),有必要人工進(jìn)行特征分析以設(shè)計(jì)相對(duì)應(yīng)的分類策略,總結(jié)得出的特點(diǎn)如下。圖1是暗網(wǎng)非法網(wǎng)站的典型模式。
圖1 暗網(wǎng)非法網(wǎng)站部分截圖
(1)暗網(wǎng)空間中存在合法類別的個(gè)人網(wǎng)頁(yè)或分享技術(shù)帖,也有嚴(yán)重危害的非法網(wǎng)頁(yè)。經(jīng)初步統(tǒng)計(jì),Tor隱藏服務(wù)中超過(guò)80%的非法網(wǎng)站都涉及嚴(yán)重違法行為,在規(guī)模和內(nèi)容方面存在很強(qiáng)的相似性,從研究意義的角度,之后的分類數(shù)據(jù)都采用暗網(wǎng)的違法活動(dòng)網(wǎng)頁(yè)。
(2)非法交易網(wǎng)站普遍篇幅短小,結(jié)構(gòu)簡(jiǎn)單,缺少足夠的特征信息來(lái)進(jìn)行統(tǒng)計(jì)推斷,因此機(jī)器很難在有限的語(yǔ)境中進(jìn)行準(zhǔn)確的語(yǔ)義理解,需要添加一些附加信息來(lái)幫助語(yǔ)義理解和避免歧義。
(3)暗網(wǎng)網(wǎng)頁(yè)中使用的詞匯大部分偏向商品專有名詞和暗網(wǎng)黑話,很難通過(guò)字面意思判斷,只有借助工具標(biāo)注或經(jīng)驗(yàn)理解好相關(guān)術(shù)語(yǔ),才能提取出有價(jià)值的特征信息。
基于以上暗網(wǎng)網(wǎng)頁(yè)的內(nèi)容結(jié)構(gòu)特點(diǎn),我們提出一種應(yīng)用圖神經(jīng)網(wǎng)絡(luò)引入外部知識(shí)來(lái)鑒別違法活動(dòng)的分類方法,在傳統(tǒng)的網(wǎng)頁(yè)文本分類技術(shù)的基礎(chǔ)上綜合考慮潛在主題和實(shí)體標(biāo)注來(lái)豐富語(yǔ)義,以達(dá)到更好的分類效果。對(duì)于暗網(wǎng)不平衡數(shù)據(jù)集分類的欠擬合問(wèn)題,標(biāo)準(zhǔn)分類器可能會(huì)忽略少數(shù)類的重要性[11]。在數(shù)據(jù)層面進(jìn)行重新采樣,在訓(xùn)練集增加具有相關(guān)性的明網(wǎng)網(wǎng)頁(yè),從而平衡數(shù)據(jù)、提高泛化能力。在第四部分,我們通過(guò)對(duì)比實(shí)驗(yàn)證明了所提出的分類模型具有良好的實(shí)驗(yàn)性能和可用性價(jià)值。
對(duì)于文本分類的模型選擇,傳統(tǒng)的基于人為設(shè)計(jì)特征的機(jī)器學(xué)習(xí)分類器和近年來(lái)興起的深度學(xué)習(xí)模型適用于不同場(chǎng)景,各有利弊。由于暗網(wǎng)網(wǎng)頁(yè)自身的文本稀疏性,常用的基于詞頻和統(tǒng)計(jì)的特征加權(quán)方法體現(xiàn)不出良好的效果,因此,我們需要引入外部知識(shí)來(lái)豐富語(yǔ)義信息、標(biāo)注詞匯含義,盡可能多地在有限的文本中挖掘出具有類別區(qū)分性的代表特征來(lái)提高準(zhǔn)確率。經(jīng)典的機(jī)器學(xué)習(xí)分類器模型依賴于自身的詞匯組成表示文檔,并不符合我們的應(yīng)用場(chǎng)景。受Linmei Hu等人提出的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)[12]的啟發(fā),我們發(fā)現(xiàn)基于圖的方法在處理暗網(wǎng)分類任務(wù)上也有一些優(yōu)勢(shì)。使用圖建模的好處在于可以充分利用有限的標(biāo)記數(shù)據(jù),通過(guò)節(jié)點(diǎn)間的關(guān)聯(lián)將標(biāo)注信息傳播到其他未標(biāo)注文檔。另外,不局限于文檔本身的詞匯特征可以集成多種額外的信息來(lái)豐富語(yǔ)義,如果用來(lái)表示文檔的附加信息選取合理,則分類的提升較大。
除了網(wǎng)頁(yè)文本自帶的詞匯語(yǔ)義信息之外,我們考慮兩種類型的外部知識(shí)引入:潛在主題分析和語(yǔ)料實(shí)體鏈接。主題通常是一組詞的聚類,沒(méi)有明確的可解釋性語(yǔ)義。主題分析的原理是將文本轉(zhuǎn)化為一種映射在語(yǔ)義空間里的向量,向量的每一個(gè)維度對(duì)應(yīng)一個(gè)主題,人們只能通過(guò)主題下的特征詞猜測(cè)其代表的含義。在以往的研究應(yīng)用中,潛在Dirichlet分布(LDA)[13]被證實(shí)在捕獲有效的語(yǔ)義表示方面具有優(yōu)勢(shì)。LDA是一種生成式模型,它能夠通過(guò)非監(jiān)督的方式給出文檔集合中每篇文檔所屬主題的概率分布,從而實(shí)現(xiàn)文本分類的效果。它采用詞袋的方式,用索引值替代文檔中的單詞形成語(yǔ)料詞典,將每篇文檔表示為詞頻向量的形式,使得文檔數(shù)據(jù)集能夠以數(shù)值矩陣的形式參與運(yùn)算。在LDA模型中,每篇文章都是由在主題中概率分布的詞語(yǔ)構(gòu)成,同時(shí)文章中也隱含著主題的概率分布,當(dāng)我們提供詞語(yǔ)-主題、主題-文檔的標(biāo)注數(shù)據(jù)時(shí),LDA模型則能夠通過(guò)訓(xùn)練實(shí)現(xiàn)文本分類。
在自然語(yǔ)言處理中,實(shí)體鏈接是一種關(guān)鍵的語(yǔ)料處理技術(shù),旨在將存在多種含義的詞語(yǔ)從輸入文本映射到目標(biāo)知識(shí)庫(kù)中的相應(yīng)唯一實(shí)體。比如對(duì)于“Apple”一詞既可以指水果的“蘋(píng)果”也可以代表手機(jī)的“蘋(píng)果”,出現(xiàn)在不同語(yǔ)境中含義也截然不同,實(shí)體鏈接工具可以完成這種基于上下文語(yǔ)義標(biāo)注實(shí)體概念的工作。TagMe是一個(gè)強(qiáng)大的實(shí)體鏈接工具,它可以在非結(jié)構(gòu)化文本中動(dòng)態(tài)識(shí)別有意義的子字符串,并以高效的方式將它們鏈接到相關(guān)的Wikipedia頁(yè)面。用戶只需要向官方給出的API發(fā)出查詢即可注釋文本,應(yīng)用工具標(biāo)注后的概念表示文本,能有效解決一詞多義的歧義問(wèn)題。
這一部分展示了我們分類模型的實(shí)驗(yàn)建立,以及實(shí)驗(yàn)中采取的具體技術(shù)細(xì)節(jié)。為了驗(yàn)證模型的分類性能,在相同數(shù)據(jù)集的情況下,與目前已有的暗網(wǎng)文本分類方法進(jìn)行對(duì)比實(shí)驗(yàn),根據(jù)結(jié)果分析各自優(yōu)劣。
我們考慮從明網(wǎng)和暗網(wǎng)兩種渠道來(lái)分別收集Tor域名。明網(wǎng)方面,借助Tor2Web關(guān)鍵詞配合搜索引擎的site語(yǔ)法查找明網(wǎng)Tor2Web項(xiàng)目收錄的洋蔥站點(diǎn),將獲得的明網(wǎng)地址存入數(shù)據(jù)庫(kù)。暗網(wǎng)方面,抓取來(lái)自諸如ahmia,tordex 等一些暗網(wǎng)大型目錄網(wǎng)站索引的洋蔥地址。最后,使用我們改進(jìn)的scrapy爬蟲(chóng)下載數(shù)據(jù)庫(kù)中所有的onion地址對(duì)應(yīng)的完整網(wǎng)頁(yè)。在完整數(shù)據(jù)集中,我們發(fā)現(xiàn)大量重復(fù)內(nèi)容托管在不同域名的網(wǎng)站上,通過(guò)對(duì)比標(biāo)題和內(nèi)容去重,獲得了2088個(gè)唯一的域名??紤]到分類工作的實(shí)際意義,我們選取6個(gè)典型的暗網(wǎng)非法類別構(gòu)成包含300個(gè)頁(yè)面的暗網(wǎng)子集進(jìn)行實(shí)驗(yàn)(偽造、色情、毒品、武器、黑客、數(shù)據(jù)泄露)。
對(duì)于上述Tor暗網(wǎng)網(wǎng)頁(yè)的HTML文件,首先我們清除了HTML標(biāo)簽和格式設(shè)置,從而獲得網(wǎng)頁(yè)對(duì)應(yīng)的文本數(shù)據(jù)集。然后,我們利用網(wǎng)頁(yè)文本分類中的英文停用詞列表,通過(guò)添加一些與類別無(wú)關(guān)的暗網(wǎng)常用詞來(lái)過(guò)濾文本數(shù)據(jù),使其更適合我們的應(yīng)用。
文檔主題提取:使用LDA推測(cè)文檔的主題分布,將文檔集中每篇文檔的主題以概率分布的形式給出,通過(guò)分析一些文檔,抽取出它們的主題分布,便可以根據(jù)主題分布進(jìn)行文本分類。
文檔實(shí)體識(shí)別:首先,向TagMe api發(fā)出查詢。瀏覽器訪問(wèn)“https://tagme.d4science.org/tagme/tag”,通過(guò)請(qǐng)求參數(shù)輸入正文。然后,通過(guò)TagMe注釋文本。TagMe返回結(jié)果是(spot,entity)形式的注釋對(duì),其中“spot”是輸入文本的子字符串,“entity”是對(duì)Wikipedia頁(yè)面的引用,表示在上下文中該實(shí)體的含義。圖2是使用TagMe的演示界面進(jìn)行實(shí)體注釋的示例,藍(lán)色字體代表文本中提取出的實(shí)體,同時(shí)返回的還有在當(dāng)前語(yǔ)境中的實(shí)體釋義。通過(guò)API查詢?cè)硐嗤?/p>
分類使用的圖神經(jīng)網(wǎng)絡(luò)模型由三種類型的節(jié)點(diǎn)組成,即文檔節(jié)點(diǎn)、主題節(jié)點(diǎn)和實(shí)體節(jié)點(diǎn),節(jié)點(diǎn)之間的邊表示從屬關(guān)系,允許信息沿邊傳播。文檔節(jié)點(diǎn)由基于詞袋模型的TF-IDF特征加權(quán)方法表示,將文檔轉(zhuǎn)化成由特征詞權(quán)重組成的向量形式。使用LDA主題模型挖掘潛在主題來(lái)豐富暗網(wǎng)網(wǎng)頁(yè)的語(yǔ)義,每個(gè)主題由單詞上的概率分布表示,我們將每個(gè)文檔分配給概率最大的前兩個(gè)主題,如果文檔被分配給當(dāng)前主題,則會(huì)建立文檔與主題之間的邊。文檔中的實(shí)體使用TagMe工具將其映射到Wikipedia,如果文檔包含實(shí)體,則會(huì)構(gòu)建文檔和實(shí)體之間的邊。將一個(gè)實(shí)體作為一個(gè)完整的單詞,在Wikipedia語(yǔ)料庫(kù)的基礎(chǔ)上使用word2vec學(xué)習(xí)實(shí)體嵌入,如果基于嵌入度計(jì)算的兩個(gè)實(shí)體之間的余弦相似性超過(guò)0.5,則在實(shí)體節(jié)點(diǎn)之間建立邊。至此,網(wǎng)絡(luò)模型構(gòu)建完成。圖3是我們?cè)谔幚磉^(guò)程中還原的一個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)連接架構(gòu)。其中7號(hào)代表文檔節(jié)點(diǎn),上面是文檔中提取出的實(shí)體節(jié)點(diǎn),下方是分配的兩個(gè)主題節(jié)點(diǎn)。網(wǎng)絡(luò)中其余節(jié)點(diǎn)連接情況類似。
圖2 TagMe實(shí)體鏈接示例
表1 與現(xiàn)有方法的比較實(shí)驗(yàn)
為了驗(yàn)證分類模型的性能,將我們改進(jìn)的方法與現(xiàn)有的暗網(wǎng)分類方法進(jìn)行了對(duì)比實(shí)驗(yàn)如表1所示。實(shí)驗(yàn)數(shù)據(jù)按照3:1的比例分為訓(xùn)練集與測(cè)試集,對(duì)于數(shù)據(jù)明顯不足的武器和數(shù)據(jù)泄露類別在明網(wǎng)采集同類頁(yè)面加以補(bǔ)充。我們選擇僅使用人為提供的關(guān)鍵詞列表計(jì)算余弦相似度與softmax變換組合作為測(cè)試的基線。還比較了在關(guān)鍵詞提取技術(shù)上有很大改進(jìn)的ATOL方法[10],在依照個(gè)人經(jīng)驗(yàn)得出的關(guān)鍵詞列表上使用改進(jìn)的TF-ICF術(shù)語(yǔ)加權(quán)算法的分類效果。
結(jié)果表明,在相同數(shù)據(jù)集的情況下,我們提出的方法優(yōu)于現(xiàn)有的暗網(wǎng)分類模型。ATOL方法人為提供的關(guān)鍵詞列表需要對(duì)暗網(wǎng)活動(dòng)充分了解,總結(jié)出符合的類別黑話術(shù)語(yǔ),這對(duì)于不涉獵此領(lǐng)域的用戶有一定困難。提供的種子列表不夠符合暗網(wǎng)空間的實(shí)際情況可能是導(dǎo)致上述兩種方法在此實(shí)驗(yàn)中表現(xiàn)不佳的原因。而我們的方法的優(yōu)點(diǎn)是它需要的外部知識(shí)直接從知識(shí)庫(kù)處理引用即可,對(duì)個(gè)人的經(jīng)驗(yàn)不做約束。同時(shí),基于異構(gòu)圖的方法可以添加任何附加信息,對(duì)于暗網(wǎng)分類任務(wù)有巨大的提升空間。
本文介紹了一種對(duì)Tor暗網(wǎng)上的非法活動(dòng)進(jìn)行分類的方法。該方法在短文本信息量不足、非法活動(dòng)分布不均的暗網(wǎng)空間可以得到很好的應(yīng)用。選擇圖神經(jīng)網(wǎng)絡(luò)模型來(lái)訓(xùn)練分類器,可以引入外部知識(shí)進(jìn)行特征擴(kuò)充,將上下文對(duì)單詞語(yǔ)義的影響納入計(jì)算,降低因自身文本特征稀疏導(dǎo)致模型訓(xùn)練語(yǔ)料不足帶來(lái)的預(yù)測(cè)誤差。我們使用Scrapy爬蟲(chóng)從Tor暗網(wǎng)收集非法網(wǎng)頁(yè),基于特征擴(kuò)充的思想分別引入了主題分析和實(shí)體標(biāo)注,改進(jìn)后的分類器比現(xiàn)有的暗網(wǎng)分類方法效果更好,達(dá)到了0.967的精度。此外,采用更適合的外部知識(shí)來(lái)表示文本,暗網(wǎng)分類任務(wù)可達(dá)到的上限將會(huì)很高,這使得基于圖神經(jīng)網(wǎng)絡(luò)的暗網(wǎng)分類方法具有很大的潛力。
未來(lái),我們的工作也可以在一些合法的暗網(wǎng)網(wǎng)頁(yè)上進(jìn)行實(shí)驗(yàn),以驗(yàn)證我們提出的模型的檢測(cè)性能和可靠性。另一方面,由于暗網(wǎng)提供非法物品交易頁(yè)面的商品圖片具有較強(qiáng)的類別區(qū)分性,以后可以考慮將文本與圖片特征融合互補(bǔ),提高分類方法的性能。
[1]Finklea,K.(2017). Dark Web,CSR-Congressional Research Service Report 7-5700,R44101.
[2]Al-Nabki,M. W.,F(xiàn)idalgo,E.,Alegre,E.,& Fernandez-Robles,L..(2019). Torank:identifying the most influential suspicious domains in the tor network. Expert Systems with Applications,123(JUN.),212-226.
[3]Afilipoaie,A.,& Shortis,P.(2018). Crypto-Market Enforcement-New Strategy and Tactics1. Policy,54,87-98.
[4]Bian,J.,Cao,C.,Wang,L.,Ye,J.,Zhao,Y.,& Tang,C.(2021). Tor Hidden Services Discovery and Analysis: A Literature Survey. In Journal of Physics:Conference Series (Vol. 1757,No. 1,p. 012162). IOP Publishing.
[5]Li,K.,Liu,P.,Tan,Q.,Shi,J.,Gao,Y.,& Wang, X.(2016, April). Out-of-band discovery and evaluation for tor hidden services. In Proceedings of the 31st Annual ACM Symposium on Applied Computing(pp. 2057-2062).
[6]Guitton,C. .(2013). A review of the available content on tor hidden services:the case against further development. Computers in Human Behavior,29(6),2805-2815.
[7]Owen,G.,& Savage,N.(2016). Empirical analysis of Tor hidden services. IET Information Security,10(3),113-118.
[8]Faizan,M.,& Khan,R. A. .(2020). A Two-Step Dimensionality Reduction Scheme for Dark Web Text Classification. Ambient Communications and Computer Systems.
[9]Spitters,M.,Verbruggen,S.,& Staalduinen,M. V.. (2014).Towards a Comprehensive Insight into the Thematic Organization of the Tor Hidden Services. Intelligence & Security Informatics Conference (pp.220-223). IEEE.
[10]Ghosh,S.,Das,A.,Porras,P.,Yegneswaran,V.,& Gehani,A.(2017,August). Automated Categorization of Onion Sites for Analyzing the DarkWeb Ecosystem. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(pp. 1793-1802). ACM.
[11]García,Salvador,Herrera,& Francisco.(2009). Evolutionary undersampling for classification with imbalanced datasets:proposals and taxonomy. Evolutionary Computation.
[12]Linmei,H.,Yang,T.,Shi,C.,Ji,H.,& Li,X. (2019, November). Heterogeneous graph attention networks for semi-supervised short text classification. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)(pp. 4823-4832).
[13]Blei,D. M.,Ng,A.,&Jordan,M. I. .(2003). Latent dirichlet allocation. The Journal of Machine Learning Research.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2021年8期