摘" 要:實(shí)現(xiàn)暗網(wǎng)違法犯罪情報(bào)的規(guī)模化產(chǎn)出是打擊暗網(wǎng)違法犯罪的一項(xiàng)重要前置任務(wù)。當(dāng)前研究較難解決暗網(wǎng)數(shù)據(jù)量不足的問(wèn)題,且主要針對(duì)西文暗網(wǎng)數(shù)據(jù)進(jìn)行。為實(shí)現(xiàn)中文暗網(wǎng)文本的針對(duì)性分析,提出了一種基于多任務(wù)學(xué)習(xí)的BERT-BiLSTM違法犯罪分類(lèi)和命名實(shí)體識(shí)別多任務(wù)學(xué)習(xí)模型,其在文本分類(lèi)和命名實(shí)體識(shí)別任務(wù)間共享BERT-BiLSTM層,并分別采用全連接層和條件隨機(jī)場(chǎng)(CRF)層作為文本分類(lèi)和實(shí)體識(shí)別的輸出層,以加強(qiáng)不同任務(wù)間的知識(shí)共享。在自建的中文暗網(wǎng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該多任務(wù)學(xué)習(xí)模型相比基線(xiàn)模型在兩類(lèi)任務(wù)上均有一定性能提升。
關(guān)鍵詞:暗網(wǎng);犯罪治理;多任務(wù)學(xué)習(xí);BERT
中圖分類(lèi)號(hào):TP183;TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)23-0165-06
Research on Dark Web Crime Intelligence Mining Technology Based on BERT Model
ZHOU Yu, CAI Du
(Jiangsu Provincial Public Security Department, Nanjing" 210024, China)
Abstract: Achieving the large-scale production of illegal and criminal intelligence on the dark web is a crucial preliminary task for combating illegal and criminal activities on the dark web. Current research struggles to address the issue of insufficient dark web data and primarily focuses on Western language dark web data. In order to achieve targeted analysis of Chinese dark web texts, this paper proposes a multi-task learning model for BERT-BiLSTM illegal and criminal classification and named entity recognition based on multi-task learning. It shares the BERT-BiLSTM layer between the text classification and named entity recognition tasks, and adopts the fully connected layer and the Conditional Random Field (CRF) layer as the output layers for text classification and entity recognition respectively, so as to strengthen knowledge sharing between different tasks. The experimental results on the self-constructed Chinese dark web dataset show that, compared with the baseline model, this multi-task learning model achieves certain performance improvements in both types of tasks.
Keywords: dark web; crime governance; multi-task learning; BERT
0" 引" 言
“暗網(wǎng)”指利用Tor、I2P等特殊路由技術(shù)架設(shè)的隱藏網(wǎng)站,因具有良好的匿名性、隱蔽性,滋生了毒品、色情、洗錢(qián)、網(wǎng)絡(luò)攻擊、非法數(shù)據(jù)買(mǎi)賣(mài)乃至網(wǎng)絡(luò)恐怖主義等多種違法犯罪[1],且近年來(lái)在我國(guó)境內(nèi)發(fā)案量呈增長(zhǎng)態(tài)勢(shì)[2]。暗網(wǎng)犯罪的打擊難度主要體現(xiàn)在打擊成本和犯罪成本的不對(duì)等上[3],如何降低暗網(wǎng)犯罪的發(fā)現(xiàn)和取證難度是相關(guān)研究中的重要問(wèn)題。
深度學(xué)習(xí)技術(shù)的發(fā)展為解決該問(wèn)題提供了新路徑?;仡櫼延醒芯堪l(fā)現(xiàn),機(jī)器學(xué)習(xí)方法已在暗網(wǎng)流量和網(wǎng)站指紋識(shí)別[4-5]、圖像識(shí)別[6]、命名實(shí)體識(shí)別[7-8]、用戶(hù)身份對(duì)齊[9]、內(nèi)容分類(lèi)[10-11]等任務(wù)上取得了良好效果。但現(xiàn)有研究多集中于特定問(wèn)題的理論探討,且以英文暗網(wǎng)數(shù)據(jù)集為主,針對(duì)中文暗網(wǎng)網(wǎng)站開(kāi)展模型訓(xùn)練和應(yīng)用的研究不足。研究表明,英文暗網(wǎng)的犯罪生態(tài)[12]與中文暗網(wǎng)犯罪生態(tài)[2]存在一定差異,而現(xiàn)有基于英文暗網(wǎng)數(shù)據(jù)集的模型則難以彌補(bǔ)這部分差異。
為了解決中文暗網(wǎng)文本違法犯罪內(nèi)容識(shí)別與發(fā)現(xiàn)的問(wèn)題,本文構(gòu)建了一套面向中文暗網(wǎng)犯罪內(nèi)容的多任務(wù)學(xué)習(xí)情報(bào)挖掘模型。主要工作包括:
1)針對(duì)主要的中文暗網(wǎng)非法網(wǎng)站開(kāi)發(fā)了一套爬蟲(chóng)框架,收集了12 107條頁(yè)面和帖文數(shù)據(jù);并在此基礎(chǔ)上,通過(guò)半自動(dòng)標(biāo)注構(gòu)建了中文暗網(wǎng)內(nèi)容數(shù)據(jù)集。
2)提出了基于BERT-BiLSTM模型進(jìn)行暗網(wǎng)非法活動(dòng)分類(lèi)和命名實(shí)體識(shí)別的方法。該方法結(jié)合了BERT預(yù)訓(xùn)練模型良好的語(yǔ)義理解能力和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)的序列特征提取能力,提高對(duì)暗網(wǎng)長(zhǎng)文本的語(yǔ)義理解和特征提取能力;運(yùn)用多任務(wù)學(xué)習(xí)方法,在文本分類(lèi)和實(shí)體識(shí)別任務(wù)間共享BERT-BiLSTM層,并分別采用全連接層和條件隨機(jī)場(chǎng)(CRF)作為輸出層,在文本分類(lèi)和實(shí)體識(shí)別任務(wù)兩類(lèi)任務(wù)下均有良好表現(xiàn)。
3)基于我們構(gòu)建的數(shù)據(jù)集對(duì)中文暗網(wǎng)文本識(shí)別進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明模型具備良好的準(zhǔn)確率。
本文其余部分安排如下。第二節(jié)回顧相關(guān)研究工作;第三節(jié)描述了本研究的內(nèi)容分類(lèi)和命名實(shí)體識(shí)別方法;第四節(jié)介紹實(shí)驗(yàn)過(guò)程,包括數(shù)據(jù)集構(gòu)造過(guò)程和實(shí)驗(yàn)的技術(shù)細(xì)節(jié);最后,第五節(jié)總結(jié)本文工作并對(duì)下一階段研究提出展望。
1" 相關(guān)技術(shù)
1.1" 文本分類(lèi)
文本分類(lèi)(Text Classification)任務(wù)主要關(guān)注將一段文本自動(dòng)歸屬到一個(gè)類(lèi)別中的方法,是情報(bào)抽取和分析的一個(gè)重要前置問(wèn)題。采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)解決文本分類(lèi)問(wèn)題的方法包括K-近鄰(K-Nearest Neighbors, KNN)、支持向量機(jī)(Support Vector Machine, SVM)和樸素貝葉斯算法(Naive Bayes)[13]等。
深度學(xué)習(xí)方法興起以來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[14]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[15]等深度學(xué)習(xí)模型,因具備了從文本中隱含的序列信息中捕獲單詞間語(yǔ)義的能力在文本分類(lèi)任務(wù)上取得了廣泛應(yīng)用。其中,循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)變種長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[16]在處理長(zhǎng)距離依賴(lài)關(guān)系中表現(xiàn)良好,成為該領(lǐng)域重要的基礎(chǔ)性模型。近年來(lái),圖神經(jīng)網(wǎng)絡(luò)[17]、大規(guī)模預(yù)訓(xùn)練模型BERT[18]和GPT[19]等在文本分類(lèi)任務(wù)上亦有良好表現(xiàn)。目前,使用預(yù)訓(xùn)練模型獲取語(yǔ)義特征已成為該領(lǐng)域廣泛應(yīng)用的典型方法。
圍繞暗網(wǎng)文本內(nèi)容的分類(lèi),文獻(xiàn)[20-22]分別運(yùn)用IF-IDF、支持向量機(jī)和卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練了暗網(wǎng)文本分類(lèi)器,效果良好;文獻(xiàn)[11]關(guān)注到暗網(wǎng)違法文本樣本不足的問(wèn)題,利用《美國(guó)法典》中與暗網(wǎng)常見(jiàn)違法犯罪相關(guān)的條文,訓(xùn)練了基于TF-IDF和樸素貝葉斯法的暗網(wǎng)違法內(nèi)容分類(lèi)器。圍繞使用大規(guī)模預(yù)訓(xùn)練模型提高分類(lèi)效果,文獻(xiàn)[23]對(duì)比了BERT、RoBERTa、ULMFit和LSTM四類(lèi)模型在分類(lèi)任務(wù)上的效果,結(jié)果顯示原生BERT在準(zhǔn)確度(Accuracy,指正確的樣本占總樣本的比例)方面表現(xiàn)較好,而B(niǎo)ERT變種RoBERTa則在F1分?jǐn)?shù)上取得優(yōu)勢(shì)。
1.2" 命名實(shí)體識(shí)別
命名實(shí)體識(shí)別(Named Entity Recognition, NER)主要關(guān)注從非結(jié)構(gòu)化文本中識(shí)別特定類(lèi)型實(shí)體的問(wèn)題。早期,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法受到較多關(guān)注,并出現(xiàn)了隱馬爾可夫模型(Hidden Markov Model, HMM)[24]、支持向量機(jī)[25]和條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)[26]等主流命名實(shí)體識(shí)別模型。統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型研究歷史較久,但其識(shí)別質(zhì)量受特征的影響較大,模型的魯棒性有限。
近年來(lái),深度學(xué)習(xí)方法在命名實(shí)體識(shí)別方面取得了良好效果。文獻(xiàn)[27]結(jié)合了詞向量和語(yǔ)義特征,構(gòu)建了BiLSTM-CRF模型用于實(shí)體識(shí)別任務(wù)。在暗網(wǎng)分析領(lǐng)域,文獻(xiàn)[28]運(yùn)用ElMo-BiLSTM-CNN模型,實(shí)現(xiàn)了暗網(wǎng)交易市場(chǎng)中交易相關(guān)實(shí)體的抽取。文獻(xiàn)[8,29-30]亦關(guān)注深度學(xué)習(xí)方法在暗網(wǎng)公共風(fēng)險(xiǎn)、毒品、非法交易等場(chǎng)景下實(shí)體識(shí)別問(wèn)題上的應(yīng)用。文獻(xiàn)[7]聚焦于用戶(hù)身份標(biāo)識(shí)信息聚合問(wèn)題,提出一種實(shí)體關(guān)系敏感的共指關(guān)系抽取模型,并引入少樣本學(xué)習(xí)任務(wù)解決暗網(wǎng)訓(xùn)練集不足的問(wèn)題。
1.3" 多任務(wù)學(xué)習(xí)
針對(duì)一系列彼此相關(guān)的任務(wù),多任務(wù)學(xué)習(xí)(Multi-Task Learning)旨在共享多個(gè)學(xué)習(xí)任務(wù)中的有效信息以強(qiáng)化每種任務(wù)的性能。緩解數(shù)據(jù)稀疏性問(wèn)題是多任務(wù)學(xué)習(xí)的一項(xiàng)重要目標(biāo),它被證明可以充分利用數(shù)據(jù)中的現(xiàn)有知識(shí),降低數(shù)據(jù)要求和標(biāo)記成本[31]。針對(duì)利用大規(guī)模預(yù)訓(xùn)練模型的場(chǎng)景,多任務(wù)學(xué)習(xí)也可實(shí)現(xiàn)對(duì)既有訓(xùn)練和微調(diào)成果的充分運(yùn)用,降低模型訓(xùn)練所需的計(jì)算資源成本[32]。以上兩個(gè)特性在解決暗網(wǎng)情報(bào)分析面臨的訓(xùn)練文本不足、預(yù)訓(xùn)練微調(diào)成本過(guò)高方面均具有顯著意義。文獻(xiàn)[33]提出了一種基于多輸出多任務(wù)學(xué)習(xí)的文本分類(lèi)模式,對(duì)本文采取的多任務(wù)學(xué)習(xí)方案有所啟發(fā)。
2" 基于BERT-BiLSTM的暗網(wǎng)內(nèi)容分類(lèi)和實(shí)體識(shí)別模型設(shè)計(jì)
調(diào)研發(fā)現(xiàn),暗網(wǎng)情報(bào)分析任務(wù)中,文本分類(lèi)和實(shí)體識(shí)別兩類(lèi)任務(wù)間存在較強(qiáng)的相關(guān)性。例如對(duì)于非法數(shù)據(jù)買(mǎi)賣(mài)一類(lèi)的帖文,文本內(nèi)包含網(wǎng)站名、URL、數(shù)據(jù)量等實(shí)體的可能性較大;對(duì)于色情類(lèi)內(nèi)容,出現(xiàn)年齡、姓名等實(shí)體的可能性較大。兩類(lèi)任務(wù)共享相同的上下文信息,采取多任務(wù)模型方式可能有助于提高任務(wù)效率?;诖?,提出了一個(gè)基于BERT-BiLSTM的暗網(wǎng)內(nèi)容分類(lèi)和實(shí)體識(shí)別多任務(wù)模型。模型采取多任務(wù)學(xué)習(xí)模式,共享BERT層和BiLSTM層參數(shù),并為分類(lèi)任務(wù)和實(shí)體識(shí)別任務(wù)添加不同的輸出層。模型設(shè)計(jì)如圖1所示。
2.1" BERT層
BERT模型該模型使用自注意力機(jī)制分析文本序列中的語(yǔ)義特征,可實(shí)現(xiàn)對(duì)更大范圍的文本上下文特征的分析和捕捉。在輸入BERT層前,首先需要對(duì)暗網(wǎng)帖文文本進(jìn)行預(yù)處理,包括:1)去除帖文中的HTML標(biāo)簽、無(wú)關(guān)信息等數(shù)據(jù);2)利用BERT的tokenize()方法將文本信息轉(zhuǎn)換為BERT可處理的token序列;3)添加特殊符號(hào),包括:在序列開(kāi)頭和中間添加[CLS]、[SEP]標(biāo)記、在分類(lèi)任務(wù)的訓(xùn)練數(shù)據(jù)中添加$和#以標(biāo)記實(shí)體、對(duì)長(zhǎng)度不足的短文本序列添加[PAD]用以補(bǔ)足。將預(yù)處理后文本序列輸入BERT層,將獲得張量H作為輸出:
(1)
其中,Ho為預(yù)處理后的token序列,hi為第i個(gè)token的詞向量。
2.2" BiLSTM層
盡管BERT的自注意力機(jī)制已能一定程度解決上下文問(wèn)題,但作為通用預(yù)訓(xùn)練模型,BERT并未顯式建模序列順序、依賴(lài)等數(shù)據(jù);而在暗網(wǎng)情報(bào)分析的特定場(chǎng)景中,引入LSTM可以更細(xì)致地捕捉序列的依賴(lài)信息,提高模型的特征提取能力,同時(shí)優(yōu)化模型的魯棒性??紤]到暗網(wǎng)文本同時(shí)存在前向依賴(lài)和后向依賴(lài),我們選用BiLSTM模型實(shí)現(xiàn)雙向的上下文信息捕捉。
BiLSTM的雙向處理過(guò)程可表示為式(2):
(2)
對(duì)于每個(gè)時(shí)間步t,ht為BERT輸出的特征詞向量,、分別為正向、反向的隱藏狀態(tài)。輸出H′則為每個(gè)時(shí)間步下正向、反向LSTM隱藏狀態(tài)的連接。
2.3" 輸出層
針對(duì)分類(lèi)任務(wù),經(jīng)過(guò)BiLSTM處理的H′已包含足以實(shí)現(xiàn)分類(lèi)的信息。為了實(shí)現(xiàn)分類(lèi),我們?nèi)〕鯤′中對(duì)應(yīng)[CLS]的初始向量hc,并通過(guò)一個(gè)全連接層Wc將序列特征映射到類(lèi)別空間,如式(3)所示;最終,使用Softmax函數(shù)輸出類(lèi)別概率,如式(4)所示:
(3)
(4)
盡管可以處理長(zhǎng)文本間的依賴(lài)關(guān)系,但針對(duì)命名實(shí)體任務(wù)所需的標(biāo)簽之間的依賴(lài)關(guān)系,BiLSTM則不足以實(shí)現(xiàn)。添加一個(gè)CRF層以實(shí)現(xiàn)標(biāo)簽間依賴(lài)關(guān)系的處理,提高實(shí)體識(shí)別任務(wù)輸出的準(zhǔn)確率。將BiLSTM層的輸出通過(guò)一個(gè)全連接層輸入CRF,則標(biāo)簽序列H的總得分Sh可以表示為式(5)(6):
(5)
(6)
其中,Y={y1,y2,…,yn}為經(jīng)過(guò)全連接層Wn處理后的向量集合,為位置i對(duì)應(yīng)標(biāo)簽yi的得分, 為從標(biāo)簽yi-1轉(zhuǎn)移到標(biāo)簽yi的得分。
2.4" 多任務(wù)損失計(jì)算
為了平衡文本分類(lèi)和實(shí)體識(shí)別兩類(lèi)任務(wù)的影響,采用動(dòng)態(tài)權(quán)重計(jì)算總的任務(wù)損失。記分類(lèi)任務(wù)的損失函數(shù)為,實(shí)體識(shí)別任務(wù)的損失函數(shù)為,則總損失函數(shù)表示為:
(7)
其中,α(t)、β(t)分別為兩類(lèi)任務(wù)的損失權(quán)重函數(shù),以時(shí)間步t為自變量,采取不平衡損失法計(jì)算:
(8)
(9)
這可以避免某一單項(xiàng)任務(wù)的損失主導(dǎo)訓(xùn)練過(guò)程,有助于降低模型對(duì)單一任務(wù)過(guò)擬合的概率?;趦深?lèi)任務(wù)的損失函數(shù)分別計(jì)算其梯度后,在加權(quán)累積基礎(chǔ)上采取梯度下降法反向傳播到共享層:
(10)
(11)
(12)
其中,η為學(xué)習(xí)率。
3" 實(shí)驗(yàn)與結(jié)果分析
3.1" 數(shù)據(jù)集計(jì)算
爬取了暗網(wǎng)12 107個(gè)中文頁(yè)面,經(jīng)預(yù)處理去除其中圖片、無(wú)文本信息、文本信息過(guò)短網(wǎng)頁(yè)后,共獲得7 210個(gè)暗網(wǎng)網(wǎng)頁(yè)文本數(shù)據(jù)。對(duì)標(biāo)注完成的數(shù)據(jù)以8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
對(duì)訓(xùn)練集和驗(yàn)證集,基于以下方案,構(gòu)建文本分類(lèi)和實(shí)體識(shí)別兩類(lèi)集合:
1)文本分類(lèi)。參考暗網(wǎng)文本聚類(lèi)分析和人工分析結(jié)果,將暗網(wǎng)網(wǎng)頁(yè)文本處理為網(wǎng)絡(luò)攻擊、色情、毒品、賭博、洗錢(qián)、槍支、假證、數(shù)據(jù)交易、軟件、定制服務(wù)10個(gè)犯罪線(xiàn)索類(lèi)別。
2)實(shí)體識(shí)別。根據(jù)暗網(wǎng)文本內(nèi)容的特征和詞頻分析結(jié)果,標(biāo)注了以下6類(lèi)命名實(shí)體:數(shù)據(jù)類(lèi)(DATA)、網(wǎng)絡(luò)安全類(lèi)(SECURITY)、毒品類(lèi)(DRUG)、資金類(lèi)(FINANCE)、色情類(lèi)(PORNOGRAPHY)和賬號(hào)類(lèi)(ACCOUNT)。其中,前5類(lèi)為各類(lèi)別下帖文中的詞語(yǔ)和“黑話(huà)”,第6類(lèi)“賬號(hào)”類(lèi)別則以暗網(wǎng)文本中常見(jiàn)的賬號(hào)信息為主,如Twitter、Telegram、Discord賬號(hào)等。
3.2" 實(shí)驗(yàn)環(huán)境和評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)環(huán)境的軟硬件配置如下:CPU Intel Core i7 12700H@4.70 GHz,內(nèi)存40 GB;GPU NVIDIA GeForce RTX 3060 Laptop,顯存6.0 GB;操作系統(tǒng)為Ubuntu Linux 22.04.4,內(nèi)核版本 5.15.146.1。
評(píng)價(jià)指標(biāo)參考業(yè)界主流方式,采用準(zhǔn)確率、召回率、F1分?jǐn)?shù)作為性能評(píng)估指標(biāo)。其中,準(zhǔn)確率(Precision)也稱(chēng)查準(zhǔn)率,指樣本中正確預(yù)測(cè)為真的樣本數(shù)占全部預(yù)測(cè)為真的樣本數(shù)量的比例;召回率(Recall)也稱(chēng)查全率,指樣本中正確預(yù)測(cè)為真的數(shù)量占實(shí)際為真的樣本數(shù)量的比例。F1分?jǐn)?shù)則是準(zhǔn)確率和召回率的加權(quán)平均。各評(píng)價(jià)指標(biāo)的計(jì)算公式如式(13)~(15)所示:
(13)
(14)
(15)
3.3" 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析
3.3.1" 與基線(xiàn)模型的比較
為全面評(píng)估本模型效果,選取原生BERT-Chinese模型、BiLSTM-CRF模型分別作為文本分類(lèi)、實(shí)體識(shí)別任務(wù)的基線(xiàn)模型,測(cè)試結(jié)果如表1所示。
從表中可知,BERT-BiLSTM-CRF模型的識(shí)別效果相比原生的BERT-Chinese模型、LSTM-CRF模型,F(xiàn)1分?jǐn)?shù)均有0.7%以上的提升。特別是針對(duì)實(shí)體識(shí)別任務(wù)中,BERT-BiLSTM-CRF模型相較原始BiLSTM-CRF模型具有約1%的水平提升,可認(rèn)為是BERT良好的語(yǔ)義識(shí)別能力在暗網(wǎng)文本上取得了更好的學(xué)習(xí)效果。
3.3.2" 與單任務(wù)模型的比較
為驗(yàn)證多任務(wù)模型有效性,在文本分類(lèi)、實(shí)體識(shí)別兩類(lèi)任務(wù)上分別將多任務(wù)實(shí)驗(yàn)結(jié)果與單一任務(wù)訓(xùn)練的BERT-BiLSTM-CRF模型相比較,結(jié)果如表2~表3所示。
可以發(fā)現(xiàn),針對(duì)文本分類(lèi)任務(wù),共享BERT-BiLSTM層的促進(jìn)作用較好,F(xiàn)1分?jǐn)?shù)提升明顯;針對(duì)實(shí)體識(shí)別任務(wù),多任務(wù)模型對(duì)于DRUG、SECURITY、FINANCE、PORNOGRAPHY四類(lèi)任務(wù),F(xiàn)1分?jǐn)?shù)均有提升,DATA類(lèi)別持平;ACCOUNT類(lèi)別的識(shí)別準(zhǔn)確率雖有提升,但召回率和F1分?jǐn)?shù)則不如單一任務(wù)訓(xùn)練的BERT-BiLSTM-CRF,推測(cè)是由于DRUG等類(lèi)別的任務(wù)語(yǔ)義相關(guān)性較強(qiáng),ACCOUNT類(lèi)別的任務(wù)則與語(yǔ)義相關(guān)性較弱導(dǎo)致。
4" 結(jié)" 論
本文提出了一種基于BERT-BiLSTM-CRF的暗網(wǎng)犯罪情報(bào)挖掘模型,采用多任務(wù)模型方式共享BERT-BiLSTM兩個(gè)語(yǔ)義層,幫助文本分類(lèi)和特定類(lèi)別的實(shí)體識(shí)別任務(wù)取得了更好的識(shí)別效果。同時(shí),通過(guò)爬取和半自動(dòng)標(biāo)注構(gòu)建了中文暗網(wǎng)違法犯罪文本訓(xùn)練數(shù)據(jù)集,并在此基礎(chǔ)上驗(yàn)證了本文模型的有效性。本文研究對(duì)基于對(duì)于暗網(wǎng)違法犯罪情報(bào)的挖掘和自動(dòng)化分析具有較強(qiáng)的現(xiàn)實(shí)意義。
目前,本文所提出的暗網(wǎng)犯罪情報(bào)挖掘模型仍限于使用文本本身信息開(kāi)展訓(xùn)練,對(duì)于有關(guān)部門(mén)在過(guò)往打擊過(guò)程中形成的知識(shí)積累尚未能有效運(yùn)用。未來(lái)研究將繼續(xù)探索將知識(shí)圖譜等知識(shí)工程方法引入暗網(wǎng)犯罪情報(bào)自動(dòng)化挖掘的方法,進(jìn)一步提升暗網(wǎng)違法犯罪情報(bào)的挖掘和分析效率。
參考文獻(xiàn):
[1] 羅俊.滋蔓的暗網(wǎng)及網(wǎng)絡(luò)空間治理新挑戰(zhàn) [J].學(xué)術(shù)論壇,2020,43(5):1-12.
[2] 王楓梧.我國(guó)暗網(wǎng)犯罪現(xiàn)狀、治理困境及應(yīng)對(duì)策略 [J].中國(guó)人民公安大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2022,38(1):12-19.
[3] SHILLITO M R. Untangling the‘Dark Web’: An Emerging Technological Challenge for the Criminal Law [J].Information amp; Communications Technology Law,2019,28(2):186-207.
[4] MOHD AMINUDDIN M A I,ZAABA Z F,SAMSUDIN A,et al. The Rise of Website Fingerprinting on TOR: Analysis on Techniques and Assumptions [J].Journal of Network and Computer Applications,2023,212:103582(2023-01-21).https://doi.org/10.1016/j.jnca.2023.103582.
[5] 朱懿,蔡滿(mǎn)春,姚利峰,等.針對(duì)Tor暗網(wǎng)流量的MorViT指紋識(shí)別模型 [J/OL].計(jì)算機(jī)工程與應(yīng)用,2024:1-14(2024-04-20).http://kns.cnki.net/kcms/detail/11.2127.TP.20240104.1104.016.html.
[6] FAYZI A,F(xiàn)AYZI M,AHMADI K D. Dark Web Activity Classification Using Deep Learning [J/OL].arXiv:2306.07980 [cs.IR].(2023-07-01).https://arxiv.org/abs/2306.07980.
[7] 王雨燕,趙佳鵬,時(shí)金橋,等.暗網(wǎng)網(wǎng)頁(yè)用戶(hù)身份信息聚合方法 [J].計(jì)算機(jī)工程,2023,49(11):187-194+210.
[8] 范曉霞,周安民,鄭榮鋒,等.基于深度學(xué)習(xí)的暗網(wǎng)市場(chǎng)命名實(shí)體識(shí)別研究 [J].信息安全研究,2021,7(1):37-43.
[9] 楊燕燕,杜彥輝,劉洪夢(mèng),等.一種利用注意力增強(qiáng)卷積的暗網(wǎng)用戶(hù)對(duì)齊方法 [J].西安電子科技大學(xué)學(xué)報(bào),2023,50(4):206-214.
[10] 李明哲.基于Tor網(wǎng)站文本內(nèi)容和特征的分類(lèi)方法 [J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(8):36-39.
[11] HE S,HE Y,LI M. Classification of Illegal Activities on the Dark Web [C]//ICISS' 19: Proceedings of the 2nd International Conference on Information Science and Systems.New York:Association for Computing Machinery,2019:73-78.
[12] DALINS J,WILSON C,CARMAN M. Criminal Motivation on the Dark Web: A Categorisation Model for Law Enforcement [J].Digital Investigation,2018,24:62-71.
[13] RENNIE J D,SHIH L,TEEVAN J,et al. Tackling the Poor Assumptions of Naive Bayes Text Classifiers [C]//Proceedings of the 20th international conference on machine learning (ICML-03).Washington,D.C.:MIT Press,2003:616-623.
[14] ALBAWI S,MOHAMMED T A,AL-ZAWI S. Understanding of a Convolutional Neural Network [C]//2017 International Conference on Engineering and Technology (ICET).Antalya:IEEE,2017:1-6.
[15] MEDSKER L R,JAIN L,et al. Recurrent Neural Networks: Design and Applications [J].Boca Raton:CRC Press,1999.
[16] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J].Neural Computation,1997,9(8):1735-1780.
[17] YAO L,MAO C,LUO Y. Graph Convolutional Networks for Text Classification [C]//Proceedings of the AAAI Conference on Artificial Intelligence.Honolulu:AAAI,2019:7370-7377.
[18] DEVLIN J,CHANG M W,LEE K,et al. Bert: Pre-Training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].https://doi.org/10.48550/arXiv.1810.04805.
[19] RADFORD A,WU J,CHILD R,et al. Language Models are Unsupervised Multitask Learners [EB/OL].[2024-04-20].https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.
[20] SABBAH T,SELAMAT A,SELAMAT M H,et al. Hybridized Term-Weighting Method for Dark Web Classification [J].Neurocomputing,2016,173:1908-1926.
[21] MURTY C A S,RUGHANI P H. Dark Web Text Classification by Learning Through SVM Optimization [J].Journal of Advances in Information Technology,2022,13(6):624-631.
[22] 洪良怡,朱松林,王軼駿,等.基于卷積神經(jīng)網(wǎng)絡(luò)的暗網(wǎng)網(wǎng)頁(yè)分類(lèi)研究 [J].計(jì)算機(jī)應(yīng)用與軟件,2023,40(2):320-325+330.
[23] DALVI A,SHAH A,DESAI P,et al. A Comparative Analysis of Models for Dark Web Data Classification [C]//Proceedings of International Joint Conference on Advances in Computational Intelligence.Singapore:Springer Nature Singapore,2024:245-257.
[24] ZHOU G,SU J. Named Entity Recognition Using an HMM-based Chunk Tagger [C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2002:473-480.
[25] EKBAL A,BANDYOPADHYAY S. Named Entity Recognition Using Support Vector Machine: A Language Independent Approach [J].International Journal of Electrical and Computer Engineering,2010,4(3):589-604.
[26] YAO L,SUN C,LI S,et al. Crf-based Active Learning for Chinese Named Entity Recognition [C]//2009 IEEE International Conference on Systems, Man and Cybernetics.San Antonio:IEEE,2009:1557-1561.
[27] HUANG Z,XU W,YU K. Bidirectional LSTM-CRF Models for Sequence Tagging [J/OL].arXiv:1508.01991 [cs.CL].(2015-08-09).http://arxiv.org/abs/1508.01991.
[28] SHAH S A A,MASOOD M A,YASIN A. Dark Web: E-Commerce Information Extraction based on Name Entity Recognition Using Bidirectional-LSTM [J].IEEE Access,2022,10:99633-99645.
[29] ZHANG P,WANG X,YA J,et al. Darknet Public Hazard Entity Recognition based on Deep Learning [C]//Proceedings of the 2021 ACM International Conference on Intelligent Computing and its Emerging Applications.ACM:New York,2021:94-100.
[30] DALVI A,SHAH V,GANDHI D,et al. Name Entity Recognition (NER) Based Drug Related Page Classification on Dark Web [C]//2022 International Conference on Trends in Quantum Computing and Emerging Business Technologies (TQCEBT).Pune:IEEE,2022:1-5.
[31] ZHANG Y,YANG Q. A Survey on Multi-Task Learning [J].IEEE Transactions on Knowledge and Data Engineering,2021,34(12):5586-5609.
[32] TORBARINA L,F(xiàn)ERKOVIC T,ROGUSKI L,et al. Challenges and Opportunities of Using Transformer-based Multi-Task Learning in NLP Through ML Lifecycle: A Position Paper [J/OL].Natural Language Processing Journal,2024,7:100076(2024-05-09).https://doi.org/10.1016/j.nlp.2024.100076.
[33] ZHAO W,GAO H,CHEN S,et al. Generative Multi-Task Learning for Text Classification [J].IEEE Access,2020,8:86380-86387.
作者簡(jiǎn)介:周宇(1986—),男,漢族,江蘇鹽城人,碩士,研究方向:網(wǎng)絡(luò)安全技術(shù)、網(wǎng)絡(luò)犯罪偵查;蔡都(1997—),男,漢族,江蘇鹽城人,碩士研究生在讀,研究方向:網(wǎng)絡(luò)安全技術(shù)、網(wǎng)絡(luò)安全治理。