亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        暗網(wǎng)網(wǎng)頁用戶身份信息聚合方法

        2023-11-18 03:32:44王雨燕趙佳鵬時金橋申立艷劉洪夢楊燕燕
        計(jì)算機(jī)工程 2023年11期
        關(guān)鍵詞:暗網(wǎng)類別實(shí)體

        王雨燕,趙佳鵬,時金橋,申立艷,劉洪夢,楊燕燕

        (1.北京郵電大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京 100876;2.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038)

        0 概述

        當(dāng)前的網(wǎng)絡(luò)空間可以根據(jù)其網(wǎng)頁內(nèi)容是否能夠被常規(guī)搜索引擎獲取分為明網(wǎng)和暗網(wǎng)2 種類型。其中,暗網(wǎng)是深網(wǎng)的子集,需要借助特殊軟件(如Tor 瀏覽器)才能訪問。這種特殊的訪問方式為暗網(wǎng)帶來了匿名性、不可追溯性等特性。隨著互聯(lián)網(wǎng)的飛速發(fā)展,暗網(wǎng)網(wǎng)絡(luò)犯罪案件數(shù)量在全球呈現(xiàn)上升趨勢。相較于普通的網(wǎng)絡(luò)犯罪,暗網(wǎng)網(wǎng)絡(luò)犯罪因其本身具有的匿名性和不可追溯性導(dǎo)致犯罪分子更加難以被追蹤。情報分析是追蹤暗網(wǎng)犯罪的重要手段,該技術(shù)收集犯罪分子在暗網(wǎng)網(wǎng)絡(luò)活動中留下的相關(guān)身份信息(如郵箱地址、比特幣錢包地址、社交平臺賬號等)作為破解用戶身份的重要線索。因此,研究自動化識別和聚合同一用戶多種身份信息的技術(shù)具有重要的應(yīng)用價值。

        針對暗網(wǎng)用戶身份信息的識別和聚合問題,當(dāng)前的相關(guān)研究較少。筆者通過廣泛調(diào)研發(fā)現(xiàn),自然語言處理中的關(guān)系抽取和共指消解方法可以解決該問題。關(guān)系抽取旨在識別實(shí)體對之間的關(guān)系類別;共指消解旨在聚合同一句子內(nèi)指向同一名詞的代詞。從本質(zhì)上說,共指消解是一種特殊的關(guān)系抽取任務(wù),其特殊在于指定了實(shí)體是代詞、實(shí)體間的關(guān)系是共指關(guān)系。雖然共指消解與本文研究的任務(wù)很相似,都是聚合語義上有關(guān)聯(lián)的對象,但它們依舊存在2 個不同之處:首先,任務(wù)關(guān)注的對象并不相同,前者是語句中的代詞,后者是網(wǎng)頁中的用戶身份信息;其次,當(dāng)前流行的共指消解方法將代詞識別和代詞間共指關(guān)系抽取2 個部分聯(lián)合進(jìn)行,例如文獻(xiàn)[1-3]方法。由于本文研究的用戶身份信息的識別和聚合是2 個不同的階段,不涉及聯(lián)合抽取的過程,因此本文最終選擇使用簡單的二元關(guān)系抽取方法解決用戶身份信息聚合的問題。本文定義屬于同一用戶的2 個用戶身份信息之間包含共指關(guān)系,使用關(guān)系抽取模型來識別身份信息之間的共指關(guān)系。

        目前,使用關(guān)系抽取方法解決用戶身份聚合問題主要存在3 個問題:首先,該場景缺乏公開可用的包含暗網(wǎng)多種用戶身份信息的數(shù)據(jù)集;其次,雖然特征工程對于解決此類問題已經(jīng)表現(xiàn)出不錯的性能,但是隨著深度學(xué)習(xí)的發(fā)展,擺脫特征依賴也是目前研究的主流方向,如何選擇合適的深度學(xué)習(xí)方法、構(gòu)建相應(yīng)的模型、實(shí)現(xiàn)同一用戶多種身份信息自動化和高性能聚合,也是難點(diǎn)之一;最后,在暗網(wǎng)用戶身份信息聚合的過程中,某些類別可獲取的用戶身份信息稀少,導(dǎo)致標(biāo)注樣本有限,然而目前的深度學(xué)習(xí)方法又普遍依賴大規(guī)模標(biāo)注樣本來保證識別性能,因此,如何進(jìn)一步修改深度學(xué)習(xí)模型來降低模型對大規(guī)模訓(xùn)練樣本的依賴,是另一個難點(diǎn)。

        為了解決這些問題,本文提出一種基于規(guī)則的身份信息識別方法,用于識別網(wǎng)頁中出現(xiàn)的所有身份標(biāo)識信息,并構(gòu)建相應(yīng)的用戶信息聚合數(shù)據(jù)集。在此基礎(chǔ)上,提出一種以有監(jiān)督的共指關(guān)系抽取模型作為用戶聚合任務(wù)的基線模型,該模型輸入一對用戶身份信息及其上下文語境,返回該信息對之間是否包含共指關(guān)系?;趯?shù)據(jù)集的統(tǒng)計(jì)分析,用戶身份信息的類別對共指關(guān)系的識別有一定提示作用,因此,本文在基線模型中引入實(shí)體類別信息,提出實(shí)體類別敏感的共指關(guān)系抽取模型,進(jìn)一步提高用戶身份信息聚合模型的準(zhǔn)確率。最后,針對暗網(wǎng)中通過某些身份類別信息無法獲取足夠多的訓(xùn)練樣本這一問題,在基線模型中引入少樣本學(xué)習(xí)任務(wù),構(gòu)建低資源條件下基于多任務(wù)的用戶身份信息聚合模型,減少模型對大規(guī)模訓(xùn)練集的依賴。

        1 相關(guān)技術(shù)

        1.1 實(shí)體識別技術(shù)

        傳統(tǒng)的命名實(shí)體識別是自然語言處理的一項(xiàng)基礎(chǔ)任務(wù),其研究的核心是如何在一些特定領(lǐng)域內(nèi)對文本中的實(shí)體名詞進(jìn)行抽取,例如從醫(yī)藥學(xué)領(lǐng)域的學(xué)術(shù)報告中獲取藥物名稱、從報紙中抽取關(guān)于機(jī)構(gòu)活動的人名、地名、組織機(jī)構(gòu)名等。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識別方法被廣泛應(yīng)用,包括基于隱馬爾可夫模型(Hidden Markov Model,HMM)[4]的命名實(shí)體識別模型、基于支持向量機(jī)(Support Vector Machine,SVM)[5]的命名實(shí)體識別模型、基于條件隨機(jī)場(Conditional Random Field,CRF)[6]的命名實(shí)體識別模型等。當(dāng)前,基于深度學(xué)習(xí)的模型效果最佳,在相關(guān)研究中:文獻(xiàn)[7]提出基于格的長短期記憶(Latticebased Long Short-Term Memory,Lattice-LSTM)網(wǎng)絡(luò),結(jié)合了詞典匹配和條件隨機(jī)場進(jìn)行命名實(shí)體的識別;文獻(xiàn)[8]使用預(yù)訓(xùn)練模型BERT[9]獲得上下文單詞的語義嵌入,提高了模型對實(shí)體語義的理解能力。

        命名實(shí)體識別技術(shù)可以實(shí)現(xiàn)暗網(wǎng)用戶身份信息的自動化識別,但是當(dāng)前的命名實(shí)體識別技術(shù)面臨多個難題,例如在真實(shí)的開放環(huán)境中,無法列舉所有的實(shí)體種類和數(shù)量、無法完成實(shí)體間的歧義消解、難以對實(shí)體邊界進(jìn)行界定等。受以往實(shí)體識別工作的啟發(fā),本文統(tǒng)計(jì)并定義了以下種類的用戶身份標(biāo)識信息:社交平臺賬號(如Telegram 群組、Raddit 賬號、GitHub 賬號、Discord 賬號、Medium 賬號、Facebook賬號、Linkedin 賬號、VK 賬號、Twitter 賬號、Instagram 賬號等);加密貨幣錢包地址(如比特幣地址、以太坊地址、門羅幣等);個人聯(lián)系方式(如郵箱地址、電話號碼等)。這些信息每一類都有其標(biāo)志性的特征,因此,對不同類別的信息構(gòu)建不同的匹配規(guī)則是一種簡單、有效的實(shí)體識別方式。

        1.2 句子級關(guān)系抽取

        給定一個句子S,句子中包含一對實(shí)體e1和e2,句子級關(guān)系抽取的目標(biāo)是根據(jù)S中的語義信息識別出e1和e2之間的關(guān)系?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的句子級關(guān)系抽取方法廣泛應(yīng)用于情報抽取領(lǐng)域,包括最大熵模型(Maximum Entropy Model,MEM)[10]、隱馬爾可夫模型[11]、條件隨機(jī)場[12]、核(Kernel)方法[13]等。這些方法嚴(yán)重依賴于手工特征,消耗大量人工成本的同時靈活性低下,更換應(yīng)用場景或數(shù)據(jù)內(nèi)容往往需要構(gòu)建新的特征集合?;谏疃葘W(xué)習(xí)的關(guān)系抽取方法解決了這一難題,在相關(guān)研究中:文獻(xiàn)[14]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來學(xué)習(xí)句子的語義嵌入,之后在CNN 的基礎(chǔ)上產(chǎn)生了多個變種,包括使用分類損失函數(shù)的CR-CNN[15]、添加分段最大池化操作的Pooling-CNN[16]等。此外,LSTM 網(wǎng)絡(luò)也用于學(xué)習(xí)文本序列的語義嵌入,在相關(guān)研究中:文獻(xiàn)[17]提出的雙向長短期記憶(Bidirectional LTSM,BiLSTM)網(wǎng)絡(luò)結(jié)合了前向LSTM層和后向LSTM 層,該方法被證明能同時捕捉詞語前的文本信息和詞語后續(xù)的語義信息;在此基礎(chǔ)上,文獻(xiàn)[18]將注意力機(jī)制用于BiLSTM,得到了Att-BiLSTM。

        基于經(jīng)典的Transformer 模型[19],文獻(xiàn)[20]提出了用于語言理解的生成式預(yù)訓(xùn)練轉(zhuǎn)換器GPT-2,文獻(xiàn)[9]提出了大規(guī)模預(yù)訓(xùn)練模型BERT。目前,關(guān)系提取的最佳模型均使用預(yù)訓(xùn)練模型來獲得實(shí)體的語義嵌入。當(dāng)前在優(yōu)化關(guān)系抽取模型方面主要有以下2 種方式:

        1)優(yōu)化預(yù)訓(xùn)練模型。ERNIE 模型[21]改進(jìn)了預(yù)訓(xùn)練過程中掩蓋關(guān)鍵字的方式,與基線預(yù)訓(xùn)練模型BERT 相比,其將詞掩蔽策略擴(kuò)展到分詞、短語和實(shí)體。SpanBERT[22]利用幾何分布隨機(jī)抽取短語片段,并根據(jù)片段邊界詞的向量預(yù)測整個掩碼詞。此外,還可以通過引入外部知識來優(yōu)化預(yù)訓(xùn)練模型,例如KnowBERT[23]和ERNIE 均通過預(yù)訓(xùn)練外部知識庫來獲取實(shí)體嵌入。類似地,K-Adapter[24]關(guān)注如何向語言模型注入事實(shí)和語言知識,LUKE[25]進(jìn)一步將掩蔽語言建模的訓(xùn)練前目標(biāo)擴(kuò)展到實(shí)體,并使用了一種實(shí)體感知的自我注意機(jī)制。

        2)對實(shí)體的標(biāo)記進(jìn)行改進(jìn)。IREBERT[26]使用一組用于句子級關(guān)系抽取的類型化實(shí)體標(biāo)記符號,該方法與傳統(tǒng)的實(shí)體掩碼技術(shù)和已有的實(shí)體標(biāo)記技術(shù)相比,能得到更符合上下文語義的實(shí)體嵌入。當(dāng)前句子級關(guān)系抽取的研究已經(jīng)取得了令人滿意的成果,然而這些方法的性能依賴于豐富的訓(xùn)練資料,隨著訓(xùn)練樣本的減少,模型性能也隨之迅速下降。在暗網(wǎng)用戶身份信息聚合的場景中,有多個種類的身份信息在標(biāo)注樣本集合中非常稀缺,在深度學(xué)習(xí)領(lǐng)域,該問題可以通過少樣本學(xué)習(xí)方法解決。

        1.3 少樣本關(guān)系抽取

        少樣本關(guān)系抽取是指僅通過少量訓(xùn)練樣本對實(shí)體對關(guān)系進(jìn)行分類的機(jī)器學(xué)習(xí)問題,目前解決該問題的方法主要分為以下3 類:

        1)使用數(shù)據(jù)增強(qiáng)手段增加訓(xùn)練樣本數(shù)量。EDA[27]是一種用于文本分類任務(wù)的數(shù)據(jù)增強(qiáng)方法,其使用4 種文本變換手段,包括對原數(shù)據(jù)集樣本進(jìn)行同義詞替換、隨機(jī)插入單詞、隨機(jī)交換和隨機(jī)刪除。但是該方法需要大量手工操作(如定制同義詞集合等),且分類器性能提升并不明顯。

        2)優(yōu)化模型結(jié)構(gòu)。目前最常見的優(yōu)化方法是基于度量的方法和基于提示學(xué)習(xí)的方法?;诙攘康姆椒ㄍㄟ^計(jì)算實(shí)體嵌入與錨點(diǎn)的相似度(或距離)進(jìn)行分類,例如:匹配網(wǎng)絡(luò)[28]使用余弦相似度計(jì)算相似度;原型網(wǎng)絡(luò)[29]使用歐氏距離計(jì)算相似度?;谔崾緦W(xué)習(xí)的方法將關(guān)系抽取任務(wù)轉(zhuǎn)換為提示生成任務(wù),使用預(yù)訓(xùn)練模型推理獲得有關(guān)提示的答案。LAMA 模型[30]將關(guān)系抽取任務(wù)修改為填空題,在使用相同預(yù)訓(xùn)練模型的情況下,相比引入外部知識庫等傳統(tǒng)方法獲得了更好的效果。文獻(xiàn)[31]研究表明,將任務(wù)描述(即提示)作為預(yù)訓(xùn)練模型的輸入,能夠極大地提高少樣本模型的性能。隨后,文獻(xiàn)[32-33]應(yīng)用2 種不同策略擴(kuò)展了該方法。為降低手工生成提示的時間成本,文獻(xiàn)[34]提出了一種生成文本分類任務(wù)提示的有效方法。為了使提示學(xué)習(xí)能高效地應(yīng)用于零樣本和少樣本關(guān)系抽取,文獻(xiàn)[35]進(jìn)一步將關(guān)系抽取描述為一個文本蘊(yùn)含任務(wù)。

        3)改進(jìn)模型算法,利用先驗(yàn)知識初始化已有參數(shù)來改變模型的搜索方向,達(dá)到減小估計(jì)誤差的目的。OSVOS 模型[36]在解決視頻對象分割任務(wù)時,使用了預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類,首先使用大數(shù)據(jù)集進(jìn)行前景分割的調(diào)整,然后使用單次拍攝的分割對象進(jìn)一步調(diào)整分割,優(yōu)化后模型的分割準(zhǔn)確率從68.0%提升到79.8%。文獻(xiàn)[37]對元學(xué)習(xí)任務(wù)的參數(shù)進(jìn)行初始化,新任務(wù)的少量梯度步驟和少量訓(xùn)練數(shù)據(jù)將在該任務(wù)上產(chǎn)生良好的泛化性能。

        雖然目前少樣本關(guān)系抽取技術(shù)飛速發(fā)展,但是面對暗網(wǎng)用戶身份信息聚合等真實(shí)的場景,仍然缺乏相關(guān)模型的應(yīng)用實(shí)例和實(shí)驗(yàn)數(shù)據(jù)。

        2 暗網(wǎng)用戶身份信息識別和聚合

        從初始暗網(wǎng)網(wǎng)頁到完成用戶身份信息聚合的流程如圖1 所示,其中,用戶身份標(biāo)識信息的識別和聚合是關(guān)鍵技術(shù),前者識別網(wǎng)頁中的用戶身份信息,構(gòu)建數(shù)據(jù)集,后者輸出數(shù)據(jù)集中信息對的共指概率,聚合屬于同一用戶的信息。

        圖1 暗網(wǎng)用戶身份信息識別與聚合流程Fig.1 Procedure of identifying and aggregating identity information of darknet users

        本文提出一種暗網(wǎng)用戶身份信息的識別和聚合方法,實(shí)現(xiàn)過程包括以下3 個部分:

        1)針對缺少公開可用的暗網(wǎng)用戶身份信息數(shù)據(jù)集的問題,提出一種基于規(guī)則的用戶身份信息識別技術(shù)。該技術(shù)用于自動化并高效地識別純文本中的用戶身份信息,是構(gòu)建暗網(wǎng)用戶身份信息數(shù)據(jù)集的關(guān)鍵技術(shù)。

        2)受現(xiàn)有關(guān)系抽取技術(shù)的啟發(fā),提出一種暗網(wǎng)用戶身份信息聚合的基線模型ConRE,然后在ConRE 基礎(chǔ)上加入實(shí)體類別信息優(yōu)化,提出ConREtype和ConREtype_description模型。

        3)為了降低聚合模型對大規(guī)模訓(xùn)練樣本的依賴,在ConRE、ConREtype和ConREtype_description的基礎(chǔ)上,引入多任務(wù)學(xué)習(xí)來提高模型的F1 值,增強(qiáng)模型在訓(xùn)練樣本資源不足(低資源)情況下的穩(wěn)定性。

        2.1 基于規(guī)則的用戶身份信息識別技術(shù)

        暗網(wǎng)中的用戶身份信息每一類都有其標(biāo)志性的特征,因此,對不同類別的信息構(gòu)建不同的匹配規(guī)則是簡單且有效的用戶身份信息識別方式。基于規(guī)則的用戶身份信息識別技術(shù)使用手工定制的正則表達(dá)式,匹配同一網(wǎng)頁中的所有用戶身份信息。該技術(shù)輸入經(jīng)過預(yù)處理的暗網(wǎng)HTML網(wǎng)頁,輸出用戶身份信息集合。

        本文定義以下4 種暗網(wǎng)用戶身份信息類別:1)社交平臺賬號,如Discord 賬號、Instagram 賬號、GitHub賬號、VK 賬號、Twitter 賬號、Medium 賬號、Telegram賬號、Facebook 賬號、Linkedin 賬號、Reddit 賬號等;2)個人聯(lián)系方式,如郵箱地址、電話號碼等;3)加密貨幣,包括比特幣、以太坊;4)其他種類數(shù)量極少的用戶身份信息,如電話號碼、門羅幣等,統(tǒng)一歸納為其他類別。基于規(guī)則的用戶身份信息識別技術(shù)在特定的領(lǐng)域內(nèi)準(zhǔn)確率極高,是一種簡單、有效的匹配暗網(wǎng)用戶身份信息的方式。

        基于規(guī)則的實(shí)體識別方法根據(jù)文本特點(diǎn),手工定制規(guī)則匹配模板以完成實(shí)體識別。此類方法往往基于知識庫和詞典,以指示詞、標(biāo)點(diǎn)符號作為抽取依據(jù)。本文針對每一類別的用戶身份信息制定了相應(yīng)的正則匹配規(guī)則。表1 列舉了常見的14 種用戶身份信息以及匹配規(guī)則,其中:“X”指匹配任意字符;“[]”表示或運(yùn)算;括號中每個選項(xiàng)用“|”分隔;“^”指匹配開頭字符“;$”指匹配結(jié)尾字符“;{}”表示匹配次數(shù)。

        表1 用戶身份信息種類及相應(yīng)匹配規(guī)則Table 1 Types of user identity information and corresponding matching rules

        2.2 基于共指關(guān)系抽取的用戶身份信息聚合方法

        在基于共指關(guān)系抽取的用戶身份信息聚合方法中,定義了同一頁面中屬于相同用戶的信息之間包含共指關(guān)系,用戶身份信息聚合任務(wù)被轉(zhuǎn)化為共指關(guān)系抽取任務(wù)。針對上一階段抽取的用戶身份信息實(shí)體,本文構(gòu)建了有監(jiān)督的共指關(guān)系抽取模型ConRE、實(shí)體敏感的共指關(guān)系抽取模型ConREtype和ConREtype_description。這些模型均通過學(xué)習(xí)實(shí)體對及其上下文語境所包含的語義信息,判斷實(shí)體對之間是否具有共指關(guān)系。本節(jié)將詳細(xì)介紹構(gòu)建這些聚合模型的關(guān)鍵技術(shù),包括獲取實(shí)體嵌入、實(shí)現(xiàn)共指關(guān)系二元分類器和引入實(shí)體類別信息特征來優(yōu)化模型性能。其中:ConRE 模型由獲取實(shí)體語義嵌入的預(yù)訓(xùn)練部分和二元分類器組成;ConREtype和ConREtype_description模型是在ConRE 的基礎(chǔ)上,引入實(shí)體類別的信息特征優(yōu)化后的模型。

        2.2.1 實(shí)體語義嵌入的獲取

        本文通過BERT 預(yù)訓(xùn)練模型獲得實(shí)體對嵌入。BERT 是由Transformer 編碼器在大規(guī)模語料庫上訓(xùn)練得到的模型,也是目前使用最為廣泛和成熟的預(yù)訓(xùn)練模型。Transformer 使用自注意力機(jī)制代替CNN 的卷積和LSTM 的門控機(jī)制來計(jì)算權(quán)重,在保證計(jì)算速度的情況下,能夠平等地捕捉到文本序列更長距離的上下文信息。本文通過BERT 提供的實(shí)體表示來完成二分類任務(wù)。

        獲取實(shí)體嵌入需要對句子執(zhí)行預(yù)處理程序,具體如下:1)將句子轉(zhuǎn)換為token 序列;2)為序列添加特殊符號,在序列開頭添加“[CLS]”作為分類標(biāo)識符,在序列結(jié)尾或2 個序列分界處添加“[SEP]”作為句子分割符,在實(shí)體開始和結(jié)束的分界處分別添加“$”和“#”作為實(shí)體標(biāo)記符。

        將處理后的token 序列輸入BERT。假設(shè)句子S的2 個實(shí)體為e1和e2,對于BERT 輸出的完整隱藏狀態(tài)V,取出V中e1和e2對應(yīng)的初始向量v1和v2,計(jì)算其平均值后經(jīng)過同一個全連接層,獲得最終實(shí)體嵌入實(shí)體1 嵌入的計(jì)算過程如式(1)所示,其 中,W1和b1是可學(xué) 習(xí)的參 數(shù),j和k分別表 示e1在句子中的起始token 編號和終止token 編號;e2嵌入的獲取同理,計(jì)算過程如式(2)所示;取出V中對應(yīng)“[CLS]”的初始向量vc,然后經(jīng)過一個全連接層獲得分類標(biāo)識嵌入,分類標(biāo)識符嵌入的計(jì)算過程如式(3)所示,其中,Wc和bc是可學(xué)習(xí)的參數(shù)。

        2.2.2 二元分類器

        分類器負(fù)責(zé)對輸入的每一個嵌入預(yù)測實(shí)體對之間是否存在共指關(guān)系。首先拼接2 個實(shí)體嵌入和分類標(biāo)識嵌入,然后經(jīng)過一個全連接層得到分類嵌入,式(4)為的計(jì)算過程,其中,Wp和bp是全連接層參數(shù)。最終共指分?jǐn)?shù)由Softmax 層組成的分類器獲得,將分類嵌入輸入分類器,輸出實(shí)體對共指的概率P,如式(5)所示,當(dāng)P大于閾值0.5 時,分類器預(yù)測實(shí)體對之間存在共指關(guān)系。

        2.2.3 實(shí)體類別信息的引入

        根據(jù)統(tǒng)計(jì)信息,實(shí)體類別信息對共指關(guān)系的判斷有一定指示作用,為了提高模型識別準(zhǔn)確率,本文在基線模型ConRE 的基礎(chǔ)上,采用2 種不同的方法添加實(shí)體類別輔助信息:方法1 直接使用實(shí)體類別的名稱作為輔助信息,拼接于原句子結(jié)尾,并添加符號“[SEP]”分割原句與輔助信息,得到模型ConREtype;方法2 引用Wiki 知識庫中相關(guān)實(shí)體類別描述作為語義輔助信息,將拼接輔助信息后的句子輸入關(guān)系抽取模型,得到模型ConREtype_description。此時模型訓(xùn)練所得到的和為額外獲得的實(shí)體類別語義信息。

        2.3 低資源條件下的用戶身份信息聚合方法

        本文提出的低資源用戶信息聚合方法以模型ConRE、ConREtype和ConREtype_description為基礎(chǔ),添加實(shí)體類別輔助信息提升模型識別能力,并且引入度量學(xué)習(xí)任務(wù)提高模型在低資源條件下的魯棒性。

        度量學(xué)習(xí)通過計(jì)算實(shí)體嵌入與錨點(diǎn)的相似度(或距離)進(jìn)行分類。這種方法在少樣本學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用,并且大量實(shí)驗(yàn)證明,這種方法能顯著提高低資源條件下模型的識別能力。引入度量學(xué)習(xí)任務(wù)需要解決以下3 個問題:

        1)設(shè)置錨點(diǎn)。對于分類模型,需要為每一個類別定義一個錨點(diǎn)。錨點(diǎn)的設(shè)置是度量學(xué)習(xí)的關(guān)鍵,其定義某類別樣本在高維空間中的投影中心,某樣本與該類別的錨點(diǎn)在高維空間中距離越近,表示該樣本屬于此類別的概率越大;相反地,某樣本與其他類別的錨點(diǎn)距離越遠(yuǎn),表示該樣本屬于這些類別的概率越小。為保證錨點(diǎn)在空間中的位置符合共指關(guān)系與非共指關(guān)系在現(xiàn)實(shí)世界中的語義,在暗網(wǎng)用戶身份信息集合的場景下,本文參考Wiki 百科手工定制共指關(guān)系和非共指關(guān)系的語義描述S1、S2,輸入BERT 獲得描述句子嵌入,即模型的2 個錨點(diǎn)。計(jì)算過程如式(6)和式(7)所示:

        2)相似度計(jì)算。此處選擇內(nèi)積計(jì)算實(shí)體嵌入與錨點(diǎn)嵌入的相似度,如式(8)所示,函數(shù)d接收實(shí)體嵌入和錨點(diǎn)嵌入。

        3)修改損失函數(shù),把度量學(xué)習(xí)任務(wù)與原任務(wù)組合為多任務(wù)模型。此時損失函數(shù)由兩部分組成,分別是基線模型的二元交叉熵?fù)p失L1和度量學(xué)習(xí)任務(wù)的三元損失L2。計(jì)算過程見式(9)和式(10):

        式(11)是加入度量學(xué)習(xí)后模型的損失函數(shù),由基線模型的交叉熵?fù)p失和度量學(xué)習(xí)的三元損失2 個部分組成,其中,?和γ是超參數(shù),前者用于調(diào)節(jié)損失占比,后者表示相似度閾值,若空間距離遠(yuǎn)于閾值,則認(rèn)定2 個向量不屬于同一類別。

        本文定義共指關(guān)系的錨點(diǎn)以a'S1表示,非共指關(guān)系的錨點(diǎn)以a'S2表示,多任務(wù)的暗網(wǎng)用戶身份信息聚合模型架構(gòu)如圖2 所示。

        圖2 多任務(wù)的暗網(wǎng)用戶身份信息聚合模型架構(gòu)Fig.2 Architecture of multi-task darknet user identity information aggregation model

        3 實(shí)驗(yàn)

        本文實(shí)驗(yàn)對應(yīng)上文內(nèi)容驗(yàn)證所提方法的性能。實(shí)驗(yàn)分為3 個部分:第一部分使用第2.1 節(jié)中提出的基于規(guī)則的用戶身份信息識別技術(shù),生成數(shù)據(jù)集Duad;第二部分給出第2.2 節(jié)中所提出的基線模型和多個主流的關(guān)系抽取模型的性能對比;第三部分對應(yīng)于第2.3 節(jié)的內(nèi)容,描述本文針對基線模型所提出的改進(jìn)方法在數(shù)據(jù)集Duad 上的優(yōu)化效果。

        3.1 數(shù)據(jù)集的獲取

        本文通過Tor瀏覽器提供的接口爬取50 000 個暗網(wǎng)初始網(wǎng)頁(已去除重復(fù)網(wǎng)頁和同源網(wǎng)頁)。該網(wǎng)頁集合需要經(jīng)過特定的清洗模塊,模塊去除初始網(wǎng)頁多余的圖片、HTML 標(biāo)簽、網(wǎng)頁格式符號后,將其轉(zhuǎn)換為純文本,方便用于獲取用戶身份信息及其上下文語境。

        根據(jù)第2.1 節(jié)所提出的基于規(guī)則的用戶身份信息識別技術(shù),構(gòu)建相應(yīng)的自動化規(guī)則匹配模塊。基于制定的14 種用戶身份信息匹配規(guī)則,模塊依次對每一個純文本網(wǎng)頁執(zhí)行匹配程序,得到用戶身份信息集合。

        最后,針對匹配模塊得到的用戶身份信息集合,語料生成模塊對屬于同一網(wǎng)頁的用戶身份信息對,即可能屬于同一用戶的實(shí)體對,生成共指關(guān)系抽取語料。模塊以實(shí)體為中心,截取3 個短句作為其上下文語境,列舉同一網(wǎng)頁所有用戶信息實(shí)體,選擇任意一個實(shí)體ei,將它與同網(wǎng)頁另一個實(shí)體ej組合,拼接ei和ej對應(yīng)的上下文得到句子S,S是本文共指關(guān)系抽取模型的輸入。對所有網(wǎng)頁執(zhí)行以上操作,最終獲得21 531 個實(shí)體。在所生成的Duad 數(shù)據(jù)集中,通過某些種類的用戶信息難以獲取大量訓(xùn)練樣本,例如電話號碼、門羅幣等,Duad 將其歸類為其他類別,所有實(shí)體類別及其數(shù)量如表2 所示。

        3.2 基于共指關(guān)系抽取的用戶身份信息聚合模型性能

        本文參考關(guān)系抽取領(lǐng)域,使用F1 值作為模型性能的評估指標(biāo)。F1 值由模型的正確率和召回率決定:正確率也稱為查準(zhǔn)率,是指所有樣本中正確預(yù)測為真的樣本數(shù)量占全部預(yù)測為真的樣本數(shù)量的比例;召回率也稱為查全率,是指所有樣本中正確預(yù)測為真的樣本數(shù)量占全部實(shí)際為真的樣本數(shù)量的比例;F1 值是準(zhǔn)確率和召回率的加權(quán)平均值。準(zhǔn)確率、召回率和F1 值的計(jì)算公式如式(12)~式(14)所示:

        其 中:PPrecision表示正確率;RRecall表示召回率;F1表示F1 值;TP表示模型預(yù)測為真、真實(shí)情況也為真的樣本數(shù)量;TN表示模型預(yù)測為真、真實(shí)情況為假的樣本數(shù)量;FP表示模型預(yù)測為假、真實(shí)情況為真的樣本數(shù)量;FN表示模型預(yù)測為假、真實(shí)情況也為假的樣本數(shù)量。F1 值越高,表明模型的性能越好。

        為了證明本文所提出的ConRE、ConREtype和ConREtype_description模型能更有效地應(yīng)對暗網(wǎng)網(wǎng)頁用戶身份信息聚合這一新的應(yīng)用場景,本文選擇了多種當(dāng)前流行的關(guān)系抽取方法作為對比方法,包括基于卷積神經(jīng)網(wǎng)絡(luò)的模型(CNN)、按排名執(zhí)行分類的卷積神經(jīng)網(wǎng)絡(luò)(CR-CNN)[32]、帶注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò)(Att-BiLSTM)。同時,本文也對比了當(dāng)前先進(jìn)的關(guān)系抽取模型,包括基于雙向Transformer 的預(yù)訓(xùn)練模型LUKE、將關(guān)系抽取轉(zhuǎn)換為文本蘊(yùn)含任務(wù)的NLI-Roberta模型等在數(shù)據(jù)集Duad上的性能差異。

        筆者認(rèn)為,用戶身份信息的類別對共指關(guān)系的識別有一定的指示作用。首先,根據(jù)對數(shù)據(jù)集Duad 的統(tǒng)計(jì)顯示,相同類別的信息對之間共指的比例僅為12%,遠(yuǎn)遠(yuǎn)低于不同類別的信息對;其次,某些類別的信息共指的概率更高,如實(shí)體對中存在一個郵箱類別的信息則共指概率更高。ConREtype引入實(shí)體類別名稱,ConREtype_description引入實(shí)體類別描述,它們從這些信息中獲得類別語義,進(jìn)而優(yōu)化共指關(guān)系的識別。實(shí)體類別信息的引入過程如下,其中,斜體表示用戶身份信息實(shí)體,加粗表示引入的信息。

        表3 列出了各模型在訓(xùn)練樣本數(shù)量分別占總數(shù)據(jù)量10%、5%、2.5%和1.25%時的F1 值,其中,訓(xùn)練集占比=(參與訓(xùn)練集的樣本數(shù)量/總樣本數(shù)量)×100%,下標(biāo)“type”表示引入用戶身份信息類別編號信息的模型,下標(biāo)“type_description”表示引入用戶身份信息類別描述信息的模型??梢钥闯?,當(dāng)訓(xùn)練樣本數(shù)量占數(shù)據(jù)集總量10%時,CR-CNN、Att-BiLSTM、LUKE 模型均能獲得較好的性能。然而,隨著訓(xùn)練樣本數(shù)量的迅速減少,這些方法F1 值迅速下降。當(dāng)訓(xùn)練樣本占比從10% 降到1.25% 時,LUKE模型的F1 值下降約25 個百分點(diǎn),由此可見,越復(fù)雜的模型對于訓(xùn)練數(shù)據(jù)量越敏感。ConREtype_description模型在不同訓(xùn)練集中均獲得了最佳性能,該結(jié)果證明,用戶身份信息類別的引入能有效提高用戶信息聚合模型在訓(xùn)練樣本數(shù)量減少時的性能。

        表3 各模型在不同訓(xùn)練集占比情況下的F1 值Table 3 F1 value of each model under different training set proportions %

        圖3 為本文工作的一個具體實(shí)例,其中展示了一個暗網(wǎng)的毒品銷售網(wǎng)頁,網(wǎng)頁中出現(xiàn)了4 個用戶身份標(biāo)識信息:1)比特幣錢包地址“17gLLy NaEsaHuZ9r8XEfbs7kedVexrzasa”;2)比特幣錢包地址“3Q2Pt9dD1AVD5Mzr78jUjXZ48CrafWH8Wv”;3)郵箱地址“Email-example@Email.com”;4)Telegram平臺群組鏈接“https://tg.me/buydrugs”。

        根據(jù)手工語義分析可知,第1、2 條信息來自于2 位用戶在該網(wǎng)頁的留言,第3、4 條信息屬于網(wǎng)頁負(fù)責(zé)人的聯(lián)系方式。通過第1、2 條信息所組成的實(shí)體對得到的訓(xùn)練樣本如圖4 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。由于2 條信息實(shí)體在網(wǎng)頁文本中的實(shí)際距離較近,樣本中截取的上下文語境有重疊部分,而語境的重疊也是判斷實(shí)體對是否共指的特征之一,在沒有使用信息實(shí)體類別特征時,ConRE 模型認(rèn)為該信息實(shí)體對共指,加入實(shí)體類別信息后,ConREtype和ConREtype_description模型能學(xué)習(xí)到相同類別的實(shí)體之間共指概率較低,得出該實(shí)體對非共指的正確結(jié)果。

        圖4 訓(xùn)練樣本示例Fig.4 An example of training sample

        3.3 低資源條件下的用戶聚合方法

        暗網(wǎng)網(wǎng)頁中通過某些種類的用戶身份信息難以獲取大量訓(xùn)練樣本,為提高模型在低資源條件下的魯棒性,以作為ConRE 基線模型,分別引入用戶身份信息類別、用戶身份信息類別描述以及度量學(xué)習(xí)任務(wù)進(jìn)行優(yōu)化。在訓(xùn)練集占比為1.25%的條件下,評估優(yōu)化后模型的性能。如表4 所示,其中,針對基礎(chǔ)模型ConRE,ConREtype添加用戶身份信息類別名稱作為輔助信息,ConREtype_description添加用戶身份信息類別描述信息作為輔助信息,ConREmul是引入度量學(xué)習(xí)任務(wù)后的多任務(wù)關(guān)系抽取模型。同時,列出對模型ConREmul添加了用戶身份信息類別名稱和用戶身份信息類別描述后的結(jié)果,分別由ConREmul+type和ConREmul+type_description表示。可以看出,本文引入的輔助信息和輔助任務(wù)均在一定程度上提升了模型的性能,其中,ConREmul+type獲得了最佳F1 值,為87.03%,相較于基線模型ConRE 提高了11.98 個百分點(diǎn)。

        表4 各模型在Duad 數(shù)據(jù)集上的性能Table 4 Performance of each model on Duad dataset %

        4 結(jié)束語

        本文針對同一個暗網(wǎng)網(wǎng)頁中的多個用戶身份信息,提出一種基于規(guī)則的用戶信息識別技術(shù),用于自動抽取網(wǎng)頁中的用戶身份信息。在此基礎(chǔ)上,根據(jù)從暗網(wǎng)中獲取的用戶身份信息,提出基于共指關(guān)系抽取技術(shù)來解決同一用戶多個身份信息的聚合問題。最后,提出在低資源條件下的用戶身份信息聚合方法,解決暗網(wǎng)場景下聚合模型依賴訓(xùn)練樣本數(shù)量的問題。目前,本文所提出的用戶身份信息識別技術(shù)僅支持解決封閉域的問題,在暗網(wǎng)用戶身份信息聚合的場景下,需要手工定制用戶身份信息的類別,并根據(jù)每一種類別生成抽取規(guī)則。后續(xù)將重點(diǎn)研究開放域下的用戶身份信息識別技術(shù),進(jìn)一步提高識別準(zhǔn)確率。

        猜你喜歡
        暗網(wǎng)類別實(shí)體
        暗網(wǎng)犯罪的現(xiàn)狀及趨勢研究
        法制博覽(2021年1期)2021-11-25 19:18:02
        嗅出“暗網(wǎng)”中隱匿的犯罪信息
        暗網(wǎng)
        方圓(2020年16期)2020-09-22 07:03:44
        被“暗網(wǎng)”盯上的年輕人
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        久久久无码人妻精品一区| 国产一区二区黑丝美胸| 婷婷久久精品国产色蜜蜜麻豆| 亚洲av无码久久精品色欲| 少妇邻居内射在线| 日本一本草久国产欧美日韩| 国产专区亚洲专区久久| 国产私人尤物无码不卡| 国产精品免费大片| 亚洲一区二区高清精品| 国产一区二区三区小向美奈子| 中文字幕亚洲综合久久| 亚洲熟女乱色一区二区三区| 精品一二区| 国产精品亚洲一二三区| 99久久精品国产一区二区| 激情内射亚洲一区二区三区爱妻 | 天码人妻一区二区三区| 97人妻碰免费视频| 热综合一本伊人久久精品| 大尺度无遮挡激烈床震网站 | 40分钟永久免费又黄又粗| 国产精品人伦一区二区三| 国产成+人+综合+亚洲欧美丁香花| 91久久青青草原免费| 少妇极品熟妇人妻高清| 色吧噜噜一区二区三区| 国产精品免费观看久久| 色噜噜狠狠色综合中文字幕| 国产精品毛片毛片av一区二区| 少妇夜夜春夜夜爽试看视频 | 国产精品福利片免费看| 中文字幕色资源在线视频| 欧美人与禽2o2o性论交| 在线观看免费人成视频| 精品日韩av专区一区二区| 久久亚洲av无码精品色午夜| 亚洲依依成人亚洲社区| 国产黄色精品高潮播放| 亚洲成人免费av影院| 青青草97国产精品免费观看|