亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法研究

        2022-05-30 13:54:34甄沐華陳鵬王坤范子楊王者
        知識(shí)管理論壇 2022年5期

        甄沐華 陳鵬 王坤 范子楊 王者

        摘要:[目的/意義]針對(duì)公安業(yè)務(wù)中對(duì)熱線文本數(shù)據(jù)犯罪線索關(guān)鍵信息識(shí)別與篩查時(shí)存在的信息化分析能力不足問題,提出一種基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法,幫助業(yè)務(wù)部門提高相關(guān)情報(bào)研判效率,使得犯罪線索篩查工作更加信息化和科學(xué)化。[方法/過程]考慮到直接采用文本類等算法方法或因有效信息樣本量占比過小使得模型訓(xùn)練不充分,本文首先對(duì)已知犯罪線索進(jìn)行基于文本相似度的種子詞集抽取,然后采用Word2Vec對(duì)種子詞匯從同類詞、替代詞兩個(gè)角度擴(kuò)展構(gòu)成專業(yè)詞庫,最后使用基于語義的積分篩查模型實(shí)現(xiàn)對(duì)熱線文本數(shù)據(jù)中犯罪線索篩查。[結(jié)果/結(jié)論]對(duì)濟(jì)南市1 050條先驗(yàn)熱線文本數(shù)據(jù)作犯罪線索篩查實(shí)驗(yàn),并進(jìn)行實(shí)際比對(duì)與結(jié)果指標(biāo)分析,得到結(jié)果召回率86%,可以認(rèn)為本文所述基于語義的積分篩查方法對(duì)濟(jì)南市熱線文本數(shù)據(jù)內(nèi)犯罪信息具體性識(shí)別達(dá)到預(yù)期效果并實(shí)現(xiàn)犯罪線索有效篩查。

        關(guān)鍵詞:熱線文本? ? 專業(yè)詞庫? ? 文本相似度? ? 犯罪線索篩查

        分類號(hào):TP391;G250

        引用格式:甄沐華, 陳鵬, 王坤, 等. 基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法研究[J/OL]. 知識(shí)管理論壇, 2022, 7(5): 539-548[引用日期]. http://www.kmf.ac.cn/p/313/.

        1? 引言

        電話熱線是便民服務(wù)的重要舉措,同時(shí),熱線文本數(shù)據(jù)往往因潛藏著一些犯罪線索(指可供偵查、調(diào)查和控制的有關(guān)犯罪活動(dòng)的情報(bào)信息)而成為公安機(jī)關(guān)犯罪線索排查的重要數(shù)據(jù)來源。目前,公安機(jī)關(guān)在處理熱線文本數(shù)據(jù)時(shí),多采用“標(biāo)簽體系+人工篩查”的方法,即執(zhí)法人員首先通過分類標(biāo)簽定位至可能出現(xiàn)犯罪關(guān)鍵信息的數(shù)據(jù)類目,再快速瀏覽數(shù)據(jù)詳情內(nèi)容字段并根據(jù)經(jīng)驗(yàn)知識(shí)識(shí)別事件關(guān)鍵信息,最后研判該數(shù)據(jù)是否作為犯罪線索輸出。但由于詳情內(nèi)容字段數(shù)據(jù)多以大段落文本形式呈現(xiàn),且其中包含的有效關(guān)鍵信息詞匯單元占比較小,在提取和挖掘關(guān)鍵信息時(shí)具有相當(dāng)?shù)睦щy,使得傳統(tǒng)人工篩查模式中存在有效研判效率較低、數(shù)據(jù)利用不充足等問題[1-2]。

        熱線文本數(shù)據(jù)犯罪線索篩查工作的關(guān)鍵在于對(duì)數(shù)據(jù)文本內(nèi)容中代表犯罪語義關(guān)鍵信息的識(shí)別和提取。目前,在文本內(nèi)容關(guān)鍵信息抽取方面,研究人員進(jìn)行了大量的研究,其中基于詞頻的關(guān)鍵詞提取(TF-IDF、LDA等)是一種常用的方法,但是當(dāng)關(guān)鍵信息詞匯單元數(shù)量在文本中占比較小時(shí),基于詞頻的關(guān)鍵詞提取方法不能夠滿足文本分析的需求,與此同時(shí),在中文文本分析時(shí),基于詞頻提取的關(guān)鍵詞還存在著語義歧義問題[3]。對(duì)此,一些研究人員提出通過詞向量技術(shù)(Word2Vec)構(gòu)建關(guān)鍵信息詞庫,結(jié)合關(guān)鍵詞抽取、文本相似度計(jì)算等文本分析方法以解決關(guān)鍵信息詞匯單元占比小及語義歧義問題對(duì)文本分析的影響。例如,彭云等利用基于語義關(guān)系約束的SRC-LDA主題模型對(duì)商品評(píng)論文本進(jìn)行了主題詞提取,實(shí)現(xiàn)了對(duì)商品評(píng)論主題詞的有效提取[4];劉耕等利用關(guān)聯(lián)詞和Jaccard系數(shù)擴(kuò)展規(guī)則設(shè)計(jì)了敏感詞庫并對(duì)網(wǎng)絡(luò)輿情敏感文本進(jìn)行了敏感信息檢索和提取,實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息可靠率10%以上的提升[5];劉亞橋等利用詞向量模型構(gòu)建的攝影領(lǐng)域評(píng)論情感詞典對(duì)攝影評(píng)論數(shù)據(jù)進(jìn)行了攝影情感信息提取并做進(jìn)一步語料分類,實(shí)現(xiàn)了基于情感詞典下對(duì)攝影領(lǐng)域評(píng)論語料分類[6];譚敏博等對(duì)谷類作物病害數(shù)據(jù)進(jìn)行了谷類作物病害特征信息提取,實(shí)現(xiàn)了對(duì)谷類作物病害特征屬性識(shí)別的精準(zhǔn)查詢[7];夏松等利用基于Word2Vec技術(shù)的語義近似匹配對(duì)微博類社交平臺(tái)短文本構(gòu)建了網(wǎng)絡(luò)謠言敏感詞庫,實(shí)現(xiàn)了基于網(wǎng)絡(luò)謠言敏感詞庫的網(wǎng)絡(luò)謠言有效識(shí)別[8];唐曉波等聯(lián)合TF-IDF方法與詞向量特征擴(kuò)展方法對(duì)醫(yī)療問答社區(qū)健康問句短文本提取了健康信息關(guān)鍵詞并集合作為健康問句關(guān)鍵信息詞庫,實(shí)現(xiàn)了基于健康問句關(guān)鍵信息詞庫的健康問句文本的有效分類[9];姜天宇等利用詞向量構(gòu)建和TF-IDF加權(quán)方法對(duì)新華社不同類別郵件進(jìn)行了郵件主題信息關(guān)鍵詞提取,進(jìn)一步結(jié)合改進(jìn)的樸素貝葉斯樹方法實(shí)現(xiàn)了對(duì)新華社郵件的文本分類[10]。

        從目前研究進(jìn)展來看,關(guān)鍵詞、特征詞提取等自然語言處理技術(shù)已在新聞學(xué)等諸多領(lǐng)域得到了應(yīng)用,并達(dá)到了較好的應(yīng)用效果。但在當(dāng)前,各類公安業(yè)務(wù)處理線索數(shù)據(jù)文本工作時(shí)受限于信息表達(dá)規(guī)范化不足、有效信息分散等問題而仍采用傳統(tǒng)人工篩查模式,缺少針對(duì)特定類型犯罪線索的有效信息化挖掘方法。為此,本文以熱線文本數(shù)據(jù)為例,立足犯罪線索文本特點(diǎn),設(shè)計(jì)了抽取其中犯罪線索關(guān)鍵信息的方法,并根據(jù)公安機(jī)關(guān)情報(bào)研判邏輯設(shè)計(jì)了基于語義的積分篩查模型[11],從而提升公安機(jī)關(guān)文本數(shù)據(jù)中信息化獲取犯罪線索的能力。

        2? 關(guān)鍵詞抽取

        在“標(biāo)簽體系+人工提取”篩查方法廣泛、成熟的應(yīng)用背景下,熱線文本數(shù)據(jù)同樣根據(jù)事件所涉政府業(yè)務(wù)領(lǐng)域不同而被賦予以業(yè)務(wù)領(lǐng)域相應(yīng)粗粒度標(biāo)簽,事件詳情內(nèi)容則不做標(biāo)簽處理。而熱線文本數(shù)據(jù)中的犯罪線索往往從事件詳情內(nèi)容字段中挖掘分析得到,且代表犯罪線索語義的關(guān)鍵信息在詳情內(nèi)容文本中位置分散、數(shù)量較其他信息占比小、不具有明顯文本句式結(jié)構(gòu)化特征,常見表達(dá)形式有單詞匯表達(dá)、短語句式表達(dá)兩種,如“偵查”“予以/取締”。與此同時(shí),構(gòu)建專業(yè)詞庫時(shí)不可避免地對(duì)短語句式進(jìn)行再分詞處理,若采用文本類等自動(dòng)化算法直接對(duì)文本進(jìn)行處理,則再分詞后存在的大量無獨(dú)立語義詞匯將對(duì)結(jié)果準(zhǔn)確性有明顯影響。

        目前,公安機(jī)關(guān)民警對(duì)熱線數(shù)據(jù)中犯罪線索的排查和識(shí)別主要通過關(guān)鍵詞來進(jìn)行判定,但由于來電人表達(dá)方式和習(xí)慣的不同,一些涉嫌犯罪的表述可能存在著句式結(jié)構(gòu)和語義歧義等問題。因此,要盡可能地達(dá)到對(duì)熱線文本數(shù)據(jù)中犯罪線索的排查和識(shí)別,首先需要確定數(shù)據(jù)中已有的代表犯罪語義關(guān)鍵信息詞匯(種子詞集),并在此基礎(chǔ)上關(guān)聯(lián)相關(guān)的同義詞和近義詞(擴(kuò)展詞集),最終實(shí)現(xiàn)熱線文本數(shù)據(jù)犯罪線索的關(guān)鍵詞庫的構(gòu)建。

        2.1? 種子詞集構(gòu)建

        詞向量技術(shù)(Word2Vec)是一種基于上下文分布表示詞義的技術(shù)方法,其專注于無標(biāo)注數(shù)據(jù),利用神經(jīng)網(wǎng)絡(luò)語言模型從大量文本中學(xué)習(xí)語義信息。詞向量技術(shù)常常用于計(jì)算詞語間、句子間或者其他長(zhǎng)文本間的相似度,并具有良好效果[12-16]。

        在種子詞集構(gòu)建上,本文首先收集執(zhí)法部門的犯罪信息詞匯作為經(jīng)驗(yàn)知識(shí)詞集,隨后以全量數(shù)據(jù)語料作為訓(xùn)練語料庫,得到全量數(shù)據(jù)Word2Vec詞向量模型、已知屬性(普通事件/疑似犯罪線索事件)的數(shù)據(jù)語料Word2Vec詞向量、經(jīng)驗(yàn)知識(shí)詞集基于全量語料上下文語義的詞向量,最后,以已知屬性數(shù)據(jù)語料詞向量作為種子詞集識(shí)別抽取的數(shù)據(jù)基礎(chǔ),以經(jīng)驗(yàn)知識(shí)詞匯集詞向量為對(duì)照匹配變量集,通過向量間映射計(jì)算得到二者文本相似度,實(shí)現(xiàn)對(duì)已知屬性數(shù)據(jù)中符合相似度要求的信息詞匯抽取并集合得到種子詞集,其流程如圖1所示:

        抽取得到的種子詞匯分為兩類:代表疑似犯罪線索事件語義的詞匯Word_T(下同),代表普通事件語義的詞匯Word_F(下同)。此處所指“疑似犯罪線索事件”即可根據(jù)相關(guān)法律規(guī)定屬于公安機(jī)關(guān)犯罪活動(dòng)偵辦的事件,包括可判定為有違法行為但未達(dá)犯罪標(biāo)準(zhǔn)的、需要進(jìn)一步確認(rèn)的及已立案需督辦的線索事件;普通事件即根據(jù)相關(guān)法律規(guī)定不屬于公安機(jī)關(guān)管轄的事件,包括經(jīng)有關(guān)辦理單位確認(rèn)后反饋為惡意、重復(fù)撥打的無效熱線事件。

        為確定抽取得到的種子詞匯在犯罪線索篩查中的可靠性,通過回溯已知屬性數(shù)據(jù)本身,定義回溯值為某種子詞匯所屬數(shù)據(jù)屬性為犯罪線索的數(shù)據(jù)數(shù)量(回溯數(shù))與其在全量數(shù)據(jù)中出現(xiàn)次數(shù)(詞頻)的比值,代表了該詞匯在犯罪線索篩查過程中的可靠性,公式(1):

        其中,P(word)代表種子詞匯回溯值,n(word)代表種子詞匯回溯數(shù),N(word)代表種子詞匯在全量數(shù)據(jù)中詞頻。將得到的回溯值作為對(duì)應(yīng)種子詞匯在犯罪線索篩查模型中的權(quán)重系數(shù)。

        2.2? 擴(kuò)展詞集

        考慮到同一語義的表達(dá)會(huì)以不同的詞匯和句式結(jié)構(gòu)呈現(xiàn),為了實(shí)現(xiàn)專業(yè)詞庫的有效覆蓋和擴(kuò)展,從種子詞集的同類詞、替代詞2個(gè)方面進(jìn)行詞庫的擴(kuò)展,另結(jié)合輿情領(lǐng)域公開敏感詞庫共同構(gòu)成擴(kuò)展詞集。擴(kuò)展詞集的詞匯可靠性由擴(kuò)展詞匯與種子詞匯的文本字面距離相似度確定,本文采用余弦距離相似度(Cosine Similarity)計(jì)算得到,如公式(2)所示:

        對(duì)于同類詞集擴(kuò)展,Word2Vec方法計(jì)算所得詞向量能夠反映出詞匯所處上下文和語義關(guān)系。首先通過全量語料的Word2Vec詞向量模型得到種子詞集的詞向量,再以全量數(shù)據(jù)語料庫構(gòu)建的Word2Vec詞向量模型為同類詞集識(shí)別抽取的數(shù)據(jù)基礎(chǔ),以種子詞集詞向量對(duì)照匹配變量集,計(jì)算得到二者文本相似度,實(shí)現(xiàn)在全量語料庫中基于上下文語義關(guān)系的關(guān)鍵信息同類詞匯的抽取,并將相似度作為對(duì)應(yīng)詞匯在犯罪線索篩查模型中的權(quán)重系數(shù),其流程如圖2所示:

        對(duì)于替代詞集擴(kuò)展,考慮到同一語義可由不同詞匯表達(dá),以種子詞集在中文表達(dá)中的近義詞作為其替代詞。利用種子詞集基于全量語料的Word2Vec詞向量模型的詞向量,結(jié)合近義詞查找工具,在以開源維基百科中文語料庫中尋找近義詞并計(jì)算二者文本相似度,實(shí)現(xiàn)基于公開中文語料庫的關(guān)鍵信息替代詞匯的抽取,將相似度作為對(duì)應(yīng)詞匯在犯罪線索篩查模型中的權(quán)重系數(shù),其流程圖如圖3所示:

        3? 犯罪線索篩查模型

        3.1? 犯罪線索積分預(yù)警模型

        積分預(yù)警模型是基于大數(shù)據(jù)背景下的情報(bào)主導(dǎo)警務(wù)模式應(yīng)運(yùn)而生的公安數(shù)據(jù)挖掘手段[11]。該模型方法以某事件發(fā)生為預(yù)警對(duì)象,將可能影響該事件發(fā)生的因素羅列出來,并按照因素的影響性程度賦予相應(yīng)的權(quán)重分值,每當(dāng)某個(gè)因素出現(xiàn)時(shí),都會(huì)以和的形式計(jì)算出相應(yīng)分值,直到所有的因素都被積分出來。積分分值代表事件發(fā)生的定量描述,可表示為:

        其中,i為影響因素,y為分值設(shè)定,p為該因素權(quán)重系數(shù)。針對(duì)本文研究熱線數(shù)據(jù),單條待篩查數(shù)據(jù)積分總值由其與各類型詞集匹配后產(chǎn)生的各積分值構(gòu)成。各類型詞集積分值由分屬兩個(gè)不同屬性的詞集積分值構(gòu)成。各個(gè)詞集的積分值影響因素為符合條件的單一詞匯的相似度、該單一詞匯權(quán)重值及與詞集詞匯匹配到相同詞匯的個(gè)數(shù)。除此之外,輿情領(lǐng)域公開敏感詞集只做相同詞匯計(jì)數(shù)積分處理。單條數(shù)據(jù)于詞集的積分值計(jì)算規(guī)則如下:

        其中,S(dic)代表某類型詞集(種子詞集、同類詞集、替代詞集)的積分值,S(Word_T)及S(Word_F)代表某類詞集中代表疑似犯罪線索事件語義的詞集(T)或代表普通事件語義的詞集(F),a、b為該詞集的權(quán)重系數(shù),SUM代表總積分結(jié)果,Counts(internet)代表匹配過程中出現(xiàn)的輿情領(lǐng)域公開敏感詞集中不重復(fù)計(jì)數(shù)的詞匯數(shù)目。

        3.2? 犯罪線索篩查算法

        在采用“標(biāo)簽體系”對(duì)數(shù)據(jù)已做粗粒度分類背景下,本文研究文本數(shù)據(jù)中包含事件詳情內(nèi)容信息和標(biāo)點(diǎn)符號(hào)、語氣詞等無效信息。據(jù)此,在匹配篩查之前需要對(duì)待篩查數(shù)據(jù)作預(yù)處理:通過中文分詞工具Jieba對(duì)待篩查數(shù)據(jù)進(jìn)行分詞處理,為避免分詞粒度不同造成后續(xù)匹配失敗,在精確分詞模式基礎(chǔ)上設(shè)計(jì)自定義分詞標(biāo)準(zhǔn);對(duì)分詞后數(shù)據(jù),使用自定義停用詞表去除標(biāo)點(diǎn)符號(hào)、干擾詞等無效文本。

        本文采用基于語義的積分預(yù)警模型實(shí)現(xiàn)對(duì)熱線文本中犯罪線索篩查,即專業(yè)詞庫中詞匯的可靠度(權(quán)重值)與匹配時(shí)的文本相似度共同控制篩查結(jié)果。對(duì)于單條待篩查數(shù)據(jù),篩查流程主要從3個(gè)層次循序進(jìn)行:待篩查數(shù)據(jù)詞匯與某詞集詞匯匹配相似值計(jì)算、單條數(shù)據(jù)與專業(yè)詞庫中某詞集匹配積分值運(yùn)算、單條數(shù)據(jù)與專業(yè)詞庫積分值運(yùn)算。

        對(duì)于待篩查數(shù)據(jù)詞匯與某詞集詞匯匹配相似值計(jì)算(match(seg,word)),即單條待篩查數(shù)據(jù)中某詞匯(seg)與專業(yè)詞庫中某詞集中某詞匯(word)的相似值計(jì)算,具體步驟如下:①判斷輸入的兩詞匯是否相同,若相同則相似值記為1,否則進(jìn)行②;②判斷兩詞匯是否同時(shí)存在于已訓(xùn)練好的Word2Vec詞向量模型中,若存在則計(jì)算兩詞匯文本相似度后進(jìn)行④,否則進(jìn)行③;③在基于維基百科語料的詞向量模型中得到seg的詞向量,進(jìn)而計(jì)算兩詞匯文本相似度,后進(jìn)行④;④判斷相似度是否大于或等于設(shè)定閾值,若滿足則記錄該相似度,否則結(jié)束本次相似值計(jì)算;⑤將記錄的二者文本相似度與本次匹配的word對(duì)應(yīng)權(quán)重值p作乘積運(yùn)算,結(jié)果作為兩詞匯的相似值。

        對(duì)于單條待篩查數(shù)據(jù)與某詞集的相似值運(yùn)算(sim(data,dic)),以分詞后的待篩查數(shù)據(jù)、專業(yè)詞庫中某詞集作為輸入項(xiàng)目。遍歷輸入數(shù)據(jù)集合中元素并做碰撞匹配,結(jié)合match(seg,word)模塊,對(duì)每次遍歷產(chǎn)生相似值作求和運(yùn)算。與此同時(shí),計(jì)算某詞集中詞匯在待篩查數(shù)據(jù)中相同個(gè)數(shù),再將求和運(yùn)算結(jié)果與詞匯相同個(gè)數(shù)求和得到該待篩查數(shù)據(jù)與某詞集的相似值。

        對(duì)于單條待篩查數(shù)據(jù)與專業(yè)詞庫相似值積分運(yùn)算與結(jié)果輸出(sim(data,all)),待篩查數(shù)據(jù)經(jīng)上述處理后,分別得到該待篩查數(shù)據(jù)與所有詞集的相似值。根據(jù)2.1設(shè)計(jì)的積分運(yùn)算規(guī)則計(jì)算該條數(shù)據(jù)與專業(yè)詞庫相似值積分運(yùn)算結(jié)果并輸出。單輪待篩查數(shù)據(jù)集篩查完成后,可將此輪數(shù)據(jù)加入數(shù)據(jù)庫中實(shí)現(xiàn)數(shù)據(jù)動(dòng)態(tài)更新。

        4? 實(shí)驗(yàn)驗(yàn)證

        4.1? 數(shù)據(jù)來源及示例

        本文主要采用依托于Python3.0編程語言環(huán)境的gensim.Word2Vec詞向量模型工具構(gòu)建Word2Vec詞向量模型。實(shí)驗(yàn)數(shù)據(jù)來源于濟(jì)南市公安局食藥環(huán)支隊(duì)提供的12345市長(zhǎng)熱線數(shù)據(jù);時(shí)間跨度為2020年1月至2021年3月;數(shù)據(jù)分別涉及食藥安全、醫(yī)藥監(jiān)督、環(huán)境保護(hù)、疫苗注射4個(gè)領(lǐng)域,共8萬多條;參考實(shí)際公安工作業(yè)務(wù)流程,研究數(shù)據(jù)字段為已由相關(guān)行政單位核實(shí)的熱線事件回復(fù)內(nèi)容,旨在發(fā)現(xiàn)線索、督辦線索,實(shí)驗(yàn)數(shù)據(jù)語料部分示例及數(shù)據(jù)屬性如表1所示:

        4.2? 專業(yè)詞庫構(gòu)建

        4.2.1? 種子詞集

        根據(jù)1.1所述種子詞集構(gòu)建方法,通過遍歷學(xué)習(xí)集中經(jīng)驗(yàn)知識(shí)詞匯,對(duì)預(yù)處理后的已知屬性數(shù)據(jù)采用Word2Vec詞向量工具與經(jīng)驗(yàn)知識(shí)詞集中詞匯作文本相似度計(jì)算,將相似度高的詞匯集合,并入經(jīng)驗(yàn)知識(shí)詞集后作為種子詞集?;诓煌瑢傩缘臄?shù)據(jù)得到種子詞集分為兩類:以seed_T指代代表疑似犯罪信息語義的詞集,以seed_F指代普通事件信息語義的詞集。實(shí)驗(yàn)中,共得到94個(gè)種子詞匯,如表2,其中seed_T詞集55個(gè),seed_F詞集39個(gè)。

        進(jìn)一步地,對(duì)生成的種子詞匯通過公式(1)并結(jié)合分層抽樣方法計(jì)算詞匯回溯值。圖4為seed_T詞頻和回溯數(shù)關(guān)系圖,圖5為seed_T回溯值趨勢(shì)圖。對(duì)于seed_T中詞匯,詞匯的回溯數(shù)在詞頻占比中呈現(xiàn)明顯不均衡態(tài)勢(shì),回溯值與詞頻關(guān)系以無規(guī)律波動(dòng)呈現(xiàn)。整體來看,回溯值與詞頻無明顯伴隨關(guān)系,但是各詞匯回溯數(shù)與詞頻占比體現(xiàn)了犯罪信息在文本中占比小的特點(diǎn)。分析可知,由于seed_T中疑似犯罪語義多為短語句式,分詞后存在3種性質(zhì)詞匯,根據(jù)詞頻的排序?yàn)椋哼B詞(如“已經(jīng)”)、中立語義詞匯(如“拍照”“調(diào)查”)、術(shù)語詞匯(如“取證”“嫌疑人”)。此3種詞匯共同作用于對(duì)文本中犯罪信息的判定,連詞和中立語義詞匯單獨(dú)出現(xiàn)時(shí)難以判斷語義性質(zhì)且常與不同的術(shù)語詞匯搭配出現(xiàn),而術(shù)語詞匯單獨(dú)出現(xiàn)時(shí)則需要結(jié)合語境判斷是否為犯罪語義,以詞頻作為犯罪線索關(guān)鍵信息識(shí)別標(biāo)準(zhǔn)會(huì)對(duì)結(jié)果有較大影響。圖6為seed_F詞頻和回溯數(shù)關(guān)系圖,圖7為seed_F回溯值趨勢(shì)圖。對(duì)于seed_F詞集,回溯數(shù)與詞頻成正比,也即n(word)N(word),回溯值趨于穩(wěn)定,多集中于區(qū)間[0.8,1)。與seed_T中短語形式信息不同,seed_F為表達(dá)普通事件語義的信息,其短語形式的信息(如“不/列入/考核”“超出/管轄范圍”)大多由否定性連詞詞匯和術(shù)語構(gòu)成,當(dāng)二者同時(shí)出現(xiàn)將該條數(shù)據(jù)判定為普通事件的概率幾乎為1,即具有獨(dú)判性。同時(shí),多數(shù)具有否定性的術(shù)語詞匯亦具有獨(dú)判性(如“駁回”“惡意投訴”),因此,一些否定性質(zhì)詞匯的回溯值會(huì)接近于1,也即依據(jù)該詞匯判定數(shù)據(jù)為非犯罪線索可靠性極高。圖8展示了種子詞集中分詞后各字詞有向網(wǎng)絡(luò)

        關(guān)系圖,以各字詞作為節(jié)點(diǎn),節(jié)點(diǎn)大小由詞頻確定,帶有箭頭的節(jié)點(diǎn)間連邊為詞匯組成短語的句式結(jié)構(gòu)聯(lián)系,邊長(zhǎng)由詞匯的回溯數(shù)確定??梢园l(fā)現(xiàn),圖中較大節(jié)點(diǎn)為詞性是連詞或語義中立性質(zhì)的詞匯,進(jìn)一步說明了此兩類詞匯的可靠性較低;反之,能夠明確表達(dá)疑似犯罪語義的詞匯在圖中表現(xiàn)為較小的節(jié)點(diǎn),句式結(jié)構(gòu)多與較大節(jié)點(diǎn)詞匯聯(lián)系,說明此類詞匯的可靠性較高。本文以字詞的回溯值為其在積分篩查模型中的影響因子權(quán)重系數(shù),能夠縮小使用字詞一致規(guī)則或詞頻系數(shù)規(guī)則作為篩查識(shí)別標(biāo)準(zhǔn)時(shí)出現(xiàn)結(jié)果誤差。

        4.2.2? 擴(kuò)展詞集

        同類詞集擴(kuò)展。利用Word2Vec工具得到94個(gè)種子詞集在全量語料庫中的均值向量,繼而通過文本相似度計(jì)算得到種子詞集在全量語料庫中的同類詞集。實(shí)驗(yàn)中共取到與種子詞集同類的480個(gè)詞作為擴(kuò)展的同類詞,如表3,其中seed_T同類詞集(seed_T_similar,下同)中251個(gè),seed_F同類詞集(seed_F_similar,下同)中229個(gè):

        替代詞集擴(kuò)展。對(duì)種子詞集經(jīng)過Word2Vec工具作詞向量處理后,結(jié)合Synonyms中文近義詞查找工具,產(chǎn)生種子詞集的替代詞集,如“勸誡”的替代詞有:告誡、責(zé)備等。實(shí)驗(yàn)中共取到506個(gè)詞作為擴(kuò)展的替代詞,如表4,其中seed_T替代詞集(seed_T_synonym,下同)271個(gè),seed_F替代詞集(seed_F_synonym,下同)235個(gè):

        4.3? 犯罪線索篩查結(jié)果

        犯罪線索篩查實(shí)驗(yàn)中使用未參與模型訓(xùn)練的1 050條數(shù)據(jù),其中普通事件屬性數(shù)據(jù)(F類數(shù)據(jù))1 000條,疑似犯罪線索屬性數(shù)據(jù)(T類數(shù)據(jù))50條。根據(jù)本文所述基于語義的篩查方法對(duì)樣本數(shù)據(jù)進(jìn)行犯罪線索篩查積分運(yùn)算,得到F類數(shù)據(jù)997條、T類數(shù)據(jù)53條;經(jīng)與實(shí)際數(shù)據(jù)比對(duì),實(shí)際為T類且判定為T類的數(shù)據(jù)有43條,結(jié)果統(tǒng)計(jì)指標(biāo)如表5所示。由于T類數(shù)據(jù)占全部待篩查數(shù)據(jù)比例較低,實(shí)驗(yàn)期待較高的結(jié)果召回率。從實(shí)驗(yàn)結(jié)果的指標(biāo)來看,召回率86%,精確率81.13%,可以認(rèn)為本文所述基于關(guān)鍵詞挖掘的積分篩查模型在對(duì)熱線文本數(shù)據(jù)中犯罪線索篩查時(shí)達(dá)到了預(yù)期的效果。

        5? 結(jié)論

        對(duì)熱線數(shù)據(jù)中的犯罪信息做到有理、有據(jù)、科學(xué)的抽取是執(zhí)法部門處理文本信息數(shù)據(jù)、確定犯罪線索的重要環(huán)節(jié)。本文提出了一種基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)中犯罪線索自動(dòng)化篩查方法,首先通過詞向量模型及文本相似度計(jì)算等方法建立專業(yè)詞庫,然后設(shè)計(jì)了基于專業(yè)詞庫的犯罪線索積分篩查模型,并以濟(jì)南市熱線文本數(shù)據(jù)進(jìn)行實(shí)證分析。經(jīng)過與數(shù)據(jù)實(shí)際情況比對(duì),該方法能夠?qū)?jì)南市熱線文本數(shù)據(jù)中的犯罪信息具體性識(shí)別并實(shí)現(xiàn)犯罪線索有效地篩查,使得犯罪線索篩查工作更加信息化和科學(xué)化。同時(shí),該方法也適用于其他公安業(yè)務(wù)中文本數(shù)據(jù)目標(biāo)信息識(shí)別及數(shù)據(jù)篩查,如輿情監(jiān)測(cè)業(yè)務(wù)。本文也存在一定的局限,如在專業(yè)詞庫構(gòu)建方面,詞向量模型訓(xùn)練時(shí)需要一定數(shù)量的經(jīng)驗(yàn)知識(shí)詞匯及已知目標(biāo)數(shù)據(jù)樣本用于構(gòu)建專業(yè)詞庫;在線索篩查算法方面,未來可引入基于doc2vec的段落向量模型的文本分類方法,結(jié)合本文所述專業(yè)詞庫做定性加權(quán)分析。

        參考文獻(xiàn):

        [1] 王勇.大數(shù)據(jù)在我國(guó)食藥智慧監(jiān)管中的應(yīng)用[J].中國(guó)食品藥品監(jiān)管, 2018(5): 44-47.

        [2] 袁猛, 劉文杰, 胡建華, 等.“昆侖2020”:全方位構(gòu)筑食藥環(huán)安全防線[J].人民公安, 2020(16): 30-33.

        [3] 徐建民, 王金花, 馬偉瑜.利用本體關(guān)聯(lián)度改進(jìn)的TF-IDF特征詞提取方法[J].情報(bào)科學(xué), 2011, 29(2): 279-283.

        [4] 彭云, 萬常選, 江騰蛟, 等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學(xué)報(bào), 2017, 28(3): 676-693.

        [5] 劉耕, 方勇, 劉嘉勇.基于關(guān)聯(lián)詞和擴(kuò)展規(guī)則的敏感詞庫設(shè)計(jì)[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009, 46(3): 667-671.

        [6] 劉亞橋, 陸向艷, 鄧凱凱, 等.攝影領(lǐng)域評(píng)論情感詞典構(gòu)建方法[J].計(jì)算機(jī)工程與設(shè)計(jì), 2019, 40(10): 3037-3042.

        [7] 譚敏博.基于知識(shí)圖譜的谷類作物病害識(shí)別及個(gè)性化推送研究[D].長(zhǎng)沙:湖南農(nóng)業(yè)大學(xué), 2018.

        [8] 夏松, 林榮蓉, 劉勘.網(wǎng)絡(luò)謠言敏感詞庫的構(gòu)建研究——以新浪微博謠言為例[J].知識(shí)管理論壇, 2019, 4(5): 267-275.

        [9] 唐曉波, 高和璇.基于關(guān)鍵詞詞向量特征擴(kuò)展的健康問句分類研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2020, 4(7): 66-75.

        [10] 姜天宇, 王蘇, 徐偉.基于樸素貝葉斯的中文文本分類[J].電腦知識(shí)與技術(shù), 2019, 15(23): 253-254, 263.

        [11] 吳紹忠.重點(diǎn)人員積分預(yù)警模型建設(shè)基礎(chǔ)問題研究[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 18(2): 76-79.

        [12] 涂銘, 劉祥, 劉樹春. Python自然語言處理實(shí)戰(zhàn)核心技術(shù)與算法[M]. 北京:機(jī)械工業(yè)出版社, 2021:120, 129.

        [13] 嚴(yán)紅.詞向量發(fā)展綜述[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版), 2019(8): 50-52.

        [14] CHEN K J, MA W Y. Unknown word extraction for Chinese documents[C]// Proceedings of international conference on DBLP. Taipei: Morgan Kaufmann Publishers, 2002:169-175.

        [15] PEDERSEN T, KULKARNI A. Identifying similar words and contexts in natural language with sense clusters[C]//Proceedings of the 20th national conference on artificial intelligence. Pittsburgh: AAAI Press, 2010:1694-1695.

        [16] NEVIAROUSKAYA A, PRENDINGER H, ISHIZUKAM. SentiFul: a lexicon for sentiment analysis[J].IEEE transactions on affective computing, 2011, 2(1): 22-36.

        作者貢獻(xiàn)說明:

        甄沐華:設(shè)計(jì)研究方法,完成實(shí)驗(yàn),起草論文,修改論文與定稿;

        陳? 鵬:提出研究思路,修改論文;

        王? 坤:提供數(shù)據(jù),提出研究問題;

        范子楊:采集數(shù)據(jù),進(jìn)行實(shí)驗(yàn);

        王? 者:采集數(shù)據(jù),進(jìn)行實(shí)驗(yàn)。

        Research on Hotline Text Data Crime Clue Screening Method based on Keyword Mining

        Zhen Muhua1? Chen Peng1? Wang Kun2? Fan Ziyang1? Wang Zhe1

        1School for Informatics and Cyber Security, Peoples Public Security University of China, Beijing 100038

        2Jinan Public Security Bureau, Jinan 250099

        Abstract: [Purpose/Significance] Aiming at the problem of insufficient information analysis ability in the current public security business about identification and screening of crime clues in hotline texts, a method of hotline text data crime clue screening based on keyword mining is proposed to help business departments improve relevant intelligence and judgment [Method/Process] Considering that algorithms such as automatic text classification are subject to the problem of sample size, this paper firstly identified the key information of the known attribute data and established a seed lexicon, and then used Word2Vec to expand the seed vocabulary from the perspectives of similar words and synonym words to form a professional thesaurus, and finally used a semantics-based integral screening model to screen criminal clues in the hotline text data. [Result/Conclusion] This paper conducted a crime clue screening experiment on 1 050 priori hotline text data in Jinan City. After actual comparison and index analysis, the recall rate reached 86%. The specific identification of crime information in the text data of the city hotline achieved the expected effect and realized the effective screening of crime clues.

        Keywords: hotline text? ? professional thesaurus? ? text similarity? ? crime clue screening

        亚洲精品成人网线在线播放va| 日本老熟妇五十路一区二区三区 | 中文字幕一区乱码在线观看| 丰满人妻熟妇乱又仑精品| 日本爽快片18禁免费看| 精品人妻无码中文字幕在线| 中文字幕亚洲精品一二三区| 亚洲tv精品一区二区三区| 亚洲av无码国产精品色软件下戴 | 国产成人一区二区三区影院| 久久久久久久久毛片精品| 老太脱裤让老头玩ⅹxxxx| 久久久亚洲欧洲日产国码是AV| av免费观看网站大全| 免费人成年激情视频在线观看| 亚洲国产理论片在线播放| 国产日产久久福利精品一区| 午夜大片在线播放观看| 欧美性受xxxx狂喷水| 久久无码一二三四| 中文字幕一区二区在线| 欧美怡春院一区二区三区| 人人狠狠综合久久亚洲| 日韩美女高潮流白浆视频在线观看| av成人综合在线资源站| 一二区成人影院电影网| 国产高潮刺激叫喊视频| 一区二区三区国产偷拍| 免费一区二区高清不卡av| 日本精品αv中文字幕| 免费高清日本中文| 国产一区二区三区在线观看黄| 无码无套少妇毛多18p| 国产麻无矿码直接观看| 黄色三级视频中文字幕| 亚洲高清在线天堂精品| 怡红院a∨人人爰人人爽| 亚洲一区二区久久青草| 99久久国产免费观看精品| 亚洲国产天堂久久综合网| 门卫又粗又大又长好爽|