◆金宇杰 周彥君 高谷剛 印杰
基于自然語(yǔ)言處理的職務(wù)犯罪文書(shū)數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
◆金宇杰 周彥君 高谷剛 印杰通訊作者
(江蘇警官學(xué)院 計(jì)算機(jī)信息與網(wǎng)絡(luò)安全系 江蘇 210012)
職務(wù)犯罪的隱蔽性強(qiáng),犯罪嫌疑人往往具有強(qiáng)反偵查能力,因此案件通常難以暴露。本課題基于《監(jiān)察法》視角,利用爬蟲(chóng)技術(shù)在線搜集職務(wù)犯罪判決文書(shū),進(jìn)一步利用自然語(yǔ)言處理技術(shù)對(duì)文本進(jìn)行關(guān)鍵詞分析,按數(shù)據(jù)庫(kù)關(guān)鍵詞段提取文本,進(jìn)而建立職務(wù)犯罪文書(shū)數(shù)據(jù)庫(kù)系統(tǒng)。該數(shù)據(jù)庫(kù)包含職務(wù)犯罪核心信息,從而體現(xiàn)犯罪類型、現(xiàn)狀和發(fā)展趨勢(shì),對(duì)研究職務(wù)犯罪特征,針對(duì)性完善偵查和防范措施意義重大。
職務(wù)犯罪;爬蟲(chóng);自然語(yǔ)言處理技術(shù);數(shù)據(jù)庫(kù)系統(tǒng)
國(guó)家機(jī)關(guān)、單位人員利用已有職權(quán),徇私舞弊,貪污賄賂,對(duì)社會(huì)則具有腐蝕危害性。該類犯罪隱秘性高,犯罪嫌疑人往往具有強(qiáng)反偵查能力,案件難以暴露,是重要的一類智能型犯罪。
涉警職務(wù)犯罪隱蔽性更強(qiáng)。與普通的職務(wù)犯罪案件嫌疑人不同,該類案件嫌疑人作為公安民警,其身份的特殊性、職務(wù)便利和職業(yè)經(jīng)驗(yàn),具備較強(qiáng)的法律意識(shí),熟悉相關(guān)案件辦理流程與查證手段,相關(guān)犯罪線索更難以發(fā)現(xiàn)。嫌疑人明顯具備了高素質(zhì)、涉獵廣、閱歷深、心理素質(zhì)好的特點(diǎn),應(yīng)對(duì)監(jiān)察委調(diào)查活動(dòng)的反偵察能力較強(qiáng),一般情況下都難以短時(shí)間突破獲取重要證據(jù)。
對(duì)上述現(xiàn)象,通過(guò)建設(shè)職務(wù)犯罪文書(shū)數(shù)據(jù)庫(kù),可回溯職務(wù)犯罪偵查中的關(guān)鍵措施和證據(jù)的運(yùn)用和收集,對(duì)進(jìn)一步研究職務(wù)犯罪特征意義重大。本文引入網(wǎng)絡(luò)爬蟲(chóng)與自然語(yǔ)言處理技術(shù),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)來(lái)獲取批量判決文書(shū),再利用自然語(yǔ)言處理技術(shù)從下載的判決文書(shū)中提取關(guān)鍵信息作為數(shù)據(jù)庫(kù)關(guān)鍵詞段內(nèi)容,最終形成職務(wù)犯罪文書(shū)數(shù)據(jù)庫(kù),為進(jìn)一步研究涉警職務(wù)犯罪特點(diǎn)提供基礎(chǔ)數(shù)據(jù)和關(guān)鍵信息。
網(wǎng)絡(luò)爬蟲(chóng)是能夠自動(dòng)從網(wǎng)頁(yè)上解析、下載數(shù)據(jù)的程序。網(wǎng)絡(luò)爬蟲(chóng)本質(zhì)是互聯(lián)網(wǎng)資源的抓取、分析、過(guò)濾、存儲(chǔ)的過(guò)程。網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)原理及過(guò)程可以簡(jiǎn)要概括如下(見(jiàn)圖1)。
圖1 網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)原理流程圖
先設(shè)定URL,之后根據(jù)該URL獲取該頁(yè)面下的子頁(yè)面URL,將其放入到URL隊(duì)列當(dāng)中。讀取隊(duì)列中的URL,對(duì)獲取到的頁(yè)面進(jìn)行數(shù)據(jù)解析以及持久化存儲(chǔ),獲取重復(fù)上述的操作,直到滿足一定條件才停止。
網(wǎng)絡(luò)爬蟲(chóng)按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)增量式網(wǎng)絡(luò)爬蟲(chóng)、深層網(wǎng)絡(luò)爬蟲(chóng)[1]。實(shí)際的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)通常是幾種爬蟲(chóng)技術(shù)相結(jié)合實(shí)現(xiàn)的。本文基于通用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)相關(guān)文本數(shù)據(jù)進(jìn)行獲取。
網(wǎng)絡(luò)爬蟲(chóng)在短時(shí)間內(nèi)大量訪問(wèn),占用了服務(wù)器帶寬。該過(guò)程可能會(huì)阻礙正常用戶訪問(wèn),甚至導(dǎo)致服務(wù)器崩潰。另外,數(shù)據(jù)已成為一個(gè)公司的核心資產(chǎn),企業(yè)需要保護(hù)自身的核心數(shù)據(jù),以維持或提升自身的核心競(jìng)爭(zhēng)力,因此反爬蟲(chóng)非常重要。常見(jiàn)的反爬蟲(chóng)手段包括統(tǒng)計(jì)IP訪問(wèn)限制、單個(gè)session訪問(wèn)量以及單個(gè)User-agent的訪問(wèn),基于網(wǎng)站流量統(tǒng)計(jì)和日志分析反爬蟲(chóng),添加驗(yàn)證碼限制等。
早期簡(jiǎn)單網(wǎng)頁(yè)采取靜態(tài)網(wǎng)頁(yè)方式,內(nèi)容都包含在Html源碼里,爬蟲(chóng)通過(guò)偽造請(qǐng)求,獲取網(wǎng)頁(yè)Html源碼并分析Html源碼,就能提取出自己想要的數(shù)據(jù)[2]。隨著網(wǎng)頁(yè)技術(shù)的發(fā)展,動(dòng)態(tài)網(wǎng)頁(yè)[3]逐漸成為主流。有些網(wǎng)站采用Ajax技術(shù),即異步JavaScript和XML。該技術(shù)與服務(wù)器交換數(shù)據(jù),在不重新加載整個(gè)頁(yè)面的情況下,能夠更新部分頁(yè)面,也是一種很好的反爬蟲(chóng)手段。在爬蟲(chóng)程序中如果未傳任何參數(shù),只是單純?cè)L問(wèn)、分析Html源碼,將無(wú)法獲取有效的數(shù)據(jù)。
處理動(dòng)態(tài)網(wǎng)頁(yè)主要有下面這些方法:可以根據(jù)網(wǎng)頁(yè)Ajax請(qǐng)求進(jìn)行分析,用爬蟲(chóng)直接請(qǐng)求其對(duì)應(yīng)接口獲取數(shù)據(jù),但是這種分析較復(fù)雜,更簡(jiǎn)便的方法是使用Selenium[4]。Selenium是基于Python的第三方Web應(yīng)用程序庫(kù),最初是一個(gè)自動(dòng)化測(cè)試工具。其本質(zhì)是通過(guò)驅(qū)動(dòng)瀏覽器,達(dá)到模擬瀏覽器的操作??梢酝ㄟ^(guò)代碼控制與頁(yè)面上元素進(jìn)行交互,也可以獲取指定元素的內(nèi)容。無(wú)需進(jìn)行API分析,抓包,數(shù)據(jù)分析等操作,便于使用。
通過(guò)Selenium使得瀏覽器完成自動(dòng)化的操作,可以有效解決網(wǎng)頁(yè)動(dòng)態(tài)加載問(wèn)題。其訪問(wèn)形式跟正常用戶使用瀏覽器大體相似,不容易被反爬蟲(chóng)檢測(cè)到。不足之處是Selenium需要生成一個(gè)瀏覽器環(huán)境,才可進(jìn)行下一步的相應(yīng)操作。所以速度相較于構(gòu)造請(qǐng)求慢一些。
隨著人工智能的飛速發(fā)展,自然語(yǔ)言處理技術(shù)在生活中的應(yīng)用處處可見(jiàn)。自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)交叉領(lǐng)域下的分支學(xué)科。該領(lǐng)域主要探討如何處理及運(yùn)用自然語(yǔ)言、自然語(yǔ)言認(rèn)識(shí)、自然語(yǔ)言生成系統(tǒng),以及自然語(yǔ)言理解系統(tǒng)[5]。
“自然語(yǔ)言”指的是生活中溝通所使用的文字、語(yǔ)音、視頻等。人們所使用的語(yǔ)言,如:漢語(yǔ)、英語(yǔ)、法語(yǔ)、日語(yǔ)等語(yǔ)言都是屬于這個(gè)范疇。至于對(duì)“處理”,則是將文字語(yǔ)音等信息數(shù)字化處理的一種技術(shù)。
如圖2所示,自然語(yǔ)言處理的工作原理可以大致主要分成如下幾個(gè)步驟:第一步獲取語(yǔ)料。第二步對(duì)語(yǔ)料進(jìn)行形式化描述,即對(duì)語(yǔ)料建立數(shù)學(xué)化模型。第三步算法化,將數(shù)學(xué)模型表示為算法的過(guò)程。第四步模型訓(xùn)練,包括傳統(tǒng)的有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)模型等,可根據(jù)應(yīng)用需求不同進(jìn)行選擇[6]。第五步就是實(shí)用化,對(duì)訓(xùn)練出來(lái)的模型進(jìn)行測(cè)評(píng)改進(jìn),最終滿足現(xiàn)實(shí)需求。
圖2 自然語(yǔ)言處理流程圖
針對(duì)上述五個(gè)步驟進(jìn)行簡(jiǎn)單的介紹:文本獲取大多采用網(wǎng)絡(luò)爬蟲(chóng)或本地文本數(shù)據(jù)集。語(yǔ)料預(yù)處理階段主要包括對(duì)收集來(lái)的語(yǔ)料、文本進(jìn)行分詞、詞性標(biāo)注和去停頓詞等操作。特征化處理過(guò)程是對(duì)完成預(yù)處理的文本進(jìn)行向量化,將完成分詞的詞語(yǔ)以向量形式表示,以便計(jì)算機(jī)能夠?qū)ζ溥M(jìn)行計(jì)算。在模型訓(xùn)練環(huán)節(jié),訓(xùn)練方法主要有監(jiān)督、非監(jiān)督和半監(jiān)督學(xué)習(xí)模型等,具體使用的模型需要根據(jù)不同的應(yīng)用場(chǎng)景進(jìn)行選擇。針對(duì)建模后的效果進(jìn)行評(píng)價(jià),常用的效果評(píng)估指標(biāo)有準(zhǔn)確率、召回率等[7]。
文本當(dāng)中關(guān)鍵詞能夠表示文本的主題思想,是本文建立數(shù)據(jù)庫(kù)字段關(guān)鍵參考依據(jù)。當(dāng)前對(duì)于文本關(guān)鍵詞提取,大多數(shù)采用人工標(biāo)注的手段。隨著海量數(shù)據(jù)以及需求增長(zhǎng),該方法消耗大量人力與時(shí)間,效率不高。于是借助計(jì)算機(jī)自動(dòng)進(jìn)行關(guān)鍵詞提取的方法受到了越來(lái)目前針對(duì)文本關(guān)鍵詞的提取,為了取得良好的效果,大都采用專家標(biāo)準(zhǔn)的方法,但是面對(duì)日益增多的海量文本信息和迫切的應(yīng)用需求,人工標(biāo)注已經(jīng)顯得力不從心。于是借助計(jì)算機(jī)自動(dòng)進(jìn)行關(guān)鍵詞提取的方法受到了越來(lái)越多的重視,已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)[8]。下面介紹兩種關(guān)鍵詞提取模型。
(1)條件概率與樸素貝葉斯模型
貝葉斯定理主要是用來(lái)描述兩個(gè)條件概率之間關(guān)系的問(wèn)題。用來(lái)計(jì)算事件B在事件A發(fā)生時(shí)的概率情況。記為:P(A|B),該條件概率可表示為:
可以根據(jù)公式(2.1)歸納出n個(gè)隨機(jī)變量的聯(lián)合概率分布公式:
最后,按照下面的公式計(jì)算出每一個(gè)特征詞的特征權(quán)值:
關(guān)鍵詞提取方法主要分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)兩種。監(jiān)督學(xué)習(xí)指的是通過(guò)大量數(shù)據(jù)訓(xùn)練模型,利用該模型進(jìn)行關(guān)鍵詞判斷。監(jiān)督學(xué)習(xí)需要事先標(biāo)注高質(zhì)量的訓(xùn)練數(shù)據(jù),人工預(yù)處理的代價(jià)較高[9]。非監(jiān)督學(xué)習(xí)無(wú)需進(jìn)行數(shù)據(jù)訓(xùn)練,簡(jiǎn)單快速。其中TF?IDF算法即為非監(jiān)督學(xué)習(xí)算法的一種。詞語(yǔ)在特定文本出現(xiàn)的頻率與其TF?IDF值成正比,與其在整個(gè)文本中出現(xiàn)的頻率成反比。因此其比較偏向選取文檔區(qū)分度較大的詞,過(guò)濾掉常見(jiàn)詞語(yǔ)。TF-IDF計(jì)算特征相對(duì)簡(jiǎn)便,因此本文便使用該算法進(jìn)行關(guān)鍵詞提取。
總體架構(gòu)如圖3所示。由下至上主要由數(shù)據(jù)采集層,數(shù)據(jù)預(yù)處理層,數(shù)據(jù)存儲(chǔ)層構(gòu)成。
數(shù)據(jù)采集層:主要是通過(guò)爬蟲(chóng)程序中Selenium自動(dòng)化測(cè)試工具,從裁判文書(shū)網(wǎng)獲取相關(guān)數(shù)據(jù)。
數(shù)據(jù)預(yù)處理層:利用自然語(yǔ)言處理技術(shù)中TF-IDF算法計(jì)算特征權(quán)值,找出對(duì)應(yīng)關(guān)鍵詞。
數(shù)據(jù)存儲(chǔ)層:在提取出關(guān)鍵詞后,利用關(guān)鍵詞作為數(shù)據(jù)庫(kù)字段參考,使用SQL Server數(shù)據(jù)庫(kù)進(jìn)行職務(wù)犯罪文書(shū)數(shù)據(jù)庫(kù)系統(tǒng)的建設(shè),并且具備管理、檢索功能。
圖3 系統(tǒng)功能模塊圖
近些年來(lái)被查處的涉警職務(wù)犯罪案件數(shù)量逐步上升,這幾年正是中央打擊腐敗、懲治受賄類犯罪的關(guān)鍵年,職務(wù)犯罪的調(diào)查處理覆蓋較為全面,查處案件較多。相關(guān)的職務(wù)犯罪類案件判決文書(shū)也在網(wǎng)上公布,如中國(guó)裁判文書(shū)網(wǎng)、北大法寶等相關(guān)文書(shū)網(wǎng)站。本文先是利用“職務(wù)犯罪”、“民警”、“警察”等詞作為關(guān)鍵詞,利用爬蟲(chóng)程序進(jìn)行數(shù)據(jù)批量的獲取,之后利用自然語(yǔ)言技術(shù)提取部分關(guān)鍵詞,獲取到具體職務(wù)與罪名,如:先將“交通警察”,“公安局民警”,“貪污賄賂”,“濫用職權(quán)罪”等幾十個(gè)關(guān)鍵詞,然后將其進(jìn)行排列組合后,再分別作為索引的關(guān)鍵詞來(lái)進(jìn)行數(shù)據(jù)的爬取。
以爬取中國(guó)裁判文書(shū)網(wǎng)為例,獲取裁判文書(shū)網(wǎng)數(shù)據(jù)需要登錄獲取權(quán)限才能繼續(xù)訪問(wèn)網(wǎng)頁(yè)。針對(duì)這種情況,爬蟲(chóng)需要構(gòu)造并攜帶cookies信息。同時(shí)網(wǎng)站會(huì)對(duì)賬號(hào)訪問(wèn)記錄進(jìn)行統(tǒng)計(jì),在一段時(shí)間內(nèi)超過(guò)一定訪問(wèn)次數(shù),用戶的IP地址便會(huì)被禁止訪問(wèn)一段時(shí)間。針對(duì)這種情況解決方法,第一種是構(gòu)建自己的cookies池[10],按照一定頻率切換,但是部分網(wǎng)站的cookies信息具有時(shí)效性,因此較為麻煩。本文直接使用Selenium模擬瀏覽器操作,跳轉(zhuǎn)到登錄按鈕,自動(dòng)輸入用戶賬號(hào)密碼,進(jìn)行登錄,并且Selenium必須等頁(yè)面渲染加載出來(lái)才能進(jìn)行下一步操作,訪問(wèn)速率較低,基本不會(huì)遇到IP被禁的問(wèn)題。
再利用Selenium完成對(duì)法律文書(shū)頁(yè)面源代碼有效獲取之后,將直接利用Python語(yǔ)言中自帶的lxml庫(kù),利用該庫(kù)中的etree.HTML類對(duì)網(wǎng)頁(yè)源代碼進(jìn)行相應(yīng)處理,由此自動(dòng)生成一個(gè)可使用lxml庫(kù)中自帶的xpath方法完成解析處理的對(duì)象[11]。其中,xpath方法在對(duì)被選擇對(duì)象進(jìn)行處理時(shí),采用的方法類似目錄樹(shù),在HTML文檔的路徑中直接對(duì)源代碼結(jié)構(gòu)進(jìn)行準(zhǔn)確描述,并使用"/"將上層級(jí)路徑和下層級(jí)路徑相互分隔[12]。對(duì)某頁(yè)面標(biāo)簽進(jìn)行定位后便可對(duì)相似的信息進(jìn)行路徑的有效使用。例如,文章的標(biāo)題與具體內(nèi)容網(wǎng)頁(yè)鏈接是存放在’./div/h4/a’標(biāo)簽下text與href屬性當(dāng)中的。便可批量獲取a標(biāo)簽,進(jìn)行元素提取。
具體爬蟲(chóng)代碼如下:
建立一個(gè)spider函數(shù),傳入相關(guān)參數(shù),包括所需要爬取的頁(yè)數(shù)pagenumber參數(shù),爬取的網(wǎng)站url_1參數(shù),以及索引用的關(guān)鍵詞keyword1參數(shù)、keyword2參數(shù)等。傳入?yún)?shù)后調(diào)用spider函數(shù)即開(kāi)始爬取相關(guān)網(wǎng)頁(yè),最后將獲取的內(nèi)容保存在字典中,存儲(chǔ)到本地。
第一次利用“職務(wù)犯罪”、“民警”、“警察”等關(guān)鍵詞作為索引依據(jù)進(jìn)行數(shù)據(jù)爬取。獲取到粗略的相關(guān)文本后,利用TF-IDF算法對(duì)文本進(jìn)行關(guān)鍵詞提取,計(jì)算出關(guān)鍵詞的詞頻TF以及逆文檔頻率IDF,兩者相乘得到特征權(quán)值,最后將特征權(quán)值按照大小排序組成一個(gè)新集合。將排序完成的所有關(guān)鍵詞的特征權(quán)值組成一個(gè)新的集合,記作={H,H,H,······,H},為候選關(guān)鍵詞的個(gè)數(shù)。在此過(guò)程中,要注意特征權(quán)值和關(guān)鍵詞的一一對(duì)應(yīng)。
Python的中文分詞工具jieba,jieba中文分詞工具內(nèi)置多個(gè)算法,支持多種模式進(jìn)行分詞。jieba.analyse.extract_tags中封裝了TF-IDF算法,利用jieba.analyse.extract_tags函數(shù)直接調(diào)用TF-IDF算法來(lái)對(duì)content中的內(nèi)容進(jìn)行關(guān)鍵詞提取。
def analyse(file_name,topK):
content = open(file_name, 'rb').read()
tags = jieba.analyse.extract_tags(content,topK=topK)
print(",".join(tags))
(1)E-R模型
建立職務(wù)犯罪文書(shū)數(shù)據(jù)庫(kù)E-R圖可以更加有效地在概念模式下設(shè)計(jì)數(shù)據(jù)庫(kù),E-R圖如圖4。
圖4 E-R圖
(2)數(shù)據(jù)庫(kù)邏輯結(jié)構(gòu)設(shè)計(jì)
職務(wù)犯罪文書(shū)數(shù)據(jù)庫(kù)系統(tǒng)主要面向檢察院、法律部門,以及犯罪偵查工作者。因此在設(shè)計(jì)數(shù)據(jù)庫(kù)時(shí)候需要注意符合相關(guān)特色,設(shè)計(jì)了裁判文書(shū)表、關(guān)鍵詞表、職務(wù)表、以及罪名表。裁判文書(shū)表字段包括裁判時(shí)間、文書(shū)內(nèi)容、法院層級(jí)、文書(shū)標(biāo)題、裁判程序、裁判理由、罪名、職務(wù)、案件類型,以及編號(hào),如表1所示。關(guān)鍵詞表字段包括罪名、案件類型、職務(wù),如表2所示。職務(wù)表字段包括職務(wù)、所屬單位、以及編號(hào),如表3所示。罪名表字段包括罪名、犯罪緣由編號(hào),如表4所示。
表1 Document(裁判文書(shū)表)
表2 Keyword(關(guān)鍵詞表)
表3 Profession(職務(wù)表)
表4 Charge(罪名表)
該數(shù)據(jù)庫(kù)系統(tǒng)具備管理、檢索功能。管理功能是指,相關(guān)用戶可以根據(jù)文書(shū)序號(hào)來(lái)進(jìn)行基本的數(shù)據(jù)庫(kù)管理,具備增刪改查等基本操作。并且可以適當(dāng)調(diào)整數(shù)據(jù)庫(kù)字段內(nèi)容、以及字段長(zhǎng)度。檢索功能:即檢索文獻(xiàn),也是本數(shù)據(jù)庫(kù)設(shè)計(jì)的特色。使用者可以根據(jù)文書(shū)標(biāo)題、裁判理由、罪名、職務(wù)、案件類型、關(guān)鍵詞等確立單條件、多條件、模糊檢索等功能。大大提高檢索的準(zhǔn)率,在一定程度上節(jié)省使用者的寶貴時(shí)間與精力。
隨著文本獲取技術(shù)與自然語(yǔ)言處理技術(shù)的不斷發(fā)展,相關(guān)的應(yīng)用也逐漸融入人們的日常生活當(dāng)中,給人們帶來(lái)許多便捷。本文利用爬蟲(chóng)技術(shù)與自然語(yǔ)言處理技術(shù)進(jìn)行職務(wù)犯罪法律文書(shū)數(shù)據(jù)庫(kù)建設(shè)。系統(tǒng)設(shè)計(jì)主要包括文本獲取、關(guān)鍵詞提取、數(shù)據(jù)庫(kù)建設(shè)三個(gè)部分。
(1)由于傳統(tǒng)的直接請(qǐng)求方法無(wú)法獲得對(duì)應(yīng)的網(wǎng)頁(yè)源代碼,本文文本獲取模塊考慮到網(wǎng)站采用Ajax動(dòng)態(tài)加載技術(shù),文使用Selenium自動(dòng)化測(cè)試工具,不需要做復(fù)雜的抓包、構(gòu)造請(qǐng)求、解析數(shù)據(jù),解決動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容抓取問(wèn)題。
(2)傳統(tǒng)的監(jiān)督學(xué)習(xí)提取關(guān)鍵詞方法需要對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行高質(zhì)量標(biāo)注,該過(guò)程人工預(yù)處理的代價(jià)較高。本文使用TF-IDF非監(jiān)督學(xué)習(xí)關(guān)鍵詞提取方法,該方法選取文檔區(qū)分度較大的詞,能夠過(guò)濾掉常見(jiàn)詞語(yǔ),速度較快,節(jié)約人工成本。
[1]張松. 同一新聞事件識(shí)別研究[D].河北大學(xué),2017.
[2]韓貝,馬明棟,王得玉.基于Scrapy框架的爬蟲(chóng)和反爬蟲(chóng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(02):139-142.
[3]ZHENG Qinghua,WU Zhaohui,CHENG Xiaocheng, et al.Learning to crawl deep Web[J].Information Systems,2013, 38(6):801-819.
[4]洪芳.基于Selenium2的Web UI自動(dòng)化測(cè)試框架的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:西南交通大學(xué),2017.
[5]唐聃. 自然語(yǔ)言處理理論與實(shí)戰(zhàn)[M].電子工業(yè)出版社.2018.
[6]趙京勝,宋夢(mèng)雪,高祥.自然語(yǔ)言處理發(fā)展及應(yīng)用綜述[J].信息技術(shù)與信息化,2019(07):142-145.
[7]何鎧. 基于自然語(yǔ)言處理的文本分類研究與應(yīng)用[D].南京郵電大學(xué),2020.
[8]牛永潔,田成龍.融合多因素的TFIDF關(guān)鍵詞提取算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(07):80-83.
[9]夏天.詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(09):30-34.
[10]李代祎,謝麗艷,錢慎一,等.基于Scrapy的分布式爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].湖北民族學(xué)院學(xué)報(bào)(自然科學(xué)版), 2017,35(3):317-322.
[11]劉清.網(wǎng)絡(luò)爬蟲(chóng)針對(duì)“反爬”網(wǎng)站的爬取策略分析[J].信息與電腦(理論版),2019(03):23-24.
[12]杜曉旭,賈小云.基于Python的新浪微博爬蟲(chóng)分析[J].軟件,2019,40(04):182-185.
《監(jiān)察法》視角下的涉警職務(wù)犯罪治理對(duì)策研究(2020LX004);江蘇警官學(xué)院大學(xué)生實(shí)踐創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(WA2020006);浙江大學(xué)CAD&CG國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題《異質(zhì)多源網(wǎng)絡(luò)威脅情報(bào)數(shù)據(jù)分析與可視化》(A2102)