亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ChatGPT的電信詐騙案件類型影響力評估

        2023-10-29 04:20:46裴炳森
        計算機與生活 2023年10期
        關(guān)鍵詞:反詐語料詐騙

        裴炳森,李 欣,吳 越

        中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038

        隨著社會的不斷發(fā)展,科學(xué)技術(shù)的不斷進步,犯罪形式和犯罪手段也在不斷變化,在各類犯罪中,電信詐騙犯罪是發(fā)案最高、損失最大、群眾反映最強烈的突出犯罪。電信詐騙犯罪嚴(yán)重侵害人民群眾的財產(chǎn)安全,嚴(yán)重侵蝕了社會誠信根基。然而,當(dāng)前對電信詐騙的反制措施往往是基于經(jīng)驗和案例進行分析的,存在一定的局限性,較為主觀和片面,并且缺乏自適應(yīng)性,缺乏對案件因素的量化評估。針對多變的電信詐騙犯罪手段和不斷改進的作案方式,對不同案件類型進行綜合評估有助于及時全面了解各類犯罪手段的威脅程度和影響力,捕捉新型犯罪手段的出現(xiàn)和發(fā)展趨勢,將有限的資源重點投入到最具威脅和危害的領(lǐng)域,提高資源的利用效率,并用量化數(shù)據(jù)驅(qū)動反詐工作的決策,為反詐工作提供客觀科學(xué)的依據(jù),提高反詐工作的針對性和有效性。

        為了更好地利用文本內(nèi)的非結(jié)構(gòu)化數(shù)據(jù),通常選擇使用知識圖譜進行知識存儲,可由于電信詐騙領(lǐng)域的相關(guān)案件數(shù)據(jù)較少,如果使用傳統(tǒng)的深度學(xué)習(xí)模型進行知識抽取,會面臨數(shù)據(jù)不足等的問題,難以充分學(xué)習(xí)到領(lǐng)域內(nèi)特定的知識,同時還存在很大的過擬合風(fēng)險,導(dǎo)致在真實的場景中應(yīng)用效果不佳。而且使用傳統(tǒng)的深度學(xué)習(xí)模型構(gòu)建知識圖譜需要進行實體和關(guān)系的標(biāo)注,然后在專業(yè)領(lǐng)域這類小樣本中,標(biāo)注數(shù)據(jù)的獲取和準(zhǔn)確性存在一定的困難。

        針對上述問題,本文提出以下解決方案:

        (1)本文通過使用ChatGPT根據(jù)電詐案例文本構(gòu)建案件知識圖譜,以解決當(dāng)前在電信詐騙領(lǐng)域因小樣本引發(fā)的構(gòu)建知識圖譜困難等問題,使用ChatGPT構(gòu)建知識圖譜不需要對數(shù)據(jù)進行標(biāo)注和訓(xùn)練模型,使用ChatGPT 強大的通用語言理解能力并結(jié)合問題模版對問答內(nèi)容進行限制即可得到高質(zhì)量的知識圖譜,從而達到使用ChatGPT 較低成本完成知識抽取與構(gòu)建知識圖譜的目的,將其應(yīng)用在電信詐騙領(lǐng)域,可以完成數(shù)據(jù)分析統(tǒng)計、類案推理、串并案分析等。

        (2)本文根據(jù)電信詐騙案件的案發(fā)時間、涉案金額、涉案事主人數(shù)三個因素,提出確定案件類型的影響因子的計算方法,以實現(xiàn)對不同案件類型的影響力評估,并根據(jù)各個類型案件的影響力針對性、科學(xué)性提出反詐措施與方案。與傳統(tǒng)的基于人工經(jīng)驗和規(guī)則的方式相比,計算影響因子的方法更加準(zhǔn)確全面、綜合多種案件因素,不僅僅局限于單一的規(guī)則,而且各類案件的影響力評估數(shù)據(jù),給公安民警提供了一種更科學(xué)客觀的指標(biāo),能夠幫助實現(xiàn)對案件發(fā)案趨勢的把控,對人民群眾進行精準(zhǔn)宣傳與防范,從根源打擊電信詐騙。

        1 相關(guān)工作

        1.1 大語言模型技術(shù)探究

        ChatGPT是由OpenAI設(shè)計、訓(xùn)練和發(fā)布的一種語言模型。它以問答的形式完成各種任務(wù),接受文本輸入,理解自然語言,并生成響應(yīng),模擬人類對話。在各個自然語言處理子任務(wù)中表現(xiàn)出色。相較于其他大型語言模型,ChatGPT擁有更豐富的知識體量,涵蓋了自然科學(xué)、社會科學(xué)、人文歷史等多個領(lǐng)域的知識。

        ChatGPT 是在GPT3.5[1]的基礎(chǔ)上經(jīng)過微調(diào)而來的,微調(diào)過程中引入了RLHF(reinforcement learning from human feedback)技術(shù),通過將人類日常對話的語言習(xí)慣嵌入模型,并引入人類的價值偏好,使得模型輸出與人類意圖對齊。微調(diào)過程包括預(yù)訓(xùn)練、監(jiān)督微調(diào)、設(shè)計獎勵模型和反饋優(yōu)化四個步驟[2]。

        由于ChatGPT 的功能強大且具有良好的交互效果,社會各個領(lǐng)域都在積極探索其應(yīng)用,將其出色的對話生成能力融入各種應(yīng)用場景中。?;w等人[3]根據(jù)ChatGPT 的對話對象和定位將其應(yīng)用分為四個層次:數(shù)據(jù)生成器、知識挖掘工具、模型調(diào)度員和人機交互界面。在模型調(diào)度員層面,ChatGPT作為連接模型的中介或底層模型,與其他機器學(xué)習(xí)模型協(xié)同工作,以滿足用戶需求。這種應(yīng)用主要集中在多模態(tài)領(lǐng)域,如微軟提出的Visual ChatGPT[4]、MM-ReAct[5]和HuggingGPT[6]等,這些模型通過讓視覺模型與ChatGPT協(xié)同工作來完成視覺和語音任務(wù)。

        除了ChatGPT 以外,許多類ChatGPT 的大模型也同樣在自然語言處理的各個方面展現(xiàn)了較好的效果。LLaMA[7]是一個從7 billion 到65 billion 參數(shù)的基礎(chǔ)語言模型集合,該模型在數(shù)以萬億計的token 上進行訓(xùn)練,并表明有可能完全使用公開的數(shù)據(jù)集來訓(xùn)練最先進的模型,而不需要求助于專有的和不可獲取的數(shù)據(jù)集。清華提出了一種基于自回歸空白填充的通用語言模型(general language model,GLM)[8],在整體基于Transformer 基礎(chǔ)上做出改動,其在一些任務(wù)上的表現(xiàn)優(yōu)于GPT3-175B。

        1.2 知識圖譜構(gòu)建

        構(gòu)建知識圖譜的目的是從各類結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中抽取出符合知識圖譜模式的知識,并以三元組形式表示(<實體,關(guān)系,實體>或<實體,屬性,屬性值>)。在這過程中,涉及實體抽取和關(guān)系抽取等技術(shù),用于從非結(jié)構(gòu)化文本中提取知識。通過知識抽取,可將信息轉(zhuǎn)化為可計算和理解的形式,為知識圖譜的構(gòu)建和應(yīng)用提供基礎(chǔ)和支持。

        知識圖譜的構(gòu)建可采用自底向上和自頂向下兩種方式。自底向上方式基于已有知識庫,通過采集新事實將其添加到知識庫中,逐步擴展和更新知識圖譜。自頂向下方式從零開始構(gòu)建新的知識圖譜,收集和整理相關(guān)領(lǐng)域的數(shù)據(jù),將其轉(zhuǎn)化為三元組形式并存儲為知識圖譜。

        實體抽取技術(shù)又稱命名實體識別,這一技術(shù)主要涉及到基于規(guī)則、基于統(tǒng)計機器學(xué)習(xí)、基于深度學(xué)習(xí)三種抽取方法。當(dāng)前常常使用深度學(xué)習(xí)的方法[9-12]對文本中實體進行抽取,在很多實體識別抽取的任務(wù)上都取得了較好的結(jié)果。關(guān)系抽取技術(shù)主要是根據(jù)文本中上下文確定實體之間的關(guān)系,關(guān)系抽取任務(wù)是完成信息抽取任務(wù)的基礎(chǔ),常見的方法是流水線學(xué)習(xí)和聯(lián)合學(xué)習(xí)。流水線學(xué)習(xí)[13-15]是指在實體抽取的基礎(chǔ)上完成關(guān)系抽取,聯(lián)合學(xué)習(xí)[16]是指實體和關(guān)系在同一模型中進行抽取的方法。然而現(xiàn)有的知識圖譜構(gòu)建方法在針對小樣本數(shù)據(jù)的情況下,知識抽取模型的效果不佳,通常不能很好地適用專業(yè)領(lǐng)域。

        知識圖譜的構(gòu)建存在一定困難,當(dāng)前常見的抽取方法中,基于模式或規(guī)則的匹配方法較為依賴人工標(biāo)注的語料,因此泛化性較低;基于機器學(xué)習(xí)的方法以數(shù)據(jù)為中心,構(gòu)造數(shù)據(jù)特征,但是依舊依賴大量的人工設(shè)計,而且這種方法針對大量的離散特征只能使得模型得到局部最優(yōu)解,無法深挖數(shù)據(jù)中的隱藏信息;基于深度學(xué)習(xí)的方法是利用神經(jīng)網(wǎng)絡(luò)通過進行監(jiān)督學(xué)習(xí)訓(xùn)練模型,提高模型對文本中實體、關(guān)系、事件的抽取準(zhǔn)確率,但是這種訓(xùn)練模型的方式針對特定領(lǐng)域需要進行模型的再次訓(xùn)練和微調(diào),較為浪費算力和時間,而且前文提到的構(gòu)建電信詐騙領(lǐng)域的知識圖譜中面對的各個挑戰(zhàn),給深度學(xué)習(xí)的模型訓(xùn)練和預(yù)測帶來了一定難度。

        1.3 現(xiàn)有反詐措施制定方法不足

        傳統(tǒng)的反詐措施通常依賴于人工經(jīng)驗和基于規(guī)則的系統(tǒng),但隨著詐騙手段和方式的不斷演變,這些方法已經(jīng)不足以滿足研判的需求。傳統(tǒng)方法對于新型詐騙手段和方式的識別能力較弱,無法及時更新數(shù)據(jù)以保持準(zhǔn)確性和實時性。此外,傳統(tǒng)方法容易受到主觀偏見的影響和個人經(jīng)驗和案例的限制,只能考慮部分因素,無法全面客觀地分析詐騙行為,導(dǎo)致研判結(jié)果的片面性和不完整性。傳統(tǒng)方法和規(guī)則還缺乏自適應(yīng)性,無法適應(yīng)新型詐騙手段和方式的變化,需要手動更新和調(diào)整,增加了維護成本并降低了響應(yīng)速度。

        除基于人工經(jīng)驗和案例規(guī)則的反詐措施之外,還存在一種利用國家反詐中心APP進行詐騙風(fēng)險預(yù)警勸阻。然而,使用國家反詐中心APP 也存在一些問題。使用該程序需要用戶主動下載和使用,這對于特定人群存在限制和依賴性,無法全面覆蓋所有用戶和場景。國家反詐中心APP的預(yù)警勸阻功能也是基于預(yù)設(shè)規(guī)則和規(guī)定的,同樣可能存在主觀性、片面性和缺乏自適應(yīng)性等問題。同時,國家反詐中心APP 的預(yù)警勸阻主要基于詐騙過程中的資金流動進行,雖然在應(yīng)對電信詐騙方面起到了積極作用,但它本質(zhì)上是一種響應(yīng)性措施。因此,隨著詐騙手段和方式不斷演變和更新,僅依靠事后干預(yù)是不夠的。更有效的是分析案發(fā)趨勢,采取綜合性的預(yù)防措施,從源頭上防止詐騙行為的發(fā)生,降低公眾遭受電信詐騙風(fēng)險。

        1.4 使用大語言模型進行圖譜構(gòu)建的優(yōu)越性

        使用大語言模型進行數(shù)據(jù)預(yù)處理與使用深度學(xué)習(xí)的模型相比,不用制定較為復(fù)雜的時間相關(guān)詞語庫,也不用訓(xùn)練模型對不同的時間表示方式進行理解,而是直接使用大模型強大的語義理解能力對時間信息進行處理,這樣既能保證準(zhǔn)確率,同時又簡便了數(shù)據(jù)預(yù)處理流程。

        使用大語言模型完成抽取任務(wù)與使用深度學(xué)習(xí)模型相比,具有較為明顯的優(yōu)勢。其中最為明顯的一點就是直接使用大模型已經(jīng)訓(xùn)練好的各項能力,在通用領(lǐng)域知識基礎(chǔ)上完成抽取任務(wù),不需要使用標(biāo)注數(shù)據(jù)進行模型訓(xùn)練,并且整個使用過程也相對較為靈活,可以通過更改問題的模版實現(xiàn)對抽取任務(wù)的約束;其次,與使用訓(xùn)練好的模型進行抽取相比,問答的這種形式為實體、事件、關(guān)系之間的聯(lián)合建模提供了一種非常自然的方法;再次,多輪問答的這一形式能夠展現(xiàn)抽取的邏輯與過程,而且隨著多輪問答進程,可以逐步獲得下一輪需要的實體;最后,使用大模型完成抽取任務(wù)與使用模型訓(xùn)練從效果上看,最大的優(yōu)勢在于使用時,問題查詢對于想要識別的關(guān)系類別編碼了重要的先驗信息,這類信息能夠潛在地解決現(xiàn)有抽取任務(wù)模型中所不能解決的遠(yuǎn)距離實體對、關(guān)系跨度重疊等問題。

        2 電信詐騙案件類型影響評估方法

        知識圖譜的構(gòu)建過程,可以簡化為將非結(jié)構(gòu)化的文本抽象成事實三元組的過程。針對現(xiàn)有方法存在的問題與不足,本文結(jié)合Li等人[16]把實體和關(guān)系聯(lián)合抽取的任務(wù)當(dāng)作一個多輪問答問題進行處理的思想,使用ChatGPT 作為工具,抽取文本中的各類實體、關(guān)系、事件以及各類屬性屬性值等,并且在抽取中融入標(biāo)簽,對開放領(lǐng)域的ChatGPT加以限制,從而達到讓其選擇正確標(biāo)簽作為標(biāo)注的目的。

        通過構(gòu)建好的知識圖譜將不同類型的案件文本內(nèi)容結(jié)構(gòu)化,借助知識圖譜的形式存儲案件內(nèi)容便于統(tǒng)計案發(fā)時間、涉案金額、涉案事主人數(shù)等評估案件影響的實體屬性,根據(jù)計算公式將不同案件類型的影響表現(xiàn)為抽象具體數(shù)值,以便于直觀分析不同案件類型的趨勢與特性。

        2.1 電信詐騙相關(guān)語料的獲取

        構(gòu)建電信詐騙領(lǐng)域知識圖譜的基礎(chǔ)是獲取相關(guān)語料,本文構(gòu)建的電信詐騙領(lǐng)域語料庫TFCs(telecom fraud corpus),包括電信詐騙案例(telecom fraud cases,TFC)以及反詐措施(anti-telecom fraud measures,ATCM)。圖1為電信詐騙語料庫數(shù)據(jù)結(jié)構(gòu)展示。

        圖1 電信詐騙語料庫數(shù)據(jù)結(jié)構(gòu)展示Fig.1 Data structure display of telecom fraud corpus

        TFC中的語料主要來源于兩方面:一方面是從裁判文書網(wǎng)中找到的電信詐騙有關(guān)的刑事犯罪判決書相關(guān)案例;另一方面是在公安一線工作中收集到的各類電詐案例。從公安一線中收集到的各類電詐案例主要來源于對基層所隊的實地調(diào)研,案例文本語料包含了問訊筆錄、簡要案件經(jīng)過、接出警記錄等諸多文書,且各類文書對其中涉及到的個人隱私信息,如家庭住址、銀行卡號、身份信息等均已進行脫敏處理。其中本文構(gòu)建的電詐領(lǐng)域知識圖譜主要使用簡要案件經(jīng)過進行知識抽取。

        雖然裁判文書與公安一線案例兩類案件事實文書都包含了電信詐騙的典型案例信息,但是兩類文本的行文風(fēng)格有很大不同,裁判文書中的文字內(nèi)容偏向于格式化,而從公安一線收集到的電詐案例口語化較為嚴(yán)重,因此如果使用普通深度學(xué)習(xí)模型進行抽取任務(wù),將面臨較大挑戰(zhàn)。

        電信詐騙典型案例語料總計1 680 條,其中來自裁判文書網(wǎng)中的語料和公安一線工作中的語料各840條,各類語料中案發(fā)時間從2020年1月至2023年2月。并且針對TFC中的各種電信詐騙案例語料,本文采用公安部刑偵局發(fā)布的網(wǎng)絡(luò)詐騙分類體系,將其分為仿冒身份類、購物類、利誘類、虛構(gòu)險情類、日常消費類、釣魚木馬病毒類、其他新型違法類7 個大類,60 個具體手段。相應(yīng)的反詐措施ATCM 也就是針對60個具體手段的防范方法以及被騙后的處置措施。圖2為語料庫內(nèi)各類案件類型統(tǒng)計結(jié)果展示。

        圖2 語料庫內(nèi)案件類型統(tǒng)計Fig.2 Case type statistics in corpus

        雖然使用ChatGPT 對文本語料進行知識抽取成本較低,不需要使用標(biāo)注數(shù)據(jù)訓(xùn)練模型,但是為了從客觀上驗證ChatGPT 抽取知識的能力,從電信詐騙案例語料庫中隨機選取了來自裁判文書網(wǎng)的文本語料100 篇,來自公安一線的案例文本數(shù)據(jù)100 篇,請公安專業(yè)民警、學(xué)警進行實體、關(guān)系、事件的人工標(biāo)注,作為知識抽取的標(biāo)準(zhǔn),以便在后續(xù)實驗中比較ChatGPT與深度學(xué)習(xí)模型的抽取效果。

        2.2 總體方法流程

        電信詐騙領(lǐng)域知識圖譜的構(gòu)建及應(yīng)用包括數(shù)據(jù)預(yù)處理、各類知識抽取技術(shù)、不同案件類型影響因子與針對性反詐措施的選取等。具體評估方法如圖3。

        圖3 電詐領(lǐng)域案件類型影響評估Fig.3 Assessment of case types'impact in field of telecommunications fraud

        首先,構(gòu)建電信詐騙領(lǐng)域知識圖譜前需要對文本語料TFCs進行數(shù)據(jù)預(yù)處理,完成數(shù)據(jù)清洗,其目的主要是將文本中較為口語化的時間信息轉(zhuǎn)化為標(biāo)準(zhǔn)時間格式,以便后續(xù)對文本中的時間信息進行抽取。

        進行數(shù)據(jù)預(yù)處理后,首先確定實體類型和關(guān)系類型,并隨機抽取部分文本,使用不同的問答模版利用ChatGPT 借助問答的方式對文本語料根據(jù)實際需要進行知識抽取,通過比較不同模版的抽取效果,確定抽取的問答模版。最終使用確定的問答模版對全部文本語料完成實體抽取、關(guān)系抽取、事件抽取、時間抽取等知識抽取任務(wù)。完成知識抽取后,使用圖數(shù)據(jù)庫Neo4j,結(jié)合抽取結(jié)果,構(gòu)建電信詐騙領(lǐng)域的知識圖譜。

        在這些工作的基礎(chǔ)上,根據(jù)使用ChatGPT 構(gòu)建的電詐領(lǐng)域知識圖譜,提出結(jié)合案發(fā)時間、涉案金額、涉案事主人數(shù)三個因素,評估不同案件類型的影響因子,刻畫案發(fā)趨勢和發(fā)案特征,以便有針對性地提出反制措施和預(yù)防方法。

        2.3 ChatGPT在電詐領(lǐng)域抽取任務(wù)中的應(yīng)用

        2.3.1 ChatGPT進行數(shù)據(jù)預(yù)處理

        由于收集到的部分電信詐騙典型案例語料文本口語化較為嚴(yán)重,直接對文本進行處理可能會導(dǎo)致效果較差,影響構(gòu)建出的電信詐騙領(lǐng)域知識圖譜的質(zhì)量,在構(gòu)建圖譜前需要對文本數(shù)據(jù)進行預(yù)處理。

        本文根據(jù)構(gòu)建案件知識圖譜的任務(wù),主要是對文本中時間節(jié)點進行預(yù)處理,由于構(gòu)建案件知識圖譜需要識別各類案發(fā)時間、轉(zhuǎn)賬時間等,而文本中時常存在著“第二天”“三天后”這樣的時間節(jié)點,因此需要對此類文本進行格式統(tǒng)一,使用ChatGPT 進行時間格式統(tǒng)一的模版為:“‘語料……’請把其中的所有時間信息替換成標(biāo)準(zhǔn)的年月信息,使時間信息更具體?!本唧w實現(xiàn)的結(jié)果展示如圖4。

        圖4 文本預(yù)處理結(jié)果展示Fig.4 Display of text preprocessing results

        2.3.2 ChatGPT進行知識抽取

        雖然ChatGPT 在通用領(lǐng)域具有類人的能力,但是在電信詐騙領(lǐng)域,直接進行知識抽取的效果不盡如人意,因此需要根據(jù)語料進行部分限制,以確保更好利用ChatGPT的能力,更準(zhǔn)確地對語料中的實體、關(guān)系、事件、時間進行抽取。

        使用ChatGPT 完成抽取任務(wù)需要固定的模版從語料中抽取信息,但是模版的設(shè)計關(guān)系到抽取的質(zhì)量,使用不同的模版ChatGPT 生成的答案也不盡相同,因為模版中包含的信息同樣能夠作為ChatGPT的一部分知識幫助完成信息抽取,所以應(yīng)該將部分標(biāo)簽融入問題的模版中,下面是幾種效果不同的問題模版:

        模版1“‘語料……’請將上面話語抽取成構(gòu)建知識圖譜的信息?!?/p>

        模版2“‘語料……’請根據(jù)上面的文字,判斷事件類型屬于仿冒身份類、購物類、利誘類、虛構(gòu)險情類、日常消費類、釣魚木馬病毒類、其他新型違法類的哪一類,并且抽取出文中涉及到的各類實體、實體之間的關(guān)系等,其中抽取出來的關(guān)系應(yīng)當(dāng)包括但不限于親戚關(guān)系、朋友關(guān)系、從屬關(guān)系、上下級關(guān)系、假冒關(guān)系、親密關(guān)系、同伙關(guān)系、資金流入關(guān)系、資金流出關(guān)系、利用關(guān)系、雇傭關(guān)系、客戶關(guān)系、關(guān)聯(lián)關(guān)系、詐騙關(guān)系?!?/p>

        模版3Q1:“‘語料……’請根據(jù)上面的文字回答下面的問題。這個文本講述的是電信詐騙還是反詐措施?”A1:“……”

        Q2:“這個文本中涉及到的電信詐騙案例屬于仿冒身份類、購物類、利誘類、虛構(gòu)險情類、日常消費類、釣魚木馬病毒類、其他新型違法類中的哪一類案件?”A2:“……”

        Q3:“請簡要概括一下文本中的案件事實?”A3:“……”

        Q4:“請抽取出文本中的各個實體,實體的類型應(yīng)該至少包括:案發(fā)時間、案發(fā)地點、受害者、詐騙方式、交易媒介、詐騙工具、詐騙犯、涉案金額、作案手段等”A4:“……”

        Q5:“請根據(jù)文本抽取出來實體之間的關(guān)系,并將頭實體、關(guān)系、尾實體以表格的形式表示出來,其中關(guān)系應(yīng)當(dāng)包括但不限于親戚關(guān)系、朋友關(guān)系、從屬關(guān)系、上下級關(guān)系、假冒關(guān)系、親密關(guān)系、同伙關(guān)系、資金流入關(guān)系、資金流出關(guān)系、利用關(guān)系、雇傭關(guān)系、客戶關(guān)系、關(guān)聯(lián)關(guān)系、詐騙關(guān)系”A5:“……”

        使用多輪問答的形式完成語料的各類抽取任務(wù)時,能夠較為明顯看出詳細(xì)的問題模版對抽取任務(wù)的準(zhǔn)確率有較為明顯的提高,這是因為ChatGPT 在人工交互方面表現(xiàn)雖然優(yōu)秀,但是在利用其作為抽取任務(wù)的工具時卻需要ChatGPT 輸出固定格式的內(nèi)容,因此使用固定的問題模版可以讓ChatGPT 在性能和輸出格式的準(zhǔn)確性上達到最優(yōu)的平衡。使用不同問題模版進行抽取的效果比較詳見本文3.2節(jié)。

        2.3.3 電詐領(lǐng)域知識圖譜的存儲

        在使用ChatGPT 完成文本的抽取任務(wù)后,需要使用Neo4j數(shù)據(jù)庫保存抽取到的事件、實體、關(guān)系、時間,形成可視化的知識圖譜。Neo4j是一種基于圖的數(shù)據(jù)庫,它能夠使用圖形數(shù)據(jù)模型來存儲和處理數(shù)據(jù),并支持Cypher 語句進行知識圖譜的修改查詢操作。圖5為構(gòu)建好的部分知識圖譜。

        圖5 構(gòu)建好的部分知識圖譜Fig.5 Part of constructed knowledge graph

        2.4 案件類型影響因子評估方法

        由于人力、物力等方面的限制,反詐需要針對最為緊要、造成經(jīng)濟損失最大、危害范圍最廣的進行著重宣傳,提高人民群眾的防范意識,因此需要對不同類型案件對案發(fā)趨勢和發(fā)案特征進行研究。由于各類案件要素,如案發(fā)時間、涉案金額、涉案事主人數(shù)等能夠較好地刻畫發(fā)案特征,借助知識圖譜存儲結(jié)構(gòu)化知識的形式可以對案件要素等實體進行快速統(tǒng)計分析。

        首先對案件要素通過相關(guān)分析法和因素分析法進行定性分析,即分析案件要素之間是否存在關(guān)系,案發(fā)時間、涉案金額、涉案事主數(shù)量三個因素如何體現(xiàn)同一案件類型的案件影響與發(fā)案特征。分析可得:涉案金額越多,證明此類案件詐騙手段較為奏效;涉案事主數(shù)量越多,證明此類詐騙方式對多數(shù)群眾較為通用;對案發(fā)時間這一因素來說,發(fā)案如果集中在某一特殊節(jié)點證明詐騙方式與特殊時間節(jié)點或特殊事件有關(guān),如果沒有明顯時間特征可能是詐騙手段的成功率受時間影響較小。

        其次將各類案件要素對案發(fā)趨勢和發(fā)案特征的作用具象化,抽象為具體權(quán)重數(shù)值。借助電信詐騙知識圖譜,分析案件類型與案件的各類實體,統(tǒng)計涉案金額、涉案事主人數(shù)、案發(fā)時間等各種案件要素,并且邀請反詐專家和警務(wù)人員以打分的方式為案件要素對案件影響的貢獻大小進行合理的賦值,將案件要素對案件影響抽象為具體的權(quán)重。

        隨后根據(jù)抽象的各類案件要素權(quán)重數(shù)值進行分析擬合,研究權(quán)重變化的客觀規(guī)律,確定案件要素對案發(fā)趨勢發(fā)案特征的影響因子計算方法,并對擬合的函數(shù)和客觀事實進行一致性檢驗。

        對專家打分權(quán)重進行極大似然估計和歸一化操作進行擬合,得出擬合函數(shù)展示權(quán)重變化趨勢如下:

        其中,ω是某一類型案件的綜合影響因子,n代表此案件類型的所有案件,ω1是涉案事主人數(shù)分因子,N代表涉案人數(shù),單位是“十人”,ω2是涉案金額分因子,A代表涉案金額,單位是“百萬元”,ω3是案發(fā)時間分因子,Δti是指某一案件案發(fā)時間至指定時間的時間差,單位為“年”,指定時間一般選擇為半年,β、λ是計算影響因子的超參數(shù),一般設(shè)為1。

        通過分析可得影響因子計算函數(shù)擬合效果較好,能夠展示出基本的變化趨勢:當(dāng)涉案金額與涉案事主人數(shù)越多時,影響因子越大,證明越應(yīng)當(dāng)被重視,可是當(dāng)金額和事主人數(shù)達到一定程度時,影響因子逐漸增長緩慢,且恒小于1,這樣能在一定程度減弱異常數(shù)據(jù)對評估案件的影響;對案發(fā)時間這一因素來說,當(dāng)案發(fā)時間越近時,影響因子越大,就某一具體案件類型而言,在半年時間范圍內(nèi),距離統(tǒng)計時間節(jié)點越近發(fā)生案件越多,影響因子越大,如果發(fā)生案件較多,且發(fā)案與時間關(guān)系不大,則其影響因子會收斂于平均值0.56,因為這一數(shù)值是影響因子計算公式在(0,0.5)這一區(qū)間的定積分平均值。

        3 實驗結(jié)果展示與分析

        計算ChatGPT 抽取到的結(jié)果和當(dāng)前抽取效果較好的無監(jiān)督知識抽取模型的準(zhǔn)確率、召回率、調(diào)和平均值F1,并對這些結(jié)果進行比較,分析結(jié)果。表1為數(shù)據(jù)集標(biāo)注后的實體、關(guān)系數(shù)量統(tǒng)計展示。

        表1 數(shù)據(jù)集標(biāo)注結(jié)果統(tǒng)計Table 1 Statistics of dataset labeling result

        3.1 評價標(biāo)準(zhǔn)

        在各類知識抽取過程中,被廣泛使用的評價指標(biāo)有準(zhǔn)確率、召回率以及調(diào)和平均值F1,知識抽取結(jié)果分類的正確與否共有四種組合,分別是:預(yù)測為正例的正樣本TP,預(yù)測為正例的負(fù)樣本FP,預(yù)測為負(fù)例的正樣本FN,預(yù)測為負(fù)例的負(fù)樣本TN,這四種關(guān)系能夠用混淆矩陣展示,表2為混淆矩陣展示。

        表2 混淆矩陣Table 2 Confusion matrix

        準(zhǔn)確率是指在預(yù)測為正例的樣本中,正樣本所占比例,計算公式如下:

        召回率是指在正樣本中,預(yù)測為正例所占的比例,計算公式如下:

        F1 是指用來衡量二分類模型精度的一種方法,這個指標(biāo)綜合了召回率和準(zhǔn)確率,并且可以設(shè)置準(zhǔn)確率和召回率所占的比重,以平衡當(dāng)準(zhǔn)確率和召回率沖突時的模型衡量方法,具體計算方法如下:

        3.2 ChatGPT抽取任務(wù)評估與不同模版選擇

        在前文中提到了使用ChatGPT 作為知識抽取工具時的3種不同問題模版,分別是:模版1粗略問答;模版2單輪詳細(xì)問答;模版3多輪詳細(xì)問答。雖然可以直觀感受出3 個模版的抽取效果,但是嚴(yán)謹(jǐn)起見,仍對不同模版的抽取效果進行了量化比較,具體結(jié)果見表3。

        表3 不同模板抽取結(jié)果統(tǒng)計Table 3 Statistics of different template extraction results 單位:%

        通過比較不同模版抽取文本內(nèi)容的準(zhǔn)確率、召回率以及調(diào)和平均值,能夠明顯看出,模版2、3 與模版1 相比,實體抽取F1 提升了超過14 個百分點,關(guān)系抽取F1 提升了超過48 個百分點,效果有顯著提升,這是因為在模版中增加了抽取的相關(guān)信息,給各類抽取任務(wù)提供了抽取范式,同時約束了抽取的結(jié)果,避免了同義詞不易歸一化的問題。關(guān)系抽取之所以能夠出現(xiàn)明顯提升,主要是因為對14 種關(guān)系類型進行了定義,在模版2、3 中對回答的內(nèi)容進行限制。根據(jù)對模版2 抽取結(jié)果和模版3 抽取結(jié)果的比較,可以看出使用多輪問答的形式具有一定優(yōu)勢,主要原因是在多輪問答中前面問題的答案可以作為下一個問題回答的提示,強化了回答邏輯,因此在接下來的比較中,使用模版3 抽取知識的準(zhǔn)確率進行比較。

        3.3 實體抽取結(jié)果展示

        因為電信詐騙領(lǐng)域?qū)I(yè)性較強,標(biāo)注數(shù)據(jù)較少,而且本文沒有使用標(biāo)注數(shù)據(jù)訓(xùn)練模型,所以比較模型主要選取部分無監(jiān)督模型和遠(yuǎn)程監(jiān)督模型對文本進行知識抽取,以比較各類方法的抽取效果。但是針對一些較為常見的非小樣本任務(wù),如人名識別、地點識別等,為進一步體現(xiàn)使用ChatGPT的先進性,使用較為成熟的實體抽取作為比較模型。

        3.3.1 實體抽取基線模型

        在實體抽取的子任務(wù)中,由于本文設(shè)計的是利用ChatGPT 完成抽取命名實體,文本中的命名實體主要包括詐騙犯、受害者、案發(fā)地點、涉案金額、交易媒介等,其中詐騙犯、受害者都是人名,案發(fā)地點是地名,因此可以使用較為成熟的中文人名、地名識別抽取模型作為對比模型,對ChatGPT而言,雖然抽取結(jié)果中展示了實體類型,即“詐騙犯:張某”這種數(shù)據(jù)類型,但是在計算識別準(zhǔn)確率時,不對詐騙犯和受害者兩種類型進行區(qū)分,統(tǒng)一計算是否識別正確人名,而具體人名對應(yīng)的是詐騙犯還是受害者可以通過關(guān)系抽取中的準(zhǔn)確率得出。

        在比較抽取效果時,本文選擇了在命名實體識別中表現(xiàn)良好的模型,使用部分標(biāo)注好的TFC 電信詐騙案例文本對已訓(xùn)練好的模型進行微調(diào),使各類模型在本文的數(shù)據(jù)集中能展現(xiàn)較好效果。參與比較的傳統(tǒng)深度學(xué)習(xí)模型具體包括:

        (1)Bi-LSTM-CRF模型[17]:此模型結(jié)合LSTM(long short-term memory networks)和CRF(conditional random fields)的優(yōu)點,既能夠?qū)W習(xí)到樣本到標(biāo)注之間的映射關(guān)系,同時還注意到了標(biāo)注之間的關(guān)系,這一模型通過開源數(shù)據(jù)集進行訓(xùn)練,以預(yù)測文本中文字對應(yīng)的標(biāo)簽,再根據(jù)標(biāo)簽提取出文本中實體,這一模型在諸多數(shù)據(jù)集中都取得了較好的效果,在很多命名實體識別的研究中,這一模型都被用作基線模型。

        (2)BERT-CRF模型[18]:此模型與Bi-LSTM-CRF原理類似,使用了BERT(bidirectional encoder representation from transformers)作為訓(xùn)練CRF的發(fā)射矩陣,在命名實體識別的相關(guān)研究中,都有不俗的表現(xiàn)。

        (3)FGN(fusion glyph network)模型[19]:這一模型融合字形網(wǎng)絡(luò)用于中文命名實體識別,并通過融合機制添加額外的交互信息,使用漢字內(nèi)部的信息輔助進行命名實體識別的任務(wù),此模型在諸多命名實體識別數(shù)據(jù)集中都取得了很好的效果。

        (4)LEMON(lexicon memory)模型[20]:這一模型基于片段對中文命名實體進行識別,增加了基于字典的記憶,并將漢字和單詞的特征結(jié)合起來,更好地表示特征,此方法在公開數(shù)據(jù)集上也都取得了較好的效果。

        (5)MECT(multi-metadata embedding based crosstransformer)模型[21]:這一模型基于多元數(shù)據(jù),利用漢字的結(jié)構(gòu)信息,更好地捕捉漢字的語義信息,來提高中文命名實體識別的性能。

        除了傳統(tǒng)的深度學(xué)習(xí)模型,還有許多類ChatGPT大語言模型,在一些任務(wù)中也表現(xiàn)出了較好的性能,因此本文也針對一些類ChatGPT 模型進行知識抽取的效果比較,對比的大語言模型包括:

        (1)華為盤古NLP大模型[22]:華為盤古的NLP大模型是超千億參數(shù)的中文預(yù)訓(xùn)練大模型,并且其更注重針對中文語言的優(yōu)化,兼顧自然語言的理解與生成能力,在多項任務(wù)中表現(xiàn)優(yōu)秀。

        (2)阿里通義千問大模型:阿里的通義大模型具有強大的語言理解能力,并融合多模態(tài)知識,從而提供高效的生成能力。

        為了避免因不同問答模版產(chǎn)生的抽取效果差異,對大模型的問答均采用模版3,在模版中盡可能引導(dǎo)模型生成正確答案。

        3.3.2 結(jié)果展示

        使用對比模型和使用ChatGPT 作為工具抽取實體的效果如表4。

        表4 各類實體抽取方法結(jié)果展示Table 4 Display of results of various entity extraction methods 單位:%

        通過將ChatGPT 作為工具抽取實體的效果與較為成熟、效果較好的深度學(xué)習(xí)模型進行比較,發(fā)現(xiàn)效果近似,在公安一線電信詐騙案件中,ChatGPT 的抽取效果略好于使用深度學(xué)習(xí)模型進行抽取的效果,F(xiàn)1 的值高了1.67 個百分點,這可能是因為在公安一線中收集到的電信詐騙案例口語化嚴(yán)重,深度學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)接受的是固定格式的文本,書面用語較多,對口語化文本不能完全做到普適,但是ChatGPT的訓(xùn)練數(shù)據(jù)較廣,不拘泥于表達方式,因此在收集到的一線案例文本中抽取結(jié)果沒有ChatGPT 好。其他如盤古、通義千問這類大語言模型在未經(jīng)訓(xùn)練的情況下完成抽取任務(wù)雖然也有較好的表現(xiàn),但是效果和ChatGPT相比,仍存在一定不足:在裁判文書網(wǎng)案例中,華為盤古模型的效果比ChatGPT 差2.24 個百分點,阿里通義千問模型的效果比ChatGPT 差1.85個百分點;在一線實戰(zhàn)案例中,華為盤古模型的效果比ChatGPT 差3.59 個百分點,通義千問的效果比ChatGPT 差1.58 個百分點。因此就實體抽取任務(wù)來看,選擇ChatGPT進行抽取效果較好。

        3.4 關(guān)系抽取結(jié)果展示

        3.4.1 關(guān)系抽取基線模型

        (1)GraphRel 模型[23]:這一模型是一種端到端的關(guān)系提取模型,使用圖卷積網(wǎng)絡(luò)(graph convolutional networks,GCN)聯(lián)合學(xué)習(xí)命名實體和關(guān)系,其構(gòu)建了一個線性從屬結(jié)構(gòu)提取文本的順序特征和區(qū)域特征。

        (2)CopyRL 模型[24]:這一模型針對其他模型中沒有考慮句子中關(guān)系事實提取順序的問題,將強化學(xué)習(xí)應(yīng)用到一個序列到序列的模型中,取得了較好的關(guān)系抽取效果。

        (3)CASREL模型[25]:即層疊式指針網(wǎng)絡(luò)(CASREL)模型,它主要解決重疊三元組問題,即同一句子中的多個關(guān)系三元組共享相同的實體。其引入了一種新的視角來重新審視關(guān)系三元組提取任務(wù),并提出了一種新的級聯(lián)二進制標(biāo)記框架(CASREL)。不將關(guān)系視為離散標(biāo)簽,而是將關(guān)系建模為將主題映射到句子中的對象的函數(shù),實驗表明,此模型在關(guān)系抽取中也取得了較好的效果。

        為了減少訓(xùn)練數(shù)據(jù)集對模型效果的影響,可以使用部分標(biāo)注數(shù)據(jù)對模型進行微調(diào),以適配除了傳統(tǒng)人工智能深度學(xué)習(xí)模型,本文還對華為盤古、阿里通義千問兩種大語言模型的關(guān)系抽取效果進行測試,并與ChatGPT的抽取效果進行比對。

        3.4.2 結(jié)果展示

        使用對比模型和使用ChatGPT 作為工具抽取關(guān)系的效果如表5。

        表5 各類關(guān)系抽取方法結(jié)果展示Table 5 Display of results of various relationship extraction methods 單位:%

        根據(jù)表5中數(shù)據(jù)進行分析,可以直觀看出大語言模型在關(guān)系抽取任務(wù)中效果好于深度學(xué)習(xí)模型,這主要是由于在使用大語言模型進行抽取時,問題模版中約束了可能出現(xiàn)的關(guān)系類型,另外由于小樣本的限制,即使使用部分標(biāo)注數(shù)據(jù)對深度學(xué)習(xí)模型進行了微調(diào),模型仍然無法在電信詐騙案例文本語料中表現(xiàn)完整的效果;就相同模型的抽取效果而言,對裁判文書網(wǎng)案例文本的抽取好于對一線實戰(zhàn)案例文本抽取的效果,主要是因為裁判文書網(wǎng)文本的語言較為規(guī)范,隱式關(guān)系較少;在大語言模型中,ChatGPT的抽取效果與其他兩種模型相比,F(xiàn)1 值均高出超過5個百分點。

        綜合各類深度學(xué)習(xí)模型、大語言模型、ChatGPT進行實體抽取和關(guān)系抽取的效果,可以得出使用ChatGPT構(gòu)建知識圖譜的精度較高的結(jié)論,而且使用ChatGPT構(gòu)建知識圖譜成本較低,優(yōu)越性明顯。

        3.5 影響因子評估

        在確定好各類案件類型的影響因子計算方式之后,需要證明其可行性和準(zhǔn)確性。本文對七類電信詐騙的影響因子根據(jù)收集到的資料進行了計算,并繪制了影響因子變化折線圖,對2020 年至2023 年的不同詐騙類型案件以半年為單位時間,從2020 年1月起進行統(tǒng)計分析,金額影響因子和事主人數(shù)影響因子的參數(shù)β、λ均選取為1,統(tǒng)計各類影響因子并進行展示。圖6~圖9 分別展示了各類型案件各分影響因子和綜合影響因子的時間變化趨勢,圖中橫坐標(biāo)為時間節(jié)點,2020.1 代表2020 年1 月1 日,2020.6代表2020年6月30日,縱坐標(biāo)為影響因子大小。

        圖6 各類型案件案發(fā)時間影響因子隨時間變化趨勢Fig.6 Time-varying trend of time of occurrence of various types of cases

        圖7 各類型案件涉案金額影響因子隨時間變化趨勢Fig.7 Time-varying trend of amount involved in various types of cases

        圖8 各類型案件涉案事主人數(shù)影響因子隨時間變化趨勢Fig.8 Time-varying trend of the number of victims involved in various types of cases

        圖9 各類型案件綜合影響因子隨時間變化趨勢Fig.9 Time-varying trend of comprehensive impact factors of various types of cases

        根據(jù)影響因子的變化趨勢圖進行分析,可以準(zhǔn)確了解電信詐騙各個詐騙手段的變化與發(fā)展。

        根據(jù)各類影響因子及其綜合分析,利誘類案件的案發(fā)時間影響因子集中在0.56 附近,這說明在廣泛樣本下,利誘類案件幾乎持續(xù)發(fā)生,而且利誘類的涉案金額和涉案事主人數(shù)影響因子持續(xù)保持極高的水平,均接近1。

        購物類案件的涉案金額和涉案事主人數(shù)影響因子呈現(xiàn)類似于弧形的形狀,在2020 年初和2022 年末呈現(xiàn)較高的影響因子,出現(xiàn)這類現(xiàn)象的主要原因是在2020 年初和2022 年末由于新冠疫情,出現(xiàn)大量虛假販賣口罩、防護服等防護措施的購物類詐騙案件,在其余時間購物類詐騙發(fā)生較少。

        仿冒身份類案件從涉案金額和涉案事主人數(shù)兩方面看,在2021年年中前,涉案金額和涉案事主相對較多,但是自2021年年中后,隨著公安民警的反詐宣傳,民眾對于此類詐騙方式套路的熟悉,防范意識的提高,此類詐騙手段較難奏效,因此涉案金額和涉案事主人數(shù)也同樣有所下降;從案發(fā)時間這一因素分析,可以發(fā)現(xiàn)此類案件的案發(fā)時間這一因素具有周期規(guī)律性,分析其內(nèi)在原因為:“6.18”與“11.11”這兩個購物時間節(jié)點,是冒充為客服、快遞服務(wù)人員等購物相關(guān)身份的高發(fā)時期,由于“6.18”距離統(tǒng)計截止時間6月30日比“11.11”距離統(tǒng)計截止時間1月1日近,案件時間影響因子出現(xiàn)前半年比后半年高,但是都高于定積分平均值0.56的情況。

        虛構(gòu)險情類、釣魚木馬類、日常消費類三種案件類型,由于案件樣本較少,根據(jù)案發(fā)時間的影響因子可以看出波動較大,數(shù)據(jù)隨機性較強。從涉案金額和涉案事主人數(shù)兩個因素分析,虛構(gòu)險情類上當(dāng)受騙的事主人數(shù)較多,結(jié)合實際分析,此類犯罪手段針對的多是老年人,利用老年人愛護孩子的心理實施詐騙,釣魚木馬類的涉案事主雖然人數(shù)較少,但是針對的大部分是公司高管、企業(yè)主等,因此涉案金額較多。

        根據(jù)影響因子分析,可以看出其他新型違法類在2021 年初時,在涉案金額和涉案事主人數(shù)兩方面出現(xiàn)了較為明顯的增長,而且案發(fā)時間影響因子也從原來的變化較大收斂在0.56 附近。究其原因,主要是因為自2021年起,裸聊詐騙案件頻發(fā),給人民群眾的財產(chǎn)安全帶來了極大的威脅。

        根據(jù)各類影響因子綜合分析,可以制定針對性的反詐措施,例如針對高發(fā)頻繁,給人民群眾帶來極大經(jīng)濟損失的利誘類案件,可以加大宣傳力度,做好反詐措施;針對老年人易上當(dāng)受騙的虛構(gòu)險情類詐騙方式,可以對其進行定點反詐宣傳,防患于未然;針對各類精英人士經(jīng)常中招的釣魚木馬類詐騙方式,可以通過對其宣傳常見木馬的傳播方式進行詐騙方式的根源阻斷;在出現(xiàn)緊俏資源短缺時,需要對人民群眾針對性地進行購物類詐騙的反詐宣傳,提醒群眾們購買緊俏物品時認(rèn)準(zhǔn)正式資質(zhì),不貪圖小便宜,謹(jǐn)防電信詐騙。綜合來看,需要針對當(dāng)前案發(fā)較多,造成損失較大的利誘類與其他新型違法類電信詐騙進行常態(tài)化反詐宣傳,及時關(guān)注重點人群的資金流動與社交信息;針對其他詐騙類型,應(yīng)當(dāng)注意其發(fā)案的規(guī)律性,及時預(yù)計犯罪分子的犯罪手段,提出反制防范措施。

        4 總結(jié)與展望

        4.1 總結(jié)

        本文通過使用ChatGPT 的強大語言理解能力,處理電信詐騙案件的相關(guān)文本,完成數(shù)據(jù)預(yù)處理、電信詐騙領(lǐng)域知識圖譜構(gòu)建等工作,并根據(jù)構(gòu)建的電信詐騙領(lǐng)域案件圖譜,對各類詐騙方式進行發(fā)案時間、涉案金額、涉案事主人數(shù)等因素的綜合研判,以便做出針對性的反詐宣傳決策。

        本文提出的使用ChatGPT 進行數(shù)據(jù)預(yù)處理和知識抽取以完成知識圖譜的構(gòu)建方法,與傳統(tǒng)的訓(xùn)練深度學(xué)習(xí)模型完成構(gòu)建任務(wù)相比,不需要標(biāo)注訓(xùn)練數(shù)據(jù),減少了因?qū)I(yè)領(lǐng)域語料不足而訓(xùn)練深度學(xué)習(xí)模型不夠理想的問題,而且對語料較少的電信詐騙領(lǐng)域而言,使用通用語言模型部署更為快速,不需要利用深度學(xué)習(xí)的方法對模型進行訓(xùn)練,避免了耗費大量的時間和資源,為及時研判電信詐騙案件的趨勢,針對性提出反詐措施,做好群眾反詐工作提供了可能。而且使用ChatGPT 完成少樣本數(shù)量下的各類文字處理與理解工作給解決公安等特殊垂直領(lǐng)域需求提供了一種可能的解決方法。

        另外,本文還針對當(dāng)前電信詐騙案件高發(fā)的形式,提出根據(jù)案發(fā)時間、涉案金額、涉案事主人數(shù)三個因素研判反詐策略的方法,提出影響因子以判斷不同案件類型的發(fā)案趨勢,根據(jù)影響因子可以針對性地提出反詐措施,以實現(xiàn)對資源的分配優(yōu)化,提高反詐工作效率,提高公眾對較為廣泛詐騙類型的認(rèn)知和防范意識。

        4.2 展望

        本文同樣存在一些局限,在使用ChatGPT 完成數(shù)據(jù)預(yù)處理、構(gòu)建知識圖譜的過程中,雖然使用了不同的模版進行嘗試,但是離完全利用通用語言模型的強大語言能力仍然存在一定距離;另一方面,使用ChatGPT仍然依賴于輸入的數(shù)據(jù),針對專業(yè)的電信詐騙文本領(lǐng)域而言,抽取知識的準(zhǔn)確率依舊受其本身語料的質(zhì)量、覆蓋范圍和相關(guān)性限制。而且使用ChatGPT完成知識抽取,生成的都是自由形式的自然語言,缺乏結(jié)構(gòu)化的固定文本,即使對輸出格式在問題模版中做了要求,提取到的知識也仍存在部分冗余,需要再次進行清洗和處理。

        而且使用ChatGPT 處理文本還存在著一些原生性風(fēng)險。由于訓(xùn)練數(shù)據(jù)的限制以及實現(xiàn)ChatGPT 的細(xì)節(jié)并未公開,使用ChatGPT 處理文本會導(dǎo)致潛在偏見與傾向性。為了解決這類問題,可以在后續(xù)研究中建立多樣化的訓(xùn)練數(shù)據(jù),引入人工干預(yù)和監(jiān)督機制,并加強審查機制,以確保根據(jù)案件文本內(nèi)容生成更為準(zhǔn)確的知識圖譜,避免因偏見對犯罪的判斷產(chǎn)生影響。另外,使用ChatGPT處理數(shù)據(jù)時,即使已經(jīng)對案例文本數(shù)據(jù)進行了脫密處理,但是仍然存在著數(shù)據(jù)泄露的風(fēng)險與可能。在今后的研究中,可以在數(shù)據(jù)脫密處理以及模型本地部署等方面進行研究,以減少數(shù)據(jù)泄露的風(fēng)險。

        除了在構(gòu)建知識圖譜中存在局限性,在利用知識圖譜對電信詐騙不同類型案件進行分析研判時,本文方法也同樣存在一定的局限性,由于對案件的相關(guān)分析受限于語料的質(zhì)量與數(shù)據(jù)的體量,導(dǎo)致分析影響因子變化趨勢僅能得出部分廣泛性結(jié)論,針對具體地點、具體時間節(jié)點的不同案件影響力分析仍存在不足,而且在得到案件影響力的變化趨勢之后,仍然需要進行人為分析,反詐決策的研判與分析仍存在一定主觀因素。因此在后續(xù)的研究中,可以增強分析數(shù)據(jù)的深度,對某一具體地點的案件文本進行分析處理,深入挖掘電信詐騙的犯罪手段變化趨勢,更具有針對性地提出電信詐騙防范預(yù)防措施;同時也可以擴大分析數(shù)據(jù)的廣度,發(fā)現(xiàn)更廣泛、更具有代表性的犯罪方式變化趨勢,盡早預(yù)測犯罪分子的犯罪手段,提前進行反制。除此之外,還可以對分析數(shù)據(jù)的方法進行完善,當(dāng)前的分析仍是基于案件影響力的評估進行人工分析,在后續(xù)研究中,可以在案件影響力評估的基礎(chǔ)上自動分析案件變化趨勢,利用智能算法發(fā)現(xiàn)隱藏規(guī)律,更好地打擊犯罪。

        猜你喜歡
        反詐語料詐騙
        反詐公益廣告
        法人(2023年9期)2023-12-01 14:50:14
        “反詐”雞蛋 為何上熱搜
        “反詐宣講員被騙18萬元”更具警示性
        “反詐宣講員被騙”更具警示性
        人民周刊(2021年11期)2021-07-09 08:28:38
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        合同詐騙
        電信詐騙
        擦亮雙眼,謹(jǐn)防招生詐騙
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        特级无码毛片免费视频尤物| 日韩三级一区二区不卡| 亚洲av高清一区二区在线观看| 国产黑色丝袜在线看片| 内射中出日韩无国产剧情| 正在播放强揉爆乳女教师| 爽爽精品dvd蜜桃成熟时电影院| 日日躁夜夜躁狠狠久久av| 真正免费一级毛片在线播放| 亚洲国产精品ⅴa在线观看| 精品人妻伦九区久久aaa片69| 亚洲爆乳无码专区| 亚洲精品理论电影在线观看| 精品久久久久久国产潘金莲| 免费观看在线一区二区| 精品一区二区三区a桃蜜| 青青草狠吊色在线视频| 色婷婷综合久久久中文字幕| 久久精品国产视频在热| 日韩精品一区二区亚洲av| 2021国产精品视频| 欧美成人网视频| 久亚洲精品不子伦一区| 伊人久久大香线蕉av不变影院| 国产精品中文久久久久久久| 午夜一区欧美二区高清三区| 国产手机在线αⅴ片无码| 一区二区三区国产偷拍| 国产精品伦理久久一区| 潮喷失禁大喷水aⅴ无码| 国产97在线 | 免费| 午夜福利不卡无码视频| 精品一区二区亚洲一二三区| 久久亚洲精品情侣| 另类老妇奶性生bbwbbw| 麻豆变态另类视频在线观看| av毛片一区二区少妇颜射| 91色综合久久熟女系列| 制服丝袜中文字幕在线| 亚洲影院丰满少妇中文字幕无码| 久久er这里都是精品23|