亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)詐騙信息垂直搜索引擎的設(shè)計與實現(xiàn)

        2017-12-08 03:16:26傅澤田
        計算機(jī)應(yīng)用與軟件 2017年11期
        關(guān)鍵詞:網(wǎng)頁輿情詐騙

        胡 亮 傅澤田

        1(江西警察學(xué)院 江西 南昌 330000) 2(中國農(nóng)業(yè)大學(xué) 北京 100084)

        網(wǎng)絡(luò)詐騙信息垂直搜索引擎的設(shè)計與實現(xiàn)

        胡 亮1傅澤田2

        1(江西警察學(xué)院 江西 南昌 330000)2(中國農(nóng)業(yè)大學(xué) 北京 100084)

        針對國內(nèi)網(wǎng)絡(luò)詐騙中犯罪人與受害人的信息不對稱問題,基于主題信息采集與信息過濾技術(shù),構(gòu)建一個基于垂直搜索引擎技術(shù)的網(wǎng)絡(luò)詐騙信息檢索與輿情預(yù)警服務(wù)平臺IFI-TSE(Internet Fraud Information Topic Search Engine)。測試結(jié)果表明,相對傳統(tǒng)的通用搜索引擎,在檢索詐騙信息方面該平臺的平均檢索準(zhǔn)確率達(dá)到了比較高的水平。同時個性化檢索可以為用戶提供一定程度的預(yù)警信息,不僅可以為公共用戶提供高效的網(wǎng)絡(luò)詐騙數(shù)據(jù)檢索,而且還可以通過統(tǒng)計分析網(wǎng)絡(luò)詐騙大數(shù)據(jù)挖掘其包含的詐騙行為過程,為社會安全管理部門提供網(wǎng)絡(luò)詐騙輿情預(yù)警報告。

        網(wǎng)絡(luò)詐騙 垂直搜索引擎 信息檢索 信息過濾

        0 引 言

        網(wǎng)絡(luò)詐騙是以非法占有為目的,利用互聯(lián)網(wǎng)采用虛擬事實或者隱瞞事實真相的方法,騙取數(shù)額較大的財物的行為[1]。網(wǎng)絡(luò)詐騙是當(dāng)前網(wǎng)絡(luò)犯罪的主要表現(xiàn)形式,并呈現(xiàn)出組織形式集團(tuán)化、作案手法黑客化、危害程度劇增化、波及群體擴(kuò)大化、涉及范圍大眾化的特點。2013年根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心的研究報告數(shù)據(jù)統(tǒng)計,網(wǎng)絡(luò)詐騙等產(chǎn)業(yè)估計有160萬人從業(yè)者,涉及詐騙金額超過1 100億元,在過去半年內(nèi)有將近4.38億的中國網(wǎng)民遇到過網(wǎng)絡(luò)詐騙問題[2-3]。中國電子商務(wù)協(xié)會發(fā)布的《2012年中國網(wǎng)站可信驗證行業(yè)發(fā)展報告》顯示,中國網(wǎng)民總數(shù)達(dá)到5.13億,在有網(wǎng)購經(jīng)歷的網(wǎng)民中,31.8%曾直接遭遇詐騙網(wǎng)站,每年因網(wǎng)絡(luò)詐騙造成的損失不低于308億元[4]。可見,在當(dāng)前網(wǎng)絡(luò)普及發(fā)展的背景,在國內(nèi)網(wǎng)絡(luò)詐騙犯罪日益嚴(yán)重,給國家與社會造成了巨大的損失,嚴(yán)重?fù)p害了人民群眾的利益,極大地降低了網(wǎng)絡(luò)誠信度,社會危害性極大。

        網(wǎng)絡(luò)有其自身的特性,比如網(wǎng)絡(luò)開放的平等性、管理方式的非中心性、信息傳輸?shù)募磿r性與不確定性、時空的壓縮性等,其體系的復(fù)雜性展也導(dǎo)致了網(wǎng)絡(luò)詐騙的形式越來越多,越來越復(fù)雜。因此,有必要對網(wǎng)絡(luò)詐騙犯進(jìn)行認(rèn)真的分析研究,歸納其方法與特點,找出防范與打擊網(wǎng)絡(luò)詐騙犯罪的對策。據(jù)研究發(fā)現(xiàn),網(wǎng)絡(luò)詐騙犯罪中犯罪人與受害人知識不對稱因素是網(wǎng)絡(luò)詐騙得逞的重要因素之一[1,3]。網(wǎng)絡(luò)詐騙犯罪人具有好逸惡勞、貪得無厭、冒險僥幸等心理,但同時他們的知識水平較高、創(chuàng)新學(xué)習(xí)能力強(qiáng),對計算機(jī)與網(wǎng)絡(luò)的特性了解比較全面,具有很強(qiáng)的計算機(jī)與網(wǎng)絡(luò)技術(shù)能力。他們所設(shè)計的具有較高技術(shù)含量的詐騙活動使相對缺乏計算機(jī)基礎(chǔ)知識與互聯(lián)網(wǎng)技術(shù)的人極容易受騙上當(dāng)。而在受害人中一部分是年紀(jì)較小、涉世未深的網(wǎng)民,由于社會經(jīng)驗少而極易受騙。另一部分人是老年人,他們對新生事物缺乏了解,容易受到犯罪分子的蒙騙而落入網(wǎng)絡(luò)詐騙的陷阱[6-7]。

        從現(xiàn)有的文獻(xiàn)分析,網(wǎng)絡(luò)詐騙預(yù)防方法的研究主要集中在以下幾個方面:

        (1) 立法角度:對于網(wǎng)絡(luò)詐騙等網(wǎng)絡(luò)犯罪,國外都有相應(yīng)的法律規(guī)定,或獨立立法,或在刑法中規(guī)定單獨的篇章。比如:美國制定的《反計算機(jī)詐騙和濫用法案》;法國1993年的《刑法》就有了有關(guān)計算機(jī)犯罪的規(guī)定。在國內(nèi),針對我國現(xiàn)有的法律,結(jié)合網(wǎng)絡(luò)詐騙的特征,借鑒國外經(jīng)驗來完善網(wǎng)絡(luò)立法,不僅有助于打擊犯罪,也是網(wǎng)絡(luò)詐騙司法預(yù)防的基礎(chǔ)[9]。在刑法條文中規(guī)定專門的網(wǎng)絡(luò)詐騙罪罪名,作為新的一章,將關(guān)于利用金融信用卡詐騙犯罪、利用計算機(jī)系統(tǒng)犯罪及合同詐騙罪等均以網(wǎng)絡(luò)為工具但犯罪客體有所差異的犯罪形式規(guī)定于網(wǎng)絡(luò)犯罪,從而較好地梳理網(wǎng)絡(luò)犯罪的定罪量刑體系。2001年11月23日,為加強(qiáng)反網(wǎng)絡(luò)犯罪的國際合作,美日及歐盟正式通過了全球第一個國際性的《網(wǎng)絡(luò)犯罪公約》。公約在犯罪主體和犯罪管轄、證據(jù)收集保護(hù)等方面作了規(guī)定,這對我國相關(guān)法律的修改與制定有一定的參考價值[6]。

        (2) 執(zhí)法角度:1992年,為打擊網(wǎng)絡(luò)詐騙,美國建立了《網(wǎng)絡(luò)欺詐動議》,其采取了兩大司法舉措:一是采取聯(lián)邦犯罪訴訟,二是采取因特網(wǎng)欺詐創(chuàng)制舉措與因特網(wǎng)欺詐投訴中心[7]。其實質(zhì)就是國家綜合打擊網(wǎng)絡(luò)詐騙,通過建立專門的受理機(jī)構(gòu)處理案件,培訓(xùn)專門的偵查人員調(diào)查案件,專門的人員負(fù)責(zé)分析犯罪,制定預(yù)防措施等。而我國采取了是建立專門的機(jī)構(gòu)與培訓(xùn)專門的人員處理案件,地方與中央的聯(lián)手打擊網(wǎng)絡(luò)詐騙的機(jī)制。

        (3) 社會角度:這方面主要是研究各行業(yè)共同反詐騙的社會聯(lián)動機(jī)制[8]。2013年6月25日,阿里巴巴曾與騰訊、百度、新浪、亞馬遜中國等21家互聯(lián)網(wǎng)企業(yè)在公安部指導(dǎo)下,發(fā)起成立“互聯(lián)網(wǎng)反欺詐委員會”,形成電子商務(wù)生態(tài)圈“聯(lián)防聯(lián)打”的戰(zhàn)略合作框架。2013年12月26日,騰訊公司聯(lián)合廣東省公安廳、中國互聯(lián)網(wǎng)協(xié)會、銀監(jiān)局、銀行協(xié)會、三大運(yùn)用商、世紀(jì)佳緣、去哪網(wǎng)等政府組織、企業(yè)共同發(fā)起了國內(nèi)首個反信息詐騙聯(lián)盟,旨在動員社會力量共同參與。

        (4) 技術(shù)角度:這方面研究主要利用信息技術(shù)構(gòu)建網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫,通過數(shù)據(jù)分析為用戶提供預(yù)警支持[4]。2001年美國聯(lián)邦貿(mào)易委員會(FTC)設(shè)計了一種偵察與打擊網(wǎng)上詐騙的工具,與12個國家合作建立一個統(tǒng)一的數(shù)據(jù)庫,將各種詐騙信息匯聚在數(shù)據(jù)庫,并采取相關(guān)措施防止消費者再成為類似詐騙活動的受害者。它一方面可以為司法機(jī)關(guān)破案提供線索, 另一方面可最大程度地讓網(wǎng)民免于被騙。根據(jù)這些國家達(dá)成的協(xié)議,各國的執(zhí)法部門均可以通過登陸一個設(shè)有密碼的統(tǒng)一網(wǎng)站進(jìn)入上述數(shù)據(jù)庫,獲取相關(guān)信息。在國內(nèi),2011年,騰訊、百度、金山聯(lián)合宣布共建中國最大的反欺詐網(wǎng)址數(shù)據(jù)庫,為用戶提供虛假網(wǎng)購信息的檢索服務(wù)。

        本研究從網(wǎng)絡(luò)詐騙犯罪中犯罪人與受害人知識不對稱的角度出發(fā),以網(wǎng)絡(luò)詐騙信息資源為研究對象,利用數(shù)據(jù)采集與抽取技術(shù)構(gòu)建跨平臺、跨機(jī)構(gòu)的大型網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫,擬研究實現(xiàn)一個基于垂直搜索引擎技術(shù)的網(wǎng)絡(luò)反詐騙輿情數(shù)據(jù)檢索與預(yù)警服務(wù)平臺。本研究不僅考慮在從理論角度上體現(xiàn)學(xué)術(shù)價值意義,而且在技術(shù)模式上要有所突破,實現(xiàn)一個高性能、可靠性、可用性與行業(yè)標(biāo)準(zhǔn)化的網(wǎng)絡(luò)反詐騙輿情數(shù)據(jù)庫及檢索平臺。未來將通過與相關(guān)的項目來推廣研究成果,使得其應(yīng)用價值得到充分體現(xiàn)。研究成果將不僅可以為公共用戶提供網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)檢索,披露網(wǎng)絡(luò)詐騙犯罪的新形式,降低用戶被詐騙的風(fēng)險,增強(qiáng)安全性,使公眾在虛擬的網(wǎng)絡(luò)空間中,對詐騙分子在網(wǎng)絡(luò)上設(shè)置的陷阱保持高度警惕,以增強(qiáng)其自我保護(hù)的意識、能力與水平,而且還可以通過統(tǒng)計分析大規(guī)模的詐騙輿情數(shù)據(jù)挖掘其包含的詐騙行為過程,為公安等社會安全管理部門提供精確細(xì)致的網(wǎng)絡(luò)詐騙輿情分析報告與輔助決策支持,借以提高預(yù)防詐騙犯罪的工作效率。

        1 系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)研究

        IFI-TES是從互聯(lián)網(wǎng)上采集網(wǎng)站詐騙相關(guān)主題的網(wǎng)頁,存儲到索引文件,通過檢索接口為用戶提供網(wǎng)絡(luò)詐騙輿情信息服務(wù)。其系統(tǒng)架構(gòu)主要包含信息采集、信息抽取、文件索引與信息檢索等模塊,如圖1所示。

        圖1 IFI-TSE系統(tǒng)架構(gòu)圖

        1.1 網(wǎng)絡(luò)詐騙數(shù)據(jù)來源與采集技術(shù)

        由于網(wǎng)絡(luò)詐騙信息數(shù)量較大,數(shù)據(jù)常在某個季節(jié)產(chǎn)生爆發(fā)式增長,具有季節(jié)性與暴發(fā)性等特點,造成了信息量在一些節(jié)點突增與區(qū)域性集中的現(xiàn)象。對網(wǎng)絡(luò)詐騙信息的采集工作帶來了壓力與困難,是網(wǎng)絡(luò)詐騙信息采集時需要考慮的重要因素。網(wǎng)絡(luò)詐騙信息最主要的來源是媒體報道的網(wǎng)絡(luò)詐騙新聞(Datat.IFN)以及網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC),其次是公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(Data.IFPD)[3-5],具體見表1。

        表1 網(wǎng)絡(luò)詐騙數(shù)據(jù)來源對比

        據(jù)估計,媒體報道的網(wǎng)絡(luò)詐騙新聞數(shù)據(jù)量大約300萬數(shù)量級左右,網(wǎng)絡(luò)詐騙投訴相關(guān)信息就更多了。根據(jù)模型預(yù)測大概在800萬數(shù)量級,公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫數(shù)據(jù)量約150萬數(shù)量級左右,其他還有一些數(shù)據(jù)來自一些公益打假網(wǎng)站,估計數(shù)量大概100萬數(shù)量級左右。如圖 2所示。

        圖2 網(wǎng)絡(luò)詐騙數(shù)據(jù)來源

        從網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)所屬的省份來看,地域分布不均衡,網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)分布與地域顯著相關(guān),其中北京、上海、廣州、浙江、江蘇等東部沿海地區(qū)經(jīng)濟(jì)富裕、網(wǎng)絡(luò)建設(shè)發(fā)達(dá),網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)量明顯偏高。而經(jīng)濟(jì)落后的西部地區(qū)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)量相對偏少。

        1) 媒體報道的網(wǎng)絡(luò)詐騙新聞(Datat.IFN)

        本研究要采集的媒體報道的網(wǎng)絡(luò)詐騙新聞數(shù)據(jù)是包含網(wǎng)絡(luò)詐騙信息的新聞網(wǎng)頁。首先選擇一些指定新聞網(wǎng)站作為初始URL入口,然后通過多線程技術(shù)采集網(wǎng)頁,同時提取出網(wǎng)頁包含的URL,添加到URL隊列,最后計算抓取新聞網(wǎng)頁與網(wǎng)絡(luò)詐騙樣本網(wǎng)頁的相關(guān)度,將高于設(shè)定閾值的網(wǎng)頁存儲到索引文件。

        Step1將URL種子加入未抓取隊列Q(k1,k2,…,kn);

        Step2如果未抓取隊列Q(k1,k2,…,kn)不為空則建立網(wǎng)頁抓取線程,否則跳至Step 6;

        Step3如果網(wǎng)頁未抓取則采集網(wǎng)頁,將網(wǎng)頁URL添加到已抓取隊列;

        Step4對網(wǎng)頁進(jìn)行過濾,刪除無關(guān)的HTML標(biāo)簽等干擾數(shù)據(jù);

        Step5提取網(wǎng)頁中包含的URL,加入未抓取隊列Q(k1,k2,…,kn),跳至Step 1;

        Step6退出線程。

        2) 網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)

        這部分?jǐn)?shù)據(jù)主要是一些專業(yè)投訴網(wǎng)站,其中包括官方性質(zhì)與個人性質(zhì)的網(wǎng)站,考慮數(shù)據(jù)質(zhì)量與可靠性,針對這兩種類型網(wǎng)站分別賦予不同的采集策略。相對來說,官方背景的投訴網(wǎng)站可信度更高,因此在本研究中基本全部采集,而個人主辦的投訴網(wǎng)站,采集策略則根據(jù)其網(wǎng)站的網(wǎng)站創(chuàng)辦時間Y與訪問量T來考慮。網(wǎng)站創(chuàng)辦時間越久與訪問量越大的網(wǎng)站則認(rèn)為公眾參與度與可信度越高,其中可信度R計算公式如下:

        (1)

        3) 公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(Data.IFPD)

        公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫由于是由各公安分局建設(shè)的,雖然部署的數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)結(jié)構(gòu)不完全相同,但基本上都是已經(jīng)加工處理的結(jié)構(gòu)化數(shù)據(jù)。信息通常包含詐騙主客體、詐騙日期、詐騙工具、詐騙流程及一些屬性描述。與一般網(wǎng)頁存在著明顯的不同,不需要經(jīng)過信息過濾,所以采集的時候主要考慮平臺的異構(gòu)性與兼容性,本研究利用XML數(shù)據(jù)接口從各種不同數(shù)據(jù)庫中采集數(shù)據(jù)。

        1.2 特定主題詐騙信息過濾與抽取技術(shù)

        由于采集的網(wǎng)絡(luò)詐騙網(wǎng)頁數(shù)據(jù)源來自不同的領(lǐng)域,其中公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(Data.IFPD)是結(jié)構(gòu)化的數(shù)據(jù)不需要再提煉處理,而媒體報道的網(wǎng)絡(luò)詐騙新聞(Data.IFN)與網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)是無固定數(shù)據(jù)結(jié)構(gòu)的網(wǎng)頁文本,其半結(jié)構(gòu)化的內(nèi)容不便于用戶檢索。因此需要將這兩類采集的網(wǎng)絡(luò)詐騙主題網(wǎng)頁進(jìn)一步處理,提取其包含的結(jié)構(gòu)化信息。這樣不僅能提高平臺的檢索性能,而且改進(jìn)平臺的檢索精度,需要對過濾與抽取技術(shù)進(jìn)行專門的分析優(yōu)化,加強(qiáng)對一些無關(guān)詞篩選、凈化、消重,進(jìn)一步提高抽取效率,為下一步索引查詢創(chuàng)造條件[16,18]。

        對于網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)來說,由于網(wǎng)站性質(zhì)已經(jīng)決定了其數(shù)據(jù)就是網(wǎng)絡(luò)詐騙主題的,所以采集時不需要計算網(wǎng)頁文本與網(wǎng)絡(luò)詐騙的主題相關(guān)度,在數(shù)據(jù)處理時只需要抽取結(jié)構(gòu)化數(shù)據(jù)。

        對于媒體報道的網(wǎng)絡(luò)詐騙新聞(Data.IFN)來說,由于是從各個不同的新聞網(wǎng)站采集,既包含網(wǎng)絡(luò)詐騙主題的新聞,也包括非詐騙主題的新聞,因此在信息抽取前需要對新聞文本進(jìn)行主題判斷計算,過濾非詐騙主題的新聞。針對媒體報道的網(wǎng)絡(luò)詐騙新聞(Data.IFN)的數(shù)據(jù)特點,本文提出一種網(wǎng)絡(luò)詐騙信息抽取模型,如圖3所示。

        圖3 網(wǎng)絡(luò)詐騙信息抽取模型

        首先用語義標(biāo)注樣本集{F1,F2,…,Fn}的網(wǎng)頁附加屬性,計算已標(biāo)注的樣本集網(wǎng)頁之間的相似度D(Fi,Fj)。然后將樣本集的網(wǎng)頁聚類為不同類別,利用正則表達(dá)式在同一類別中的網(wǎng)頁構(gòu)建具有最大相似性的網(wǎng)頁結(jié)構(gòu)作為網(wǎng)絡(luò)詐騙信息抽取模版。本研究采用類似文檔對象模型DOM的層次結(jié)構(gòu)表示網(wǎng)頁信息,CONTENT表示需提取的數(shù)據(jù),NODE等表示結(jié)點,分為P結(jié)點、DIV/SPAN節(jié)點與TABLE結(jié)點,記為LIST(x),表示多個x結(jié)點的集合。如圖4所示。

        圖4 網(wǎng)頁層次結(jié)構(gòu)

        包裝器Wrapper是一種基于規(guī)則的信息抽取方法,易于構(gòu)建,精度較高,適于半結(jié)構(gòu)化的文本。而本文研究的網(wǎng)絡(luò)詐騙信息包括Data.IFN、Data.IFC與Data.IFPD三類,主題都比較集中,Data.IFN是半結(jié)構(gòu)化的數(shù)據(jù)類型,Data.IFC是介于半結(jié)構(gòu)化與完全結(jié)構(gòu)化之間的數(shù)據(jù)類型,Data.IFPD則是完全結(jié)構(gòu)化的數(shù)據(jù)類型。因此本文研究利用Wrapper來構(gòu)建網(wǎng)絡(luò)詐騙信息抽取算法。在包裝器Wrapper實現(xiàn)過程中,網(wǎng)頁的相似度采用歐氏距離,計算公式如下:

        (2)

        定義1

        表達(dá)式是由泛化標(biāo)記、類正則表達(dá)式標(biāo)記或邏輯開關(guān)標(biāo)記組成的字符串,本研究用[0-9]、[A-Z]、[a-z]、[u4e00-u9fa5]分別表示HTML中數(shù)字標(biāo)記、小寫字母的文本、大寫字母、漢字的文本的泛化標(biāo)記。

        定義2

        設(shè)表達(dá)式字符串Re=Str1NodeStr2,若表達(dá)式Re的不包含開關(guān)/r,則Re匹配Str1是指匹配標(biāo)記在Str1中按順序出現(xiàn)不重復(fù)。對表達(dá)式Re=s1s2…sk,記O={(s1’s2’…sk’)|sj’=sj∨sj’=*∨sj’,j=1,2,…,k},設(shè)p1∈O1,p2∈O2,p1=s11s21…sk1,p2=s12s22…sk2,則p=p1+p2={s1’s2’…sk’|sj’=sj1+s2,j=1,2,…,k}。

        定義3

        設(shè)表達(dá)式字符串Re=Str1NodeStr2的表達(dá)式空間為RΩ,s1=p1/r∈RΩ,s2=p2/r∈RΩ,其中p1與p2∈O,則s=s1+s2=(p1+p2)/r。

        若表達(dá)式字符串Re識別Str1的子結(jié)點node,且Re與Str1∪Str2無關(guān),則稱R為S的表達(dá)式集R={r1,r2,…,rk},其中ri是S的子表達(dá)式。

        定義4

        設(shè)S包含n個子結(jié)點node1,node2,…,noden,如果nodei存在表達(dá)式集R,則對nodej從子表達(dá)式r1,r2,…,rn中查找,若存在ri包含匹配的子表達(dá)式,則匹配的位置是nodei的開始位置psj。

        定義5

        設(shè)r1,r2,…,rn分別為node1,node2,…,noden的表達(dá)式集,ps1,ps2,…,psn分別為node1,node2,…,noden的位置集,則Wrapper定義為{,,…,}。

        構(gòu)建Wrapper的算法具體實現(xiàn):創(chuàng)建列表List(i,j),查找最近的父標(biāo)簽節(jié)點Node(k),遍歷Node(k)中的子節(jié)點,遞歸調(diào)用查找節(jié)點n(k,j);如果節(jié)點n(k,j)與T中的特征模式匹配,則產(chǎn)生抽取結(jié)果集R;如果List(i,j)為空或者List(i,j)不為空而且List(i,j)不包含R,則將R加入列表List(i,j);如果i>1,則繼續(xù)遍歷,否則算法結(jié)束。具體流程如圖5所示。

        圖5 信息抽取算法流程圖

        1.3 基于K-NN的網(wǎng)絡(luò)詐騙信息自動分類模型

        對于媒體報道的網(wǎng)絡(luò)詐騙新聞(Data.IFN)、網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)與公安系統(tǒng)網(wǎng)絡(luò)詐騙輿情數(shù)據(jù)庫(Data.IFPD)網(wǎng)頁經(jīng)過信息抽取后的數(shù)據(jù)雖然基本上都屬于網(wǎng)絡(luò)詐騙相關(guān)的主題,但網(wǎng)絡(luò)詐騙的種類比較多,而且數(shù)據(jù)來源也比較復(fù)雜,檢索結(jié)果會比較亂,不方便用戶高效地查找所需的信息。所以有必要對信息抽取的數(shù)據(jù)進(jìn)行分類,提高用戶檢索效率,分類模型結(jié)構(gòu)如圖 6所示。

        圖6 分類模型結(jié)構(gòu)圖

        分類算法是文檔分類的關(guān)鍵部分,由于本文的分類對象是集中于網(wǎng)絡(luò)詐騙主題的網(wǎng)頁,數(shù)據(jù)領(lǐng)域性較強(qiáng),而且網(wǎng)頁主題區(qū)分度也較高,所以本文采用了K近鄰算法來實現(xiàn)分類。K近鄰算法的原理是將文本提取關(guān)鍵詞構(gòu)成向量,計算待分類文本向量與樣本集里文本類的歐式距離,選出其中最近的K個向量。然后找出K個近鄰所屬類別的多數(shù)向量,從而獲得待分類文本的類別。設(shè)樣本集{F1,F2,…,Fn},對于每個文本Fi表示成向量的形式(w1i,w2i, …,wki),其中wki是第i個文本的第k個特征,在K近鄰算法中使用信息增益來作為特征選擇標(biāo)準(zhǔn),特征頻率與反向文檔頻率作為權(quán)值函數(shù),余弦函數(shù)作為向量相似度度量,則計算公式如下:

        (3)

        分類算法具體實現(xiàn)如下:

        Step1構(gòu)造一個訓(xùn)練樣本集的相似度矩陣,設(shè)置未分類標(biāo)記向量Tag(k1,k2,…,kn);

        Step2對每個未分類樣本,獲得的所有鄰居里找到它的全局鄰居Ni,構(gòu)造表達(dá)式{S(di),N(di),R(di)},將Ni包含的樣本添加為已分類;

        Step3重復(fù)Step1與Step2,直到所有樣本都被設(shè)置為已分類;

        Step4對待分類文本dt,如果Δ(di,dj)≥S(dj),則將Δ(di,dj)t添加到Class(dj),則Class(dj)=Class(dj)+Δ(di,dj);

        Step5如果Class(p)={Class(di)|i=1,2,…,k},則將dt分類到p。

        1.4 基于查詢?nèi)罩镜脑p騙信息個性化檢索技術(shù)

        在檢索過程中用戶一般難以給出準(zhǔn)確的關(guān)鍵詞或者拼寫錯誤,比如“沖值”與“充值”、“匯款”與“回款”、“賬號”與“帳號”、“登陸”與“登錄”等,傳統(tǒng)可以通過詞典的方式解決,但是該方式需要手動添加新詞,不能自動校對新詞的拼寫錯誤。為了解決這個問題,考慮從用戶檢索詞歷史紀(jì)錄中尋找新詞,設(shè)有檢索詞word1,word2,…,wordn,每個檢索詞的查詢次數(shù)為search_count1,search_count2,…,search_countn,將word1,word2,…,wordn按檢索詞的查詢次數(shù)排序。通過統(tǒng)計拼寫錯誤檢索詞,可以看出高頻檢索詞很少有拼寫錯誤,拼寫錯誤詞一般都是低頻檢索詞,而這些低頻檢索詞經(jīng)??梢栽谟脩魴z索詞歷史紀(jì)錄里找到拼寫正確的高頻檢索詞,以檢索詞查詢次數(shù)為X軸,以檢索詞拼寫錯誤率為Y軸。如圖 7所示。這表明可以考慮利用檢索詞歷史紀(jì)錄的錯誤率低的高頻檢索詞與錯誤率高的低頻檢索詞之間的編輯距離來實現(xiàn)糾錯。

        圖7 檢索詞查詢次數(shù)與拼寫錯誤率的關(guān)系

        雖然可以考慮用高頻檢索詞來糾正拼寫錯誤,但這要求高頻檢索詞數(shù)量不能太多而影響系統(tǒng)性能,為此對高頻檢索詞進(jìn)行統(tǒng)計,將檢索詞根據(jù)查詢次數(shù)排列同時按順序編號,以檢索詞編號為X軸,以檢索詞查詢次數(shù)為Y軸。如圖 8所示。從圖中可以看出高頻檢索詞雖然比例不高,但查詢總次數(shù)卻超過了80%,這表明可以從高頻檢索詞中尋找新詞是可行的,不僅可以糾正拼寫錯誤的檢索詞而且可以解決新詞自動添加問題。

        圖8 關(guān)鍵詞檢索頻率對比

        另外,用戶通過信息檢索接口輸入需要查詢的關(guān)鍵詞,系統(tǒng)從數(shù)據(jù)庫中檢索正文以及附加屬性中包含關(guān)鍵詞的網(wǎng)頁。然后利用排序算法對檢索結(jié)果計算進(jìn)行排序,再將排序結(jié)果返回給用戶。由于本平臺的網(wǎng)絡(luò)詐騙信息都是經(jīng)過信息抽取后的數(shù)據(jù),其精度要明顯高于未經(jīng)處理的半結(jié)構(gòu)化網(wǎng)頁,考慮的排序算法更偏重于性能。所以本文采用TF*IDF算法用于排序,優(yōu)點是簡單快速,其中TF是指某一關(guān)鍵詞在一個網(wǎng)頁中出現(xiàn)的頻率,IDF是指包含該關(guān)鍵詞的網(wǎng)頁數(shù),則計算公式如下:

        (4)

        2 性能測試與評估

        2.1 網(wǎng)絡(luò)詐騙信息采集

        由于網(wǎng)絡(luò)詐騙信息數(shù)據(jù)在網(wǎng)絡(luò)上比較分散,本文設(shè)計了分布式采集,將收集的媒體報道的網(wǎng)絡(luò)詐騙新聞(Data.INF)與網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)網(wǎng)站存儲在中央服務(wù)器的URL隊列。將所有域名解析IP按地理位置分組,每個省行政區(qū)一組,共34個省級行政區(qū)域,包括23個省,5個自治區(qū),4個直轄市,以及香港、澳門2個特別行政區(qū)。系統(tǒng)網(wǎng)絡(luò)架構(gòu)如圖9所示。

        圖9 系統(tǒng)網(wǎng)絡(luò)架構(gòu)圖

        由于資源限制,我們只有5臺服務(wù)器(1臺中央服務(wù)器Central Server+4臺數(shù)據(jù)采集服務(wù)器Data Server),中央服務(wù)器不采集數(shù)據(jù),因此,每臺數(shù)據(jù)采集服務(wù)器平均要負(fù)責(zé)8組URL隊列。

        為設(shè)計系統(tǒng)達(dá)到較好的負(fù)載平衡,本文使用表 2分配站點地址給每個數(shù)據(jù)采集服務(wù)器,將單位時間采集的網(wǎng)頁數(shù)作為評價指標(biāo)。如果每個數(shù)據(jù)采集服務(wù)器在相同的時間內(nèi)采集的網(wǎng)頁數(shù)接近,則表示系統(tǒng)的負(fù)載平衡比較好。如圖 10所示。

        表2 數(shù)據(jù)采集區(qū)域

        圖10 系統(tǒng)負(fù)載平衡測試

        可以看出,4個數(shù)據(jù)采集服務(wù)器DS01-DS04在每次數(shù)據(jù)采集測試中收集的網(wǎng)頁數(shù)量都比較接近,基本達(dá)到了本平臺負(fù)載平衡的設(shè)計要求。在此基礎(chǔ)上,對500個網(wǎng)站抓取了3 503 029個網(wǎng)頁,其中媒體報道的網(wǎng)絡(luò)詐騙新聞(Data.INF)數(shù)據(jù)源網(wǎng)站115個與網(wǎng)絡(luò)詐騙投訴相關(guān)信息(Data.IFC)數(shù)據(jù)源網(wǎng)站385個。然后利用網(wǎng)絡(luò)詐騙詞典庫IFD(Internet Fraud Dictionary)計算每個網(wǎng)頁的詐騙主題相關(guān)度,從中篩選出與網(wǎng)絡(luò)詐騙高度相關(guān)的1 873 528個網(wǎng)頁。詳見表3。

        表3 Data.INF與Data.IFC網(wǎng)站測試數(shù)據(jù)

        2.2 網(wǎng)絡(luò)詐騙信息抽取

        由于采集的網(wǎng)頁數(shù)量高達(dá)百萬級,全部手工標(biāo)注后測試信息抽取算法的性能不太現(xiàn)實,因此從這些包含網(wǎng)絡(luò)詐騙信息的網(wǎng)頁中隨機(jī)選取了500、1 000、2 000、5 000、10 000個頁面(其中Data.INF與Data.IFC類型網(wǎng)頁各50%,而Data.IFPD類型網(wǎng)頁已經(jīng)是結(jié)構(gòu)化數(shù)據(jù)不需要信息抽取)作為將作為信息抽取測試數(shù)據(jù)集,對網(wǎng)頁進(jìn)行過濾與刪除干擾項。然后抽取網(wǎng)頁中包含的詐騙標(biāo)題(IF.Title)、詐騙主客體(IF.Object)、詐騙工具(IF.Tool,包括手機(jī)、QQ、微信號、郵箱、URL等)、詐騙內(nèi)容(IF.Content)與詐騙日期(IF.Date)等屬性。如表 4所示。在歸納學(xué)習(xí)中,各種類型文本都可以泛化為相應(yīng)的泛化標(biāo)記,如手機(jī)號可以用”1[1-9][1-9][0-9]{8}”來表示,電子郵箱可以用”[a-z]+@[a-z]+(.[a-z]*)*”來表示,日期可以用”[1-9][0-9]{3}-[0-9]{1,2}-[0-9]{1,2}”或”[1-9][0-9]{3}年[0-9]{1,2}月”來表示,”2016年5月江蘇高郵警方破獲新型刷單網(wǎng)絡(luò)詐騙案”可以用”([1-9][0-9]{3}年[0-9]{1,2}月)([u4e00-u9fa5]+)破獲([u4e00-u9fa5]*)網(wǎng)絡(luò)詐騙案”來表示,從父節(jié)點中提取各個子節(jié)點,關(guān)鍵是獲得子節(jié)點在父節(jié)點中開始與結(jié)束識別規(guī)則。

        表4 網(wǎng)絡(luò)詐騙信息抽取表格模板

        本文采用召回率與精度作為網(wǎng)絡(luò)詐騙信息抽取模型的評價標(biāo)準(zhǔn),RE表示召回率,PE表示精度,t1表示所有抽取出的正確信息數(shù),t2表示沒有抽取出的正確信息數(shù),f表示抽取出的錯誤信息數(shù),則計算公式如下:

        (5)

        其中:PE與RE存在反比關(guān)系,若PE增大時RE會減小,而PE減小時RE會增大。因此,在評價性能時會同時考慮PE與RE,比較常用的指標(biāo)為F:

        (6)

        在測試性能時,對500個網(wǎng)站抓取網(wǎng)頁,將包含網(wǎng)絡(luò)詐騙信息的網(wǎng)頁作為測試樣本集,對網(wǎng)頁進(jìn)行標(biāo)注后聚類,每類提取一個抽取模版。然后抽取網(wǎng)頁中包含的詐騙主客體與詐騙日期等屬性。雖然測試樣本集數(shù)越高有利于精度,但是對系統(tǒng)性能影響卻很大,因此有必要在不顯著降低系統(tǒng)性能的前提下,配置最優(yōu)的測試樣本集數(shù)。為了研究樣本頁在PE與RE的數(shù)量的影響,在10萬、20萬、30萬、40萬、50萬的測試樣本集條件下測試了PE與RE。測試結(jié)果如圖 11所示。

        圖11 網(wǎng)站詐騙信息抽取效果對比

        可以看出,算法的信息回收率與精度都比較好,平均都在0.8以上,隨著測試樣本集的網(wǎng)頁增加,雖然召回率與精度也同時增加,但在測試樣本網(wǎng)頁達(dá)到一定值后精度卻降低了,這表明測試樣本網(wǎng)頁不是越多越好。從測試結(jié)果看本平臺測試樣本集網(wǎng)頁的數(shù)量設(shè)置在30萬左右,可以實現(xiàn)良好的平衡。本文利用PHP腳本實現(xiàn)詐騙信息抽取算法,然后對5組網(wǎng)頁集進(jìn)行測試。如圖 12所示??梢钥闯?,本文算法的召回率與精度都比較高,而且F值也比較高,這主要因為相對通用信息抽取來說,網(wǎng)絡(luò)詐騙信息包含的主題詞具有高度集中的特點。

        圖12 網(wǎng)絡(luò)詐騙信息抽取測試

        在信息抽取算法性能方面,本文利用總時間與平均時間作為評價系統(tǒng)性能可擴(kuò)展性的指標(biāo),如表5所示。由于硬件條件限制,本文測試了8臺節(jié)點(普通PC機(jī),非服務(wù)器,Intel i5 2.4 GB CPU/4 GB內(nèi)存/1 TB機(jī)械硬盤/Windows Server 2003公安專用版),可以看出,隨著節(jié)點數(shù)的增加,系統(tǒng)對頁面的處理時間與加速比都接近線性增長,但在超過4個節(jié)點后加速比放緩。

        表5 系統(tǒng)性能的可擴(kuò)展性測試

        2.3 網(wǎng)絡(luò)詐騙信息分類

        首先刪除虛詞與數(shù)詞等干擾詞,利用詞典進(jìn)行語義擴(kuò)展,構(gòu)建文本向量,然后計算文本向量與樣本集的歐氏距離,選最近的K個向量確定分類,評價效果指標(biāo)計算公式如下:

        (7)

        其中:P表示平均查準(zhǔn)率,R表示平均查全率,T表示正確分類的文本向量,E表示錯誤分類文本向量,L表示未被分類文本向量,以樣本數(shù)為X軸,P或R為Y軸。基于K-NN算法的分類結(jié)果如圖13所示。

        圖13 不同樣本的分類比較

        2.4 網(wǎng)絡(luò)詐騙信息檢索

        本文對檢索的效果進(jìn)行了測試,選取與網(wǎng)絡(luò)詐騙相關(guān)的關(guān)鍵詞,通過系統(tǒng)檢索界面提交檢索,然后收集檢索結(jié)果,標(biāo)注檢索正確的信息。由于網(wǎng)站詐騙領(lǐng)域的特殊性,其關(guān)鍵詞比較集中,而且用戶更注重檢索的精度,查全率對用戶來說重要性相對較低,所以本文只采用準(zhǔn)確率P來評價系統(tǒng)檢索效果,則計算公式如下:

        (8)

        其中:NT表示檢索結(jié)果中正確的網(wǎng)頁數(shù),NW表示檢索結(jié)果返回的網(wǎng)頁總數(shù)。測試結(jié)果如表6所示。

        表6 不同關(guān)鍵詞檢索結(jié)果

        可以看出,系統(tǒng)的檢索平均準(zhǔn)確率為0.678,其中“詐騙”關(guān)鍵詞最高,這是由于該關(guān)鍵詞是網(wǎng)絡(luò)詐騙的普適詞,而且系統(tǒng)存儲的網(wǎng)頁基本上都是經(jīng)過主題分類過的,只有極少一部份不相關(guān)的網(wǎng)頁才可能被系統(tǒng)采集錄入數(shù)據(jù)庫。而“到我辦公室來”關(guān)鍵詞的準(zhǔn)確率也高達(dá)0.93,這是由該關(guān)鍵詞的特殊性決定的,因為該關(guān)鍵詞可以獨立標(biāo)識出網(wǎng)頁的主題,只要出現(xiàn)該關(guān)鍵詞,在網(wǎng)絡(luò)詐騙數(shù)據(jù)庫中基本上都是“到我辦公室”詐騙模式。

        3 結(jié) 語

        本文網(wǎng)絡(luò)詐騙中犯罪人與受害人的信息不對稱問題,基于主題信息采集與信息過濾技術(shù),構(gòu)建了一個基于垂直搜索引擎技術(shù)的網(wǎng)絡(luò)詐騙信息檢索與輿情預(yù)警服務(wù)平臺。該平臺使得用戶不僅可以檢索網(wǎng)絡(luò)詐騙信息,而且能夠比較不同類型的詐騙手法與流行度,根據(jù)系統(tǒng)提供的決策支持信息對詐騙案件進(jìn)行評估與預(yù)警,從而可以做到提高公安等部門的工作效率、降低成本,具有較重要的理論意義與實用價值。

        [1] 王志紅. 論網(wǎng)絡(luò)詐騙犯罪[J]. 山西警官高等??茖W(xué)校學(xué)報, 2009,17(3):68-70.

        [2] 陸旭. 論網(wǎng)絡(luò)詐騙罪及其預(yù)防措施[J]. 黑龍江省政法管理干部學(xué)院學(xué)報, 2012, 7(4):54-56.

        [3] 呂巖. 網(wǎng)絡(luò)詐騙犯罪淺析[J]. 中共樂山市委黨校學(xué)報, 2013, 15(1):102-105.

        [4] 楊燮蛟, 魏彬, 趙雪. 網(wǎng)絡(luò)詐騙現(xiàn)狀與預(yù)防體系的建構(gòu)[J]. 行政與法, 2011, (8):55-60.

        [5] 李玉德, 縱鑫. 關(guān)于網(wǎng)絡(luò)詐騙的法律思考[J]. 法制與社會, 2008, 12(36):115-115.

        [6] 代永衛(wèi), 司志剛, 費華平. 基于數(shù)據(jù)倉庫的公安決策支持系統(tǒng)設(shè)計[J]. 微計算機(jī)信息, 2007, 23(6):179-180.

        [7] 孫靜晶. 網(wǎng)絡(luò)詐騙案件偵查的情報合成作戰(zhàn)機(jī)制研究[J]. 鐵道警官高等??茖W(xué)校學(xué)報, 2013, 23(4):31-34.

        [8] 褚紅云. 當(dāng)前網(wǎng)絡(luò)詐騙犯罪手法與特點研究[C]//中國犯罪學(xué)研究會第十三屆學(xué)術(shù)研討會論文集, 2004.

        [9] 楊志勇. 網(wǎng)絡(luò)詐騙犯罪的特點及其打防對策[C]//全國計算機(jī)安全學(xué)術(shù)交流會論文集, 2008.

        [10] David J. Stratified analysis of AOL query log[J].Information Sciences,2009,179:1844-1858.

        [11] Jia Y. Design of an Application Model Based on Vertical Search Engine[C]//Second International Conference on Networking and Distributed Computing,2011:57-60.

        [12] Lei Xiang. A Data Mining Approach to Topic-Specific Web Resource Discovery[C]//Second International Conference on Intelligent Computation Technology and Automation.2009, 2:595-599.

        [13] Wang Chuan. An Architecture for Improving the Efficiency of Specialized Vertical Search Engine Based on GPGPUs[C]// Fourth International Conference on Genetic and Evolutionary Computing,2010:67-70.

        [14] 劉暢. 綜合搜索引擎與垂直搜索引擎的比較研究[J].情報科學(xué),2007,25(1):97-102.

        [15] 季春,姜琴,吳錚悅. 垂直搜索引擎關(guān)鍵技術(shù)研究綜述[J]. 情報探索,2012(10):91-93.

        [16] 王文鈞,李巍. 垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J]. 情報科學(xué),2010(3):477-480.

        [17] 張俊,齊鵬,李冠宇. 基于本體的垂直搜索引擎分類索引模型設(shè)計[J]. 計算機(jī)工程與設(shè)計,2010,31(23):4999-5011.

        [18] 呂林濤, 陳麗萍, 周紅芳. 面向垂直搜索引擎的主題提取算法[J].計算機(jī)工程, 2009, 35(15):44-46.

        [19] 張倩. 教育信息垂直搜索引擎[D].長春:吉林大學(xué),2012.

        [20] 王梅文. 基于本體進(jìn)行自動分類的元搜索引擎的設(shè)計與實現(xiàn)[J]. 現(xiàn)代圖書情報技術(shù),2008(9):58-63.

        DESIGNANDIMPLEMENTATIONOFINTERNETFRAUDINFORMATIONTOPICSEARCHENGINE

        Hu Liang1Fu Zetian2

        1(JiangXiPoliceCollege,Nanchang330000,Jiangxi,China)2(ChinaAgricultureUniversity,Beijing100084,China)

        In order to solve the problem of asymmetric information crime and victims of domestic Internet fraud, this paper constructs an Internet fraud information topic search engine and public opinion early warning service platform based on the topic information collection and information filtering technology. The test results show that, compared with the traditional general search engine, the average retrieval accuracy of the platform has reached a relatively high level in the search of fraud information. The personalized retrieval can provide early warning information to some extent for the user. It can not only provide network fraud data efficient retrieval for public users, but also through statistical analysis of large data mining includes network fraud. Internet fraud report provides early warning of public opinion for the safety management department.

        Internet fraud Topic search engine Information retrieval Information filtering

        2016-08-31。國家自然科學(xué)基金項目(31271618);江西省教育廳科技項目(GJJ151193)。胡亮,講師,主研領(lǐng)域:信息檢索與信息系統(tǒng)。傅澤田,教授。

        TP393

        A

        10.3969/j.issn.1000-386x.2017.11.055

        猜你喜歡
        網(wǎng)頁輿情詐騙
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        合同詐騙
        電信詐騙
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        擦亮雙眼,謹(jǐn)防招生詐騙
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        詐騙
        小說月刊(2014年10期)2014-04-23 08:54:20
        手机在线中文字幕av| 久久综合第一页无码| 亚洲欧洲一区二区三区波多野| 日本黄色高清视频久久| 一区二区三区国产精品乱码| 亚洲啪av永久无码精品放毛片| 色爱区综合激情五月综合小说| 男女上床视频免费网站| 美腿丝袜在线观看视频| 色欲综合一区二区三区| 国产亚洲婷婷香蕉久久精品| 久久精品国产亚洲av麻豆四虎| 国产无套一区二区三区久久| 国产精品泄火熟女| 免费一级特黄欧美大片久久网| 麻豆av一区二区天堂| 日本超级老熟女影音播放| 人妻哺乳奶头奶水| 欧美理论在线| 国产av一区二区内射| 精品无码av无码专区| 久久无码人妻精品一区二区三区| 亚洲区偷拍自拍29p| 久久久精品国产三级精品| 免费国产a国产片高清网站| 精品一品国产午夜福利视频| 秀人网嫩模李梓熙大尺度| 一区在线视频免费播放| 曰韩无码二三区中文字幕| 亚洲偷自拍另类图片二区| 女同在线视频一区二区| 国产av久久久久精东av| 欧美白人最猛性xxxxx| 黄色av三级在线免费观看| 美女视频在线观看亚洲色图| 午夜无码片在线观看影视| 精品人伦一区二区三区蜜桃麻豆| 国产午夜福利小视频在线观看| 特黄aaaaaaaaa毛片免费视频| 国产一区二区三区四区五区vm| 熟女丝袜美腿亚洲一区二区三区|