亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CURE聚類算法的科技情報異常數(shù)據(jù)檢測

        2018-10-18 06:14:20柳兆峰霍永華謝志敏
        無線電通信技術(shù) 2018年6期
        關(guān)鍵詞:科技情報情報專利

        柳兆峰,楊 奇,霍永華,謝志敏

        (1.中國人民解放軍31001部隊,北京 100094; 2.中國電子科技集團公司第五十四研究所,河北 石家莊050081; 3.中國人民解放軍海洋環(huán)境專項辦公室,北京 100181)

        0 引言

        情報是指按照用戶需求,針對特定情景實現(xiàn)特殊作用和價值的信息數(shù)據(jù)和知識。情報分析亦稱信息分析或情報研究,是根據(jù)社會用戶的特定需求,將分布分散、雜亂的海量信息采用科學的研究方法和技術(shù)手段進行收集、整理,生成有價值的情報數(shù)據(jù),為不同層次的用戶提供科學決策服務(wù)。我國提供了良好的情報分析研究工作環(huán)境,形成了以高校和圖書館為主導,以科技情報為核心的應(yīng)用領(lǐng)域和以政府與企業(yè)為主導,以路線規(guī)劃、前景預測、綜合決策為目標的應(yīng)用領(lǐng)域[1-3]。

        情報數(shù)據(jù)質(zhì)量是進行情報分析并以此做出有效決策的重要基礎(chǔ)?;ヂ?lián)網(wǎng)和大數(shù)據(jù)背景下,科技情報研究的數(shù)據(jù)來源被大大拓寬,因此不可避免地出現(xiàn)數(shù)據(jù)分類錯誤、重復、缺失、格式不一致等現(xiàn)象,這些異常數(shù)據(jù)對于情報分析是無用的,甚至會對分析結(jié)果和效率產(chǎn)生很大的負面影響,所以需要對其進行檢測和處理,以提高數(shù)據(jù)的質(zhì)量[4]。本文重點解決科技情報中數(shù)據(jù)分類錯誤問題。

        異常檢測作為數(shù)據(jù)挖掘領(lǐng)域的一個重要研究方向,主要用來檢測數(shù)據(jù)集中偏離正常分布模式的異常數(shù)據(jù)。異常檢測技術(shù)能夠從大量、模糊的復雜數(shù)據(jù)中檢測出異常信息,在大數(shù)據(jù)處理中得到廣泛應(yīng)用?,F(xiàn)有的異常檢測技術(shù)主要包含基于監(jiān)督的和基于無監(jiān)督的2種方法?;诒O(jiān)督的異常檢測方法主要包括概率統(tǒng)計、模式預測、神經(jīng)網(wǎng)絡(luò)、增量式SVM異常檢測等方法;基于無監(jiān)督的異常檢測方法主要包括K-means聚類、基于核自適應(yīng)的AP聚類異常檢測、引入約束條件的密度聚類異常檢測等方法[5-8]。

        但是這些檢測方法僅針對數(shù)值型的數(shù)據(jù),并不完全適用于情報分析領(lǐng)域。與數(shù)值型數(shù)據(jù)為主要研究對象的大數(shù)據(jù)分析不同,科技情報分析大多以文本文獻作為數(shù)據(jù)的對象和基礎(chǔ),包括論文、專利、科技報告及網(wǎng)頁文本等。目前情報領(lǐng)域的異常檢測方法研究成果較少,鑒于此,本文基于無監(jiān)督CURE聚類算法,提出了一種針對科技情報數(shù)據(jù)的異常檢測方法。

        1 科技情報異常數(shù)據(jù)檢測模型

        科技情報異常監(jiān)測過程模型如圖1所示,主要分為3個階段:信息采集與預處理階段、文本處理階段以及聚類分析階段。

        圖1 科技情報異常數(shù)據(jù)檢測模型

        1.1 數(shù)據(jù)采集與存儲階段

        與傳統(tǒng)情報存儲和傳輸方式不同,互聯(lián)網(wǎng)背景下,各類結(jié)構(gòu)不一的情報流轉(zhuǎn)在網(wǎng)頁、博客、論壇以及社交媒體等網(wǎng)絡(luò)媒介中,依靠人工很難高效地獲取這些情報數(shù)據(jù),必須依靠技術(shù)手段批量獲取。

        本階段主要根據(jù)情報分析需求,利用主題網(wǎng)絡(luò)爬蟲技術(shù)有選擇地自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的科技情報。為了極大地減少冗余信息,可以通過網(wǎng)頁排重技術(shù)去除冗余網(wǎng)頁,同時利用網(wǎng)絡(luò)去噪技術(shù)剔除Web頁面中如導航條、廣告信息、版權(quán)信息以及調(diào)查問卷等與主題不相關(guān)的內(nèi)容,最后將爬取到的原始情報信息以統(tǒng)一的格式存儲在文本緩存區(qū)中,實現(xiàn)從非結(jié)構(gòu)化至結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換存儲。

        1.2 文本處理階段

        從互聯(lián)網(wǎng)或者數(shù)據(jù)庫獲得情報信息大多是以文本形式存儲,為了實現(xiàn)基于CURE的異常檢測和為后續(xù)的情報分析提供方便,需要對文本數(shù)據(jù)進行一系列文本處理,最終以多個特征值表示的形式存儲在數(shù)據(jù)庫中。這一過程一般包括以下4個步驟:

        ① 中文分詞

        中文分詞(Chinese Word Segmentation)技術(shù)是將連續(xù)的字序列按一定的規(guī)范重新組合成詞序列的過程。目前流行的中文分詞算法主要是基于字符串匹配、統(tǒng)計方法和理解分析3種方式,依靠這幾類算法,國內(nèi)外出現(xiàn)了許多成熟的開源分詞軟件。如中國科學院計算技術(shù)研究所開發(fā)了NLPIR軟件,清華大學自然語言處理與社會人文計算實驗室開發(fā)了THU-LAC軟件,還有python中常用的結(jié)巴(jieba)分詞。本文選擇THU-LAC軟件作為原始情報文本的分詞工具。

        ② 去停用詞

        情報文本中含有大量的例如“了、呢、的”一類的對情報分析工作沒有實際意義的詞語,這些詞稱為停用詞,為了降低詞典和文本特征向量空間,減少計算量,提升異常檢測效率,要在原始的情報文本中剔除掉停用詞。

        ③ 關(guān)鍵詞提取

        關(guān)鍵詞是指反映一段情報文本核心內(nèi)容的詞語。關(guān)鍵詞提取是利用降維的方法對情報文本進行特征選擇和提取,并對特征項的重要程度用權(quán)重加以區(qū)分,從而提高后續(xù)對信息進行分類、聚類、主題分析等操作的結(jié)果精度。因此關(guān)鍵詞提取是異常檢測的重要前提和基礎(chǔ)。

        通過爬蟲等技術(shù)手段采集的情報數(shù)據(jù)并不會像專業(yè)期刊論文一樣列出關(guān)鍵詞,在海量數(shù)據(jù)的背景下依靠人工進行關(guān)鍵詞提取顯然是不可取的。因此,通過技術(shù)手段自動提取關(guān)鍵詞就成為情報分析研究的重點。目前文本提取關(guān)鍵詞算法主要有基于統(tǒng)計、基于詞語網(wǎng)絡(luò)、基于詞語共現(xiàn)圖3種。常見的有基于布爾權(quán)重、詞頻[8]、TFIDF值[9]等方法。本文采用TFIDF值對特征值進行選取和加權(quán)。計算方法如下:

        (1)

        式中,xi為關(guān)鍵詞,N為文檔總數(shù),n為該關(guān)鍵詞出現(xiàn)的文檔數(shù)。TFik(xi)表示關(guān)鍵詞出現(xiàn)在文檔集的頻數(shù),分母為歸一化因子。

        通過預先設(shè)定一個閾值,當wik(xi) 低于這一閾值時,可認為該關(guān)鍵詞幾乎沒有處理價值,可以直接將其忽略。剩余關(guān)鍵詞保留,權(quán)重為wik(xi)。

        ④ 文本特征表示

        特征表示是指用一組特征項來表示文本信息。特征表示模型有布爾模型、向量空間模型及概率模型等。本文利用向量空間模型(Vector Space Model,VSM)對文本進行向量化。VSM的思想是用一組特征項及其特征項對應(yīng)的權(quán)重來表示一個文本信息,將文本簡化為特征空間中的一個點。即對于一個含有n個特征值的文本D,可以表示為:

        D={(t1,w2),(t2,w2),...,(tn,wn)},

        (2)

        式中,ti表示第i個特征詞,wi為第i個特征詞的權(quán)重。將分詞、提取關(guān)鍵詞和特征向量之后的文本信息標記,存入數(shù)據(jù)庫中。

        1.3 聚類分析階段

        聚類分析階段是本文異常數(shù)據(jù)檢測的關(guān)鍵步驟,通過聚類分析的方法對離群數(shù)據(jù)(即不良數(shù)據(jù))進行識別和定位。下一節(jié)給出了基于CURE聚類算法的異常數(shù)據(jù)檢測方法的具體步驟。

        2 基于CURE聚類算法的異常數(shù)據(jù)檢測

        CURE聚類算法是一種自底向上的層次聚類算法,利用該算法對向量化后的情報文本集(即具有n維特征屬性的點集)進行聚類,可以對異常數(shù)據(jù)進行識別和定位。檢測出來的異常數(shù)據(jù)主要來自兩方面:一個是在首次聚類時增長較為緩慢的簇;另一類是聚類后期包含對象明顯偏少的簇。涉及到的定義如下。

        定義 1:初始聚類劃分的數(shù)據(jù)分區(qū)可以用若干個分散的代表點來表示。即數(shù)據(jù)簇s表示為s.mPi(s.mean,s.n),其中Pi為該簇的代表點,m為代表點的個數(shù),s.mean為該簇的中心點,s.n代表簇的容量即數(shù)據(jù)對象的個數(shù)。

        代表點的選擇方法如下:

        ① 首先確定代表點的數(shù)目m和收縮因子α;

        ② 選取初始m個代表點。第一個代表點是距離該簇中心點最遠的點,其后的代表點是選取距離前一個選出的代表點最遠的數(shù)據(jù)點;

        ③ 用收縮因子α收縮代表點,調(diào)節(jié)類的形狀,排除孤立點的影響。收縮公式為:

        (3)

        定義 2:離散度。用歐氏距離表示樣本中一個對象點距離代表點的離散程度,離散度越大說明距離該代表點越遠。設(shè)代表點的集合為P,任一樣本數(shù)據(jù)點xi對于集合P中代表點Pi的離散度如下:

        (4)

        式中,xij為樣本點xi的第j特征值,Pij為代表點Pi的第j特征值,n為VSM模型的維度,該式代表了2個文檔之間的距離。

        定義 3:設(shè)每一個樣本點的離散度集為D,取離散度的平均值為該樣本數(shù)據(jù)的離散判定值A(chǔ)D:

        (5)

        定義 4:設(shè)異常判定界限參數(shù)為δ:

        (6)

        式中,min(di)為離散度最小值。

        定義 5:對于離散度集D中任意di∈D,若di>δ×AD,則di對應(yīng)的代表點Pi為離散點,其所在的簇中的樣本點即為孤立異常數(shù)據(jù)。

        基于CURE聚類算法的異常數(shù)據(jù)檢測方法的基本思想是:首先確定情報分析的主題類別,通過信息采集和預處理階段得到原始的樣本集,然后經(jīng)過文本處理階段獲得文本向量化后的樣本集。之后,對樣本集進行聚類。首次聚類先將樣本劃分為n個規(guī)模相同的數(shù)據(jù)分區(qū)(或簇),每個簇的數(shù)據(jù)容量為m/n。然后計算簇中每個點的離散判定值(AD)及離群參數(shù)(δ);對滿足di>δ×AD的異常點進行標注,并從樣本中刪除;之后對距離最近的簇進行合并,然后對「n/q?個簇進行二次聚類,同時對包含對象數(shù)目明顯偏少的簇進行標注和刪除,剩余的數(shù)據(jù)點就是正常數(shù)據(jù)。最后將標注的異常數(shù)據(jù)作為異常檢測的結(jié)果輸出。

        3 實驗結(jié)果分析

        專利情報分析是科技情報研究的熱點課題,本文以專利情報為實例說明情報異常數(shù)據(jù)檢測過程。以國家專利網(wǎng)站專利信息作為研究對象,利用網(wǎng)絡(luò)爬蟲技術(shù)爬取了國家專利網(wǎng)站計算機類專利和醫(yī)療類專利各200條,原始文檔包括專利類別(計算機類/醫(yī)療類)、專利名稱、專利號及摘要等基本信息,部分原始數(shù)據(jù)如圖2所示。

        圖2 原始專利數(shù)據(jù)

        受爬蟲程序和網(wǎng)頁解析等方面的影響,爬取到的專利信息可能存在數(shù)據(jù)格式混亂、專利內(nèi)容與主題類別不符和數(shù)據(jù)重復等問題,這類數(shù)據(jù)稱為異常數(shù)這據(jù)。圖2中編號為5的樣本是在醫(yī)學類主題下爬取的,但是由其專利名稱和文摘內(nèi)容可以推斷出,它應(yīng)屬于計算機類,所以該樣本屬于異常點,其中“類別”一項的描述錯誤。同理編號205的樣本也屬于異常點。對上述樣本的專利名稱和摘要進行分詞、去停用詞、關(guān)鍵詞提取和特征向量化,得到數(shù)據(jù)向量表示的樣本集。然后使用第2節(jié)中的基于CURE聚類算法的異常檢測方法對樣本集進行聚類,最終得到2個點簇(標號為1和2)和1個異常點集合(標號為3),如表1所示。

        表1 異常檢測結(jié)果

        編號樣本類別檢測結(jié)果111211311411513(異常集)………20523(異常集)………40022

        其中一個簇代表醫(yī)學類專利,另一個代表計算機類專利。結(jié)果顯示,異常點集合包括編號5和編號205,這說明本文算法能夠準確識別異常點。

        為了進一步說明本文異常檢測方法的有效性,避免上述實驗結(jié)果的偶然性,在原始各200條樣本的基礎(chǔ)上,繼續(xù)爬取國家專利網(wǎng)站上計算機類專利和醫(yī)療類專利,將每類專利測試樣本集的容量擴大至500條、1 000條、1 500條和2 000條。分別進行異常檢測實驗,測試結(jié)果見表2和表3。下面以每類專利樣本容量2 000條(即總樣本容量為4 000條)為例,給出具體實驗步驟:

        ① 確定專利分析的主題類別為“計算機”和“醫(yī)療”,通過信息采集和預處理階段得到原始的樣本集各2 000條。

        ② 首先用人工標記方法找出其中的實際異常數(shù)據(jù),作為測試結(jié)果的評判標準。其中計算機類實際異常數(shù)據(jù)共117條,醫(yī)療類實際異常數(shù)據(jù)共121條。

        ③ 對原始樣本進行文本處理,經(jīng)過中文分詞、去停用詞、關(guān)鍵詞提取和文本特征表示4個步驟獲得文本向量化后的樣本集。經(jīng)反復測試,關(guān)鍵詞數(shù)目為1 600時就能達到較好的測試精度和效率,部分關(guān)鍵詞及其權(quán)重如圖3所示。所以文本向量空間為1 600維,每條情報樣本由1 600個特征詞權(quán)重表示。

        圖3 部分關(guān)鍵詞及其權(quán)重

        ④ 對向量化后的樣本集進行CURE聚類,過程如圖4所示。首次聚類先將樣本劃分為10個規(guī)模相同的數(shù)據(jù)分區(qū)(或簇),每個簇的包含400條文本向量化后的測試樣本,每條樣本記為簇中的一個點。設(shè)本次實驗的收縮因子α=0.5,代表點個數(shù)m=4,按照第2節(jié)中介紹的方法,得到最能代表以上10個簇形狀的代表點集合。然后計算簇中每個點的離散判定值A(chǔ)D值及離群參數(shù)δ;對滿足di>δ×AD的異常點進行標注,并從樣本中刪除。

        ⑤ 之后對距離最近的簇進行合并,并對包含樣本數(shù)目明顯偏少的簇進行標注并刪除,然后對合并后的簇進行再次聚類,即重新選取代表點和識別異常點,重復上述過程直到簇的數(shù)目減少至預先設(shè)定的目標類個數(shù)2。最終經(jīng)過4次合并得到2個正常簇和1個標注的異常點集合(下面簡稱為異常簇),合并過程如圖4所示。2個正常簇分別代表計算機類和醫(yī)療類,異常簇里的數(shù)據(jù)作為異常檢測的結(jié)果輸出(其中包含表1所述樣本5和樣本205)。

        圖4 聚類過程

        本文定義了2個指標—準確率α和誤檢率β來衡量異常檢測結(jié)果的有效性,如式(7)和式(8)所示:

        (7)

        (8)

        式中,N為實際異常數(shù)據(jù)的個數(shù),n1為檢測異常數(shù)據(jù)中正確識別的異常個數(shù),n2為檢測異常數(shù)據(jù)中錯誤識別的異常個數(shù)與未檢測出的實際異常個數(shù)之和。測試結(jié)果如表2和表3所示 。

        表2 計算機類專利信息異常識別率

        樣本數(shù)目實際異常數(shù)據(jù)數(shù)目檢測異常數(shù)據(jù)數(shù)目正確檢測數(shù)目錯誤識別數(shù)目未檢測的異常數(shù)目準確率/%誤檢率/%5001918180194.745.261 0005856560296.553.451 5008485832198.813.572 0001171181135496.587.69

        表3 醫(yī)療類專利信息異常識別率

        樣本數(shù)目實際異常數(shù)據(jù)數(shù)目檢測異常數(shù)據(jù)數(shù)目正確檢測數(shù)目錯誤識別數(shù)目未檢測出異常數(shù)目準確率/%誤檢率/%5001515141193.3313.331 0004947470295.924.081 5009087870396.673.332 0001211231185397.526.61

        實驗結(jié)果表明,針對不同容量的樣本,本文提出的異常檢測方法均保持較高的檢測準確率和較低的誤檢率,為后續(xù)的異常數(shù)據(jù)處理打下了基礎(chǔ),同時對于情報數(shù)據(jù)分析提供了重要的參考價值。

        4 結(jié)束語

        將機器學習應(yīng)用到情報領(lǐng)域,有助于解決多源異構(gòu)的海量情報數(shù)據(jù)所導致的分析時效性低和準確性差等問題。情報數(shù)據(jù)集的質(zhì)量是進行情報分析和知識發(fā)現(xiàn)的基礎(chǔ)。本文提出了一種針對情報分析的異常檢測方法,分為信息采集與預處理階段、文本處理階段、CURE聚類分析階段3個部分。通過專利情報實例驗證了所提異常檢測方法的有效性和可行性,對于企業(yè)競爭、圖書館情報學等眾多互聯(lián)網(wǎng)情報研究領(lǐng)域有著一定的借鑒意義。

        猜你喜歡
        科技情報情報專利
        情報
        情報
        專利
        水運工程(2022年7期)2022-07-29 08:37:38
        情報
        基于數(shù)據(jù)工程的國防科技情報生態(tài)體系構(gòu)建
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        銅陵市科技情報工作存在的問題與發(fā)展對策
        安徽科技(2018年9期)2018-12-31 12:54:31
        加強科技情報檔案管理工作的建議
        交接情報
        基于創(chuàng)新環(huán)境下的科技情報研究
        亚洲色婷婷一区二区三区| av国产自拍在线观看| 丝袜美腿国产一区精品| 久久久久久久波多野结衣高潮| 国产人妻黑人一区二区三区| 无码av专区丝袜专区| 日韩女优视频网站一区二区三区 | 国产一区二区精品久久凹凸| 午夜国产精品一区二区三区| 国产精品日日做人人爱| 免费在线观看播放黄片视频| 免费看av在线网站网址| 男人扒开女人双腿猛进女人机机里| 国产亚洲无码1024| 国产美腿丝袜一区二区| 波多野42部无码喷潮在线| 岛国av无码免费无禁网站下载| 国产三级在线观看性色av| 日本av一级片免费看| 又黄又硬又湿又刺激视频免费| 一级片久久| 邻居少妇张开腿让我爽视频| 亚洲精品无码久久久久y| 亚洲国产成人久久一区| 久久夜色精品国产噜噜噜亚洲av| 亚洲一区二区三区成人网| 女人色熟女乱| 91久久青青草原线免费| 久久99精品免费国产| 亚洲成av人片在线观看| 女性女同性aⅴ免费观女性恋| 亚洲午夜久久久久中文字幕久| 少妇被啪出水在线视频| 亚洲国产成人av在线观看| 在线视频你懂的国产福利| 最新国产成人自拍视频| 欧美顶级少妇作爱| 国产va免费精品观看| 胳膊肘上有白色的小疙瘩| 美女在线一区二区三区视频| 999久久久无码国产精品|