亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-means算法的專利數(shù)據(jù)分析

        2020-07-27 12:10:17薛淑暉王麗吳海濤
        現(xiàn)代信息科技 2020年5期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        薛淑暉 王麗 吳海濤

        摘? 要:專利信息作為目前國際知識產(chǎn)權(quán)中科技含量最高的存在,是國家和企業(yè)獲取競爭優(yōu)勢最全面的技術(shù)情報來源。使用專利數(shù)據(jù)網(wǎng)的數(shù)據(jù)信息作為測試數(shù)據(jù),采用K-means算法,針對專利文本數(shù)據(jù)進(jìn)行聚類分析,旨在找出隱含在專利數(shù)據(jù)信息中不容易被直觀發(fā)現(xiàn)或直接統(tǒng)計得出的數(shù)據(jù)情報信息。通過深入挖掘?qū)@畔?,提高專利信息利用率,使之轉(zhuǎn)換為具有實際價值的情報信息,有效解決了對專利信息利用不足的問題。

        關(guān)鍵詞:聚類分析;K-means;專利數(shù)據(jù);數(shù)據(jù)挖掘

        中圖分類號:TP391.1;TP312? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)05-0085-03

        Patent Data Analysis Based on K-means Algorithm

        XUE Shuhui,WANG Li,WU Haitao

        (Nanjing Institute of Technology,Nanjing? 211167,China)

        Abstract:Patent information is the most comprehensive source of technical information for countries and enterprises to obtain competitive advantages. In this paper,the data information of the patent data network is used as the test data,and K-means algorithm is adopted to conduct clustering analysis on the patent text data. The aim is to find out the data intelligence information which is hidden in the patent data information and not easy to be found directly. Through deep mining of patent information,improving the utilization rate of patent information,transforming it into information with practical value,the problem of insufficient utilization of patent information is effectively solved.

        Keywords:cluster analysis;K-means;patent data;date mining

        0? 引? 言

        數(shù)字信息網(wǎng)絡(luò)的飛速發(fā)展正逐步改變著信息服務(wù)的傳統(tǒng)模式,科研、教育、文獻(xiàn)等數(shù)字情報服務(wù)正處于高速發(fā)展的變革階段,這預(yù)示著數(shù)據(jù)科學(xué)和計算科學(xué)的情報分析和知識服務(wù)時代已經(jīng)來臨。尤其近年來,隨著大量科研實驗內(nèi)容及其成果數(shù)字化的實現(xiàn),以專利信息和科研論文為主題的文獻(xiàn)情報發(fā)展迅速。知識產(chǎn)權(quán)的重要性愈發(fā)顯著,已成為一個國家或企業(yè)在同行業(yè)競爭中獲取優(yōu)先優(yōu)勢占據(jù)有利地位的主要手段。專利信息,作為目前國際眾所周知的知識產(chǎn)權(quán)中科技含量最高的存在,是國家和企業(yè)獲取競爭優(yōu)勢的最全面的技術(shù)情報來源。但是面對浩如煙海的專利信息,如何從中充分發(fā)現(xiàn)并利用其價值是目前進(jìn)行專利數(shù)據(jù)分析挖掘的重中之重。

        當(dāng)今我國目前的數(shù)據(jù)研究和數(shù)據(jù)分析都處于快速發(fā)展階段,針對專利數(shù)據(jù)的統(tǒng)計分析和引文分析較為成熟,但對專利信息的深入研究分析尚有明顯不足之處,而聚類分析和關(guān)聯(lián)分析的存在,恰恰可以彌補(bǔ)這部分的缺陷。聚類分析可以幫助我們分析隱含在海量專利數(shù)據(jù)中的、不容易被直接統(tǒng)計得出的信息,適合通過比對專利數(shù)據(jù)的共同之處研究專利研究的趨勢和重點,從而抓住發(fā)展的趨勢[1]。為了對專利信息進(jìn)行更深層次的挖掘利用,本文基于江蘇省大學(xué)生創(chuàng)新訓(xùn)練項目“基于Python的專利數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)”中文本聚類分析的K-means算法,從專利的名稱入手,基于Python語言對醫(yī)藥專利數(shù)據(jù)進(jìn)行專利文本聚類分析。

        1? 文本聚類分析

        聚類就是根據(jù)不同的類型特征,將數(shù)據(jù)劃分為相應(yīng)的數(shù)據(jù)類。目的是減小同類型數(shù)據(jù)之間的距離,增加不同類型數(shù)據(jù)間的距離[2]。聚類算法又稱為群分析,是數(shù)據(jù)挖掘領(lǐng)域的重要算法之一。

        在選擇以何種聚類算法來實現(xiàn)聚類分析時,需要從數(shù)據(jù)類型、聚類目的以及實際應(yīng)用三個方面來考慮。對專利數(shù)據(jù)信息進(jìn)行聚類分析,主要是對專利信息中的標(biāo)題名稱和摘要中的文本內(nèi)容進(jìn)行分析。在所有文本聚類算法中,K-means聚類算法是比較傳統(tǒng)和基礎(chǔ)的聚類算法。我們可以根據(jù)自己的需求決定聚成幾類,其中每個類別都用該類中所有數(shù)據(jù)的平均值來表示,這個平均值被稱為聚類中心。這種算法雖然不能用于類別屬性的數(shù)據(jù),但對數(shù)值屬性的數(shù)據(jù)來講,能夠較好地發(fā)揮聚類方法在幾何學(xué)和數(shù)學(xué)統(tǒng)計學(xué)上的研究價值[3]。

        整體來說,文本聚類分析一般按照以下幾個步驟進(jìn)行:

        (1)數(shù)據(jù)預(yù)處理。對專利數(shù)據(jù)進(jìn)行文本聚類分析之前要先進(jìn)行專利字段提取、分詞、去停用詞、提取關(guān)鍵字、預(yù)處理等計算。

        (2)停用詞處理。對抓取到的專利數(shù)據(jù)文檔利用jieba分詞庫進(jìn)行去停用詞處理。

        (3)數(shù)字建模與文本聚類。將經(jīng)過初步數(shù)據(jù)處理得到的專利文本關(guān)鍵詞進(jìn)行數(shù)字建模處理,數(shù)據(jù)分析結(jié)果采用矩陣表示。數(shù)字建模處理所建立的VSM模型中的VSM的維度由專利數(shù)據(jù)進(jìn)行預(yù)處理后得到的關(guān)鍵詞數(shù)目表示,向量的大小用來表示關(guān)鍵詞的權(quán)重。文本聚類算法采用TF-IDF權(quán)值計算法,所得詞頻TF表示特征關(guān)鍵詞在VSM數(shù)據(jù)模型中出現(xiàn)的頻率。

        (4)分析處理。最后采用K-means算法對創(chuàng)建成功的VSM模型中的向量進(jìn)行聚類分析處理[2]。

        1.1? 數(shù)據(jù)采集及預(yù)處理

        使用Python數(shù)據(jù)抓取技術(shù)編寫數(shù)據(jù)爬蟲腳本,對專利網(wǎng)的數(shù)據(jù)進(jìn)行抓取。抓取成功后對采集到的專利數(shù)據(jù)進(jìn)行初步篩選、清洗[3]。由于專利文本信息過于龐大,在這里我們采取醫(yī)藥數(shù)據(jù)的動物醫(yī)藥分支進(jìn)行處理研究,摘取關(guān)于動物醫(yī)藥的專利標(biāo)題及摘要進(jìn)行文本聚類驗證。由于Python語言的簡便性,以及其在科學(xué)計算、數(shù)據(jù)可視化領(lǐng)域擁有豐富的工具包,我們采用Python語言對專利數(shù)據(jù)進(jìn)行分析處理。

        1.2? 停用詞處理

        在聚類分析開始之前對提取出的專利文本數(shù)據(jù)進(jìn)行預(yù)處理可以提高聚類分析的效率,使分析出的結(jié)果更有意義。預(yù)處理的質(zhì)量會嚴(yán)重影響聚類分析的結(jié)果。經(jīng)過預(yù)處理,文本最終會以一種結(jié)構(gòu)化的形式展現(xiàn)出來。文本預(yù)處理主要包括以下幾個方面:

        1.2.1? 分詞

        分詞,就是把一個句子按照詞語表達(dá)的含義進(jìn)行分割。對于英語文本來說,由于每一個英文單詞之間都使用空格分開,所以分詞很容易實現(xiàn)。但對于中文文本來說,漢字的組詞非常靈活,詞語和詞語之間的分割標(biāo)志并不鮮明,這就增加了中文分詞的困難性。

        1.2.2? 詞性標(biāo)注

        清華大學(xué)和山西大學(xué)是主要研究漢語詞性標(biāo)注的機(jī)構(gòu)。他們處理的基本思路是人工標(biāo)注數(shù)萬字的語言材料,通過統(tǒng)計帶詞性標(biāo)記的詞語出現(xiàn)的頻率,做成統(tǒng)計表并提取詞類共現(xiàn)頻度矩陣,建立詞類自動標(biāo)注的概率計算模型[4]。對文本分詞后進(jìn)行詞性標(biāo)注可以從語法上檢驗分詞是否正確,從而進(jìn)一步優(yōu)化分詞的結(jié)果。

        1.2.3? 停用詞過濾

        停用詞是指一些在文本中出現(xiàn)的頻率很高但是對文本內(nèi)容所要表達(dá)的含義沒有任何貢獻(xiàn)的詞,并且在計算相似度的過程中會引入不必要的誤差。所以,把這些停用詞從文本中過濾出去非常有必要。這一過程就稱之為停用詞過濾。

        停用詞過濾首先要建立出一個包含文本中所有停用詞的列表。通過查詢每一個詞條,判斷該詞條是否包含在停用詞列表中,如果包含就將其從詞條中刪除。這一過程可以提高文本聚類的效率和聚類分析的精確度。

        文本挖掘和文本聚類的基礎(chǔ)就是文本預(yù)處理,只有做好預(yù)處理工作,才能保證文本挖掘的可靠性和實用性。

        1.3? 利用TF-IDF算法計算其權(quán)值

        使用TF-IDF算法計算權(quán)值過程中,主要對預(yù)處理過后的文本數(shù)據(jù)進(jìn)行權(quán)重的分配,這一過程主要利用逆向文檔頻率和詞頻來分配權(quán)重。文本數(shù)據(jù)的關(guān)鍵詞的權(quán)重值和文本中的頻率成正比,和文集中包括這一關(guān)鍵詞的文檔總和成反比[5]。TF-IDF的應(yīng)用綜合考慮了關(guān)鍵詞在單個文本中和多個文本中出現(xiàn)的次數(shù)的情況,使分析結(jié)果更具有可靠性。詞頻算法如下:

        式(1)中,tfij表示特征詞ti在數(shù)據(jù)集dj的詞頻,N是專利文獻(xiàn)總數(shù),Ni表示其中出現(xiàn)特征詞的數(shù)量。專利文獻(xiàn)標(biāo)題經(jīng)TF-IDF權(quán)值處理后如圖1所示,其各項詞頻權(quán)重如圖2所示。權(quán)值和權(quán)重為一一對應(yīng)關(guān)系。

        1.3? 使用K-means算法聚類分析

        K-means算法,又稱K均值算法,是于1955年提出的一種新型劃分式聚類算法。聚類算法發(fā)展多年過程中,K-means算法一直未被淘汰,是聚類算法的經(jīng)典算法之一。顧名思義,其是通過多次反復(fù)迭代求數(shù)據(jù)間的均值來實現(xiàn)大量數(shù)據(jù)的文本聚類分析。其算法的核心是:通過隨機(jī)選擇的方式選擇多個數(shù)據(jù)點,再把這些選中的數(shù)據(jù)點用作K-means算法分析過程中的初始類簇中心,再將其他未選中的數(shù)據(jù)點依次分配給最近的類簇中心,這就形成了一個個的初始類簇。接著,計算每個隨機(jī)組成的初始類簇內(nèi)所有點的均值,并把計算所得的簇內(nèi)均值當(dāng)作一個個新的類簇中心點,重新分配其余數(shù)據(jù)點到離自身最近的類簇中心點;然后,重復(fù)迭代這一分配求均值過程,直到每個類簇的中心都不再產(chǎn)生變化[6]。聚類分析結(jié)果如圖3所示,對應(yīng)圖1、圖2的詞頻和詞重,可以根據(jù)數(shù)字的大小明確地觀察出各關(guān)鍵詞之間的聚類關(guān)系,數(shù)字越小,代表對應(yīng)的關(guān)鍵詞與其他詞的相關(guān)性越小。反之,則證明與之對應(yīng)的關(guān)鍵詞在整個數(shù)據(jù)集中相對較為重要。關(guān)鍵詞和其分析結(jié)果能幫助我們從宏觀上大致確定專利研究的主題和各主題的重要性。

        1.4? 數(shù)據(jù)分析及方法的總結(jié)

        本文進(jìn)行專利數(shù)據(jù)文本聚類所采用的K-means算法,其無監(jiān)督式的自主搜尋方法,在聚類過程中,打破了我們固有的思維模式,避免了僅憑專利知識對專利數(shù)據(jù)進(jìn)行分類從而導(dǎo)致的思想局限和誤區(qū),能更好地擺脫個人思想帶來的主觀局限性[7]。但對文本特征值進(jìn)行權(quán)值計算的方法卻有很大的局限性:其只適用于維度低的文本,否則會影響聚類的準(zhǔn)確性。

        2? 結(jié)? 論

        本文基于Python語言,采用網(wǎng)絡(luò)爬蟲技術(shù)獲取到專利數(shù)據(jù),然后通過K-means算法對數(shù)據(jù)進(jìn)行了聚類分析。通過對專利數(shù)據(jù)的聚類分析可以清楚直觀地發(fā)現(xiàn)當(dāng)前專利網(wǎng)上現(xiàn)有專利的研究方向及偏重點,在很大程度上提高了用戶對專利數(shù)據(jù)把控的準(zhǔn)確度,在研究中具有重大意義。

        參考文獻(xiàn):

        [1] 齊麗花,張妮妮,秦曉梅.基于K-means的專利文本聚類分析 [J].電腦知識與技術(shù),2018,14(22):206-207+214.

        [2] 吳啟明,易云飛.文本聚類綜述 [J].河池學(xué)院學(xué)報,2008(2):86-91.

        [3] 徐丹丹. 專利文本聚類分析及可視化研究 [D].南京:南京理工大學(xué),2009.

        [4] 王彬宇,劉文芬,胡學(xué)先,等.基于余弦距離選取初始簇中心的文本聚類研究 [J].計算機(jī)工程與應(yīng)用,2018,54(10):11-18.

        [5] 霍緯綱,程震,程文莉.面向不等長多維時間序列的聚類改進(jìn)算法 [J].計算機(jī)應(yīng)用,2017,37(12):3477-3481.

        [6] 葉夢竹.基于專利和論文互引的科學(xué)—技術(shù)關(guān)聯(lián)研究 [D].武漢:華中師范大學(xué),2017.

        [7] SALTON G,BUCKLEY C. Term-weighting approaches in automatic text retrieval [J].Information Processing & Management,1988,24(5):513-523.

        作者簡介:薛淑暉(1997-),女,漢族,山東德州人,本科在讀,研究方向:數(shù)據(jù)分析。

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        中文字幕欧美人妻精品一区| gg55gg国产成人影院| 日本系列有码字幕中文字幕| 国产人妖网站在线视频| 无码人妻一区二区三区免费看| 欧美另类人妖| 一本一道av无码中文字幕| 国产剧情国产精品一区| 精品91亚洲高清在线观看| 成人亚洲性情网站www在线观看 | 国产精品永久免费视频| 久久精品无码一区二区乱片子| 青春草在线视频精品| 日本精品久久中文字幕| 熟妇人妻精品一区二区视频| 精品国产sm最大网站| 人妻无码一区二区不卡无码av| 国产精品亚洲日韩欧美色窝窝色欲 | 亚洲一区二区三区国产精品视频| 久久精品av在线视频| 久久精品国产91精品亚洲| 无码孕妇孕交在线观看| 国产精品无码av一区二区三区| 成人三级在线| 国产盗摄XXXX视频XXXX| 亚洲中国美女精品久久久 | 洲色熟女图激情另类图区| 久久99热狠狠色精品一区| 性xxxx视频播放免费| 亚洲日韩精品欧美一区二区三区不卡 | 国产精品一级av一区二区| 国产精品高清视亚洲一区二区| 国产成a人亚洲精品无码樱花| 一本一道av中文字幕无码| 亚洲一区二区三区偷拍女厕| 开心五月婷婷综合网站| 日韩精品久久午夜夜伦鲁鲁| 久久影院午夜理论片无码| 亚洲国产成人无码av在线影院| 久久99国产乱子伦精品免费| 成人国产在线观看高清不卡|