亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生物醫(yī)藥領(lǐng)域?qū)@暾垱Q策模型構(gòu)建方法研討

        2014-12-16 08:22:12葛云鵬李嵐鄒龍王斌王軍文
        生物技術(shù)世界 2014年7期
        關(guān)鍵詞:專利申請檢索專利

        葛云鵬 李嵐 鄒龍 王斌 王軍文

        (湖南中醫(yī)藥大學(xué) 湖南長沙 410208)

        《中華人民共和國專利法》第九條規(guī)定:兩個以上的申請人分別就同樣的發(fā)明創(chuàng)造申請專利的,專利權(quán)授予最先申請的人。它確立了我國專利授權(quán)中的“先申請原則”。

        圖1 專利申請授權(quán)可能性分析系統(tǒng)工作流程圖

        表1 ICP分類中生物醫(yī)藥領(lǐng)域?qū)@植记闆r

        由于我國發(fā)明專利的審查必須經(jīng)過實質(zhì)審查,因此,相同或相似主題專利申請時,在后申請專利經(jīng)常因為缺乏實質(zhì)性要件而駁回,這是由于在后申請不具備專利三性之“新穎性”和“創(chuàng)造性”。由此可見,我國專利申請過程中,申請前檢索工作非常重要,現(xiàn)今的專利申請前檢索目標(biāo)一般集中于國家知識產(chǎn)權(quán)局專利檢索系統(tǒng),中國知識產(chǎn)權(quán)出版社(CNIPR)中外數(shù)據(jù)庫服務(wù)平臺,和US,DE,EP,GB,JP,F R,WIPO等主要專利授權(quán)機(jī)構(gòu)[1],以及中國知網(wǎng)(CNKI),百度或谷歌等網(wǎng)絡(luò)搜索引擎。檢索途徑一般為專利發(fā)明人或申請人自行檢索、發(fā)明人或申請人所在單位專利管理人員檢索和專利代理機(jī)構(gòu)檢索三種,由于檢索目標(biāo)較廣,專利和文獻(xiàn)量巨大,普遍存在檢索工作量大,人工處理數(shù)據(jù)工作繁重、檢索成本高、費(fèi)時耗力等問題,而且在信息檢索過程中,檢索人員往往習(xí)慣于從某一特定的概念入手,在檢索專利信息時也不例外。由于專利文獻(xiàn)中往往存在一些繁復(fù)晦澀、意義含混的專用術(shù)語或法律術(shù)語,其與一般科技文獻(xiàn)中的通用技術(shù)用詞不同,因此使用主題詞進(jìn)行檢索時,由于主題詞標(biāo)引的不規(guī)范以及對主題詞的不同理解,很可能造成漏檢[2]。且由于缺乏明確的檢索后各指標(biāo)量化評價體系,檢索者出具的報告?zhèn)€人主觀性較強(qiáng),普遍存在缺檢漏檢等現(xiàn)象,令申請者因授權(quán)可能性不確定,而無所適從等一系列問題。

        本文旨在通過擬申報專利主題的關(guān)鍵詞、ICP分類號等方式結(jié)合,從原始專利數(shù)據(jù)庫提取專利數(shù)據(jù),將提取出的專利數(shù)據(jù)進(jìn)行清洗后,對入選專利文本化處理,進(jìn)行格式化二次加工,用選定的數(shù)學(xué)統(tǒng)計模型對單篇專利主題、文摘、主權(quán)項分別評分,計算全部入選專利平均評分后,給予申請人或發(fā)明人明確的授權(quán)可能性評估結(jié)果。

        表2 USPC分類中生物醫(yī)藥領(lǐng)域?qū)@植记闆r

        1 本模型基本工作流程

        (圖1)

        2 本模型具體工作方法

        (1)確定專利檢索目標(biāo)庫。當(dāng)今網(wǎng)絡(luò)上免費(fèi)專利數(shù)據(jù)庫紛繁復(fù)雜,各具特色,本項目初步選定由中國知網(wǎng)開發(fā)并維護(hù)的中國專利數(shù)據(jù)庫(知網(wǎng)版)和海外專利數(shù)據(jù)庫(知網(wǎng)版)進(jìn)行原始數(shù)據(jù)獲取。該專利庫原始數(shù)據(jù)來源為國家知識產(chǎn)權(quán)局知識產(chǎn)權(quán)出版社,中國專利庫雙周更新,海外庫每月更新,相對更新頻率較快,能準(zhǔn)確反映擬申請主體國內(nèi)外申請現(xiàn)狀和趨勢,而且檢索結(jié)果創(chuàng)造性的融入該專利相關(guān)的文獻(xiàn)、成果等信息等,數(shù)據(jù)來源于CNKI各大數(shù)據(jù)庫,信息量大而全面,非常適合專利申請授權(quán)可能性評價。

        (2)設(shè)計檢索器。為解決專利文獻(xiàn)書寫中上下位詞匯及常見俚語、術(shù)語混合等現(xiàn)象,本項目于檢索入口構(gòu)建基于北大天網(wǎng)推出的“中文Web測試集CWT200g”模塊,設(shè)立關(guān)鍵詞分散聚合標(biāo)識索引庫,解決檢索用戶選用關(guān)鍵詞不能全面描述檢索意圖的問題,最大限度保障專利主體檢索意圖實現(xiàn)。

        (3)設(shè)計檢索數(shù)據(jù)暫存庫。將檢索器獲得的原始專利數(shù)據(jù)按:名稱、申請日、公開日、申請人、發(fā)明人、摘要、主權(quán)項、專利分類號、相關(guān)科技成果、相關(guān)中外標(biāo)準(zhǔn)、發(fā)明人發(fā)表文獻(xiàn)、所涉核心技術(shù)研究動態(tài)12個字段分別存儲,并于名稱、專利分類號、相關(guān)科技成果、相關(guān)中外標(biāo)準(zhǔn)、發(fā)明人發(fā)表文獻(xiàn)、所涉核心技術(shù)研究動態(tài)6個字段設(shè)置相應(yīng)的CNKI數(shù)據(jù)讀取URL鏈接關(guān)聯(lián)字段。處理完成后對照檢索器詞匯數(shù)據(jù)庫,集合中國科學(xué)院計算技術(shù)研究所的漢語詞法分析系統(tǒng)ICTCLAS模塊,對名稱、摘要、主權(quán)項3個字段進(jìn)行切詞處理,去掉虛詞、助詞、停用詞、標(biāo)點(diǎn)后分別合并存貯。

        (4)設(shè)計檢索數(shù)據(jù)清洗模塊。由于專利申請名稱確定的重復(fù)性,模糊性及不確定性定因素,通常導(dǎo)致檢索使用關(guān)鍵詞的關(guān)聯(lián)詞、同義詞、俗語、俚語、專業(yè)區(qū)別性詞語所得出的檢索結(jié)果存在很大程序的重復(fù)性和不相關(guān)性。如中醫(yī)常用語中的“發(fā)熱”,被檢索器分類聚合關(guān)鍵詞后,通常被分解為醫(yī)藥領(lǐng)域的“熱證”“熱癥”“體溫高”也可以分解為機(jī)械領(lǐng)域的“熱閾高”“溫度高”“熱值高”等,所以檢索結(jié)果既可以檢索到醫(yī)藥領(lǐng)域中關(guān)于“發(fā)熱退燒藥”也可以檢索到機(jī)械領(lǐng)域的“導(dǎo)電性發(fā)熱材料”。這就是數(shù)據(jù)挖掘中“啤酒與尿布”的經(jīng)典案例重現(xiàn),為了解決關(guān)鍵詞聚合產(chǎn)生的此類問題,結(jié)合本項目采用的中醫(yī)藥行業(yè)專利授權(quán)可能性預(yù)測,故本模塊擬采用定向分析方法進(jìn)行數(shù)據(jù)清洗,定量分析的數(shù)據(jù)清洗方式多具有明顯的專題性,具體講定向?qū)@治龅膶n}可能是針對某一專業(yè)領(lǐng)域的宏觀分析。[3]基于本理論,本模塊設(shè)計采用國際專利分類表(IPC分類)對初檢專利數(shù)據(jù)源進(jìn)行專業(yè)領(lǐng)域分類,由于美國專利分類法采用ICP分類整理并不全面,所以附加美國專利分類法USPC輔助確定行業(yè)領(lǐng)域。如表1、表2可見ICP和USPC分類中生物醫(yī)藥領(lǐng)域?qū)@植记闆r。根據(jù)暫存庫中專利分類號字段與表1、表2所列專利號進(jìn)行對比,標(biāo)記非對應(yīng)字段的專利數(shù)據(jù),并用檢索器中文本詞庫對照,剔除即不在選定字段下,其名稱、摘要、主權(quán)項不包含檢索器中文本詞庫某一單一詞匯的專利數(shù)據(jù)。

        (5)設(shè)計分析模型。眾所周知,我國專利法對發(fā)明實用新型專利的授權(quán)條件“新穎性”做了區(qū)別于“現(xiàn)有技術(shù)”的規(guī)定,而大多數(shù)國家的專利法則是通過區(qū)別“現(xiàn)有技術(shù)”界定“新穎性”的概念。所以本分析模型的設(shè)計目標(biāo)就是:通過對經(jīng)過清洗的專利文本化數(shù)據(jù)進(jìn)行分析,從中抽取與本專利相關(guān)的“現(xiàn)有技術(shù)”,采用Meta分析常用的RCT分布評分法,進(jìn)行專利文獻(xiàn)評分,Meta分析是對具有相同研究目的的多個獨(dú)立研究結(jié)果進(jìn)行系統(tǒng)的、定量的統(tǒng)計學(xué)綜合分析與綜合評價的一種研究方法[4-6]。

        具體評分標(biāo)準(zhǔn)共有2種評分方式,分別為關(guān)鍵詞與干擾詞對照比較評分法和文本相似度計算評分法,本文詳細(xì)介紹文本相似度計算評分法。目前,文本相似度檢測算法常用的方法有agglomerative算法[7]、增量聚類算法[8]、增量K-means算法[9]、基于主題模型算法[10]等。相似度計算的方法常采用余弦夾角、 雅各比公式、OKA_PI公式、Clarity、Tanimoto、Hellin ger公式等[11-12]。隨著自然語言處理技術(shù)的發(fā)展,基于語義相似度的相似度模型也開始流行。這些相似度計算方法各有利弊。通過初步的對比分析,結(jié)合專利文獻(xiàn)嚴(yán)謹(jǐn)、細(xì)致、格式化強(qiáng)的特點(diǎn),項目組擬采用基于知網(wǎng)HowNet常識知識庫的文本相似度分析系統(tǒng),其基本理念是,一段文字中,概念是由若干義原按照一定知識表述形式描述的。義原是用于描述一個概念的最小意義單位,不可再分,是知網(wǎng)層次結(jié)構(gòu)上的一個節(jié)點(diǎn)。知網(wǎng)系統(tǒng)一共采用了1500基本義原,這些義原相互組合來表示成千上萬的詞語。

        3 具體實施方式如下

        (1)調(diào)用擬申請專利文獻(xiàn)的標(biāo)題、摘要、主權(quán)項,采用數(shù)據(jù)清洗器進(jìn)行切詞處理;

        (2)切詞后,調(diào)用檢索器中文本數(shù)據(jù)庫進(jìn)行詞意特征擴(kuò)展,擴(kuò)展特征的權(quán)重與原特征的權(quán)重相同。

        (3)依次讀取清洗后專利暫存庫中專利文獻(xiàn)向量,采用以下公式計算文本相似度:

        其中:|posi∩posj|表示擬申報專利i文本和對比專利j公共特征數(shù)量,|posiUposj|表示擬申報專利i文本的不同特征數(shù)量。借鑒信息融合中的順序加權(quán)思想,語義相似度的定義如下:

        設(shè)擬申報專利i文本含有m個關(guān)鍵詞,對應(yīng)的權(quán)重為vi1,vi2…,則Posi~[wordi1/vi1,wordi2/vi2,…,wordim/vim]設(shè)擬對比專利j文本含有n個關(guān)鍵詞,對應(yīng)的權(quán)重為vj1,vj2…,則Posj~[wordj1/vj1,wordj2/vj2,…,wordjn/vjn]

        則設(shè)擬申報專利i文本與擬對比專利j文本的語義相似度歸一化表示如下:

        (由于對稱性,不妨假設(shè)m≥n,反之亦然):

        式中,l=1,2,…,n;r=1,2,…,m;simsen2(wordi,wordj)表示詞i和詞j的相似度;simsenl(wordi,posj)表示詞i和擬對比專利j文本的相似度。

        4 結(jié)語

        模型設(shè)計過程中發(fā)現(xiàn),評分方式的實現(xiàn)直觀而精準(zhǔn),能直接反應(yīng)新穎性中創(chuàng)新點(diǎn)所在,但計算方式較為粗放,對于專業(yè)性質(zhì)較強(qiáng),精細(xì)度要求較高的專利文獻(xiàn)分析對比實踐中略有偏差,模型通過中國知網(wǎng)國內(nèi)外專利數(shù)據(jù)庫進(jìn)行檢索評分,對照國家知識產(chǎn)權(quán)局專利法律狀態(tài)數(shù)據(jù)庫進(jìn)行對比,得出算法精準(zhǔn)度為70%,具體數(shù)據(jù)獲得過程暫不能公布,進(jìn)行初步預(yù)估后,能基本得出“授權(quán)可能性大、較大、一般、不建議申報”5級評分結(jié)論指標(biāo),通過指標(biāo)評定,對專利申請可能性進(jìn)行客觀指標(biāo)評分,可以解決檢索報告?zhèn)€人主觀性較強(qiáng),缺檢漏檢等現(xiàn)象得發(fā)生。

        [1]高立華.湯森路透Aureka的智能檢索分析.科技情報開發(fā)與經(jīng)濟(jì)[J],2012(16):107-108.

        [2]馬磊等.IPC分類法在科技查新工作中的應(yīng)用.圖書館學(xué)刊[J],2012(3):32-33.

        [3]王永紅.定量分析的樣本選取與數(shù)據(jù)清洗.情報理論與實踐[J],2007(13):93-97.

        [4]李良壽.臨床醫(yī)學(xué)研究原理與方法.西安:陜西科學(xué)技術(shù)出版社[M],2000(13):57-72.

        [5]徐勇勇.Meta分析:一類綜合研究信息的統(tǒng)計方法.上海預(yù)防醫(yī)學(xué)[J]1993(5):102-111.

        [6]徐勇勇.Meta分析常見資料類型及統(tǒng)計分析方法.中華預(yù)防醫(yī)學(xué)雜志[J],1994(28):33-37.

        [7]張曉艷等.話題檢測與追蹤技術(shù)研究.計算機(jī)研究與探索[J]2009(4):347—357.

        [8]席耀一等.基于語義相似度的論壇話題追蹤方法.計算機(jī)應(yīng)用[J].2011(31):93—96.

        [9]徐建民等.基于查詢術(shù)語同義詞的擴(kuò)展信念網(wǎng)絡(luò)檢索模型.計算機(jī)工程[J],2007(10):28—30.

        [10]孫勝平.中文微博客熱點(diǎn)話題檢測與追蹤技術(shù)研究.北京:北京交通大學(xué),2011.

        [11]劉群等.基于《知網(wǎng)》的詞匯語義相似度計算[c]第三屆漢語詞匯語義學(xué)研討會.臺北:2002:59—76.

        [12]RangrejA,eta1.Mparative Study of Clustering Techniques for Short Text Documents EC ] WWW2011.Hyderabad,India,2011.

        猜你喜歡
        專利申請檢索專利
        專利
        2019年第4-6期便捷檢索目錄
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        專利申請審批流程圖
        河南科技(2016年8期)2016-09-03 08:08:22
        專利申請三步曲
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        專利
        國外專利申請如何盡快被授權(quán)
        國際標(biāo)準(zhǔn)檢索
        國際標(biāo)準(zhǔn)檢索
        国产精品夜色视频久久| 无码精品人妻一区二区三区人妻斩 | 美利坚合众国亚洲视频| 国产日产韩国av在线| 亚洲av成人网| 亚洲人成色777777老人头| 欧美综合区| 国产黄色一区二区福利| 亚洲一区二区三区重口另类| av区无码字幕中文色| 国产精品无码一区二区在线看| 国产剧情av麻豆香蕉精品| 亚洲性无码av在线| 精品人妻av区二区三区| 蜜桃一区二区三区视频网址| 无码区a∨视频体验区30秒| 成人综合网亚洲伊人| 亚洲AⅤ樱花无码| 少妇高潮呻吟求饶视频网站| av在线播放男人天堂| 国产h视频在线观看| 色老汉免费网站免费视频| 青青草极品视频在线播放| 成年人视频在线观看麻豆| 欧美v国产v亚洲v日韩九九| 幻女bbwxxxx在线视频| 国内精品一区二区2021在线| av资源吧首页在线观看| 免费黄片小视频在线播放| 日韩精品久久久久久免费| ā片在线观看| 日本一极品久久99精品| 在线国人免费视频播放| 97在线视频免费人妻| 久久久久亚洲精品天堂| 国产日产亚洲系列av| 区一区二区三区四视频在线观看 | 国产午夜福利短视频| 无遮挡很爽视频在线观看| 日本中文字幕精品久久| 99久久精品国产一区二区|