亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向電動汽車領(lǐng)域的專利文獻加工和術(shù)語抽取方法研究

        2014-07-07 15:09:47
        中國科技資源導刊 2014年5期
        關(guān)鍵詞:信息方法研究

        曾 文

        (中國科學技術(shù)信息研究所,北京 100038)

        面向電動汽車領(lǐng)域的專利文獻加工和術(shù)語抽取方法研究

        曾 文

        (中國科學技術(shù)信息研究所,北京 100038)

        隨著國家科技戰(zhàn)略規(guī)劃發(fā)展的進一步深化,知識產(chǎn)權(quán)戰(zhàn)略已經(jīng)提升到國家層面,未來國家重點產(chǎn)業(yè)持續(xù)發(fā)展和新興產(chǎn)業(yè)創(chuàng)新開拓都與知識產(chǎn)權(quán)戰(zhàn)略息息相關(guān)。本文以電動汽車領(lǐng)域?qū)@墨I為基礎(chǔ),從專利文獻加工和解決專利文獻術(shù)語抽取的研究問題入手,提出專利文獻再處理的基本流程以及一種基于專利術(shù)語語言特點和統(tǒng)計計算相結(jié)合的??墨I術(shù)語抽取識別方法,并在電動汽車專利文獻數(shù)據(jù)集上進行了驗證和測試。測試結(jié)果表明,本文提出的方法是有效的。

        電動汽車;專利文獻;專利分析;專利加工;術(shù)語抽取

        1 引言

        專利文獻是技術(shù)、產(chǎn)品、應(yīng)用和法律狀態(tài)信息的混合載體,是具有技術(shù)價值和商業(yè)價值的知識蓄水池。與其他科技文獻(圖書、期刊、研究報告、會議論文、技術(shù)標準、學位論文)相比,專利文獻的特點和情報分析價值主要表現(xiàn)在6個方面:(1)內(nèi)容相對新穎、廣泛;(2)信息密度大,針對性和實用性強;(3)敘述詳盡,但語言表述上具有較強的技術(shù)性;(4)文獻結(jié)構(gòu)格式統(tǒng)一;(5)報道相對及時,時效性相對較強;(6)專利文獻數(shù)量龐大,重復出版量大。專利文獻信息的特點和價值,使得專利文獻的分析與應(yīng)用成為國家管理部門、科研機構(gòu)和企業(yè)等進行技術(shù)分析、技術(shù)創(chuàng)新和發(fā)展的重要手段之一[1-4]。

        電動汽車技術(shù)的研究符合資源節(jié)約型和環(huán)境友好型社會的建設(shè)要求,因此,我國 “八五”期間啟動了電動汽車的研究和開發(fā)工作,在“九五”期間啟動了“空氣凈化工程,到了“十五”期間,科技部提出了我國發(fā)展新能源汽車的實施方案,電動汽車重大專項被國家科教工作領(lǐng)導小組批準為國家“十五”期間重點組織實施的12個重大科技專項之一?;诖耍疚膰@電動汽車領(lǐng)域的專利文獻,開展電動汽車領(lǐng)域?qū)@墨I的基礎(chǔ)性研究工作。

        2 電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù)的加工研究

        專利文獻的數(shù)據(jù)內(nèi)容相比其他類型的科技文獻更具技術(shù)性和創(chuàng)新性,其數(shù)據(jù)資源蘊含的科技信息價值最高。例如,電動汽車領(lǐng)域?qū)@墨I中的標題、文摘、權(quán)利要求項、正文等文本信息含有重要技術(shù)細節(jié)和技術(shù)保護等內(nèi)容,如何從這些非結(jié)構(gòu)化文本內(nèi)容中抽取潛在的技術(shù)信息,分析領(lǐng)域技術(shù)的發(fā)展趨勢,對于科學技術(shù)創(chuàng)新,輔助技術(shù)發(fā)展決策等具有重要的意義。

        圖1 電動汽車領(lǐng)域?qū)@墨I加工的基本流程

        對電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù)進行技術(shù)分析的前提是擁有良好質(zhì)量的電動汽車領(lǐng)域?qū)@麛?shù)據(jù)資源作為基礎(chǔ)。因此,構(gòu)建高質(zhì)量的電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù)資源成為關(guān)鍵問題之一。電動汽車領(lǐng)域?qū)@墨I的數(shù)據(jù)與其他科技文獻的數(shù)據(jù)加工在一定程度上具有異曲同工之處,即對于數(shù)據(jù)源首先均需要進行再次加工處理和存儲的基本過程,其原因在于,電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù)資源包括中外文電動汽車領(lǐng)域?qū)@墨I。此外,電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù)資源規(guī)模龐大,由于國內(nèi)外電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù)信息采集和存儲方式不同,存在數(shù)據(jù)信息存儲和組織方式不一致的問題。目前,我們進行電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù)加工的基本流程如圖1所示。其中,加工模塊實現(xiàn)以下功能:(1)識別數(shù)據(jù)元素,即自動識別電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù)信息;(2)清洗數(shù)據(jù)內(nèi)容,由于電動汽車領(lǐng)域?qū)@墨I資源的數(shù)據(jù)質(zhì)量良莠不齊,因此在數(shù)據(jù)資源存儲之前,首先需要對數(shù)據(jù)資源進行必要的自動“清洗”處理,去除不規(guī)范的字符和符號等,否則導入數(shù)據(jù)庫的過程中會出現(xiàn)不必要的數(shù)據(jù)導入錯誤,而且影響日后數(shù)據(jù)整合和分析質(zhì)量。存儲模塊的任務(wù)主要是:(1)建立數(shù)據(jù)庫,用于存儲處理后的數(shù)據(jù);(2)將自動識別的數(shù)據(jù)資源內(nèi)容與存儲的數(shù)據(jù)庫中的字段實現(xiàn)自動匹配,并自動存儲在相應(yīng)的數(shù)據(jù)庫字段內(nèi)。按照圖1的處理流程,我們開發(fā)了相應(yīng)的軟件工具,實現(xiàn)電動汽車領(lǐng)域?qū)@墨I的加工和存儲,示例圖分別見圖2和圖3。通過電動汽車領(lǐng)域?qū)@墨I的數(shù)據(jù)加工技術(shù),可以提供諸如標題、權(quán)利要求說明和摘要等二次電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù)信息。

        此外,除了針對電動汽車領(lǐng)域?qū)@墨I自身的數(shù)據(jù)內(nèi)容進行加工處理外,還需要可用于專利分析的其他數(shù)據(jù)內(nèi)容,如被引次數(shù)、同族專利數(shù)、法律狀態(tài)、消歧后的作者姓名和單位名稱、正文等詳細數(shù)據(jù)信息,并不能實現(xiàn)單獨提供,需要借助國外專利數(shù)據(jù)庫或商業(yè)分析軟件進行獲取。對于這些數(shù)據(jù)的加工,本文認為在一定程度上需要借助于網(wǎng)絡(luò)抓取引擎工具,從而減輕人工成本,即將信息的抓取過程抽象為統(tǒng)一的抓取工具。以電動汽車領(lǐng)域?qū)@墨I為例,需要通過抓取工具的配制參數(shù),控制抓取數(shù)據(jù)的來源及與電動汽車之間的關(guān)聯(lián)度,并可以使用不同的模板來規(guī)定抓取引擎如何抽取不同的關(guān)鍵詞和表屬性以及如何清理數(shù)據(jù)和入庫。針對電動汽車領(lǐng)域?qū)@墨I數(shù)據(jù),網(wǎng)絡(luò)抓取引擎定制不同的抓取代理。每個抓取代理包含一個抓取模板、一個抓取引擎和一個抓取探測器。抓取模板根據(jù)需要的數(shù)據(jù)格式以及少量網(wǎng)頁樣本來學習該資料的抓取模式。目前,這部分的工作還處于研究和測試的階段。

        3 電動汽車領(lǐng)域?qū)@g(shù)語的識別與抽取方法研究

        3.1 電動汽車領(lǐng)域?qū)@g(shù)語的識別與抽取方法

        國內(nèi)已有的專利術(shù)語抽取研究工作基本是采用統(tǒng)計計算和構(gòu)建專利術(shù)語信息抽取模板的方法,實現(xiàn)對專利文獻主題詞的抽取[5]。國內(nèi)外現(xiàn)有的其他術(shù)語抽取技術(shù)方法則以利用統(tǒng)計計算方法居多[6-9],但是統(tǒng)計計算的方法需要依賴于語料庫的規(guī)模來保證抽取結(jié)果的準確度,需要解決的問題是構(gòu)建語料庫的成本和質(zhì)量;由于模板規(guī)則的覆蓋面小,基于模板規(guī)則的方法就需要構(gòu)造相應(yīng)的規(guī)則庫,而構(gòu)建術(shù)語信息抽取模板是十分耗費人力和物力的。因此,本文采用的基本策略是基于專利術(shù)語的語言規(guī)則和統(tǒng)計計算相結(jié)合的術(shù)語抽取策略,實現(xiàn)專利文獻術(shù)語的抽取,具體方法如下。

        通過對中文國際專利分類表及專利文獻進行抽樣分析并結(jié)合科技文獻術(shù)語特點,可以發(fā)現(xiàn):專利術(shù)語未出現(xiàn)語氣詞、狀態(tài)詞、嘆詞、擬聲詞和代詞;專利術(shù)語的首詞未出現(xiàn)助詞、連詞;專利術(shù)語的末尾詞中未出現(xiàn)方位詞、連詞和助詞;專利術(shù)語中包含名詞、動詞或形容詞的數(shù)量占多數(shù)。

        根據(jù)上述分析,本文制定專利文獻術(shù)語抽取的基本語言規(guī)則是:專利術(shù)語中至少含有一個動詞、名詞或名詞性成分; 專利術(shù)語最后一個詞為動詞、名詞或名詞性成分;專利術(shù)語第一個詞不為介詞、量詞;專利術(shù)語中無連詞、代詞和語氣詞。

        圖2 電動汽車領(lǐng)域?qū)@墨I加工之后的數(shù)據(jù)庫存儲狀態(tài)示例

        為了提高專利文獻術(shù)語自動抽取的準確性,本文將專利術(shù)語詞語的自動抽取過程分為兩部分:一是基于語言特點進行術(shù)語的自動抽??;二是基于統(tǒng)計算法對專利術(shù)語進行二次抽取識別和過濾,以完成整個專利術(shù)語的自動抽取過程。

        具體專利術(shù)語抽取流程見圖3。

        圖3 電動汽車專利文獻術(shù)語抽取基本流程

        在圖3中的語言學處理是指基于語言特點,將分詞后的字進行字串組合,形成長度為2至10的字串,這些字串即是候選專利術(shù)語詞。這些候選專利術(shù)語詞經(jīng)過統(tǒng)計學計算處理,得到最終的專利文獻術(shù)語。統(tǒng)計計算的數(shù)學模型如下。

        3.2 實驗結(jié)果和分析

        為了驗證本文提出的專利文獻術(shù)語的識別與抽取方法的效果,進行了相關(guān)的實驗,實驗數(shù)據(jù)是電動汽車領(lǐng)域的專利文獻數(shù)據(jù)1226篇,相關(guān)實驗結(jié)果見表1和表2。

        表1 抽取的部分術(shù)語示例

        表2 實驗數(shù)據(jù)結(jié)果

        對于實驗結(jié)果的評估,本文采用的是人工識別判定的方法,在不同區(qū)域連續(xù)隨機抽取800個詞語樣本,之后經(jīng)過人工判定若干次800個樣本中正確的術(shù)語詞語個數(shù),最終得到的平均準確率約為62.1%。

        從以上統(tǒng)計的結(jié)果可以發(fā)現(xiàn):通過執(zhí)行本文設(shè)計的專利文獻術(shù)語識別抽取方法,獲取的術(shù)語詞語平均準確率可以達到62.1%左右,其主要原因首先是由于方法本身需要數(shù)據(jù)語料的規(guī)模和質(zhì)量的保證,而非算法本身所能完全確定的客觀事實,其次方法本身仍需要進一步的改進。

        4 研究設(shè)想和展望

        專利文獻的加工和術(shù)語識別抽取方法是構(gòu)建高質(zhì)量專利文獻數(shù)據(jù),實現(xiàn)專利文獻深層次數(shù)據(jù)挖掘的基礎(chǔ)。因此,本文以電動汽車領(lǐng)域?qū)@墨I作為研究切入點,重點研究專利文獻加工和術(shù)語識別抽取的技術(shù)和方法。實驗分析和結(jié)果均表明本文的方法是有效的,但其在數(shù)據(jù)質(zhì)量和術(shù)語抽取的準確度方面由于數(shù)據(jù)集選擇規(guī)模的大小或數(shù)據(jù)集內(nèi)容質(zhì)量的不同而降低,達不到人工識別的精確和智能,在專利文獻術(shù)語自動抽取的具體算法設(shè)計上有待進一步的細化和設(shè)計,以提高實驗結(jié)果的質(zhì)量。

        [1] Marc Krier,Francesco Zacca.Automatic Categorization Applications at the European Patent Office[J].World Patent Information,2002, 24(3): 187-196.

        [2] 李振亞,孟凡生.基于四要素的專利價值評估方法研究[J].情報雜志,2010(8):87-90.

        [3] 郭婕婷,肖國華.專利分析方法研究[J].情報雜志, 2008(1):12-14.

        [4] 李建蓉.專利信息與利用[M].北京:知識產(chǎn)權(quán)出版社, 2011:8-10.

        [5] 王裴巖,張桂平,蔡東風,等.一種用于專利主題詞抽取的模板自動生成方法[J]. 沈陽航空工業(yè)學院學報,2010(3):46-49.

        [6] 常鵬,馬輝.高效的短文本主題詞抽取方法[J].計算機工程與應(yīng)用, 2011(20):126-128,154.

        [7] 李鵬,王斌,石志偉等.Tag-TextRank:一種基于Tag的網(wǎng)頁關(guān)鍵詞抽取方法[J].計算機研究與發(fā)展, 2012,49(11): 2344-2351.

        [8] 張榕.術(shù)語定義抽取、聚類與術(shù)語識別研究[D].北京:北京語言大學,2006:35-41.

        [9] Frantzi K T,Ananiadou S,Mima H.Automatic Recognition of Multi-word Terms:The C-value/NC-value method[J].International Journal on Digital Libraries,2000,3(2):115-130.

        Research of Processing and Term Extraction Based on Electric Automobile Patent Documents

        Zeng Wen
        (Institute of Scientif l c and Technical Information of China, Beijing 100038)

        With the further development of China’s strategic planning of technology, the importance of intellectual property has been growing at the national level. In the future, the sustainable development of China’s key industries will be closely related to its strategy of intellectual property. Based on the electric automobile patents’ document, the paper proposed basic process of reprocessing patent documents. The paper also proposed a automatic extraction method based on patent’s term characteristics and statistical computing. The algorithm was verified on the Electric automobile’s test data set. Experimental results showed that the proposed method was ef f ective.

        electric automobile, patent literature, patent analysis, patent processing, term extraction

        G356.8

        :A

        10.3772/j.issn.1674-1544.2014.05.009

        曾文( 1973- ) ,女,博士,中國科學技術(shù)信息研究所副研究員,研究方向:智能信息處理。

        “十二五”國家科技支撐計劃課題“基于多源信息的電動汽車數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究”(2013BAG06B01);國家社會科學基金項目“基于事實型科技大數(shù)據(jù)的情報分析方法及集成分析平臺研究”(14BTQ038);中國科學技術(shù)信息研究所科研項目預研資金項目“基于領(lǐng)域的科技文獻重要度評價方法研究”(YY-201416)。

        2014年5月12日。

        猜你喜歡
        信息方法研究
        FMS與YBT相關(guān)性的實證研究
        遼代千人邑研究述論
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        国产综合久久久久影院| 亚洲成人一区二区三区不卡 | 国产一区二区三区白浆在线观看| 熟妇人妻精品一区二区视频免费的| 性按摩xxxx在线观看| 国产精品多p对白交换绿帽| 免费观看性欧美大片无片| 国产一级毛片卡| 亚洲高清国产品国语在线观看 | 日本黑人亚洲一区二区| 北条麻妃国产九九九精品视频| 性色av一区二区三区| 人妻无码一区二区在线影院| 日本一道dvd在线中文字幕| 国产av区亚洲av毛片| 亚洲精品国产av成拍| 国产a∨天天免费观看美女 | 国产成人无码av在线播放dvd| 狠狠狠色丁香婷婷综合激情| 国产思思久99久精品| 日本女同性恋一区二区三区网站| 亚洲日韩精品一区二区三区无码| 国产婷婷色综合av蜜臀av| 国产精品亚洲А∨天堂免下载| 国产内射视频免费观看| 少妇被爽到高潮喷水免费福利| 日韩精品久久无码中文字幕 | 亚洲av成人片在线观看| 欧美国产精品久久久乱码| 大地资源网更新免费播放视频| 亚洲免费一区二区三区视频| 日本一区二区在线看看| 国产精品女主播福利在线| 中文字幕一精品亚洲无线一区| 国产丝袜视频一区二区三区| 久久婷婷色香五月综合激情| 国产精品高清视亚洲一区二区| 亚洲中文字幕久久精品无码a| 综合网自拍| 国产一级一厂片内射视频播放| 欧美群妇大交群|