丁鵬斐 吳建德
摘 要:為解決中藥材相關(guān)專(zhuān)利分類(lèi)粗泛性、熱點(diǎn)研究領(lǐng)域不明確的問(wèn)題,提高其主題分類(lèi)時(shí)效性和科學(xué)性,分析明確中藥相關(guān)熱點(diǎn)領(lǐng)域。通過(guò)引入LDA主題模型對(duì)中藥材相關(guān)專(zhuān)利內(nèi)容進(jìn)行分析,對(duì)中藥專(zhuān)利主題進(jìn)行劃分,以中藥材“三七”為例,使用1萬(wàn)條專(zhuān)利數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,專(zhuān)利主體得到明確劃分,實(shí)現(xiàn)了熱門(mén)研究領(lǐng)域分類(lèi)?;贚DA主題模型方法分析中藥相關(guān)專(zhuān)利,實(shí)現(xiàn)中藥專(zhuān)利領(lǐng)域主題細(xì)分、熱點(diǎn)子領(lǐng)域判斷,揭示了中藥專(zhuān)利熱門(mén)研究領(lǐng)域,實(shí)現(xiàn)了中藥相關(guān)產(chǎn)業(yè)未來(lái)發(fā)展趨勢(shì)的預(yù)測(cè)。
關(guān)鍵詞: LDA主題模型; 熱門(mén)技術(shù)領(lǐng)域; 中藥專(zhuān)利內(nèi)容分析; 三七
DOI:10. 11907/rjdk. 181746
中圖分類(lèi)號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)001-0148-04
Abstract: To solve the crudeness of related patent classifications of Chinese herbal medicines and the unclear issues in the research field of related patent hotspots for Chinese herbal medicines, improve the timeliness and scientific nature of its subject classification, and identify the hot areas related to traditional Chinese medicine, this article analyzes the patent content of Chinese herbal medicines by the LDA theme model and divides the patent subject of traditional Chinese medicines. Taking Panax notoginseng as an example, 10 thousand patents are used for experiment. After? analyzing traditional Chinese medicine patent content of Sanqi by LDA theme model, we can achieve the subject division of Chinese medicine patents and issues will be resolved such as the overly broad classification of past patent topics, poor timeliness, and lack of scientific. Based on the LDA theme model, the hot research fields of Chinese medicine patents are portrayed and the development trend of traditional Chinese medicine is indicated.
0 引言
我國(guó)在中藥現(xiàn)代化過(guò)程中,除利用現(xiàn)代科學(xué)技術(shù)解釋古老的中醫(yī)藥原理外,還應(yīng)具備創(chuàng)新思維,積極發(fā)現(xiàn)新藥、新用途,才能保持勃勃生機(jī)。國(guó)家知識(shí)產(chǎn)權(quán)局規(guī)劃發(fā)展司2013年12月發(fā)布《中國(guó)區(qū)域產(chǎn)業(yè)專(zhuān)利密集度統(tǒng)計(jì)報(bào)告》,在全部41個(gè)工業(yè)大類(lèi)中,醫(yī)藥制造業(yè)分別以2007-2011年28.6l件/萬(wàn)人和2008-2012 年39.59件/萬(wàn)人的專(zhuān)利密集度名列第5位,細(xì)化到與中藥直接或間接相關(guān)的工業(yè)種類(lèi)時(shí),專(zhuān)利密集度也在全部20個(gè)工業(yè)種類(lèi)中名列前茅[1]。與中藥直接或間接相關(guān)專(zhuān)利的專(zhuān)利密集度在所有工業(yè)種類(lèi)中屬于前列。目前對(duì)于中藥相關(guān)專(zhuān)利主題的分析研究通常以專(zhuān)利數(shù)據(jù)結(jié)構(gòu)化信息挖掘?yàn)橹?,而進(jìn)行文本分析時(shí),關(guān)鍵詞分析是最常見(jiàn)的主題分析方法,但是在專(zhuān)利文獻(xiàn)中并不包含關(guān)鍵詞字段,所以研究人員通常采用專(zhuān)利分類(lèi)代碼進(jìn)行分析研究[2],或?qū)χ兴幉南嚓P(guān)專(zhuān)利采用專(zhuān)利分類(lèi)代碼替代專(zhuān)利關(guān)鍵詞進(jìn)行技術(shù)主題分析[3]。這些方法主要存在以下局限性:中藥專(zhuān)利分類(lèi)代碼不能與相對(duì)應(yīng)的技術(shù)領(lǐng)域充分契合,分類(lèi)過(guò)于粗泛,需要深入專(zhuān)利文本內(nèi)容進(jìn)行挖掘分析[4-7]。
本文采用LDA 主題模型可判斷文本的相關(guān)程度,從而識(shí)別大數(shù)據(jù)語(yǔ)料集背后潛藏的主題信息,其效果優(yōu)于混合主題模型等其它主題劃分方法[8-10]。LDA 模型對(duì)新興領(lǐng)域潛在主題分析研究具有明顯優(yōu)勢(shì),在中藥相關(guān)專(zhuān)利新領(lǐng)域中所體現(xiàn)的前沿技術(shù)主題分析上也具有優(yōu)勢(shì)。本文采用LDA 主題模型與中藥材相關(guān)專(zhuān)利文本相結(jié)合,解決以往專(zhuān)利主題分類(lèi)中的問(wèn)題,采用語(yǔ)義分析的文本挖掘研究方式對(duì)中藥材相關(guān)專(zhuān)利進(jìn)行文本分析研究。
1 中藥材專(zhuān)利主體分析
1.1 LDA主體模型
LDA (Latent Dirichlet Allocation)是一種文檔主題生成模型,是一個(gè)包含詞、主題和文檔3層結(jié)構(gòu)的貝葉斯概率模型[11-12]。其中文檔與主題、主體與主題詞分別服從多項(xiàng)分布。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí),在訓(xùn)練時(shí)不需要人工標(biāo)注訓(xùn)練集,只需要指明文檔的主題數(shù)就可以分析識(shí)別潛藏在大規(guī)模文檔集或語(yǔ)料庫(kù)中的主題信息。LDA采用詞袋模型,即每一篇文章都是由一組詞構(gòu)成的集合,且詞與詞之間是無(wú)序的,詞的無(wú)序性降低了整個(gè)問(wèn)題的復(fù)雜度[13]。在LDA模型中每一篇文檔代表一些主題所構(gòu)成的概率分布,在每一個(gè)主題中主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布[14]。主題模型的主要前提假設(shè)是,一系列主題鏈接了一系列詞和文檔集合,而主題則可以理解為是字和詞的一種概率分布,采用概率推斷算法,是一種全概率生成過(guò)程[15]。每一篇文檔可以包含多個(gè)主題,文檔中的每一個(gè)詞都由主題生成。LDA是目前主要的主題生成模型,與其它生成式概率模型相比,使用Dirichlet 分布作為主題分布信息的先驗(yàn)知識(shí)。文檔、主題以及詞可以表示為圖1。
圖1中,K為文檔主題個(gè)數(shù);M為文檔總數(shù);Nm為第m個(gè)文檔的詞的總數(shù); [β]為每個(gè)主題(Topic)下詞的多項(xiàng)分布的Dirichlet先驗(yàn)參數(shù);[α]為每個(gè)文檔下主題的多項(xiàng)分布的Dirichlet先驗(yàn)參數(shù);Zm,n為第m個(gè)文檔中第n個(gè)詞的主題;Wm,n為第m個(gè)文檔中的第n個(gè)詞;[θm]為第m個(gè)文檔下的主題的分布;[φk]為第k個(gè)主題下詞的分布[16]。
1.2 LDA主體模型應(yīng)用于專(zhuān)利文本
專(zhuān)利文本是一種比較特殊的文本,與一般文本相比具有結(jié)構(gòu)特殊、專(zhuān)業(yè)性強(qiáng)、領(lǐng)域詞匯較多等特點(diǎn),因此與傳統(tǒng)文本分類(lèi)方法相比,專(zhuān)利文本需要采用更有針對(duì)性的文本分類(lèi)方法和文本分析方法[17]。在文本分析中,文本的表示直接影響到特征值選取,好的特征值選取方法可以提高分類(lèi)方法效率,目前專(zhuān)利文本分類(lèi)方法的文本表示都基于向量空間模型(Vector Space Model,VSM)算法[18]。本文采用LDA主體模型對(duì)專(zhuān)利摘要進(jìn)行分析。深入挖掘?qū)@谋鹃g內(nèi)在關(guān)系,需要對(duì)當(dāng)前專(zhuān)利中所展現(xiàn)的技術(shù)特征應(yīng)用領(lǐng)域作進(jìn)一步分析,有助于了解各細(xì)分主題專(zhuān)利主體的發(fā)展方向,判斷各細(xì)分市場(chǎng)專(zhuān)利知識(shí)主體地位,了解當(dāng)前領(lǐng)域內(nèi)技術(shù)發(fā)展動(dòng)向。在LDA主題模型中分析計(jì)算的基數(shù)是詞頻,因此專(zhuān)利文件的詞頻可以被看作是表現(xiàn)專(zhuān)利主題的重要特征,而專(zhuān)利文獻(xiàn)的數(shù)據(jù)具有多元性,可進(jìn)一步挖掘中藥材相關(guān)專(zhuān)利主題、專(zhuān)利技術(shù)應(yīng)用領(lǐng)域的潛在關(guān)系。通過(guò)LDA主題模型得到專(zhuān)利—主題、主題—特征詞的概率分布,從多個(gè)角度深入分析專(zhuān)利文本,得出專(zhuān)利技術(shù)發(fā)展動(dòng)向。
1.3 中藥專(zhuān)利LDA主體模型應(yīng)用實(shí)現(xiàn)
專(zhuān)利文本的特殊性使其并不具有類(lèi)似于期刊論文的關(guān)鍵詞字段,從而需要從專(zhuān)利文本中提取主題詞。根據(jù)專(zhuān)利文本特性,著重對(duì)專(zhuān)利摘要進(jìn)行分析。專(zhuān)利摘要包含其所屬技術(shù)領(lǐng)域、需解決的技術(shù)問(wèn)題、主要技術(shù)特征和用途。本文對(duì)從專(zhuān)利數(shù)據(jù)庫(kù)中獲取的“三七”相關(guān)專(zhuān)利數(shù)據(jù)摘要進(jìn)行處理。
首先對(duì)專(zhuān)利數(shù)據(jù)進(jìn)行去噪。由于檢索式不精確,從數(shù)據(jù)庫(kù)中獲取的“三七”中藥材專(zhuān)利文獻(xiàn)中有少數(shù)不相關(guān)專(zhuān)利數(shù)據(jù)。因?yàn)閷?duì)具有大量數(shù)據(jù)的專(zhuān)利數(shù)據(jù)進(jìn)行人工去噪,將會(huì)浪費(fèi)大量時(shí)間,所以本文以字符串對(duì)比的方法進(jìn)行初步數(shù)據(jù)處理,通過(guò)對(duì)比剔除摘要中明顯不屬于“三七”專(zhuān)利的文本數(shù)據(jù)。中藥材專(zhuān)利摘要中存在許多特定的詞匯、單位、數(shù)字,例如外觀設(shè)計(jì)、設(shè)計(jì)、第一、當(dāng)歸、甘草、黃芪、紅花等,會(huì)嚴(yán)重影響LDA主題分析,對(duì)分析熱門(mén)技術(shù)領(lǐng)域有很大影響,所以需要對(duì)初步去噪的摘要文本進(jìn)行去停用詞分詞。本文采用jieba分詞對(duì)文本進(jìn)行處理,將專(zhuān)利文本中常用的不具有實(shí)際意義的量詞、連接詞、專(zhuān)用詞組去除,切割形成一個(gè)“三七”摘要的詞頻矩陣,運(yùn)用LDA對(duì)專(zhuān)利摘要進(jìn)行處理,提取出“三七”專(zhuān)利的主題模型。然后對(duì)“三七”專(zhuān)利主題模型的特征詞進(jìn)行評(píng)估,如果特征不明顯或者有明顯錯(cuò)誤則對(duì)所采集專(zhuān)利數(shù)據(jù)進(jìn)行再清洗,直至得到準(zhǔn)確明顯的特征詞。專(zhuān)利文本分析具體流程見(jiàn)圖2。
2 實(shí)驗(yàn)與分析
以含有“三七”中藥材的專(zhuān)利數(shù)據(jù)為研究對(duì)象,在智慧芽數(shù)據(jù)庫(kù)中,以“主題=三七 AND”為檢索式進(jìn)行檢索,“時(shí)間跨度=所有年份”,更新至2018年3月20 日,下載“三七”直接相關(guān)技術(shù)10 000 項(xiàng)。通過(guò)該數(shù)據(jù)將LDA主題模型應(yīng)用于中藥相關(guān)專(zhuān)利分析,并進(jìn)行可操作性和有效性檢驗(yàn)。
2.1 數(shù)據(jù)來(lái)源
研究數(shù)據(jù)來(lái)自于智慧芽專(zhuān)利數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包括中國(guó)、美國(guó)、歐洲專(zhuān)利局、世界知識(shí)產(chǎn)權(quán)局等專(zhuān)利信息,涵蓋了全球一億多個(gè)專(zhuān)利數(shù)據(jù)。采用該數(shù)據(jù)庫(kù)的主要原因是: 數(shù)據(jù)庫(kù)提供專(zhuān)利的所有字段信息,且提供完整的摘要和全文,并對(duì)以上專(zhuān)利信息進(jìn)行了標(biāo)準(zhǔn)化處理。采用該數(shù)據(jù)庫(kù),便于獲取專(zhuān)利摘要、權(quán)利要求等文本的標(biāo)準(zhǔn)化信息,能夠有效提高提取專(zhuān)利中技術(shù)詞的效率,因此能夠使專(zhuān)利主題詞抽取結(jié)果更有意義,直接影響用LDA模型對(duì)專(zhuān)利文本數(shù)據(jù)處理分析的結(jié)果。
2.2 文本聚類(lèi)分析
以往對(duì)專(zhuān)利文本處理通常使用文本聚類(lèi)的方法。本文采用文本聚類(lèi)中非常成熟的K-means算法,對(duì)“三七”專(zhuān)利摘要進(jìn)行聚類(lèi),提取“三七”目前的主要熱門(mén)技術(shù)。為了盡可能區(qū)分“三七”不同的研究領(lǐng)域,根據(jù)其主流研究方向?qū)⒕垲?lèi)個(gè)數(shù)設(shè)為6個(gè),通過(guò)對(duì)“三七”摘要文本的聚類(lèi),測(cè)試K-means算法是否符合目前幾大研究方向。聚類(lèi)結(jié)果見(jiàn)圖3,不同顏色和形狀的標(biāo)志代表各個(gè)不同類(lèi)簇(彩圖見(jiàn)封底)。
由圖3可以看出聚類(lèi)效果并不明顯,幾個(gè)簇是相交包含關(guān)系,不能清晰區(qū)分出目前“三七”專(zhuān)利主要涉及領(lǐng)域,不能有效指出“三七”熱門(mén)技術(shù)領(lǐng)域。通過(guò)聚類(lèi)分析可以看出,傳統(tǒng)的文本聚類(lèi)方法具有不確定性,聚類(lèi)結(jié)果不穩(wěn)定,達(dá)不到對(duì)具體研究領(lǐng)域細(xì)分的效果。
2.3 LDA模型分析結(jié)果
本文以中藥材“三七”的專(zhuān)利數(shù)據(jù)作為研究對(duì)象,以驗(yàn)證LDA對(duì)整個(gè)中藥專(zhuān)利技術(shù)熱點(diǎn)的分析結(jié)果。通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)處理,再以LDA主體模型進(jìn)行測(cè)試,得出“三七”專(zhuān)利數(shù)據(jù)摘要中的高頻主題詞。高頻主題詞主要為:混合物、制劑、提取物、止血、止痛、系統(tǒng)、飼料、種植、毒副作用、保健、食用、人參、藥物。這些高頻詞反映了目前“三七”應(yīng)用研究的主要領(lǐng)域,所以通過(guò)對(duì)“三七”專(zhuān)利摘要進(jìn)行分詞抽取能很好地反映專(zhuān)利主題內(nèi)容。
LDA主體模型是全概率生成模型,對(duì)“三七”相關(guān)專(zhuān)利進(jìn)行主題劃分,主題數(shù)通常由人為定義,所以定義主題數(shù)可能會(huì)嚴(yán)重影響實(shí)驗(yàn)結(jié)果。本文對(duì)“三七”專(zhuān)利數(shù)據(jù)主題劃分設(shè)立了8個(gè)主題,通過(guò)實(shí)驗(yàn)比較發(fā)現(xiàn)主題數(shù)設(shè)為8時(shí),其主題見(jiàn)表1。
通過(guò)對(duì)比發(fā)現(xiàn),當(dāng)主題數(shù)設(shè)為6時(shí),其主題主要體現(xiàn)了藥用、保健飲食、“三七”加工設(shè)備、“三七”制備工藝、養(yǎng)殖種植等領(lǐng)域,沒(méi)有體現(xiàn)“三七”在生活用品中的應(yīng)用;當(dāng)主題數(shù)小于6時(shí),主題區(qū)分度過(guò)低,且不能充分反映“三七”專(zhuān)利包含的技術(shù)領(lǐng)域;當(dāng)主題數(shù)大于9時(shí),就會(huì)出現(xiàn)多個(gè)主題相近、主題區(qū)分過(guò)細(xì)、多個(gè)主題屬于一個(gè)大主題的情況。所以主題數(shù)設(shè)為8個(gè),剛好反映了當(dāng)前“三七”中藥材相關(guān)專(zhuān)利所包含的主要應(yīng)用領(lǐng)域,并且細(xì)分了三七作為醫(yī)藥對(duì)應(yīng)的幾個(gè)主要應(yīng)用領(lǐng)域,為分析“三七”當(dāng)前研究的熱門(mén)技術(shù)領(lǐng)域提供了充分支持。