亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        青刺果德溫特專利的專業(yè)性主題聚類*

        2022-07-29 14:12:20
        計(jì)算機(jī)時(shí)代 2022年7期
        關(guān)鍵詞:特征詞專利聚類

        陳 一

        (昆明理工大學(xué)管理與經(jīng)濟(jì)學(xué)院,云南 昆明 650000)

        0 引言

        在全球產(chǎn)業(yè)鏈重構(gòu)和大國博弈的背景下,核心技術(shù)是買不來的,要提高核心競爭力,增強(qiáng)產(chǎn)業(yè)鏈供應(yīng)鏈自主可控能力,實(shí)現(xiàn)高質(zhì)量發(fā)展,還是要依靠自主創(chuàng)新。自主創(chuàng)新的過程中,專利的研究和分析具有重要的戰(zhàn)略指導(dǎo)意義,而隨著專利數(shù)量的增加,如何從海量的專利中發(fā)現(xiàn)研發(fā)熱點(diǎn),需要引入大數(shù)據(jù)挖掘的方法,可以通過對(duì)專利文本的主題聚類來探索專利的研發(fā)熱點(diǎn)。但是專利文本會(huì)涉及不同學(xué)科領(lǐng)域的專業(yè)詞匯,比如青刺果專利會(huì)涉及醫(yī)學(xué)、化學(xué)、植物學(xué)等學(xué)科領(lǐng)域的專業(yè)詞匯,做文本數(shù)據(jù)挖掘時(shí),特征詞具有不可分割性。而運(yùn)用傳統(tǒng)的TF-IDF 算法的LDA主題模型來做主題聚類不能很好的處理專業(yè)性的特征詞。針對(duì)專利文本的專業(yè)性特征詞,如何做專利的專業(yè)性主題聚類,本文以青刺果德溫特專利數(shù)據(jù)為例,首先運(yùn)用Word2vec 對(duì)青刺果專利的德溫特分類代碼和專利標(biāo)題訓(xùn)練詞向量,然后引入基于去停用詞的N-Gram 算法優(yōu)化TF-IDF 加權(quán),最后運(yùn)用LDA 做主題聚類。

        1 相關(guān)文獻(xiàn)綜述

        青刺果(Prinsepia utilis Royle)又稱總花扁核木,是薔薇科李亞科扁核木屬植物,為常綠或落葉小灌木。青刺果耐旱、耐寒、抗逆性和適應(yīng)性強(qiáng),主要生長于印度北部和中國西南部喜馬拉雅山區(qū)的高海拔地區(qū)。對(duì)青刺果的研究主要集中在化學(xué)成分分析和藥理作用方面。化學(xué)成分方面,青刺果莖中能提取到單體化合物駢雙四氫呋喃類木脂素,以及L-表兒茶素和β-谷甾醇-β-葡萄糖苷;青刺果的總黃酮的回收率在101.41%,黃酮類組成有山奈酚、兒茶素、槲皮素和圣草酚;發(fā)酵能顯著增加青刺果種子的多酚含量;青刺果油含有豐富的維生素和不飽和脂肪酸。藥理研究方面,青刺果具有降血脂、抑菌、保濕、抗氧化、延緩皮膚衰老、抗腫瘤、抑制血小板聚集等作用。青刺果具有極大的藥用價(jià)值和商用價(jià)值,關(guān)于青刺果也有大量的專利,但相關(guān)文獻(xiàn)缺少對(duì)青刺果專利進(jìn)行分析的研究,本文通過對(duì)青刺果專利文本的主題聚類來探索青刺果專利的研發(fā)熱點(diǎn)。

        2 研究方法

        Word2vec 是由Mikolov 等人提出的一種用于訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)概率語言模型。Word2vec 詞向量是根據(jù)詞匯所在上下文計(jì)算出的,充分捕獲了上下文的語義信息,還能解決傳統(tǒng)向量空間模型處理短文本時(shí)的特征稀疏問題,適用于短文本分類。青刺果專利德溫特分類代碼和專利標(biāo)題都是短文本,本文選擇Word2vec 訓(xùn)練詞向量。針對(duì)Word2vec 模型無法區(qū)分文本中詞匯的重要程度,本文引入TF-IDF 算法計(jì)算Word2vec 詞向量的權(quán)重,但是TF-IDF 算法存在過于依賴特征詞的提取效果和未考慮特征詞的出現(xiàn)位置等問題。而Jestes 等人提出的N-Gram 算法,能保留詞匯的特征信息和特征詞的位置信息,N-Gram 算法對(duì)特定領(lǐng)域特征詞的提取效果明顯,比如在計(jì)算機(jī)病毒特征碼的提取和SQL語句固定維數(shù)的特征向量提取的研究,N-Gram算法能夠豐富特征詞又能清除無效特征詞帶來的影響,同時(shí)加重符合文本主題的特征詞的權(quán)重。因此,本文引入基于去停用詞的N-Gram算法,優(yōu)化TF-IDF 加權(quán)。用N-Gram 來改進(jìn)TF-IDF,特征詞的TF值可以客觀地反映特征詞對(duì)文本的重要程度,將特征詞位置因子和詞頻因子結(jié)合,距離越遠(yuǎn)、頻次越高的特征詞對(duì)文本更重要,應(yīng)賦予更高的權(quán)重。青刺果專利文本的特征詞具有專業(yè)性,經(jīng)過Word2vec訓(xùn)練詞向量和改進(jìn)的TF-ID 優(yōu)化加權(quán),再運(yùn)用LDA做主題聚類,可以提升專利主題聚類的專業(yè)性。

        3 實(shí)驗(yàn)與結(jié)果分析

        在德溫特專利數(shù)據(jù)庫中搜索所有年份的“青刺果”專利,把全紀(jì)錄導(dǎo)出,通過Python 爬蟲獲取的青刺果專利德溫特分類代碼結(jié)果的部分截圖如圖1 所示,青刺果專利標(biāo)題結(jié)果的部分截圖如圖2所示。

        圖1 青刺果專利德溫特分類代碼結(jié)果的部分截圖

        圖2 青刺果專利標(biāo)題結(jié)果的部分截圖

        以青刺果專利的德溫特分類代碼和專利標(biāo)題作為語料,爬取的爬取的用Word2vec的Skip_gram 模型訓(xùn)練詞向量,然后用N-Gram 改進(jìn)TF-IDF,對(duì)詞向量優(yōu)化加權(quán),最后運(yùn)用Python 中的nltk 和gensim 庫做LDA主題聚類,結(jié)果如下所示。

        從青刺果德溫特專利文本主題聚類出來的結(jié)果可以看出,主題詞都是醫(yī)學(xué)、化學(xué)、植物學(xué)等學(xué)科領(lǐng)域的專業(yè)詞匯,主要有七類。

        第一類:皮膚,治療,保濕,化妝品,配方。

        第二類:組合物,有機(jī)物,芳烴,聚合物,化合物。

        第三類:植物,提取,草藥,油,粉。

        第四類:提取,分離,蒸發(fā),結(jié)晶,透析。

        第五類:醫(yī)療,藥品,殺菌,消炎,抗缺氧。

        第六類:油,脂肪,蠟,脂肪酸,精油。

        第七類:設(shè)備,發(fā)酵,釀造,食品,生產(chǎn)。

        這七類主要涉及青刺果的功能、應(yīng)用、提取技術(shù)和成分分析。

        4 結(jié)論與討論

        從青刺果德溫特專利文本的主題聚類結(jié)果可以看出青刺果專利的研究熱點(diǎn)主要集中在青刺果的功能、應(yīng)用、提取技術(shù)和成分分析方面。青刺果是藥食兩用的植物,在食用性、藥用性以及生產(chǎn)工藝上值得繼續(xù)研究探索。但是青刺果種植受地域性限制,其產(chǎn)品的推廣及宣傳仍有待提高,相關(guān)專利在種植和包裝方面猶嫌不足,青刺果專利未來的研究可以多從種植和包裝方面進(jìn)行,以擴(kuò)大青刺果種植,降低生產(chǎn)成本,促進(jìn)產(chǎn)品營銷,讓青刺果能夠發(fā)揮更大的社會(huì)價(jià)值,產(chǎn)生更大的經(jīng)濟(jì)效益。對(duì)于青刺果德溫特專利文本,通過運(yùn)用Word2vec 訓(xùn)練詞向量,再用N-Gram 改進(jìn)TF-IDF 優(yōu)化加權(quán),然后用LDA 做主題聚類的方法,針對(duì)青刺果專利文本涉及不同學(xué)科領(lǐng)域?qū)I(yè)詞匯的特點(diǎn),做出了專業(yè)性的主題聚類。但是如果存在亞??聘?xì)分領(lǐng)域的詞匯,就需要進(jìn)一步探索新的識(shí)別算法。

        猜你喜歡
        特征詞專利聚類
        專利
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        面向文本分類的特征詞選取方法研究與改進(jìn)
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        專利
        国产亚洲精品视频一区二区三区 | 蜜桃av福利精品小视频| 亚洲综合中文字幕日韩| 亚洲乳大丰满中文字幕| 男女18禁啪啪无遮挡| 亚州AV成人无码久久精品| 亚洲无人区一码二码国产内射| 日日碰狠狠添天天爽超碰97久久| 无码ol丝袜高跟秘书在线观看| 精品国内自产拍在线视频| 黑丝国产精品一区二区| 国产精品久久久三级18| 欧美xxxx色视频在线观看| 中文字幕国产91| 久久精品国产亚洲av一| 国产亚洲aⅴ在线电影| 蜜桃av在线播放视频| 久青草影院在线观看国产| 国产精一品亚洲二区在线播放 | 91精品国产高清久久福利| 精品视频一区二区三区在线观看| 亚洲精品久久无码av片软件| 狠狠综合亚洲综合亚色| 中文字幕亚洲入口久久| 四川丰满妇女毛片四川话| 国产精品久久国产精麻豆99网站 | 亚洲天堂久久午夜福利| 久久精品国产亚洲av电影网| 狼人国产精品亚洲| 国产精品女人一区二区三区| 欧美白人战黑吊| 男人边吃奶边做好爽免费视频| 免费a级毛片无码a∨免费 | 久久人人爽av亚洲精品| 爽爽午夜影视窝窝看片| 青青青草国产熟女大香蕉| 久久av少妇亚洲精品| 亚洲日韩小电影在线观看| 天天做天天躁天天躁| 国产一区二区三区亚洲天堂| 人妻免费一区二区三区免费|