亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA模型的專利文本主題分析
        ——以國內(nèi)元宇宙領(lǐng)域?yàn)槔?/h1>
        2023-08-01 00:57:30陸振昇
        科技和產(chǎn)業(yè) 2023年11期
        關(guān)鍵詞:文本模型

        陸振昇, 馬 超

        (1.深圳信息職業(yè)技術(shù)學(xué)院 素質(zhì)賦能中心,廣東 深圳 518172;2.湘潭大學(xué) 公共管理學(xué)院,湖南 湘潭 411105)

        2021年是元宇宙概念火爆全球的一年,被稱為“元宇宙元年”。2021年3月10日,號(hào)稱為元宇宙第一股的Roblox在美國紐約上市,當(dāng)日暴漲50%以上;同年10月28日,國外社交媒體巨頭Facebook更名為Meta,“meta”一詞代表元宇宙的“元”;隨后微軟也宣布進(jìn)軍元宇宙。國內(nèi)互聯(lián)網(wǎng)頭部公司諸如阿里巴巴、騰訊、字節(jié)跳動(dòng)等也紛紛開始布局元宇宙,金融界開始大量注資擁有元宇宙概念的相關(guān)企業(yè),產(chǎn)業(yè)界各團(tuán)體展開了元宇宙這個(gè)新賽道的競(jìng)爭(zhēng)[1]。2022年,南京信息工程大學(xué)、安徽大學(xué)和香港理工大學(xué)分別開設(shè)了元宇宙相關(guān)專業(yè),元宇宙自此成為當(dāng)前社會(huì)、政府、產(chǎn)業(yè)、學(xué)界等爭(zhēng)相關(guān)注的焦點(diǎn)。

        元宇宙是一個(gè)大的由虛擬世界和現(xiàn)實(shí)世界高度融合的數(shù)字空間,包括所有虛擬世界、增強(qiáng)現(xiàn)實(shí)和互聯(lián)網(wǎng)的總和[2]。2021年底以來,北京、上海、武漢、合肥等多地政府出臺(tái)了元宇宙和虛擬現(xiàn)實(shí)的相關(guān)政策文件。2021年底,上海市政府年度經(jīng)濟(jì)會(huì)議上便指出“引導(dǎo)企業(yè) 研究虛擬世界與現(xiàn)實(shí)世界相交互的平臺(tái)”;2022年,北京市政府宣布要把通州區(qū)打造成元宇宙示范應(yīng)用區(qū);深圳市也提出在前海建立元宇宙應(yīng)用試驗(yàn)區(qū)。2021年3月發(fā)布的《十四五規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》中提出“加快建設(shè)數(shù)字經(jīng)濟(jì)、數(shù)字社會(huì)、數(shù)字政府,以數(shù)字化轉(zhuǎn)型整體驅(qū)動(dòng)生產(chǎn)方式、生活方式和治理方式變革”。2022年10月28日,國務(wù)院五部門(工業(yè)和信息化部、教育部、文化和旅游部、國家廣電總局、國家體育總局)聯(lián)合發(fā)布《虛擬現(xiàn)實(shí)與行業(yè)應(yīng)用融合發(fā)展行動(dòng)計(jì)劃(2022—2026年)》強(qiáng)調(diào)應(yīng)用場(chǎng)景落地[3]。應(yīng)用落地需要相關(guān)的專利技術(shù)作為支撐。

        1 專利分析相關(guān)研究

        丁鵬斐[4]提出了一種基于LDA(latent dirichlet allocation)模型的中藥專利內(nèi)容熱點(diǎn)領(lǐng)域分析方法,并以中藥材三七為例,實(shí)現(xiàn)了中藥專利領(lǐng)域主題細(xì)分和熱點(diǎn)子領(lǐng)域判斷。張世玉等[5]提出在傳統(tǒng)技術(shù)層面專利組合分析方法的基礎(chǔ)上,采用文本挖掘技術(shù),通過技術(shù)領(lǐng)域標(biāo)簽抽取、專利文本特征表示、采用文本聚類等流程來對(duì)專利文本所屬技術(shù)領(lǐng)域進(jìn)行劃分。張素娟等[6]使用LDA主題模型和聚類標(biāo)簽的方法實(shí)現(xiàn)了對(duì)西洋參領(lǐng)域?qū)@闹黝}熱度分析。艾楚涵等[7]提出了LDA模型與Kmeans聚類算法結(jié)合的方法,對(duì)我國轉(zhuǎn)基因玉米育種領(lǐng)域的專利文本進(jìn)行了分析。伊惠芳等[8]用了融合時(shí)間標(biāo)簽的LDA主題模型和戰(zhàn)略坐標(biāo)法相結(jié)合,將石墨烯領(lǐng)域?qū)@治鲆远S的形式展現(xiàn)出來。

        2 LDA主題模型理論基礎(chǔ)

        2.1 LDA主題模型

        LDA主題模型由David Blei于2003年提出[9],是一種文檔主題生成模型,它包含了三層結(jié)構(gòu),分別是主題、文檔、詞,是一個(gè)貝葉斯概率模型。LDA模型是一個(gè)無監(jiān)督的機(jī)器學(xué)習(xí)方法,可以用來識(shí)別大規(guī)模文檔集或語料集中的潛在主題信息[10]。同時(shí),LDA采用了詞袋模型,通過將每一篇文檔視為一個(gè)詞頻向量,文檔直接用這些向量集合來表示,并且這個(gè)詞袋方法沒有考慮詞與詞之間的順序,降低了計(jì)算的復(fù)雜度。在LDA 模型中每一篇文檔代表一些主題所構(gòu)成的概率分布,在每一個(gè)主題中主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布[11]。LDA模型的核心是Dirichlet分布,在貝葉斯概率理論中被稱為共軛先驗(yàn)分布[12]。

        LDA模型的大體思想為:運(yùn)用先驗(yàn)分布的理念(即先設(shè)定一個(gè)猜想值去計(jì)算)通過不斷迭代調(diào)整每個(gè)文檔中每個(gè)詞匯對(duì)應(yīng)主題的概率分布和每個(gè)主題對(duì)應(yīng)文檔的概率分布,使最終結(jié)果符合實(shí)際的文檔集中單詞對(duì)應(yīng)文檔的分布。用數(shù)學(xué)公式表示為

        P(w|d)=P(w|t)P(t|d)

        (1)

        式中:w為詞匯;d為文檔;t為主題。

        2.2 主題困惑度

        由于LDA模型在訓(xùn)練時(shí)需要事先設(shè)定好主題分類的個(gè)數(shù),困惑度的概念是一種用于評(píng)價(jià)語言模型好壞的指標(biāo)[13]。使用主題困惑度作為確定最佳主題數(shù)的指標(biāo),其在LDA模型中計(jì)算公式為

        (2)

        p(d)=Σlnp(w)

        (3)

        p(w)=[Σzp(z|d)]p(w|z)

        (4)

        式中:D為整個(gè)文檔集;p(w)為測(cè)試集每一個(gè)詞匯出現(xiàn)的概率;N為測(cè)試集所有詞集合;z為訓(xùn)練過的主題;d為測(cè)試集的每篇文檔。

        最終計(jì)算出來的困惑度代表文檔主題的不確定性,因此理論上來說困惑度越小模型性能越好,在困惑度曲線上顯示為最低點(diǎn)或拐點(diǎn)處的主題數(shù)是最佳主題數(shù)[14]。

        3 實(shí)驗(yàn)與分析

        3.1 數(shù)據(jù)獲取與處理

        通過對(duì)CNKI中國知網(wǎng)的中國專利數(shù)據(jù)庫中的關(guān)鍵詞“元宇宙”進(jìn)行檢索,得到364條匹配結(jié)果,經(jīng)過篩選,去除相似重復(fù)項(xiàng)和“多元宇宙算法”干擾項(xiàng),選取其中234條專利的摘要構(gòu)建文檔集。數(shù)據(jù)獲取截止時(shí)間為2022年12月19日。進(jìn)行數(shù)據(jù)清洗,如“元宇宙”“專利”“申請(qǐng)”“發(fā)明”等詞出現(xiàn)頻率極高但對(duì)分析目標(biāo)沒有作用;使用jieba分詞對(duì)文檔集進(jìn)行中文分詞,并建立去停用詞庫。

        3.2 實(shí)驗(yàn)結(jié)果

        基于Python3.8軟件的Sklearn庫中LDA模型包對(duì)處理好的文檔集進(jìn)行主題劃分,需要事先人為設(shè)置主題劃分?jǐn)?shù),考慮到目前“元宇宙”專利數(shù)據(jù)集規(guī)模比較小,所以將主題數(shù)設(shè)置成3~5個(gè)。經(jīng)對(duì)比發(fā)現(xiàn),區(qū)分為3個(gè)主題時(shí),主題區(qū)分度還不錯(cuò),但細(xì)分技術(shù)領(lǐng)域和細(xì)分應(yīng)用領(lǐng)域區(qū)分度不高;區(qū)分為4個(gè)主題時(shí),出現(xiàn)極少數(shù)相似主題詞分到相鄰主題的情況;區(qū)分為5個(gè)主題時(shí),出現(xiàn)較多相似主題詞被分到不同主題的情況。主題數(shù)為3、4、5時(shí)的主題-主題詞分布如表1~表3所示。

        表1 主題數(shù)為3時(shí)的主題分布

        表2 主題數(shù)為4時(shí)的主題分布

        表3 主題數(shù)為5時(shí)的主題分布

        將超參數(shù)α設(shè)置為0.1,β設(shè)置為0.01,最大迭代次數(shù)設(shè)置為50次,得出不同主題數(shù)下主題困惑度的變化曲線(圖1)。

        圖1 不同主題數(shù)下主題困惑度變化曲線

        由圖1可知困惑度在主題數(shù)為7時(shí)出現(xiàn)拐點(diǎn),最終確定最佳主題數(shù)為7。

        將主題數(shù)設(shè)置為7后,得到的主題-主題詞的分布情況如表4所示??梢詫⑦@7類分別對(duì)應(yīng)其所在的技術(shù)領(lǐng)域,分別是“人工智能技術(shù)”“區(qū)塊鏈技術(shù)”“物聯(lián)網(wǎng)技術(shù)”“人機(jī)交互技術(shù)”“3D建模技術(shù)”“擴(kuò)展現(xiàn)實(shí)技術(shù)”“云計(jì)算技術(shù)”。

        表4 主題數(shù)為7時(shí)的主題分布

        3.3 實(shí)驗(yàn)結(jié)果分析

        結(jié)合LDA主題模型訓(xùn)練輸出最后的主題分類結(jié)果,使用Excel軟件進(jìn)行專利主題分類數(shù)據(jù)統(tǒng)計(jì)分析,得到圖2所示結(jié)果。

        圖2 專利數(shù)量分類統(tǒng)計(jì)柱狀圖

        由圖2可得,目前基于區(qū)塊鏈技術(shù)在元宇宙環(huán)境中開發(fā)的專利數(shù)量占比最大,云計(jì)算技術(shù)次之。而在2022年國務(wù)院五部門聯(lián)合發(fā)布的有關(guān)促進(jìn)加強(qiáng)虛擬現(xiàn)實(shí)技術(shù)與行業(yè)產(chǎn)業(yè)界融合應(yīng)用發(fā)展計(jì)劃中重點(diǎn)關(guān)注的虛擬現(xiàn)實(shí)技術(shù)方面的專利數(shù)量排名靠后。通過分析可以發(fā)現(xiàn)這七類關(guān)鍵技術(shù)在元宇宙產(chǎn)業(yè)應(yīng)用中存在發(fā)展不平衡的現(xiàn)象,在《“十四五”規(guī)劃和2035遠(yuǎn)景規(guī)劃》中“加強(qiáng)數(shù)字化發(fā)展 建設(shè)數(shù)字中國”篇章里明確提到了人工智能和擴(kuò)展現(xiàn)實(shí)這兩個(gè)數(shù)字經(jīng)濟(jì)重點(diǎn)產(chǎn)業(yè)技術(shù),有關(guān)部門應(yīng)當(dāng)在元宇宙產(chǎn)業(yè)的布局上著重發(fā)展這兩項(xiàng)技術(shù)的創(chuàng)新開發(fā)和落地應(yīng)用。截至2022年7月20日,根據(jù)全球?qū)@麛?shù)據(jù)供應(yīng)商IFI CLAIMS的情報(bào),過去5年擁有元宇宙相關(guān)專利的前10位公司有微軟158件、三星122件、Magic Leap 109件、IBM71件、迪士尼40件、Facebook 38件、Adobe 31件、Verizon 30件、英特爾 27件、Snap 27件[15]。這些公司的元宇宙相關(guān)專利數(shù)量總和是國內(nèi)專利數(shù)據(jù)庫中元宇宙專利的兩倍以上,國內(nèi)的元宇宙產(chǎn)業(yè)尚處于起步階段,在未來的數(shù)字化進(jìn)程中,國內(nèi)元宇宙產(chǎn)業(yè)的應(yīng)用專利和技術(shù)專利具有相當(dāng)大的發(fā)展空間。

        4 結(jié)語

        LDA主題模型可以應(yīng)用到元宇宙專利文本數(shù)據(jù)的主題分類中,實(shí)現(xiàn)對(duì)元宇宙專利主題領(lǐng)域、技術(shù)領(lǐng)域的現(xiàn)狀的分析和判斷,揭示了熱門技術(shù)領(lǐng)域和熱門產(chǎn)業(yè)發(fā)展的緊密關(guān)聯(lián)性,為后續(xù)元宇宙產(chǎn)業(yè)的研究提供了參考意見。經(jīng)過實(shí)證環(huán)節(jié)總結(jié)出以下結(jié)論:通過實(shí)驗(yàn)分析基于LDA主題模型得出專利-主題的具體分布,將中國元宇宙領(lǐng)域相關(guān)專利細(xì)分成七大技術(shù)類別,填補(bǔ)了當(dāng)前國內(nèi)元宇宙領(lǐng)域內(nèi)專利文本分析的空白。

        1)通過對(duì)當(dāng)前中國專利數(shù)據(jù)庫中元宇宙相關(guān)專利的分析研究,發(fā)現(xiàn)以下局限:獲取的專利文本數(shù)據(jù)規(guī)模小,無法更深層次地、更廣維度地對(duì)國內(nèi)元宇宙專利數(shù)據(jù)進(jìn)行挖掘。

        2)國內(nèi)目前在元宇宙產(chǎn)業(yè)還處于初期發(fā)展階段,產(chǎn)業(yè)界和高校已經(jīng)陸續(xù)著手?jǐn)U大元宇宙方向的布局,相信在不久的將來,隨著生成式AI(artificial intelligence)技術(shù)的蓬勃發(fā)展,在此項(xiàng)技術(shù)的加持下,中國元宇宙相關(guān)專利會(huì)在虛擬現(xiàn)實(shí)技術(shù)領(lǐng)域出現(xiàn)井噴式的增長(zhǎng)。

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究

        日本刺激视频一区二区| 成人特黄a级毛片免费视频| 双腿张开被9个男人调教| 色婷婷资源网| 精品国产免费久久久久久| 最新国产主播一区二区| 免费一区二区高清不卡av| 人成午夜大片免费视频77777| 少妇人妻综合久久中文字幕| 久久久久久久女国产乱让韩| 日韩视频第二页| 天堂在线观看av一区二区三区| 在线观看女同一区二区| 亚洲国产精品国自拍av| 永久免费人禽av在线观看| 国产精品成人av在线观看| 欧美成人a视频免费专区| 在线人妻va中文字幕| 又色又爽又高潮免费视频国产| 精品久久久久久久久久久aⅴ| 亚洲日韩精品久久久久久| 羞涩色进入亚洲一区二区av| 曰韩无码av一区二区免费| 亚洲成a∨人片在线观看不卡 | 国产一区二区三区的区| 亚洲精品tv久久久久久久久久| 日本精品一区二区三区在线视频| 日本一区二区三区专区| 精品国产日韩亚洲一区在线| 无码人妻一区二区三区在线| 黄瓜视频在线观看| 久久亚洲伊人| 新视觉亚洲三区二区一区理伦| 亚洲天堂丰满人妻av| 亚洲日本在线电影| 波多野结衣一区二区三区免费视频 | 国产精品无码v在线观看| 国产精品久免费的黄网站| 综合人妻久久一区二区精品| 一二三四在线观看视频韩国| 一本久久a久久精品vr综合|