*基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(72001148,72371171)。
摘要:在建筑廢棄物資源化管理方面,國內(nèi)相關(guān)研究主要集中于單一的再生產(chǎn)品、影響因素、宏觀政策對比等,缺乏技術(shù)層面的系統(tǒng)研究?;诖?,從技術(shù)創(chuàng)新角度出發(fā),基于Python工具、LDA主題模型、專利文本數(shù)據(jù)的量化分析框架,采取IPC分類號與主題檢索結(jié)合的檢索方式,基于專利數(shù)據(jù)庫采集建筑廢棄物資源化技術(shù)相關(guān)專利數(shù)據(jù),對建筑廢棄物資源化技術(shù)熱點(diǎn)進(jìn)行可視化表征,結(jié)合模型困惑度與主題連貫性對主題數(shù)量進(jìn)行檢驗(yàn),旨在豐富利用文本挖掘技術(shù)熱點(diǎn)的方法體系,幫助相關(guān)企業(yè)提升自身資源化技術(shù)水平。
關(guān)鍵詞:文本挖掘;建筑廢棄物;資源化;技術(shù)主題;LDA主題模型;技術(shù)熱點(diǎn)
0" 引言
隨著我國社會經(jīng)濟(jì)的繁榮發(fā)展,建筑業(yè)步入快速發(fā)展階段。城鎮(zhèn)化的快速推進(jìn)使得建筑廢棄物產(chǎn)量逐年增加。相關(guān)研究表明,近幾年,我國建筑廢棄物年均總量在15.5億t以上,占城市垃圾總量的40%左右[1],而建筑廢棄物再生利用率僅占5%,整體處置效率偏低[2]。
當(dāng)前,我國建筑廢棄物資源化處理正處于發(fā)展階段[3],仍存在建筑廢棄物再生產(chǎn)效率低下[4]、技術(shù)創(chuàng)新能力不足[5]、缺乏公眾監(jiān)督[6]、政府規(guī)制不完善[7]、建筑廢棄物處置產(chǎn)業(yè)鏈不完善[8]等問題。這些問題不僅給環(huán)境帶來一定負(fù)面影響,而且造成大量國土空間的浪費(fèi)。由此可見,建筑廢棄物資源化利用已成為急需解決的問題。
經(jīng)過文獻(xiàn)挖掘方法梳理相關(guān)研究文獻(xiàn)發(fā)現(xiàn),國內(nèi)學(xué)者對建筑廢棄物資源化管理的研究重心主要在再生產(chǎn)品、影響因素、政策制度等方面,較缺乏針對建筑廢棄物資源化技術(shù)層面的系統(tǒng)研究?;诖耍狙芯客ㄟ^對相關(guān)專利數(shù)據(jù)進(jìn)行計(jì)量與聚類分析,直觀呈現(xiàn)建筑廢棄物資源化技術(shù)主題,并利用模型困惑度與主題連貫性進(jìn)行檢驗(yàn)。該研究成果能夠協(xié)助政府有效把握技術(shù)演化規(guī)律特征,及時(shí)調(diào)整技術(shù)創(chuàng)新政策。同時(shí),有利于企業(yè)合理規(guī)劃專利研發(fā)布局,降低研發(fā)成本,提高自身資源化管理水平。
1" 研究設(shè)計(jì)
1.1" 數(shù)據(jù)采集與處理
(1)選擇Incopat專利數(shù)據(jù)庫,采取IPC分類號和主題相結(jié)合的檢索方式,時(shí)間跨度為2002—2022年。通過對建筑廢棄物資源化技術(shù)發(fā)明專利數(shù)據(jù)進(jìn)行采集,形成專利文本數(shù)據(jù)庫。
(2)使用Python中的自然語言處理工具包進(jìn)行數(shù)據(jù)清洗,最終得到6500條專利數(shù)據(jù),以此作為研究數(shù)據(jù)集。
1.2" 文本挖掘法
1995年,F(xiàn)eldman等[9]首次提出將數(shù)據(jù)挖掘技術(shù)運(yùn)用于非結(jié)構(gòu)化數(shù)據(jù)[10]。Brian Lent最早將文本挖掘技術(shù)應(yīng)用于專利分析,隨后,出現(xiàn)了詞云分析、文本聚類分析等方法[11]。
1.3" 實(shí)驗(yàn)流程
首先,完成數(shù)據(jù)采集與處理,調(diào)用分詞庫包將數(shù)據(jù)轉(zhuǎn)化成文本特征矩陣;其次,利用Python進(jìn)行LDA主題建模,根據(jù)經(jīng)驗(yàn)值設(shè)置模型所需參數(shù),調(diào)用模型困惑度結(jié)合LDAvis進(jìn)行可視化演示,使用主題連貫性確定最佳主題數(shù)量;最后,對專利主題進(jìn)行歸納和分析。
1.4" LDA主題模型解釋
LDA模型是包含文檔、主題和詞匯三個(gè)層次的貝葉斯模型。LDA主題提取原理及模型生成過程[12]如圖1所示。模型涉及參數(shù)描述見表1。
2" 研究結(jié)果與分析
2.1" 專利特征統(tǒng)計(jì)
2.1.1" 專利申請趨勢
專利申請是技術(shù)創(chuàng)新主體市場行為的一種表現(xiàn),是對宏觀環(huán)境的反應(yīng)。了解建筑廢棄物資源化技術(shù)專利申請趨勢有助于分析在不同時(shí)期專利申請熱度的變化。2002—2022年建筑廢棄物資源化技術(shù)專利申請趨勢如圖2所示。根據(jù)專利生命周期劃分可知,建筑廢棄物資源化技術(shù)經(jīng)歷了以下階段:2006年以前專利申請數(shù)較少,說明該階段技術(shù)處于“萌芽期”,整體發(fā)展非常緩慢;2007—2013年專利申請數(shù)量開始逐年穩(wěn)定增長,說明該階段技術(shù)進(jìn)入“成長期”;自2014年開始專利申請數(shù)量呈現(xiàn)井噴式增長,一直到2021年速度才有所放緩,說明該階段技術(shù)處于“成熟期”,建筑廢棄物資源化技術(shù)領(lǐng)域研究已受到廣泛關(guān)注,并極具發(fā)展?jié)摿Α?/p>
2.1.2" 專利技術(shù)功效
專利技術(shù)功效圖可以一目了然地呈現(xiàn)專利空白區(qū),在了解技術(shù)現(xiàn)狀、分析競爭力等方面具有重要作用。建筑廢棄物資源化技術(shù)領(lǐng)域?qū)@夹g(shù)功效圖如圖3所示??梢钥闯?,C04B的技術(shù)功效主要在于降低成本、強(qiáng)度提高、復(fù)雜性降低及改善環(huán)境;B02C的技術(shù)功效主要在于提高效率與便利性;B09B、B07B、B03C和B01D等在各個(gè)功效維度都有涉及,包容性較強(qiáng)。因此,未來C04B和B02C將在技術(shù)申請趨勢方面占據(jù)主導(dǎo)地位。
2.1.3" 專利申請人分析
通過統(tǒng)計(jì)專利申請人排名,可以把握行業(yè)中具有競爭力的市場主體,便于政府與企業(yè)對實(shí)力強(qiáng)勁的專利申請人進(jìn)行鼓勵型投資。建筑廢棄物資源化專利申請人類別主要分為企業(yè)、高校、科研機(jī)構(gòu)等。該領(lǐng)域?qū)@麛?shù)量排名前10的專利申請人統(tǒng)計(jì)表見表2。其中,企業(yè)申請人8個(gè),占比高達(dá)80%。北京工業(yè)大學(xué)發(fā)明專利最多,達(dá)63項(xiàng),其次是同濟(jì)大學(xué),共計(jì)49項(xiàng)。
本研究采用專利集中度評估當(dāng)前專利技術(shù)研發(fā)和專利權(quán)利的集中程度,用絕對值CRn表示,計(jì)算公式如下
CRn=∑ni=1Ki∑Ni=1Ki(1)
式中,Ki為各專利申請人擁有的專利數(shù)量;N為所有專利申請人數(shù)量;n=1,2,…,N。
由于2013年以前的專利數(shù)量較少,將2002—2012年的專利數(shù)據(jù)合并計(jì)算,申請人集中度計(jì)算結(jié)果見表3。
由表3可以看出,雖然2002—2014年專利申請集中度呈上升趨勢,但該階段的專利申請量有限,集中度并不穩(wěn)定。在2014年以后,專利集中度數(shù)組逐漸降低,說明該階段的競爭逐漸激烈,對創(chuàng)新主體的要求越來越高。
2.1.4" 專利申請地域
建筑廢棄物資源化技術(shù)專利申請地域分布圖如圖5所示??梢钥闯?,建筑廢棄物資源化技術(shù)專利集中在沿海地區(qū),專利數(shù)量排名第一的是江蘇省,累計(jì)專利申請量達(dá)1050項(xiàng);其次是廣東省和浙江省,累計(jì)專利申請量分別為925項(xiàng)和849項(xiàng)。
2.2" 專利聚類分析
專利聚類分析是指利用文本挖掘方法將技術(shù)聚合成不同的子類,客觀呈現(xiàn)技術(shù)熱點(diǎn),發(fā)現(xiàn)新興技術(shù)主題。本研究采用詞云分析、地圖分析、專利分類號分析三種方法。
2.2.1" 詞云分析
詞云是近年來用于文本挖掘的可視化技術(shù),將文本數(shù)據(jù)中的“關(guān)鍵詞”予以顏色和大小等視覺差異效果以反映詞語的重要程度[13]。文字字體越大,表明其越重要,建筑廢棄物資源化技術(shù)詞云圖如圖6所示??梢钥闯?,“建筑垃圾破碎”與“變廢為寶”關(guān)注度最高,其次是“施工效率”與“垃圾回收”。
2.2.2" 地圖分析
地圖分析是指通過對專利文本數(shù)據(jù)中的著錄信息與技術(shù)方案信息進(jìn)行整理歸納,提取對研究目標(biāo)有用的專利信息。主題詞所在的區(qū)域顏色越深,說明該詞出現(xiàn)的頻率越高;反之,說明該詞出現(xiàn)的頻率越低。建筑廢棄物資源化技術(shù)專利地圖如圖7所示??梢钥闯?,我國建筑廢棄物資源化技術(shù)主要集中在“建筑垃圾破碎”“垃圾回收”“變廢為寶”等主題。
2.2.3" 專利分類號分析
專利分類號共現(xiàn)關(guān)系網(wǎng)絡(luò)能夠展示各分類號所代表的技術(shù)主題分布情況,以及各技術(shù)主題之間的關(guān)聯(lián)性[14]。本研究的專利數(shù)據(jù)庫有134項(xiàng)專利,結(jié)合共現(xiàn)關(guān)系與社會網(wǎng)絡(luò)分析法進(jìn)行分析,具體步驟如下:統(tǒng)計(jì)專利分類號間共現(xiàn)次數(shù)→計(jì)算共現(xiàn)矩陣取值→在Gephi軟件中引入共現(xiàn)矩陣→選擇Yifan Hu布局模式呈現(xiàn)專利分類號共現(xiàn)情況→生成共現(xiàn)關(guān)系網(wǎng)絡(luò)圖(圖8)。
圖8中各節(jié)點(diǎn)代表不同的專利分類號,節(jié)點(diǎn)大小表示該專利在領(lǐng)域的重要程度,節(jié)點(diǎn)連線的粗細(xì)表示合作頻率,連線越粗表示合作越密切。可以看出,C04B1816(廢物作為砂漿、混凝土或人造石填料)、B09B300(將固體廢物破壞/轉(zhuǎn)變?yōu)橛杏没驘o害的東西)和C04B2800(含有黏結(jié)劑的砂漿、混凝土或人造石的組合物)技術(shù)之間的關(guān)聯(lián)度較高,中心度和相對中心度均位于前三,是目前研究的熱門技術(shù)。
3" 基于LDA模型的建筑廢棄物資源化技術(shù)主題分析
3.1" 模型困惑度分析
采用模型困惑度和主題連貫性相結(jié)合的方式確定最優(yōu)LDA主題數(shù)量。其中,困惑度用于評估LDA主題模型優(yōu)劣程度。困惑度越低,說明模型泛化能力越強(qiáng)[15]。計(jì)算公式如下
perplexity(Dtest)=exp-∑Md=1logp(wd)∑Md=1Nd(2)
式中,D表示語料庫中的測試集;M表示文檔數(shù)量;Nd表示每篇文檔d中包含的單詞數(shù)量;wd表示文檔d中的詞匯;p(wd)表示詞wd在文檔中產(chǎn)生的概率。
采用Perplexity庫分析困惑度隨主題數(shù)目改變而變化的情況。當(dāng)?shù)螖?shù)在1000次以上時(shí),結(jié)果基本穩(wěn)定。困惑度變化趨勢圖如圖9所示。隨著主題數(shù)量增加,困惑度先驟減再增大并趨于平緩。當(dāng)主題數(shù)量為4時(shí),困惑度最低,說明當(dāng)前模型泛化能力最強(qiáng)。經(jīng)過模型困惑度檢驗(yàn),本研究確定最佳主題數(shù)量為4。
3.2" 主題連貫性分析
采用統(tǒng)計(jì)語言模型中的評價(jià)指標(biāo)主題連貫性確定最佳主題數(shù)量。主題連貫性得分越大,說明主題詞越相關(guān),內(nèi)部歧義越少。借鑒Coherence Model模塊進(jìn)行主題連貫性得分計(jì)算,計(jì)算公式如下
coherence(V)=∑(vi,vj,δ)score(vi,vj,δ)(3)
score(vi,vj,δ)=logp[(vi,vj)+δ/(p(vi)p(vj))](4)
式中,V代表描述主題的詞;δ代表平滑系數(shù),一般取值為1;vi和vj表示屬于V的任意兩個(gè)詞;p(vi,vj)表示兩個(gè)詞共同出現(xiàn)的概率。主題連貫性得分結(jié)果如圖10所示,可以看出,當(dāng)主題連貫性得分最高時(shí),內(nèi)部歧義最少,其對應(yīng)的主題數(shù)目也是4,印證了上述模型困惑度的檢驗(yàn)結(jié)果。
3.3" 技術(shù)主題可視化
根據(jù)模型困惑度和主題連貫性計(jì)算結(jié)果,對LDA模型主題特征詞進(jìn)行總結(jié),歸納結(jié)果見表4。其中:Topic1歸納為施工效率,指代施工技術(shù)的升級;Topic2歸納為再生工藝,指代常見的建筑垃圾處理工藝流程系統(tǒng);Topic3歸納為變廢為寶,指代常見的建筑廢棄物再生產(chǎn)品;Topic4歸納為裝置功能,指代建筑廢棄物處理裝置設(shè)備功能特點(diǎn)。
詞與主題的相關(guān)性系數(shù)λ代表一個(gè)詞匯在一個(gè)主題中出現(xiàn)的頻率相對于提升率的權(quán)重參數(shù)。在LDA可視化系統(tǒng)界面中,可以通過調(diào)節(jié)相關(guān)性系數(shù)λ呈現(xiàn)不同的主題效果。通過大量實(shí)驗(yàn)證明,當(dāng)λ=0.67時(shí),所呈現(xiàn)的主題特征詞更加合理??梢暬黝}詞分類如圖11所示。在圖中,左邊代表全局主題,右邊代表術(shù)語。選中某一主題后,可以觀察到右側(cè)的詞匯變化,以此了解每一類主題下的詞匯占比,發(fā)掘核心專利技術(shù)的側(cè)重點(diǎn)。
4" 結(jié)語
本研究以建筑廢棄物資源化專利技術(shù)為分析對象,提出了基于文本挖掘的專利分析流程。通過專利特征統(tǒng)計(jì),發(fā)現(xiàn)專利技術(shù)申請趨勢整體穩(wěn)步上升,明確了目前建筑廢棄物資源化產(chǎn)業(yè)各技術(shù)功效的專利分布情況,分析了專利申請人和專利集中情況。結(jié)果表明,當(dāng)前,建筑廢棄物資源化產(chǎn)業(yè)的主要創(chuàng)新主體是企業(yè)與個(gè)人,沿海省市的創(chuàng)新活躍程度較高,其他地區(qū)提升空間較大。采用文本挖掘法將建筑廢棄物資源化技術(shù)劃分為施工效率、再生工藝、變廢為寶和裝置功能4個(gè)主題,并通過模型困惑度與主題連貫性檢驗(yàn)進(jìn)行驗(yàn)證。基于研究結(jié)果,提出以下建議:
(1)地方政府應(yīng)加強(qiáng)法律法規(guī)建設(shè),創(chuàng)新政策機(jī)制,合理簡化專利申請流程,提高審核效率,同時(shí)加強(qiáng)知識產(chǎn)權(quán)保護(hù),促進(jìn)技術(shù)轉(zhuǎn)化。
(2)企業(yè)作為技術(shù)創(chuàng)新的主體,應(yīng)加強(qiáng)與高校、科研院所等的產(chǎn)學(xué)研合作,通過規(guī)?;ㄖU棄物再生產(chǎn)各個(gè)環(huán)節(jié)推動產(chǎn)業(yè)鏈形成與發(fā)展。
參考文獻(xiàn)
[1]曹元輝, 王勝杰, 王勇, 等. 我國建筑垃圾綜合利用現(xiàn)狀及未來發(fā)展趨勢 [J]. 中國建材, 2021(9): 118-21.
[2]關(guān)攀博, 王琳瑞, 付凌波, 等. 城市建筑廢棄物的科學(xué)管理與有效利用研究 [J]. 環(huán)境科學(xué)與管理, 2016, 41(4): 7-11.
[3]李建明, 王志剛, 王一峰, 等. 基于固體廢棄物資源化利用的“無廢城市”建設(shè)初探 [J]. 中國水土保持, 2019 (7): 25-9.
[4]袁紅平, 王焯平. 建筑廢棄物資源化利用合作促進(jìn)機(jī)制研究 [J]. 工程研究——跨學(xué)科視野中的工程, 2017, 9(2): 181-9.
[5]崔旭東, 時(shí)雪燕. 雙碳背景下建筑廢棄物資源化利用問題研究 [J]. 建設(shè)科技, 2022(9): 32-5.
[6]邵志國, 李夢笛, 韓傳峰, 等. 基于演化博弈的建筑垃圾處理協(xié)同機(jī)制及仿真 [J]. 中國管理科學(xué),2022(2): 1-14.
[7]李景茹, 劉寒, 赫改紅, 等. 建筑廢棄物資源化利用行業(yè)發(fā)展影響因素研究——基于深圳、青島、許昌的調(diào)研 [J]. 建筑經(jīng)濟(jì), 2018, 39(11): 24-7.
[8]江明陽. 建筑廢棄物資源化產(chǎn)業(yè)鏈中核心利益主體間動態(tài)演化仿真研究 [D]. 深圳:深圳大學(xué), 2020.
[9]FELDMAN R, DAGAN I, HIRSH H. Mining text using keyword distributions [J]. Journal of Intelligent Information Systems, 1998, 10(3): 281-300.
[10]胡阿沛, 張靜, 雷孝平,等. 基于文本挖掘的專利技術(shù)主題分析研究綜述 [J]. 情報(bào)雜志, 2013, 32(12): 88-92,61.
[11]JELODAR H, WANG Y L, YUAN C, el al. Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey [J]. Multimedia Tools and Applications, 2019, 78(11): 15169-15211.
[12]陳虹樞. 基于主題模型的專利文本挖掘方法及應(yīng)用研究 [D].北京:北京理工大學(xué), 2015.
[13]汪言. 基于Python的詞云生成及優(yōu)化研究——以“十四五”規(guī)劃為例 [J]. 電腦知識與技術(shù), 2021, 17(19): 23-8.
[14]溫芳芳. 基于專利權(quán)人-分類號多重共現(xiàn)分析的全球?qū)@季盅芯俊蕴柲芷嚰夹g(shù)領(lǐng)域?yàn)槔?[J]. 現(xiàn)代情報(bào), 2017, 37(4): 165-169.
[15]趙凱, 王鴻源. LDA最優(yōu)主題數(shù)選取方法研究:以CNKI文獻(xiàn)為例 [J]. 統(tǒng)計(jì)與決策, 2020, 36(16): 175-179.
PMT
收稿日期:2023-08-12
作者簡介:
李昇翰(1976—),男,講師,碩士研究生導(dǎo)師,研究方向:可持續(xù)綠色建筑。
吳晨溦(2000—),女,研究方向:建筑可持續(xù)管理。
張佳盛(1989—),男,高級工程師,研究方向:裝配式技術(shù)、可持續(xù)管理。
張丹婷(1998—),女,研究方向:建筑可持續(xù)管理。
吳澤洲(通信作者)(1988—),男,副教授,碩士研究生導(dǎo)師,研究方向:建筑可持續(xù)管理。