□鈕 亮 項 瑋 施佳璐
能源短缺與環(huán)境污染是當今人類長期所面臨的兩個巨大難題,開發(fā)一種可再生的清潔型能源、實現(xiàn)低碳經(jīng)濟是解決兩個問題的重要路徑,也是我國發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)的一個重要突破口。研究和利用可再生能源作為主要的新型清潔能源已經(jīng)成為了人類所面臨的重要課題之一。鋰電池是目前最具發(fā)展前景的高效二次電池和發(fā)展最快的化學儲能電源,符合新型清潔能源的需要。國外對于鋰電池技術研究最早是從20 世紀50年代開始,但不同時期的技術研究關注點不同。到20世紀70年代基本上已經(jīng)實現(xiàn)了對鋰原子電池的軍用和民用。由于鋰離子電池適合作為電動汽車的動力來源,進入20 世紀90年代后期,在電動汽車中的應用研究也越來越多[1]。鑒于鋰電池在各行各業(yè)廣泛的應用,很多學者對其熱點和趨勢進行研究,以便探索鋰電池領域的未來發(fā)展方向,引導企業(yè)投資和生產(chǎn)。趙蓉英等通過對美國專利商標局(USPTO)數(shù)據(jù)庫中鋰電池專利引文信息的計量分析,探究了鋰電池行業(yè)技術的發(fā)展態(tài)勢、鋰電池技術的分布狀況以及鋰電池技術發(fā)展與基礎科學研究的關系[2]。蘭鳳崇等采集了國內外鋰離子動力電池專利信息,并以此分析全球鋰離子電池產(chǎn)業(yè)的發(fā)展情況[3]。王琳等通過檢索國內外全固態(tài)鋰電池的專利文獻,從申請量變化規(guī)律、申請人分布、技術領域分布和發(fā)明人分布等方面進行定量分析,從專利的申請現(xiàn)狀把握鋰電池領域的發(fā)展趨勢[4]。龍雪梅基于SCI 數(shù)據(jù)庫近十年來的檢索結果,定量分析了鋰離子電池相關研究文獻的歷史年代、文獻類型、作者、國家、機構、出版物、被引頻次等因素[5]。徐睿則致力于以SCI-E、CPCI-S、DII 文獻資料作為分析的對象,從時間、技術領域、國家和主要的研發(fā)單位等多個角度對鋰電池進行計量分析[6]。趙晏強等基于關鍵字從定量、定性角度論述了當前鋰電池主要的正極材料在相關技術中的應用熱點[7]。佟賀豐等基于引文耦合分析法對中美日三國的鋰離子電池技術前沿和差距進行了分析[8]。陳錦攀等基于SCI、EI 和CNKI 數(shù)據(jù)庫,采用文獻計量學和知識圖譜的方法,從發(fā)文情況、發(fā)文機構、發(fā)文國家及研究主題演化等方面,對于鋰離子動力電池儲能系統(tǒng)研究進行了深入的分析[9]。
盡管國內外對鋰電池領域的熱點和趨勢分析的熱度較高,已有不少學者發(fā)表相關文獻,但大部分都集中在對鋰電池性能升級方面,對鋰電池技術的熱點趨勢談論不足。即便有一些涉及文獻計量的分析,也主要集中在論文關鍵詞方面,鮮有對專利文獻的挖掘分析。專利文獻涉及相關技術領域最新、最活躍的創(chuàng)新和技術信息,從專利文獻中我們可以得到更多鋰電池的科技進步和發(fā)展趨勢的信息。鋰電池技術熱點分析的關鍵是其專有詞匯識別。由于專利文獻的專有詞匯被表達在專利摘要中,要實現(xiàn)鋰電池熱點趨勢分析,首要工作是對摘要中專有詞匯進行識別?,F(xiàn)有文獻對這方面討論不足。
由于鋰電池的專業(yè)特性,對其技術描述的詞匯與日常語言不同,常規(guī)性的jieba 分詞等工具不能很好地識別鋰電池專業(yè)詞匯。如果將專有名詞視為一個實體,通過命名實體識別的方式抽取專有名詞,能夠保證識別的準確度。它被認為是完成機器翻譯、知識圖譜構建、信息抽取、自動摘要、語義分析、自動提供問答等技術任務的理論依據(jù),在自然語言處理領域占有重要的地位。傳統(tǒng)的基于字典或者啟發(fā)式規(guī)則的實體抽取已經(jīng)不能完全滿足人們的需求,利用統(tǒng)計學方法進行命名實體抽取成為目前的主流抽取方法。統(tǒng)計學中條件隨機場模型由于既可以用HMM 的狀態(tài)序列進行求解,又通過自定義特征模板加強了對詞項的上下文理解,識別詞項的準確度很高[10]。
條件隨機場模型能夠執(zhí)行的前提是語料需要預先標記。傳統(tǒng)做法是人工標記一定規(guī)模的實體,將其作為訓練集,用此訓練隨機場模型,得到優(yōu)化模型后投入實際使用[11]。模型的有效依賴于所標記實體的涵蓋范圍。對于鋰電池專利文獻來說,特定專業(yè)技術詞匯不僅數(shù)量龐大,而且技術推進中又不斷地出現(xiàn)新的詞匯,僅標記鋰電池專業(yè)詞匯是不現(xiàn)實的。如果事先有一個較為合理可觀的詞典,將其作為鋰電池專利文本的標記來源,那么就可以避免人工標記的疏漏和不全面??紤]到鋰電池論文中關鍵詞是作者抽離出的專業(yè)詞匯,能夠解釋鋰電池的技術內涵,因此將論文中關鍵詞作為專利摘要數(shù)據(jù)的標記來源有一定意義。但論文的寫作策略和專利畢竟還有不同,論文的關鍵詞也無法全部涵蓋專利中出現(xiàn)的技術詞匯。通過語言模型的無監(jiān)督成詞方法[12],將專利摘要進行分詞,所得詞匯和論文關鍵詞混合在一起作為條件隨機場模型標記語料的來源就更具全面性。
經(jīng)過條件隨機場識別出的鋰電池專利詞匯,可以作為鋰電池熱點分析的詞匯來源。為了研究鋰電池技術的相互依賴、關系的緊密,對鋰電池專利摘要中的專利詞匯進行共詞分析。共詞分析是對同一篇文獻中詞匯對共同出現(xiàn)的次數(shù)進行統(tǒng)計,揭示這些詞之間的親疏關系,分析它們所代表主題的結構變化[13]。一對詞匯在同一篇文獻中出現(xiàn)的次數(shù)越多,代表這兩個詞關系越緊密。由此,統(tǒng)計一組文獻主題詞在同一篇文章中兩兩出現(xiàn)的頻率,建立主題詞共現(xiàn)網(wǎng)絡。網(wǎng)絡內節(jié)點之間關系反映了主題的相關情況。研究技術路線見圖1 所示。
1.鋰電池專利數(shù)據(jù)。本文以國家知識產(chǎn)權局官網(wǎng)中所發(fā)布的鋰電池領域的專利文本為數(shù)據(jù)源,利用爬蟲工具獲取該領域2011-2020年的相關專利文本。對檢索結果分別進行了清洗、合并、去重,最終獲得46073 條有效數(shù)據(jù)。
2.鋰電池論文關鍵詞。由于鋰電池屬于特定技術領域,其專利文本中存在一部分專業(yè)詞匯,例如“磷酸鐵鋰”“正極活性材料”等,而這些關鍵詞在研究鋰電池的論文關鍵詞中有所體現(xiàn),實驗為了提取更為準確的鋰電池領域專業(yè)詞匯,檢索知網(wǎng)中收錄的“鋰電池”相關論文,共檢索到50107 篇文獻,導出所有文獻標題、摘要和關鍵詞,最終提取其關鍵詞進行清洗、去重并篩選三字及以上詞匯后,共得到25371 個專業(yè)詞匯。
3.基于語言模型的關鍵詞。考慮到中國知網(wǎng)中有關鋰電池的論文關鍵詞與專利數(shù)據(jù)中蘊含的關鍵詞存在一定的偏差,需要對專利文獻中符合統(tǒng)計規(guī)則的一些詞項進行獨立提取。利用KenLM 工具對專利文本進行N-gram 語言模型訓練,導出鋰電池相關詞匯,為條件隨機場模型做準備。步驟為:(1)對46073條專利文本摘要進行處理,包括增添空格和去除標點符號等操作,制造符合KenLM 工具的語料;(2)調用KenLM 工具的count_ngrams 程序統(tǒng)計專利文本摘要的ngram,執(zhí)行結束后將結果保存在一個二進制文件中;(3)利用KenlmNgrams 語句進行讀取后,調用filter_ngrams 程序過濾ngram,其中[0,2,4,6]是互信息的閾值,第一個0 無意義,僅填充用,而2、4、6 分別是2gram、3gram、4gram 的互信息閾值;(4)構建一個ngram 的Trie 樹,將ngram 片段連接成盡可能長的候選詞,篩選詞頻至少為5 次以上的詞匯,并對詞匯進行清洗,刪除不完整詞匯,例如“二氧化”“氫氧化”等,而后導出詞庫,最終共得到10830 個相關詞匯。
4.鋰電池標記詞典。將中國知網(wǎng)中近十年來所有與鋰電池領域相關的25371 個專業(yè)詞匯和基于N-gram語言模型的無監(jiān)督成詞方法得到的10830 個相關詞匯進行合并,去掉1642 項重復項,最后得到34559 個鋰電池領域相關詞匯。將這些鋰電池相關詞作為專利文本摘要的標記詞,對專利摘要進行標注。
表2 條件隨機場模型特征模板
表3 條件隨機場模型的精確度、召回率及F 值
為了使用條件隨機場模型對專利文本的摘要數(shù)據(jù)進行訓練,需要將專利文本數(shù)據(jù)進行標注。標注規(guī)則使用“B”“I”和“O”形式。以鋰電池標記詞為目標,遍歷專利摘要文本,遇到標記詞的首字母則標記為B,其余字母標記為I,遍歷過程中不在標記詞典中的詞一律標記為O。下面為一段專利文本,對其的標記結果見表1。
摘要數(shù)據(jù)標記后,構造基于字的上下文特征模板,見表2。其中“U00:%x [-2,0]”中,U 表示一個序列類型的行為函數(shù)為Unigram,00表示序列特征的id,%x [-2,0]代表x 的位置,-2 代表針對x 的行序列向上偏移2 個字符,0 代表針對x的列序列偏移0 個位置。
為了提高模型的質量,采用交叉驗證方法將訓練集和驗證集合并,隨機分為互斥的5 個子集,為了保證其隨機性,5 次隨機劃分取平均。將5 個子集隨機地劃分為4 個一組和剩下1 個為另一組。在每一種分組結果中,4 個子集的組當作訓練集,另外1 個當作測試集,這樣就產(chǎn)生了5 次預測,對其取平均,獲得模型準確率、召回率和F1 參數(shù)數(shù)值(表3)。
從實驗數(shù)據(jù)中可以看出,條件隨機場模型訓練的精確率、召回率和F1 測度值數(shù)值都較為可觀,精確度達到了85%,召回率達到了84%,F(xiàn)1 測度值則為84%,說明條件隨機場模型的訓練效果較好,因此利用條件隨機場模型識別鋰電池專業(yè)詞匯是可行的。
根據(jù)條件隨機場模型預測結果,識別出鋰電池專業(yè)詞匯,對所得到的專業(yè)詞匯進行清洗,共得到14698 個專業(yè)詞匯?;谠搶I(yè)詞匯詞典集,依照正向最大匹配法篩選出46073 條專利摘要中與詞典匹配的詞項,將每條摘要中提取出的詞匯進行兩兩連邊,重復連接的次數(shù)設為邊的權重,構建加權網(wǎng)絡,最后以邊權重的離群點為過濾門檻,對加權網(wǎng)絡進行篩選,得到鋰電池專利數(shù)據(jù)中的共詞網(wǎng)絡并對其進行分析(圖2)。
鋰電池共現(xiàn)網(wǎng)絡中節(jié)點大小為度中心性,邊權重為關鍵詞共現(xiàn)的頻次。節(jié)點越大,表示該關鍵詞越是熱點。邊越寬,兩個互聯(lián)的關鍵詞越具依賴性。從圖2 可知,“鋰電池組”和“技術領域”的度中心性最大,而且與“負極”“控制器”“傳感器”等連接緊密,說明鋰電池組是當前鋰電池技術領域研究的熱點。鋰電池組與電池負極材料和電解質材料之間的聯(lián)系密切,若要提高鋰電池組的內部性能,必須考慮電池的正負極材料,以實現(xiàn)最優(yōu)的電池質量。“鋰電池組”與關鍵詞“控制器”之間的節(jié)點聯(lián)系密切,說明鋰電池組在作為其他產(chǎn)品或設備的控制器動力上有著較為廣泛的應用?!颁囯姵亟M”與“傳感器”之間的節(jié)點連線聯(lián)系密切,說明鋰電池的研究與其內部的溫控有關。還有一些聯(lián)系緊密的節(jié)點比如“散熱”“鋰電池技術”“電解液”“穩(wěn)定性”等,說明鋰電池的技術重點在電解液、散熱和穩(wěn)定性等方面。在鋰電池的應用方面,“控制器”“太陽能”“傳感器”等幾個關鍵詞連接較為緊密,說明目前鋰電池在其他設備上的應用較為廣泛,例如鋰電池在LED 太陽能路燈控制器,在使用鋰電池的基礎上,配合太陽能光板,推動了我國新能源產(chǎn)業(yè)的發(fā)展。
圖2 鋰電池專業(yè)詞匯共現(xiàn)網(wǎng)絡
專利涉及到所有鋰電池技術領域中最新、最活躍的創(chuàng)新性技術資料,從專利文獻中可以了解鋰電池應用領域未來發(fā)展的最新動態(tài)。本文以國家知識產(chǎn)權局官網(wǎng)中2011-2020年鋰電池領域的專利文本為數(shù)據(jù)源,利用爬蟲工具獲取專利摘要信息。通過提取中國知網(wǎng)近十年來所有鋰電池領域的相關文獻關鍵詞,使用KenLM 工具中語言模型對專利文獻進行分詞,合并通過上述兩種方法得到的詞匯。以此詞匯為標記來源,基于條件隨機場模型對專利文本進行專業(yè)詞匯提取,最終得到的詞匯預測準確率、召回率和F1 測度值分別為85%、84%和84%。條件隨機場模型提取了14698 個鋰電池領域常用專業(yè)詞匯。
基于該專業(yè)詞匯集,依照正向最大匹配法篩選出46073 條專利數(shù)據(jù)摘要中與詞典匹配的詞項,將每條摘要中提取出的詞匯進行兩兩連邊,以邊權重的離群點為過濾門檻,對加權網(wǎng)絡進行篩選,得到鋰電池專利數(shù)據(jù)中的共詞網(wǎng)絡結構,并對其進行分析。發(fā)現(xiàn)目前鋰電池技術領域的研究熱點仍然是在于如何改善和提高鋰電池的內部性能上。鋰電池組已經(jīng)成為當前鋰電池在突破技術領域研究的熱點核心。