張金柱,于文倩,李溢峰
技術實現路徑是指以技術手段及其作用效果為特征的路徑結構,可以清楚地揭示技術與功效間的聯(lián)系[1-2]。專利作為技術信息的有效載體,是獲取科技信息的重要來源。通過對專利進行挖掘,可以構建技術實現路徑,進而獲取專利中蘊含的技術發(fā)展趨勢、技術實現途徑以及技術空白點等有價值的信息,從而為技術研發(fā)、技術布局與技術合作等提供支撐和輔助。
當前技術實現路徑構建的相關研究主要通過制作技術功效矩陣或技術功效圖來實現。這兩者構建過程類似,只是展示形態(tài)略有差別,分別根據技術手段和功能效果兩個指標形成二維矩陣或專利地圖,進而通過專利文獻反映的主題技術方案和主要技術功能之間的特征分析來揭示技術和功效二者的關系[3]。然而,技術功效矩陣大多以人工構建為主,雖然精度高,但是研制周期長、成本高,難以實現廣泛應用。有學者研究了半自動化的構建模式,但關鍵環(huán)節(jié)仍需要特定領域專家的參與,并且整個構建系統(tǒng)對使用者專業(yè)知識要求較高,不方便普通用戶使用。因此,亟需研究最大限度減少人工參與甚至是無監(jiān)督的技術實現路徑構建方法,提高其領域適用性,減少人力成本,實現廣泛應用。
除此之外,技術功效矩陣只有技術和功效兩個維度,一般以專利數量表示維度對應的數值,無法直接判斷技術與功效之間的多維復雜關聯(lián)關系,導致需要對不同的技術功效進行比較時,無法直接判斷哪種技術或功效更重要,科學決策的支撐作用降低。因此,需要設計一種能夠細化技術與功效之間的語義關系、有效衡量不同技術路徑間區(qū)別與聯(lián)系的技術實現路徑構建方法,提高決策支持效果。與此同時,技術功效矩陣往往是二維坐標形式的靜態(tài)結果呈現,較難支撐后續(xù)加入的新技術功效信息的動態(tài)即時更新,也不利于整體技術態(tài)勢和最新技術功效的展示,亟需研究技術功效關聯(lián)的即時更新和可視化技術。
基于以上問題,本文提出了一種基于技術功效關聯(lián)的技術實現路徑構建方法。該方法首先通過信息抽取方法實現專利技術詞、功效詞以及兩者間關系詞的自動抽取,進而構建“技術詞—關系詞—功效詞”形式的三元組技術實現路徑,從而減少人力成本,提高領域適用性。其次,通過關系詞這個中間橋梁完善和細化技術實現路徑中技術與功效間的語義關聯(lián),便于確定不同路徑間的區(qū)別與聯(lián)系。最后,將所有技術實現路徑導入圖數據庫進行存儲并實現可視化,這樣既可以清楚展示技術功效間的關聯(lián)關系,也可以支持技術功效信息的動態(tài)即時更新。
技術實現路徑構建的相關研究主要以技術功效矩陣或技術功效圖構建研究為代表,兩者都同時含有“技術”和“功效”兩種元素,可以直觀地反映專利技術和功效的類別及數量,在微觀層面技術分析中有廣泛的應用,比如領域專利布局分析、技術創(chuàng)新路徑分析、技術機會發(fā)現、核心專利挖掘等[4]。因為技術功效圖或技術功效矩陣構建的核心是“技術”和“功效”,所以最終的構建效果往往取決于技術詞和功效詞的抽取效果,整個構建過程中涉及的抽取方法可以分為手動構建、半自動化構建和自動化構建。
手動的技術功效圖構建主要是在人工抽取技術功效詞的基礎上實現的。許海云等[5]通過與領域內的專家溝通,對深海潛水器的水下導航系統(tǒng)的相關專利進行了人工的主題劃分,確定了深海潛水器相關專利水下導航系統(tǒng)技術分解和達成功效,從而構建出專利功效矩陣。邱洪華等[6]借助專家的背景和經驗對中國礦用風機領域的專利進行技術和功效關鍵詞抽取,并結合申請人、發(fā)明人、年度趨勢和區(qū)域等角度,研究了技術功效專利信息分析范式的實現。這種人工抽取技術功效詞手動構建的方法雖然專業(yè)性較高,但是較為費時費力。
半自動化的技術功效圖構建主要通過技術功效詞的自動抽取來減少人工參與構建的過程。Liu等[7]提出一種基于語料庫劃分的半自動方法來提取中文專利摘要中的技術功效短語。該方法可以結合技術詞、功效詞出現的句法、詞法特征通過構建模板進行抽取。翟東升等[8]利用專利數據倉庫的技術功效圖挖掘方法,通過制定相應的抽取規(guī)則清洗專利非結構化信息并抽取非結構化信息特征詞,進而由專家組遴選出目標技術領域具有代表性的特征詞,最后結合數據倉庫技術實現技術功效圖的構建與多維分析。陸佳偉等[9]以MOCVD(金屬有機化合物化學氣相沉淀)技術為例,通過技術骨架的搭建確定技術功效詞,構建技術功效導向的基于敘詞表的領域本體,進而借助文本挖掘技術對專利摘要進行分析,初步實現對文本語義的理解,完成技術功效圖的半自動制作。
自動化的技術功效圖構建理論上是全程不需要人工參與的,但實際上完全自動化的技術功效圖的構建幾乎還沒有,只是人工參與構建的程度相對要低很多。張兆峰等[4]對新能源汽車領域的專利提出了一種基于知識圖譜的技術功效圖自動構建解決方案,主要是結合專利文本撰寫特點,利用規(guī)則和依存句法分析抽取專利中的技術主題、應用領域、功效和詞間關系,并結合漢語科技詞系統(tǒng)構建面向技術功效圖自動構建的知識圖譜,以實現技術功效圖自動構建的即時性和靈活性,同時引入反饋機制,實現技術功效分類的不斷優(yōu)化,提高分類準確性。翟東升等[10]提出了一種基于SAO 結構和詞向量的專利技術功效圖自動構建方法,首先抽取專利摘要中的SAO結構并從中識別技術詞和功效詞,然后結合領域詞典與專利領域語料庫,運用Word2Vec 和WordNet計算詞語間的語義相似度,利用基于網絡關系的主題聚類算法實現主題的自動標引,最后采用基于SAO結構的共現關系來構建技術功效矩陣。
綜上,當前技術實現路徑構建的有關研究大多以人工構建或半自動化構建技術功效矩陣或技術功效圖為主,精度雖高,但是研制周期長、成本高,領域適用性不強;而自動化構建程度較高的相關研究主要從技術和功效兩個維度出發(fā),不能清晰挖掘和展示技術和功效之間的多種關聯(lián)關系。因此,如何運用適合的信息抽取方法,提高技術詞和功效詞的自動抽取效果,并結合專利技術實現路徑構建的特點,細化技術與功效之間的多維復雜關聯(lián)關系,確定不同路徑間的區(qū)別與聯(lián)系,尚需深入探索和研究。
本文結合專利數據特點,首先基于規(guī)則抽取技術主題詞,利用BiLSTM-CRF深度學習模型從專利摘要中抽取專利功效短語;然后設計規(guī)則從功效短語中自動識別出功效詞以及表示技術功效間語義聯(lián)系的關系詞,構建“技術詞-關系詞-功效詞”結構的技術功效關聯(lián),形成初步的技術實現路徑;最后通過計算實體間語義相似度實現技術詞對齊和功效詞對齊,優(yōu)化技術實現路徑并以知識網絡的形式對其進行可視化。
由于專利文獻的規(guī)范性,專利標題多數會直接表明專利的類型、技術主題、應用領域等信息[4]。與此同時,專利標題中一般會有多個技術主題詞(簡稱“技術詞”),不同位置的詞所扮演的語義角色和重要程度是不同的??紤]到多數專利的標題表達形式比較規(guī)范且有一定的規(guī)則可循,本文采用基于規(guī)則的信息抽取方法抽取技術主題詞,具體包括以下方式。
(1)基于正則表達式匹配的技術主題詞抽取。當 專 利 標 題 中 含 有“based”“used”“featured”等類似的被動語態(tài)的詞語時,將該類詞語視為技術主題詞的線索詞,將線索詞之前的詞語作為技術主題詞。比如,在專利標題“Cloud service based intelligent mobile phone communication method”中,“based”為技術主題詞的線索詞,“Cloud service”是線索詞之前的詞語,為該專利的技術主題詞,而標題中的“intelligent mobile phone communication”則表明技術應用的領域為智能手機通訊領域。
(2)基于依存句法分析的技術主題詞抽取。該方式主要分為兩種情況。第一種是當專利標題中含有表示專利類型的詞,并且以該詞作為整個專利標題的中心詞,同時以“專利類型詞+for”形式開頭時,把修飾專利類型詞的直接賓語作為該專利的技術主題詞。例如,對專利標題“Method for aggregating paging messages in communication network”進行依存句法分析,結果如表1所示,可以通過“ROOT.DEP_”的結果判斷“Method”是表示專利類型的中心詞,“aggregating paging messages”是其直接賓語,用來作為該篇專利的技術主題詞;“communication network”是介詞賓語,用以表明技術的應用領域。
表1 第一種依存句法分析結果示例
第二種是當專利標題以專利類型詞作為后置中心詞時,把靠近中心詞的定語作為該專利的技術主題詞,而如果該定語也存在定語,則將該定語及其定語構成復合定語一同作為技術主題詞,并以此類推下去。如對專利標題“Intelligent home remote control system”進行依存句法分析,結果如表2所示,通過“DEP”可以判斷出“system”是中心詞,“home”和“control”是復合定語。通過“CHILDREN”可以判斷出最靠近“system”的定語為“control”。同時,“control”也存在定語“remote”,它們一起構成了靠近中心詞的復合定語“remote control”。由于“remote control”已無其他定語,因此直接把“remote control”視為該專利的技術主題詞。
表2 第二種依存句法分析結果示例
(3)其他情況下的技術主題詞抽取。除上述情況外,當專利標題中沒有相應的句法結構表明技術主題詞時,以整個標題作為技術主題詞。比如專利標題“Mobile phone terminal service platform”,其本質是通過研究特定技術領域的相關技術實現的一個具體應用,為此直接將這類專利標題作為技術主題詞,表明其專利背后依托的技術主題。
在專利文獻中,功效短語表達形式多樣,采用基于規(guī)則或基于特征選擇的信息抽取方法效果非常有限。因此,本文將功效短語的抽取看作是信息抽取中的序列標注任務,先利用{B,I,O}標注模式手動標注一部分功效短語作為訓練集,然后利用序列標注模型對其進行訓練調參,最后利用訓練好的序列標注模型實現功效短語的自動標注,從而實現功效短語抽取。具體來說,本文采用BiLSTM-CRF[11]深度學習模型來抽取專利功效短語。BiLSTM-CRF 序列標注模型結合了BiLSTM網絡和CRF模型的優(yōu)點,既可以從過去的輸入特征以及將來的輸入特征兩個方向來兼顧長距離的上下文信息對功效短語標注結果的影響,又能夠捕捉全局的標注序列信息,實現靈活的特征設計,從而最大概率地保證功效短語標注的正確性。
該模型的框架及自動標注過程如圖1所示。這是一個6層神經網絡模型,其中,為了獲得更好的預訓練效果,Embedding層采用word2vec[12]預訓練的詞向量來代替隨機嵌入。具體的標注過程主要包括以下幾個步驟:首先,將輸入的句子序列中的所有單詞進行向量化;其次,將向量送入BiLSTM 模型從前向和后向兩個方向學習上下文語義特征;最后,將BiLSTM 的輸出結果作為CRF模型的輸入并最終由CRF模型預測出全局最優(yōu)的標簽序列,實現功效短語自動標注。
功效短語包含“關系詞”和“功效詞”,通過對它們進行識別并與抽取的技術主題詞進行對應能夠構建“技術詞—關系詞—功效詞”三元組,實現技術功效關聯(lián)表示,形成技術實現路徑的初步表示。結合功效短語自動標注模型的標注模式,可以發(fā)現功效短語的結構大多為動賓結構和對應的被動結構,如“improve signal sensitivity”和“overhead be reduced”。這兩種結構的功效短語可以直接從中識別出“關系詞”和“功效詞”,如此處的關系詞為動詞“improve”和“reduce”,功效詞為名詞或名詞短語“signal sensitivity”和“overhead”。而一些名詞短語,比如“quick reaction capability”,其單獨構成一個功效詞,無法直接識別出關系詞。對于這種類型的功效短語,本文設定關系詞為“berelatedto”,認為該專利的技術主題詞與某個功效是緊密聯(lián)系的。
針對以上三種結構的功效短語的關系詞和功效詞識別,技術功效關聯(lián)中的關系詞即為功效短語中的動詞或“be related to”,功效詞則為功效短語中的名詞或名詞短語。因此,根據這兩個特點,關系詞和功效詞的識別總結為3種情況:(1)如果某個功效短語的首位單詞為動詞,其余部分都不是動詞,則該功效短語為動賓結構,直接將首位單詞作為關系詞,其余單詞作為功效詞;(2)如果某個功效短語的末尾兩個單詞都為動詞,其余部分都不是動詞,則該功效短語為被動結構,將末尾詞作為關系詞,其余單詞作為功效詞;(3)如果某個功效短語的首位單詞和末位單詞都不為動詞,則該功效短語為名詞短語,設置其關系詞為“be related to”,并將其所有單詞一起作為功效詞。
圖1 基于BiLSTM-CRF的功效短語自動標注模型
識別出關系詞和功效詞后,“技術詞—關系詞—功效詞”路徑結構就可以揭示每個技術方法與對應功效之間的語義關聯(lián),進而完成技術實現路徑的構建。但是,由于專利中相同含義的技術詞或功效詞的表達方式多樣,存在大量的信息冗余,還需要進一步對初步構建的技術功效關聯(lián)表示進行合并和優(yōu)化,以獲得規(guī)范的技術實現路徑。然后,將其存入數據庫實現可視化,以實現技術功效信息的即時管理,方便普通用戶理解。
對于技術詞和功效詞的合并和優(yōu)化,本文采用基于相似度理論判定的實體對齊方法[13],通過分別計算技術詞間和功效詞間的語義相似度來確定每種類型下的實體對間是否具有相同含義。由于前面已經利用word2vec 實現了所有詞向量的表示,因此可以在此基礎上進一步實現每個技術詞和功效詞的向量表示,然后計算技術詞向量之間和功效詞向量間的余弦相似度來判定實體對間的語義相似度,并根據相似度的大小確定實體對間是否具有相同含義。本文將相似度大于0.9 的實體對視為可能性較大的含義相同的實體對,加入候選實體集。進一步篩選這些候選實體對后,就可以構建規(guī)范的技術實現路徑。
實體對齊后,將所有標準的技術實現路徑存入數據庫,并進行可視化形成知識網絡,展示出整體的技術實現路徑架構,同時也方便后續(xù)技術實現路徑信息的查詢分析與更新修改等。由于技術實現路徑的三元組結構不同于傳統(tǒng)的數據類型,不可以直接存入數據庫中,需要先將其進行網絡節(jié)點與邊的轉化,再將其導入數據庫中。本文利用圖數據庫來存儲技術實現路徑,并且圖數據庫也可以直接實現技術功效信息的可視化。
隨著社會的發(fā)展,人們的生活不斷進步。通信為社會各個行業(yè)提供了越來越多的便利,完全改變了傳統(tǒng)的生活方式,并且成為人們日常生活的一部分。5G 作為現階段最新的移動通信技術,正處于研發(fā)和應用的關鍵階段,相應的技術實現路徑一直是研究重點和熱點,因此本文選擇通信領域的5G技術進行實證研究。
本文選取德溫特(DerwentInnovationsIndex,DII)數據庫作為專利數據檢索平臺,實驗選定的主題詞為“5G or Fifth Generation”,檢索的專利時間范圍為“2009至2019”,檢索的專利分類號采用德溫特分類代碼,為“W01 or W02”,共檢索出5,235 條數據。除去重復數據、專利摘要字段有缺失及過濾5GHz等與研究主題無關的數據后,最終得到4,908 條相關數據。與此同時,為了后續(xù)同屬于一個專利的技術主題詞、關系詞和功效詞之間能夠一一對應實現關聯(lián),本文為每個專利生成了唯一的ID號。
(1)基于正則表達式的技術主題詞抽取。本實驗通過Python3.6.2版本的re包調用正則表達式模塊,首先通過“based”“used”“featured”等線索詞匹配出滿足正則表達式抽取的所有專利標題,共計239條;然后再抽取這些線索詞之前的詞作為技術主題詞。對應的抽取結果示例見表3。
C組受試產婦的第一產程時間短于A、B組,B組短于A組(P<0.05);B、C組受試產婦的第二產程時間短于A組(P<0.05),B、C組間比較,差異無統(tǒng)計學意義(P>0.05),見表3。
表3 基于正則表達式的專利技術主題詞抽取示例
(2)基于依存句法分析的技術主題詞抽取。在去除上一步滿足正則表達式匹配的專利標題后,本部分實驗首先利用依存句法分析抽取滿足第一種情況的技術主題詞。在抽取之前,首先利用正則表達式匹配出滿足依存句法分析第一種情況的所有專利標題,針對5G技術專利特點,這里匹配的是形如“method/system/device/apparatus for”等形式的所有專利標題,共計2,918條。在此基礎上,再進行基于依存句法分析的技術主題詞抽取,實驗的依存句法分析利用spaCy 工具包實現。根據預先設定好的抽取規(guī)則,抽取“method/system/device/apparatus for”等結構的直接賓語作為技術主題詞,對應的抽取結果如表4所示。
表4 基于依存句法分析第一種類型的專利技術主題詞抽取示例
同樣地,去除滿足依存句法分析第一種情況的專利標題后,再利用依存句法分析抽取剩余專利標題中滿足第二種情況的技術主題詞。這里匹配的是以“method/system/device/apparatus”等專利類型詞作為后置中心詞的專利標題,共1,284條。在此基礎上,根據預先設定的抽取規(guī)則,抽取“method/system/device/apparatus”等中心詞的鄰近定語或復合定語作為技術主題詞,對應的抽取結果如表5所示。
(3)其他情況下的技術主題詞抽取。對最終剩余的467條發(fā)明專利,直接保留其專利標題整體作為技術主題詞,結果如表6所示。
表5 基于依存句法分析第二種類型的專利技術主題詞抽取示例
DII數據庫中專利的摘要信息中包含新穎性(NOVELTY)、用途(USE)、優(yōu)勢(ADVANTAGE)、具體描述(DETAILED DESCRIPTION)等字段內容。其中,ADVANTAGE字段是描述專利所達成功效(包括正面性能的增加、負面性能的減少或優(yōu)秀性能的保持等)的主要信息來源[14]。因此,為了減少不必要的標注工作量以及其他字段中冗余信息對后續(xù)神經網絡模型訓練效果的干擾,本文先利用正則表達式單獨匹配ADVANTAGE 字段,抽取結果如表7所示。其中,每一行的第一列表示專利的ID 號,ID 號對應的文本就是抽取的ADVANTAGE字段。
表6 其他情況的專利技術主題詞抽取示例
表7 專利ADVANTAGE字段的抽取結果示例
本次實驗隨機選取了500 條ADVANTAGE字段的數據進行標注,并設置訓練集和測試集的比例為8∶2,利用Python3.6.2 版本的keras包實現BiLSTM- CRF 模型的構建。其中,Embedding層輸入的詞向量利用Python3.6.2版本gensim 包中的word2vec 模塊進行預訓練,最終得到所有單詞100維的詞向量結果,如圖2所示。其中,每一行的第一列表示訓練的單詞,其余每行的所有列則構成該單詞對應的語義向量。
圖2 詞向量訓練結果
為減小神經網絡模型訓練過擬合的影響,本實驗在BiLSTM 模型兩端各添加1 個dropout層。對于BiLSTM層和CRF層,經多次訓練調參后,各個重要參數說明及設定值如表8所示。
表8 模型中的主要參數設置
圖3 模型訓練效果圖
在此基礎上,利用訓練好的模型來抽取每個專利的功效短語。由于模型的輸出是每個單詞對應的標簽,因此,只需要抽取出對應標簽為“B”和“I”相鄰的單詞進行組合就可以獲得功效短語。去除抽取結果為空的專利后,共保留4,874條有效數據,抽取結果如表9所示。
表9 專利功效短語抽取結果示例
在進行技術功效關聯(lián)表示之前,首先需要依據功效短語中關系詞和功效詞的識別規(guī)則,識別出關系詞和功效詞,結果如表10所示。
表10 關系詞和功效詞識別結果示例
結合這些功效詞和關系詞,將對應的技術主題詞與它們一起構建“技術詞-關系詞-功效詞”三元組結構的技術功效關聯(lián),形成技術實現路徑。根據之前每步抽取結果的ID號,可以直接通過ID將關系詞和功效詞與對應的技術主題詞聯(lián)系到一起。由于每個技術主題詞可能會與多個功效之間存在語義聯(lián)系,因此共得到13,264個三元組,最終的部分結果如圖4所示。
圖4 “技術詞-關系詞-功效詞”三元組抽取結果示例
利用word2vec詞向量的線性轉化[15],對所有技術主題詞和功效詞實現向量表示。其中,由于每個專利只有一個技術主題,因此,每個專利ID只對應一個技術主題詞向量。同時,由于每個專利可能有多個功效短語,因此,同一個專利ID可能對應多個功效詞向量?;谶@些向量表示結果,分別對技術主題詞和功效詞計算兩兩實體間的余弦相似度來判定該實體對是否需要加入候選實體集進行篩選。
由于原始實體數據量較大,計算兩兩實體余弦相似度耗時較久,且對實驗設備的性能要求較高,因此本次實驗只選取前500 條專利的三元組技術實現路徑進行了實體對齊。計算出這500 條專利實體對間的相似度后,選取相似度大于0.9的實體對加入候選實體集。技術主題詞和功效詞的前5 條候選實體對統(tǒng)計結果如表11所示??梢园l(fā)現相似度大于0.9的實體對之間語義都是比較相近的,如“Internet-of-things”和“Internet-of-things technology”,“Cloud computing”和“Cloud computing technology”等,因此需要對這樣的實體對進行篩選處理。對于語義相近的實體對,本次實驗選擇只保留其中的一種表達方式,并且后續(xù)如果該表達方式再次出現比較,仍以這一種方式為準。技術實現路徑的具體示例將在后續(xù)的可視化結果中展示。
表11 候選實體對結果示例
實體對齊后,把保留下來的標準技術實現路徑中的技術主題詞和功效詞轉化為網絡節(jié)點,并對每個三元組的兩個實體構建連邊,把關系詞轉化為連邊上的屬性,然后再分別導入數據庫中,生成可視化的知識網絡結構,便于路徑信息的即時更新管理。本文使用Neo4j 數據庫來存儲技術實現路徑并實現可視化,結果如圖5 所示。從圖5 左上方的信息可以看出,畫面中展示出來的網絡節(jié)點有300 個,關系詞有78個,并且可以看到具體的節(jié)點信息以及它們的數量。由于本次實驗只對500條實體對齊后的專利進行了網絡節(jié)點和邊轉化并導入數據庫用以說明可行性,因此實際的技術詞和功效詞實體只有1,283個,關系有997個。
如果需要查看某個網絡節(jié)點及其關聯(lián)的所有節(jié)點和關系,可以直接點擊該節(jié)點;如果需要查詢與某個節(jié)點直接相關的所有路徑信息,則可以利用Neo4j的查詢語言Cypher 實現。以具體功效中傳輸延遲的技術實現路徑為例,可以利用“MATCH(n:‘transmission latency’) RETURN n”查詢語句實現,查詢結果如圖6所示。由于實驗數據有限,只查詢到了一條技術實現路徑,在圖6中顯示為紫色節(jié)點到紅色節(jié)點的有向路徑,即通過云服務(Cloud service)技術可以減少通信傳輸延遲的問題。 與此同時, 點擊“Cloud service”節(jié)點還可以發(fā)現與該技術主題詞相關聯(lián)的其他所有路徑信息,在圖6 中顯示為紫色節(jié)點與藍色節(jié)點的連接路徑,比如利用云服務技術可以提高無線電資源的利用(radio resource utilization)等。
此外,基于該數據庫還能夠實現節(jié)點和連邊及屬性的增刪改等更新管理操作。由于專利數據是不斷更新的,面對研究領域內新出現的專利,可以通過同樣的流程與方法抽取出技術詞、關系詞和功效詞,然后通過Cypher 語句直接建立新的網絡節(jié)點與關系,完成技術實現路徑信息的即時更新與管理。
圖5 技術實現路徑圖譜展示結果
圖6 技術實現路徑查詢結果展示
本文探討了基于技術功效關聯(lián)的技術實現路徑構建方法,并用5G 技術作為實證進行研究,驗證了該方法的可行性和有效性。通過利用不同的信息抽取方法自動抽取和識別技術主題詞、功效詞以及揭示兩者間語義關聯(lián)的關系詞來構建“技術詞—關系詞—功效詞”三元組結構的技術實現路徑,可以減少人工參與的過程,省時省力。在此基礎上,以知識網絡的形式將技術實現路徑進行存儲和可視化,既可以支持不同技術實現路徑間的比較和關聯(lián)分析,也可以支持后續(xù)技術實現路徑的隨時更新與管理,方便普通用戶的理解和使用。
本文為技術實現路徑自動構建研究提供了新的思路和方法,但由于是初步探索,在許多方面還需要進一步研究。首先,本文僅選取了5G專利進行了實證研究,其中技術主題詞抽取所使用的某些規(guī)則具有特定適用性,在未來研究不同的技術專利時,需要對規(guī)則進行一定的調整;其次,當前構建的技術實現路徑只是一個簡單的技術主題到實現功效的三元組路徑,對于具體怎樣實現某個功效,未來還需要更多的技術細節(jié)支撐。因此,在以后的研究中可以針對不同專利數據靈活調整或選擇不同的信息抽取方法,并抽取更多的技術細節(jié)信息加入到技術實現路徑的構建中,為技術實現路徑構建提供更為完整全面的技術支持信息,支撐管理決策。