亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識(shí)元視域的技術(shù)元抽取及技術(shù)機(jī)會(huì)識(shí)別*

        2024-04-25 01:45:22王金鳳閻競博馮立杰林國義
        情報(bào)雜志 2024年4期
        關(guān)鍵詞:三元組濁度機(jī)會(huì)

        王金鳳 閻競博 馮立杰 李 康 林國義

        (1.上海海事大學(xué)中國(上海)自貿(mào)區(qū)供應(yīng)鏈研究院 上海 201306;2.上海海事大學(xué)經(jīng)濟(jì)管理學(xué)院 上海 201306;3.上海海事大學(xué)物流工程學(xué)院 上海 201306;4.上海海事大學(xué)物流科學(xué)與工程研究院 上海 201306;5.桂林電子科技大學(xué)商學(xué)院 桂林 541004)

        技術(shù)創(chuàng)新作為提高企業(yè)核心競爭力的不二法寶[1],其中,技術(shù)機(jī)會(huì)識(shí)別是精準(zhǔn)開展技術(shù)創(chuàng)新的關(guān)鍵[2]、知識(shí)挖掘是技術(shù)機(jī)會(huì)識(shí)別的前提與核心環(huán)節(jié)[3]。隨著技術(shù)迭代速度的日益加快,加之急劇膨脹的海量技術(shù)知識(shí),傳統(tǒng)的經(jīng)由人工進(jìn)行知識(shí)挖掘預(yù)判技術(shù)機(jī)會(huì)變得愈加困難[4]。因此,直面數(shù)量日益龐雜的技術(shù)知識(shí),如何在把握技術(shù)發(fā)展趨勢的同時(shí)準(zhǔn)確識(shí)別新的技術(shù)機(jī)會(huì)繼而降低創(chuàng)新風(fēng)險(xiǎn),成為企業(yè)亟待解決的一個(gè)重要現(xiàn)實(shí)問題[5]。本文將構(gòu)建一種從知識(shí)元視角出發(fā)的技術(shù)元抽取與技術(shù)機(jī)會(huì)識(shí)別路徑,基于技術(shù)元理論在收集并處理數(shù)據(jù)的基礎(chǔ)上,挖掘技術(shù)知識(shí)中影響技術(shù)創(chuàng)新的技術(shù)要素并抽取要素間的關(guān)系,繼而進(jìn)行子技術(shù)類別研判和技術(shù)機(jī)會(huì)識(shí)別,旨在為企業(yè)精準(zhǔn)預(yù)判技術(shù)機(jī)會(huì)、不斷提升創(chuàng)新效率提供有益的參考。

        1 相關(guān)工作概述

        為了簡化知識(shí)獲取的難度,有學(xué)者引入知識(shí)元理論[6],將知識(shí)元視為組成知識(shí)的具有獨(dú)立性、完整性和單一性的最小單元作為知識(shí)管理的出發(fā)點(diǎn)[7],嘗試建立了基于知識(shí)元的分層描述結(jié)構(gòu)和線性描述結(jié)構(gòu)的語義描述模型[8]。利用資源描述框架(Resource Description Framework,RDF),以主體(Subject)、謂詞(Predicate)和客體(Object)構(gòu)成的語義三元組對知識(shí)元進(jìn)行了表述[9],并廣泛應(yīng)用于社交媒體[10]、文物資源[11]、學(xué)術(shù)文獻(xiàn)[12]和藝術(shù)[13]等領(lǐng)域。通過提取文本或圖像中蘊(yùn)含的知識(shí)要素和屬性特征等構(gòu)建知識(shí)元網(wǎng)絡(luò),開展知識(shí)管理、知識(shí)挖掘和知識(shí)推理,進(jìn)而提高了技術(shù)知識(shí)的利用效率。但是,盡管知識(shí)元理論在多個(gè)領(lǐng)域得到了較為廣泛的應(yīng)用,在技術(shù)創(chuàng)新尤其是在技術(shù)機(jī)會(huì)識(shí)別方面的應(yīng)用卻較少,如何基于知識(shí)元視域依托現(xiàn)有技術(shù)知識(shí)精準(zhǔn)預(yù)判技術(shù)機(jī)會(huì),有待開展深入的研究。

        專利文本作為技術(shù)知識(shí)的重要載體,其中蘊(yùn)含的豐富技術(shù)信息是技術(shù)機(jī)會(huì)分析的關(guān)鍵數(shù)據(jù)源[14],最常用的方法是基于機(jī)器學(xué)習(xí)算法對文本內(nèi)容中的關(guān)鍵技術(shù)信息進(jìn)行挖掘,進(jìn)而完成潛在技術(shù)機(jī)會(huì)的識(shí)別[15]。其中,可通過關(guān)鍵詞挖掘技術(shù)創(chuàng)新機(jī)會(huì)[16],或利用SAO語義分析方法對結(jié)構(gòu)化專利文本進(jìn)行創(chuàng)新要素間的關(guān)系研究[17]。然而,在此過程中難以厘清具體創(chuàng)新要素的屬性及歸類,同時(shí)也難以準(zhǔn)確全面地對創(chuàng)新要素之間的復(fù)雜關(guān)系進(jìn)行準(zhǔn)確完整的詮釋。

        而深度學(xué)習(xí)方法可以實(shí)現(xiàn)在精準(zhǔn)抽取技術(shù)知識(shí)中包含的創(chuàng)新要素及其關(guān)系的同時(shí)[18],克服過分依賴專家參與難以保證抽取結(jié)果客觀性的缺陷[19]。程為等[20]使用BERT模型和ERNIE模型對南海維權(quán)證據(jù)知識(shí)元進(jìn)行識(shí)別;Meng F等[21]構(gòu)建了基于BERT-BiLSTM-CRF模型用于知識(shí)元中的實(shí)體抽取;Hou J等[22]構(gòu)建了BERT模型用于知識(shí)元中的關(guān)系抽取。同時(shí),相較于利用規(guī)則或模板進(jìn)行知識(shí)元抽取,基于深度學(xué)習(xí)的方法在自動(dòng)化程度和精確度方面具有更加優(yōu)異的性能[23]。然而,在構(gòu)建深度學(xué)習(xí)模型進(jìn)行知識(shí)抽取時(shí),還需引入一種針對專利文本中技術(shù)要素間的關(guān)系進(jìn)行統(tǒng)一標(biāo)注的規(guī)則對其整理和分類,從而更好地開展技術(shù)機(jī)會(huì)的識(shí)別。綜上,由于現(xiàn)有知識(shí)元抽取和技術(shù)機(jī)會(huì)識(shí)別方法自身存在的局限性,其研究結(jié)果的準(zhǔn)確性和客觀性有待進(jìn)一步完善。因此,本文從知識(shí)元視角出發(fā)進(jìn)行技術(shù)元抽取與技術(shù)機(jī)會(huì)識(shí)別,引入了深度學(xué)習(xí)、鏈路預(yù)測、支持向量機(jī)等方法展開了分析。

        2 研究設(shè)計(jì)

        基于上述分析,本文提出一種知識(shí)元視角下的技術(shù)元抽取與技術(shù)機(jī)會(huì)識(shí)別研究路徑,如圖1所示。

        圖1 研究框架

        a.技術(shù)元抽取過程采用的方法主要包括:

        ①確定檢索式并從專利數(shù)據(jù)庫中搜索相關(guān)專利,然后依據(jù)專利說明書文本構(gòu)建技術(shù)元語料庫。

        ②構(gòu)建基于對抗訓(xùn)練的BERT-BiLSTM-CRF模型以抽取具象技術(shù)領(lǐng)域的技術(shù)要素,同時(shí)構(gòu)建BERT模型抽取技術(shù)要素間的關(guān)系,然后將前述結(jié)果以技術(shù)元三元組表示并建立知識(shí)網(wǎng)絡(luò)。

        ③分別運(yùn)用Word2Vec和K-means算法,構(gòu)建基于語義向量的技術(shù)要素子技術(shù)識(shí)別方法并進(jìn)行技術(shù)要素詞聚類,然后對聚類結(jié)果進(jìn)行分析,確定子技術(shù)的名稱。

        b.技術(shù)機(jī)會(huì)識(shí)別過程采用的方法主要包括:

        ①根據(jù)現(xiàn)有技術(shù)要素間的關(guān)系,利用鏈路預(yù)測方法研判技術(shù)元知識(shí)網(wǎng)絡(luò)中要素之間的潛在關(guān)系。

        ②利用SVM算法對潛在關(guān)系進(jìn)行分類以確定其類別,得到潛在的技術(shù)元三元組。

        ③對前述潛在關(guān)系進(jìn)行有效性識(shí)別,進(jìn)而依據(jù)識(shí)別結(jié)果,結(jié)合現(xiàn)有三元組,完成對子技術(shù)創(chuàng)新機(jī)會(huì)的預(yù)判。

        3 技術(shù)元抽取

        本文在知識(shí)元的基礎(chǔ)上引申出了技術(shù)元的概念。技術(shù)元是技術(shù)組成的基本單元,反映了技術(shù)包含的基本信息,不僅包含技術(shù)要素實(shí)體,同時(shí)包含技術(shù)要素間的關(guān)系。因此,本文對技術(shù)元進(jìn)行抽取以實(shí)現(xiàn)對技術(shù)知識(shí)的全面獲取與管理。

        3.1 數(shù)據(jù)的收集及預(yù)處理

        為了保證全面準(zhǔn)確地獲取目標(biāo)技術(shù)所涵蓋的技術(shù)信息,首先需要制定數(shù)據(jù)收集與預(yù)處理方案,如圖2所示。

        圖2 數(shù)據(jù)收集及預(yù)處理

        首先,針對目標(biāo)技術(shù)制定專利檢索式,從專利數(shù)據(jù)庫中檢索相關(guān)專利,并去除重復(fù)、無關(guān)專利。其次,在檢索到的專利中獲取專利說明書,并提取文本內(nèi)容。最后,對得到的文本進(jìn)行數(shù)據(jù)清洗,去除無意義的數(shù)字、符號(hào)等噪聲數(shù)據(jù),并對文本進(jìn)行分句處理以構(gòu)建技術(shù)元語料庫。

        3.2 技術(shù)要素和技術(shù)要素間關(guān)系的抽取

        技術(shù)元抽取包括技術(shù)要素抽取和技術(shù)要素間的關(guān)系抽取。

        為便于計(jì)算機(jī)處理,本文將技術(shù)元以的三元組形式表示。其中:S為技術(shù)要素主體;P為技術(shù)要素間的關(guān)系;O為受影響的技術(shù)要素客體。

        3.2.1技術(shù)要素的抽取

        首先,研判技術(shù)要素的類別并加以標(biāo)注。然而,有鑒于不同技術(shù)大多分屬不同的類別,加之目前尚沒有可供遵循的通用標(biāo)注規(guī)則,所以,本文引入FENG L.J.等[24]針對專利提出的多維技術(shù)創(chuàng)新圖譜中的9個(gè)創(chuàng)新維度對技術(shù)要素進(jìn)行了標(biāo)注。相關(guān)維度的具體含義見表1。

        表1 多維技術(shù)創(chuàng)新圖譜的創(chuàng)新維度劃分

        其次,在完成技術(shù)要素的維度標(biāo)注后,構(gòu)建基于對抗學(xué)習(xí)的BERT-BiLSTM-CRF模型進(jìn)行技術(shù)要素抽取。具體流程如圖3所示。

        圖3 技術(shù)要素抽取過程

        技術(shù)要素的抽取過程主要包括:

        一是BERT層的構(gòu)建。本文使用基于雙向Transformer編碼構(gòu)建的預(yù)訓(xùn)練語言模型BERT,可以精準(zhǔn)捕捉到句子的特征信息[25]。經(jīng)過雙向Transformer編碼后可得到句子字符級特征向量序列X=(x1,x2,…,xn)。

        三是CRF層的構(gòu)建。在完成技術(shù)要素抽取后,本文利用條件隨機(jī)場(conditional random fields,CRF)處理BiLSTM的輸出,同時(shí)借鑒相鄰標(biāo)簽中的關(guān)系進(jìn)行序列標(biāo)注,進(jìn)而可得到最優(yōu)的預(yù)測序列[27]。

        四是基于FGM對抗訓(xùn)練方法的數(shù)據(jù)特征增強(qiáng)。為了提高技術(shù)要素抽取模型的性能,本文引入對抗訓(xùn)練方法使數(shù)據(jù)特征增強(qiáng),即通過引入噪聲對樣本增加擾動(dòng)的方式,提高模型的泛化性和魯棒性[28]。

        c.對模型進(jìn)行評估。即在完成技術(shù)要素的識(shí)別后,還需以準(zhǔn)確率P、召回率R、F1值評估模型的優(yōu)劣,具體計(jì)算公式如下:

        (1)

        (2)

        (3)

        其中,TP表示預(yù)測類型與實(shí)際類型相同的數(shù)量,FP表示預(yù)測類型與實(shí)際類型不同的數(shù)量,FN表示實(shí)際類型與預(yù)測類型不同的數(shù)量。

        3.2.2技術(shù)要素之間的關(guān)系抽取

        首先,為了抽取前述技術(shù)要素之間的關(guān)系,簡化要素間關(guān)系標(biāo)注的難度,本文引入FENG L.J.等[24]針對專利提出多維技術(shù)創(chuàng)新圖譜中的9種創(chuàng)新法則對技術(shù)要素之間的關(guān)系進(jìn)行了標(biāo)注,相關(guān)創(chuàng)新法則的具體含義見表2。

        表2 多維技術(shù)創(chuàng)新圖譜的創(chuàng)新法則

        其次,利用BERT模型抽取技術(shù)要素之間的關(guān)系。具體流程如圖4所示。

        圖4 技術(shù)要素之間的關(guān)系抽取過程

        在圖4中,利用BERT模型抽取技術(shù)要素之間的關(guān)系主要包括:

        一是與命名要素識(shí)別過程中的BERT操作相同,通過Transformer編碼得到字符級特征向量序列X=(x1,x2,…,xn)。

        二是將編碼得到的字符級特征向量序列輸入到全連接層中,并將字符級別的特征向量轉(zhuǎn)換為句子級別的特征向量。然后利用ReLU激活函數(shù)進(jìn)行線性變化。

        三是將全連接層輸出的結(jié)果輸入到softmax 層中,利用softmax函數(shù)進(jìn)行關(guān)系分類,并將多分類輸出值轉(zhuǎn)換為[0,1]的概率分布。

        四是待關(guān)系抽取完成后,本文以準(zhǔn)確率P、召回率R、F1值評估模型的優(yōu)劣。

        最后,將技術(shù)元以三元組形式表示,并將得到的技術(shù)元三元組以技術(shù)知識(shí)網(wǎng)絡(luò)的形式保存,便于后續(xù)開展技術(shù)知識(shí)分析。

        3.3 子技術(shù)類別的研判

        在技術(shù)元抽取基礎(chǔ)上,還需將技術(shù)要素進(jìn)一步整理和分類。對此,本文構(gòu)建了一種基于語義向量的技術(shù)要素子技術(shù)類別研判方法,利用Word2vec提取技術(shù)要素的詞向量,利用K-means算法對技術(shù)要素進(jìn)行聚類,并結(jié)合聚類結(jié)果對子技術(shù)進(jìn)行命名。子技術(shù)類別的研判過程如圖5所示。

        依據(jù)圖5中對子技術(shù)類別的研判,在具體實(shí)施中:

        a.獲取技術(shù)要素的詞向量。為了獲取技術(shù)要素詞的語義信息,本文選用Word2vec模型中的Skip-gram模型提取技術(shù)要素詞的詞向量[29]。主要包括:

        一是對提取的技術(shù)要素構(gòu)建用戶詞典,并利用Python中的jieba工具包對包含技術(shù)要素的技術(shù)元語句進(jìn)行分詞處理。

        二是將分詞后的語句輸入到Word2Vec模型中,并利用skip-gram模型進(jìn)行訓(xùn)練,得到各詞的語義向量。

        三是將技術(shù)要素詞與得到的詞向量匹配,得到具有語義信息的技術(shù)要素詞向量。

        b.對技術(shù)要素詞進(jìn)行聚類。在獲取具有語義信息的技術(shù)要素詞向量基礎(chǔ)上,還需利用K-means算法對技術(shù)要素詞進(jìn)行聚類[30]。主要包括:

        一是對于Word2vec模型所提取出的技術(shù)要素詞向量序列V=(v1,v2,…,vn),可通過將技術(shù)要素詞劃分到k個(gè)子集中判定子技術(shù)的類別。

        二是在聚類過程中,對于一個(gè)類Vi=(vl,vl+1,…,vk)以技術(shù)要素詞vi到所屬類的中心距離之和為損失函數(shù),μl表示第l個(gè)類的質(zhì)心,則最優(yōu)目標(biāo)函數(shù)為:

        (5)

        c.為了提高聚類的有效性,還需對k的取值進(jìn)行實(shí)驗(yàn),同時(shí)選取可解釋性最佳的k值作為聚類個(gè)數(shù),最終完成對子技術(shù)的命名。

        4 技術(shù)機(jī)會(huì)識(shí)別

        4.1 基于鏈路預(yù)測的潛在關(guān)系識(shí)別

        在技術(shù)知識(shí)抽取基礎(chǔ)上,還需對現(xiàn)有的技術(shù)知識(shí)網(wǎng)絡(luò)進(jìn)行分析,進(jìn)而識(shí)別相應(yīng)的技術(shù)機(jī)會(huì)。在具體實(shí)施中,鑒于鏈路預(yù)測方法能夠準(zhǔn)確預(yù)判未來技術(shù)的發(fā)展方向,本文首先利用隨機(jī)游走算法對整個(gè)技術(shù)元網(wǎng)絡(luò)進(jìn)行計(jì)算,并以Cos+指標(biāo)確定技術(shù)要素間是否具有潛在關(guān)系[31];然后根據(jù)Cos+指標(biāo)的計(jì)算結(jié)果,在去除Cos+小于0.5的連邊后,將剩余連邊作為具有要素間潛在關(guān)系的連邊,并作為蘊(yùn)含未來技術(shù)發(fā)展方向的技術(shù)信息予以保留。

        4.2 基于SVM算法的潛在關(guān)系分類

        SVM是一種性能優(yōu)越的分類算法,相較于樸素貝葉斯、邏輯回歸等模型具有更好的效果[32]。因此,在識(shí)別技術(shù)要素間的潛在關(guān)系后,為了提高技術(shù)機(jī)會(huì)識(shí)別的客觀性,本文利用SVM算法對識(shí)別出的具有潛在關(guān)系的技術(shù)要素進(jìn)行了分類。

        4.3 技術(shù)機(jī)會(huì)的預(yù)判

        在完成潛在關(guān)系識(shí)別和潛在關(guān)系分類基礎(chǔ)上,還需進(jìn)一步預(yù)判具象技術(shù)的創(chuàng)新機(jī)會(huì)。在具體實(shí)施中:

        a.識(shí)別技術(shù)要素潛在關(guān)系的有效性。識(shí)別完成后,還需對識(shí)別出的潛在技術(shù)元三元組進(jìn)行篩選,以判斷其是否具有技術(shù)創(chuàng)新價(jià)值。

        b.進(jìn)行技術(shù)機(jī)會(huì)分析。在對技術(shù)要素潛在關(guān)系進(jìn)行有效性識(shí)別基礎(chǔ)上,還需結(jié)合現(xiàn)有技術(shù)元三元組和識(shí)別出的潛在技術(shù)元三元組,完成對技術(shù)機(jī)會(huì)的識(shí)別,具體流程如圖6所示。

        圖6 技術(shù)機(jī)會(huì)的識(shí)別

        圖6中,TE表示技術(shù)要素;TR表示現(xiàn)有技術(shù)要素間的關(guān)系類型;TR'表示預(yù)測得到技術(shù)要素間的潛在關(guān)系;具有同樣形狀的TE表示其同屬于一個(gè)子技術(shù)。

        5 案例應(yīng)用

        水質(zhì)濁度檢測技術(shù)在水域治理中起著舉足輕重的作用,亟待進(jìn)行技術(shù)創(chuàng)新。因此,本文將以水質(zhì)濁度檢測技術(shù)創(chuàng)新機(jī)會(huì)識(shí)別為例,對本文提出的方法進(jìn)行驗(yàn)證。

        5.1 水質(zhì)濁度檢測技術(shù)專利數(shù)據(jù)獲取與預(yù)處理

        5.1.1水質(zhì)濁度檢測技術(shù)專利數(shù)據(jù)的獲取

        本文選用壹專利檢索分析數(shù)據(jù)庫進(jìn)行專利檢索。

        首先,本文確定檢索式為:“TA=(濁度檢測) AND (TA=(水) OR TA=(水質(zhì))) AND (TA=(裝置) OR TA=(方法) OR TA=(設(shè)備) OR TA=(傳感器)) and (IPC=(G) OR IPC=(C))”。在數(shù)據(jù)庫中檢索到381條專利數(shù)據(jù)。

        其次,通過人工閱讀并剔除與水質(zhì)濁度檢測無關(guān)或關(guān)系不大的專利后,共得到355條專利數(shù)據(jù)。

        最后,提取355條數(shù)據(jù)的專利說明書文本。

        5.1.2水質(zhì)濁度檢測技術(shù)專利的預(yù)處理

        為保證技術(shù)元抽取的效果,在標(biāo)注數(shù)據(jù)之前還需要進(jìn)行文本的預(yù)處理。

        首先,利用正則表達(dá)式去除專利說明書文本中無意義的字符和數(shù)字。

        其次,利用SnowNLP對專利文本進(jìn)行斷句處理,拆分標(biāo)識(shí)符為中文句號(hào)。其中,文本段落應(yīng)小于300字符,若超出300字符則利用正則表達(dá)式對句子切分,多余部分視為另一個(gè)句子。

        最后,構(gòu)建技術(shù)元語料庫,并刪除語料庫中重復(fù)且句子長度小于10的句子。

        經(jīng)預(yù)處理后,本文共從355篇專利說明書文本中提取出11 787條語句。

        5.2 水質(zhì)濁度檢測技術(shù)元抽取

        為便于進(jìn)行技術(shù)元的自動(dòng)化處理,本文利用語義描述模型將技術(shù)元表示為三元組形式,見表3。

        表3 水質(zhì)濁度檢測技術(shù)的技術(shù)元表示

        本文構(gòu)建了相關(guān)模型進(jìn)行技術(shù)要素和要素間關(guān)系的抽取。

        5.2.1水質(zhì)濁度檢測技術(shù)的技術(shù)要素抽取

        據(jù)前文所述,本文構(gòu)建了基于對抗學(xué)習(xí)的BERT-BiLSTM-CRF模型用于技術(shù)要素抽取。

        首先,依據(jù)專利說明書,本文從前述提取出的11 787條語句中選取了1 624條以人工方式對技術(shù)要素進(jìn)行了BIO標(biāo)注,具體標(biāo)注方式如圖7所示。

        圖7 水質(zhì)濁度檢測技術(shù)要素的BIO標(biāo)注

        其次,對技術(shù)要素的抽取結(jié)果進(jìn)行定量評估。本文以8∶2比例劃分訓(xùn)練集與測試集,用于該模型的訓(xùn)練與測試。經(jīng)訓(xùn)練后,該模型在測試集上的精確度為0.789、召回率為0.784、F1值為0.786,抽取效果較好。

        再次,將本模型與三種命名要素識(shí)別模型進(jìn)行對比,具體結(jié)果見表4。結(jié)果表明,本文構(gòu)建的模型在技術(shù)要素抽取上優(yōu)于其他三種模型。

        表4 水質(zhì)濁度檢測技術(shù)要素識(shí)別模型的有效性比較

        最后,利用訓(xùn)練完成的技術(shù)要素抽取模型進(jìn)行要素抽取。在抽取完成后,為了保證抽取的質(zhì)量,還需進(jìn)行人工去重與消岐,最終共得到3 672個(gè)所屬不同類別的技術(shù)要素,具體分析結(jié)果見表5。

        表5 水質(zhì)濁度檢測技術(shù)要素抽取的結(jié)果

        5.2.2水質(zhì)濁度檢測技術(shù)要素關(guān)系抽取

        首先,采用BERT模型進(jìn)行技術(shù)要素間關(guān)系抽取。本文從前述提取出的11 787條語句,對其中1 624條語句以人工方式進(jìn)行了技術(shù)要素關(guān)系標(biāo)注。

        其次,對技術(shù)要素關(guān)系的抽取結(jié)果進(jìn)行定量評估。本文以8∶2比例劃分訓(xùn)練集與測試集,用于BERT關(guān)系抽取模型的訓(xùn)練與測試。經(jīng)訓(xùn)練后,該模型在測試集上的精確度為0.727、召回率為0.712、F1值為0.719,抽取的效果較好。

        再次,利用訓(xùn)練完成的抽取模型抽取技術(shù)要素間的關(guān)系。為保證識(shí)別質(zhì)量,還需進(jìn)行人工去重并刪除無意義要素間的關(guān)系組,最終共識(shí)別出5 348條關(guān)系,具體結(jié)果見表6。

        表6 技術(shù)要素之間關(guān)系抽取的結(jié)果

        最后,為便于對技術(shù)元進(jìn)行管理,還需將前述結(jié)果導(dǎo)入到Neo4j圖數(shù)據(jù)庫進(jìn)行存儲(chǔ),進(jìn)而得到技術(shù)元知識(shí)圖譜。

        5.3 水質(zhì)濁度檢測技術(shù)的子技術(shù)識(shí)別

        有鑒于前文中抽取的技術(shù)要素僅為單獨(dú)的個(gè)體,為了提高技術(shù)知識(shí)的管理效率,還需進(jìn)一步分析每個(gè)個(gè)體的子技術(shù)類別。

        5.3.1技術(shù)要素詞向量的獲取

        首先,將識(shí)別的技術(shù)要素定義為用戶詞典,鑒于同一要素可能對應(yīng)不同的技術(shù)要素類別,因此在構(gòu)建用戶詞典時(shí)本文從前述3 672個(gè)所屬不同類別的技術(shù)要素中共篩選到3 360個(gè)唯一技術(shù)要素詞。

        其次,利用Jieba分詞將技術(shù)元語料庫進(jìn)行分詞處理,分詞后的句子作為Word2Vec模型的輸入,然后利用skip-gram模型對完成分詞的句子進(jìn)行訓(xùn)練,并輸出分詞后句子中每個(gè)詞的詞向量。

        最后,將技術(shù)要素詞與Word2Vec模型輸出的詞向量進(jìn)行匹配,進(jìn)而得到技術(shù)要素詞向量。

        5.3.2技術(shù)要素詞的聚類

        在完成技術(shù)要素詞向量提取后,還需利用K-means算法進(jìn)行技術(shù)要素詞聚類。此外,為了提高聚類效果,本文對不同聚類數(shù)k,聚類所得到的結(jié)果進(jìn)行比較后發(fā)現(xiàn),當(dāng)聚類數(shù)k=5時(shí),聚類結(jié)果的可解釋性最好。

        在聚類后,本文對聚類結(jié)果進(jìn)行分析,并對子技術(shù)類別進(jìn)行命名,結(jié)果見表7。

        表7 水質(zhì)濁度檢測技術(shù)子技術(shù)類別的識(shí)別結(jié)果

        由表7可以看出技術(shù)要素詞主要聚類在以下5個(gè)方面:

        一是子技術(shù)1表征的濁度檢測裝置結(jié)構(gòu)。濁度檢測裝置結(jié)構(gòu)[33]作為濁度檢測技術(shù)中最常見的一類技術(shù),因此包含技術(shù)要素的數(shù)量最多。二是子技術(shù)2表征的控制系統(tǒng)。控制系統(tǒng)[34]包含電路控制、光路控制、信號(hào)傳輸控制等,是濁度檢測技術(shù)中的重要技術(shù)之一。三是子技術(shù)3表征的檢測相關(guān)功能。主要涉及到濁度檢測的一些其它功能[35]。四是子技術(shù)4表征的檢測用組件。在進(jìn)行濁度檢測時(shí)常常需要一些部件輔助濁度檢測[36]。五是子技術(shù)5表征的檢測方法。檢測方法作為水質(zhì)檢測技術(shù)的核心內(nèi)容,在檢測不同環(huán)境水樣時(shí)需要靈活選用不同的方法[37]。

        5.4 水質(zhì)濁度檢測技術(shù)機(jī)會(huì)分析

        5.4.1水質(zhì)濁度檢測技術(shù)要素的潛在技術(shù)元三元組確定

        本文利用鏈路預(yù)測算法識(shí)別技術(shù)元間的潛在關(guān)系。通過對現(xiàn)有的5 348個(gè)技術(shù)元三元組進(jìn)行技術(shù)要素之間潛在關(guān)系的確定,本文共識(shí)別出了2 409個(gè)具有潛在關(guān)系的技術(shù)要素,然后利用SVM算法將識(shí)別出的技術(shù)要素劃分為九大類,以此確定潛在關(guān)系所屬的具體類別,進(jìn)而可得到技術(shù)要素的潛在技術(shù)元三元組。

        5.4.2水質(zhì)濁度檢測子技術(shù)機(jī)會(huì)分析

        針對識(shí)別出的技術(shù)類別中所包含的潛在技術(shù)元三元組,結(jié)合現(xiàn)有的技術(shù)元三元組,對前文識(shí)別出的5個(gè)子技術(shù)類進(jìn)行技術(shù)機(jī)會(huì)分析。

        5.4.3水質(zhì)濁度檢測子技術(shù)類技術(shù)機(jī)會(huì)確定

        在前述分析基礎(chǔ)上,本文以得到的3個(gè)子技術(shù)類的技術(shù)機(jī)會(huì)為例進(jìn)行分析,見表8。

        表8 水質(zhì)濁度檢測技術(shù)機(jī)會(huì)

        由表8可以看出水質(zhì)濁度檢測子技術(shù)類的技術(shù)機(jī)會(huì)主要包括:

        一是水質(zhì)濁度檢測裝置結(jié)構(gòu)子技術(shù)的技術(shù)機(jī)會(huì)——友好化檢測裝置。友好化產(chǎn)品設(shè)計(jì)作為未來技術(shù)發(fā)展的重要發(fā)展方向之一,同樣也適用于水質(zhì)濁度檢測技術(shù)裝置。必然的,操作友好化[38]、視覺友好化[39]、環(huán)境友好化[36]等是目前濁度檢測裝置的重要發(fā)展方向。

        二是水質(zhì)濁度檢測控制系統(tǒng)子技術(shù)的技術(shù)機(jī)會(huì)——智能控制。智能控制一直以來作為水質(zhì)濁度檢測裝置的研發(fā)重點(diǎn),同樣也是值得重點(diǎn)關(guān)注的技術(shù)機(jī)會(huì)。為了滿足不同時(shí)間、空間和環(huán)境等條件的限制,需要利用現(xiàn)有或研發(fā)新的控制技術(shù)實(shí)現(xiàn)對濁度檢測裝置的智能控制[34],進(jìn)而實(shí)現(xiàn)更精確的水質(zhì)濁度檢測。

        三是水質(zhì)濁度檢測控制系統(tǒng)子技術(shù)的技術(shù)機(jī)會(huì)——智能檢測。與智能控制相同,智能檢測是水質(zhì)濁度檢測技術(shù)重要的研發(fā)方向。隨著計(jì)算機(jī)、傳感器和通訊等技術(shù)的不斷發(fā)展,檢測技術(shù)將不再局限于傳統(tǒng)水質(zhì)的濁度檢測[37],急需更便捷、更準(zhǔn)確地進(jìn)行檢測的方法。同時(shí),在水質(zhì)濁度檢測基礎(chǔ)上,還可嘗試?yán)脵C(jī)器學(xué)習(xí)算法實(shí)現(xiàn)對水質(zhì)濁度的預(yù)測[40],從而為進(jìn)一步提升水質(zhì)監(jiān)測與管理水平提供可資借鑒的參考思路。

        在完成技術(shù)機(jī)會(huì)識(shí)別后,可根據(jù)現(xiàn)有技術(shù)元三元組,結(jié)合潛在技術(shù)元三元組制定相應(yīng)的技術(shù)方案,進(jìn)而實(shí)現(xiàn)水質(zhì)濁度檢測技術(shù)產(chǎn)品的創(chuàng)新研發(fā)。

        6 結(jié)論與展望

        綜上所述,為了彌補(bǔ)已有技術(shù)機(jī)會(huì)識(shí)別文獻(xiàn)中對技術(shù)知識(shí)抽取方法研究的不足,提高分析結(jié)果的客觀性,本文提出了一種依托知識(shí)元理論開展技術(shù)元抽取與技術(shù)機(jī)會(huì)識(shí)別的方法。首先根據(jù)知識(shí)元理論引出技術(shù)元的概念,為技術(shù)知識(shí)管理提供理論支持,并利用基于對抗訓(xùn)練的BERT-BiLSTM-CRF模型進(jìn)行技術(shù)要素抽取,利用BERT模型進(jìn)行技術(shù)要素間關(guān)系抽取,識(shí)別出完整的技術(shù)元三元組;其次,利用基于語義信息的技術(shù)要素聚類方法識(shí)別相關(guān)技術(shù)的子技術(shù)類別;再次,利用鏈路預(yù)測方法,結(jié)合SVM算法,識(shí)別技術(shù)要素間的潛在關(guān)系,并發(fā)現(xiàn)技術(shù)機(jī)會(huì);最后,以水質(zhì)濁度檢測技術(shù)為例驗(yàn)證了本框架的有效性。

        本文在簡化技術(shù)知識(shí)獲取難度的同時(shí),拓展了技術(shù)創(chuàng)新理論的研究范疇。為了簡化技術(shù)知識(shí)獲取的難度,本文依托知識(shí)元理論,通過引入多維技術(shù)創(chuàng)新圖譜對技術(shù)要素及其關(guān)系進(jìn)行了標(biāo)注歸類,并構(gòu)建了相應(yīng)的深度學(xué)習(xí)模型,既彌補(bǔ)了已有技術(shù)機(jī)會(huì)識(shí)別文獻(xiàn)中對技術(shù)知識(shí)抽取方法研究的不足,又彌補(bǔ)了過分依賴專家參與難以保證分析結(jié)果客觀性的缺陷。同時(shí),在提升技術(shù)機(jī)會(huì)分析客觀性的同時(shí),也彌補(bǔ)了原有利用鏈路預(yù)測方法進(jìn)行技術(shù)分析的不足。但是,本研究也存在一定的局限性。盡管本文依據(jù)鏈路預(yù)測結(jié)果,對潛在的技術(shù)機(jī)會(huì)進(jìn)行了分析,但由于識(shí)別出的潛在技術(shù)元三元組較多,一定程度上會(huì)受專業(yè)知識(shí)所限,難以快速準(zhǔn)確識(shí)別。因此,在未來的研究中還需進(jìn)一步對識(shí)別出的技術(shù)機(jī)會(huì)進(jìn)行量化評價(jià),以提高技術(shù)機(jī)會(huì)識(shí)別的自動(dòng)化程度和客觀性。

        猜你喜歡
        三元組濁度機(jī)會(huì)
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        丙烯酰胺強(qiáng)化混凝去除黑河原水濁度的研究
        動(dòng)態(tài)濁度補(bǔ)償技術(shù)在總磷在線自動(dòng)監(jiān)測儀上的應(yīng)用
        云南化工(2021年6期)2021-12-21 07:31:06
        給進(jìn)步一個(gè)機(jī)會(huì)
        海峽姐妹(2020年3期)2020-04-21 09:27:40
        關(guān)于余撓三元組的periodic-模
        最后的機(jī)會(huì)
        NBA特刊(2018年17期)2018-11-24 02:45:44
        給彼此多一次相愛的機(jī)會(huì)
        海峽姐妹(2018年6期)2018-06-26 07:27:20
        11°角應(yīng)用于啤酒過濾濁度測量
        沒機(jī)會(huì)下手
        亚洲综合精品一区二区三区| 在线亚洲午夜理论av大片| 九九热在线视频观看这里只有精品| 精品无码成人片一区二区| 国产美女一区三区在线观看| 新婚少妇无套内谢国语播放| 极品美女aⅴ在线观看| 久久半精品国产99精品国产| 一二区视频免费在线观看| 人妻免费一区二区三区免费| 国产精品国产三级国av在线观看| 久久久国产精品樱花网站| 午夜精品一区二区三区视频免费看| 无遮挡很爽很污很黄的女同| 五级黄高潮片90分钟视频| 国产男女插插一级| 日本精品少妇一区二区| 国产精品天干天干综合网| 欧美日本国产va高清cabal| 亚洲五月七月丁香缴情| 日韩女同在线免费观看| 丰满多毛的大隂户毛茸茸| 久久久久久久久久久熟女AV| 中文字幕人妻少妇精品| 最新国产精品拍自在线观看| 人人妻人人澡人人爽欧美二区| 亚洲日本在线va中文字幕| 精品亚洲一区二区三洲| 日韩精品成人无码专区免费| 亚洲国产成人精品女人久久久 | 精品无码专区久久久水蜜桃| 国产在线观看免费一级| 阴唇两边有点白是怎么回事| 中国少妇内射xxxx狠干| 国产精品亚洲А∨天堂免下载| 精品国产日产av在线| 18岁日韩内射颜射午夜久久成人| 亚洲最大日夜无码中文字幕| 蜜桃一区二区三区自拍视频| 亚洲色图三级在线观看| 品色永久免费|