亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識(shí)元視域的技術(shù)元抽取及技術(shù)機(jī)會(huì)識(shí)別*

        2024-04-25 01:45:22王金鳳閻競(jìng)博馮立杰林國(guó)義
        情報(bào)雜志 2024年4期
        關(guān)鍵詞:水質(zhì)檢測(cè)模型

        王金鳳 閻競(jìng)博 馮立杰 李 康 林國(guó)義

        (1.上海海事大學(xué)中國(guó)(上海)自貿(mào)區(qū)供應(yīng)鏈研究院 上海 201306;2.上海海事大學(xué)經(jīng)濟(jì)管理學(xué)院 上海 201306;3.上海海事大學(xué)物流工程學(xué)院 上海 201306;4.上海海事大學(xué)物流科學(xué)與工程研究院 上海 201306;5.桂林電子科技大學(xué)商學(xué)院 桂林 541004)

        技術(shù)創(chuàng)新作為提高企業(yè)核心競(jìng)爭(zhēng)力的不二法寶[1],其中,技術(shù)機(jī)會(huì)識(shí)別是精準(zhǔn)開(kāi)展技術(shù)創(chuàng)新的關(guān)鍵[2]、知識(shí)挖掘是技術(shù)機(jī)會(huì)識(shí)別的前提與核心環(huán)節(jié)[3]。隨著技術(shù)迭代速度的日益加快,加之急劇膨脹的海量技術(shù)知識(shí),傳統(tǒng)的經(jīng)由人工進(jìn)行知識(shí)挖掘預(yù)判技術(shù)機(jī)會(huì)變得愈加困難[4]。因此,直面數(shù)量日益龐雜的技術(shù)知識(shí),如何在把握技術(shù)發(fā)展趨勢(shì)的同時(shí)準(zhǔn)確識(shí)別新的技術(shù)機(jī)會(huì)繼而降低創(chuàng)新風(fēng)險(xiǎn),成為企業(yè)亟待解決的一個(gè)重要現(xiàn)實(shí)問(wèn)題[5]。本文將構(gòu)建一種從知識(shí)元視角出發(fā)的技術(shù)元抽取與技術(shù)機(jī)會(huì)識(shí)別路徑,基于技術(shù)元理論在收集并處理數(shù)據(jù)的基礎(chǔ)上,挖掘技術(shù)知識(shí)中影響技術(shù)創(chuàng)新的技術(shù)要素并抽取要素間的關(guān)系,繼而進(jìn)行子技術(shù)類(lèi)別研判和技術(shù)機(jī)會(huì)識(shí)別,旨在為企業(yè)精準(zhǔn)預(yù)判技術(shù)機(jī)會(huì)、不斷提升創(chuàng)新效率提供有益的參考。

        1 相關(guān)工作概述

        為了簡(jiǎn)化知識(shí)獲取的難度,有學(xué)者引入知識(shí)元理論[6],將知識(shí)元視為組成知識(shí)的具有獨(dú)立性、完整性和單一性的最小單元作為知識(shí)管理的出發(fā)點(diǎn)[7],嘗試建立了基于知識(shí)元的分層描述結(jié)構(gòu)和線(xiàn)性描述結(jié)構(gòu)的語(yǔ)義描述模型[8]。利用資源描述框架(Resource Description Framework,RDF),以主體(Subject)、謂詞(Predicate)和客體(Object)構(gòu)成的語(yǔ)義三元組對(duì)知識(shí)元進(jìn)行了表述[9],并廣泛應(yīng)用于社交媒體[10]、文物資源[11]、學(xué)術(shù)文獻(xiàn)[12]和藝術(shù)[13]等領(lǐng)域。通過(guò)提取文本或圖像中蘊(yùn)含的知識(shí)要素和屬性特征等構(gòu)建知識(shí)元網(wǎng)絡(luò),開(kāi)展知識(shí)管理、知識(shí)挖掘和知識(shí)推理,進(jìn)而提高了技術(shù)知識(shí)的利用效率。但是,盡管知識(shí)元理論在多個(gè)領(lǐng)域得到了較為廣泛的應(yīng)用,在技術(shù)創(chuàng)新尤其是在技術(shù)機(jī)會(huì)識(shí)別方面的應(yīng)用卻較少,如何基于知識(shí)元視域依托現(xiàn)有技術(shù)知識(shí)精準(zhǔn)預(yù)判技術(shù)機(jī)會(huì),有待開(kāi)展深入的研究。

        專(zhuān)利文本作為技術(shù)知識(shí)的重要載體,其中蘊(yùn)含的豐富技術(shù)信息是技術(shù)機(jī)會(huì)分析的關(guān)鍵數(shù)據(jù)源[14],最常用的方法是基于機(jī)器學(xué)習(xí)算法對(duì)文本內(nèi)容中的關(guān)鍵技術(shù)信息進(jìn)行挖掘,進(jìn)而完成潛在技術(shù)機(jī)會(huì)的識(shí)別[15]。其中,可通過(guò)關(guān)鍵詞挖掘技術(shù)創(chuàng)新機(jī)會(huì)[16],或利用SAO語(yǔ)義分析方法對(duì)結(jié)構(gòu)化專(zhuān)利文本進(jìn)行創(chuàng)新要素間的關(guān)系研究[17]。然而,在此過(guò)程中難以厘清具體創(chuàng)新要素的屬性及歸類(lèi),同時(shí)也難以準(zhǔn)確全面地對(duì)創(chuàng)新要素之間的復(fù)雜關(guān)系進(jìn)行準(zhǔn)確完整的詮釋。

        而深度學(xué)習(xí)方法可以實(shí)現(xiàn)在精準(zhǔn)抽取技術(shù)知識(shí)中包含的創(chuàng)新要素及其關(guān)系的同時(shí)[18],克服過(guò)分依賴(lài)專(zhuān)家參與難以保證抽取結(jié)果客觀(guān)性的缺陷[19]。程為等[20]使用BERT模型和ERNIE模型對(duì)南海維權(quán)證據(jù)知識(shí)元進(jìn)行識(shí)別;Meng F等[21]構(gòu)建了基于BERT-BiLSTM-CRF模型用于知識(shí)元中的實(shí)體抽取;Hou J等[22]構(gòu)建了BERT模型用于知識(shí)元中的關(guān)系抽取。同時(shí),相較于利用規(guī)則或模板進(jìn)行知識(shí)元抽取,基于深度學(xué)習(xí)的方法在自動(dòng)化程度和精確度方面具有更加優(yōu)異的性能[23]。然而,在構(gòu)建深度學(xué)習(xí)模型進(jìn)行知識(shí)抽取時(shí),還需引入一種針對(duì)專(zhuān)利文本中技術(shù)要素間的關(guān)系進(jìn)行統(tǒng)一標(biāo)注的規(guī)則對(duì)其整理和分類(lèi),從而更好地開(kāi)展技術(shù)機(jī)會(huì)的識(shí)別。綜上,由于現(xiàn)有知識(shí)元抽取和技術(shù)機(jī)會(huì)識(shí)別方法自身存在的局限性,其研究結(jié)果的準(zhǔn)確性和客觀(guān)性有待進(jìn)一步完善。因此,本文從知識(shí)元視角出發(fā)進(jìn)行技術(shù)元抽取與技術(shù)機(jī)會(huì)識(shí)別,引入了深度學(xué)習(xí)、鏈路預(yù)測(cè)、支持向量機(jī)等方法展開(kāi)了分析。

        2 研究設(shè)計(jì)

        基于上述分析,本文提出一種知識(shí)元視角下的技術(shù)元抽取與技術(shù)機(jī)會(huì)識(shí)別研究路徑,如圖1所示。

        圖1 研究框架

        a.技術(shù)元抽取過(guò)程采用的方法主要包括:

        ①確定檢索式并從專(zhuān)利數(shù)據(jù)庫(kù)中搜索相關(guān)專(zhuān)利,然后依據(jù)專(zhuān)利說(shuō)明書(shū)文本構(gòu)建技術(shù)元語(yǔ)料庫(kù)。

        ②構(gòu)建基于對(duì)抗訓(xùn)練的BERT-BiLSTM-CRF模型以抽取具象技術(shù)領(lǐng)域的技術(shù)要素,同時(shí)構(gòu)建BERT模型抽取技術(shù)要素間的關(guān)系,然后將前述結(jié)果以技術(shù)元三元組表示并建立知識(shí)網(wǎng)絡(luò)。

        ③分別運(yùn)用Word2Vec和K-means算法,構(gòu)建基于語(yǔ)義向量的技術(shù)要素子技術(shù)識(shí)別方法并進(jìn)行技術(shù)要素詞聚類(lèi),然后對(duì)聚類(lèi)結(jié)果進(jìn)行分析,確定子技術(shù)的名稱(chēng)。

        b.技術(shù)機(jī)會(huì)識(shí)別過(guò)程采用的方法主要包括:

        ①根據(jù)現(xiàn)有技術(shù)要素間的關(guān)系,利用鏈路預(yù)測(cè)方法研判技術(shù)元知識(shí)網(wǎng)絡(luò)中要素之間的潛在關(guān)系。

        ②利用SVM算法對(duì)潛在關(guān)系進(jìn)行分類(lèi)以確定其類(lèi)別,得到潛在的技術(shù)元三元組。

        ③對(duì)前述潛在關(guān)系進(jìn)行有效性識(shí)別,進(jìn)而依據(jù)識(shí)別結(jié)果,結(jié)合現(xiàn)有三元組,完成對(duì)子技術(shù)創(chuàng)新機(jī)會(huì)的預(yù)判。

        3 技術(shù)元抽取

        本文在知識(shí)元的基礎(chǔ)上引申出了技術(shù)元的概念。技術(shù)元是技術(shù)組成的基本單元,反映了技術(shù)包含的基本信息,不僅包含技術(shù)要素實(shí)體,同時(shí)包含技術(shù)要素間的關(guān)系。因此,本文對(duì)技術(shù)元進(jìn)行抽取以實(shí)現(xiàn)對(duì)技術(shù)知識(shí)的全面獲取與管理。

        3.1 數(shù)據(jù)的收集及預(yù)處理

        為了保證全面準(zhǔn)確地獲取目標(biāo)技術(shù)所涵蓋的技術(shù)信息,首先需要制定數(shù)據(jù)收集與預(yù)處理方案,如圖2所示。

        圖2 數(shù)據(jù)收集及預(yù)處理

        首先,針對(duì)目標(biāo)技術(shù)制定專(zhuān)利檢索式,從專(zhuān)利數(shù)據(jù)庫(kù)中檢索相關(guān)專(zhuān)利,并去除重復(fù)、無(wú)關(guān)專(zhuān)利。其次,在檢索到的專(zhuān)利中獲取專(zhuān)利說(shuō)明書(shū),并提取文本內(nèi)容。最后,對(duì)得到的文本進(jìn)行數(shù)據(jù)清洗,去除無(wú)意義的數(shù)字、符號(hào)等噪聲數(shù)據(jù),并對(duì)文本進(jìn)行分句處理以構(gòu)建技術(shù)元語(yǔ)料庫(kù)。

        3.2 技術(shù)要素和技術(shù)要素間關(guān)系的抽取

        技術(shù)元抽取包括技術(shù)要素抽取和技術(shù)要素間的關(guān)系抽取。

        為便于計(jì)算機(jī)處理,本文將技術(shù)元以的三元組形式表示。其中:S為技術(shù)要素主體;P為技術(shù)要素間的關(guān)系;O為受影響的技術(shù)要素客體。

        3.2.1技術(shù)要素的抽取

        首先,研判技術(shù)要素的類(lèi)別并加以標(biāo)注。然而,有鑒于不同技術(shù)大多分屬不同的類(lèi)別,加之目前尚沒(méi)有可供遵循的通用標(biāo)注規(guī)則,所以,本文引入FENG L.J.等[24]針對(duì)專(zhuān)利提出的多維技術(shù)創(chuàng)新圖譜中的9個(gè)創(chuàng)新維度對(duì)技術(shù)要素進(jìn)行了標(biāo)注。相關(guān)維度的具體含義見(jiàn)表1。

        表1 多維技術(shù)創(chuàng)新圖譜的創(chuàng)新維度劃分

        其次,在完成技術(shù)要素的維度標(biāo)注后,構(gòu)建基于對(duì)抗學(xué)習(xí)的BERT-BiLSTM-CRF模型進(jìn)行技術(shù)要素抽取。具體流程如圖3所示。

        圖3 技術(shù)要素抽取過(guò)程

        技術(shù)要素的抽取過(guò)程主要包括:

        一是BERT層的構(gòu)建。本文使用基于雙向Transformer編碼構(gòu)建的預(yù)訓(xùn)練語(yǔ)言模型BERT,可以精準(zhǔn)捕捉到句子的特征信息[25]。經(jīng)過(guò)雙向Transformer編碼后可得到句子字符級(jí)特征向量序列X=(x1,x2,…,xn)。

        三是CRF層的構(gòu)建。在完成技術(shù)要素抽取后,本文利用條件隨機(jī)場(chǎng)(conditional random fields,CRF)處理BiLSTM的輸出,同時(shí)借鑒相鄰標(biāo)簽中的關(guān)系進(jìn)行序列標(biāo)注,進(jìn)而可得到最優(yōu)的預(yù)測(cè)序列[27]。

        四是基于FGM對(duì)抗訓(xùn)練方法的數(shù)據(jù)特征增強(qiáng)。為了提高技術(shù)要素抽取模型的性能,本文引入對(duì)抗訓(xùn)練方法使數(shù)據(jù)特征增強(qiáng),即通過(guò)引入噪聲對(duì)樣本增加擾動(dòng)的方式,提高模型的泛化性和魯棒性[28]。

        c.對(duì)模型進(jìn)行評(píng)估。即在完成技術(shù)要素的識(shí)別后,還需以準(zhǔn)確率P、召回率R、F1值評(píng)估模型的優(yōu)劣,具體計(jì)算公式如下:

        (1)

        (2)

        (3)

        其中,TP表示預(yù)測(cè)類(lèi)型與實(shí)際類(lèi)型相同的數(shù)量,FP表示預(yù)測(cè)類(lèi)型與實(shí)際類(lèi)型不同的數(shù)量,FN表示實(shí)際類(lèi)型與預(yù)測(cè)類(lèi)型不同的數(shù)量。

        3.2.2技術(shù)要素之間的關(guān)系抽取

        首先,為了抽取前述技術(shù)要素之間的關(guān)系,簡(jiǎn)化要素間關(guān)系標(biāo)注的難度,本文引入FENG L.J.等[24]針對(duì)專(zhuān)利提出多維技術(shù)創(chuàng)新圖譜中的9種創(chuàng)新法則對(duì)技術(shù)要素之間的關(guān)系進(jìn)行了標(biāo)注,相關(guān)創(chuàng)新法則的具體含義見(jiàn)表2。

        表2 多維技術(shù)創(chuàng)新圖譜的創(chuàng)新法則

        其次,利用BERT模型抽取技術(shù)要素之間的關(guān)系。具體流程如圖4所示。

        圖4 技術(shù)要素之間的關(guān)系抽取過(guò)程

        在圖4中,利用BERT模型抽取技術(shù)要素之間的關(guān)系主要包括:

        一是與命名要素識(shí)別過(guò)程中的BERT操作相同,通過(guò)Transformer編碼得到字符級(jí)特征向量序列X=(x1,x2,…,xn)。

        二是將編碼得到的字符級(jí)特征向量序列輸入到全連接層中,并將字符級(jí)別的特征向量轉(zhuǎn)換為句子級(jí)別的特征向量。然后利用ReLU激活函數(shù)進(jìn)行線(xiàn)性變化。

        三是將全連接層輸出的結(jié)果輸入到softmax 層中,利用softmax函數(shù)進(jìn)行關(guān)系分類(lèi),并將多分類(lèi)輸出值轉(zhuǎn)換為[0,1]的概率分布。

        四是待關(guān)系抽取完成后,本文以準(zhǔn)確率P、召回率R、F1值評(píng)估模型的優(yōu)劣。

        最后,將技術(shù)元以三元組形式表示,并將得到的技術(shù)元三元組以技術(shù)知識(shí)網(wǎng)絡(luò)的形式保存,便于后續(xù)開(kāi)展技術(shù)知識(shí)分析。

        3.3 子技術(shù)類(lèi)別的研判

        在技術(shù)元抽取基礎(chǔ)上,還需將技術(shù)要素進(jìn)一步整理和分類(lèi)。對(duì)此,本文構(gòu)建了一種基于語(yǔ)義向量的技術(shù)要素子技術(shù)類(lèi)別研判方法,利用Word2vec提取技術(shù)要素的詞向量,利用K-means算法對(duì)技術(shù)要素進(jìn)行聚類(lèi),并結(jié)合聚類(lèi)結(jié)果對(duì)子技術(shù)進(jìn)行命名。子技術(shù)類(lèi)別的研判過(guò)程如圖5所示。

        依據(jù)圖5中對(duì)子技術(shù)類(lèi)別的研判,在具體實(shí)施中:

        a.獲取技術(shù)要素的詞向量。為了獲取技術(shù)要素詞的語(yǔ)義信息,本文選用Word2vec模型中的Skip-gram模型提取技術(shù)要素詞的詞向量[29]。主要包括:

        一是對(duì)提取的技術(shù)要素構(gòu)建用戶(hù)詞典,并利用Python中的jieba工具包對(duì)包含技術(shù)要素的技術(shù)元語(yǔ)句進(jìn)行分詞處理。

        二是將分詞后的語(yǔ)句輸入到Word2Vec模型中,并利用skip-gram模型進(jìn)行訓(xùn)練,得到各詞的語(yǔ)義向量。

        三是將技術(shù)要素詞與得到的詞向量匹配,得到具有語(yǔ)義信息的技術(shù)要素詞向量。

        b.對(duì)技術(shù)要素詞進(jìn)行聚類(lèi)。在獲取具有語(yǔ)義信息的技術(shù)要素詞向量基礎(chǔ)上,還需利用K-means算法對(duì)技術(shù)要素詞進(jìn)行聚類(lèi)[30]。主要包括:

        一是對(duì)于Word2vec模型所提取出的技術(shù)要素詞向量序列V=(v1,v2,…,vn),可通過(guò)將技術(shù)要素詞劃分到k個(gè)子集中判定子技術(shù)的類(lèi)別。

        二是在聚類(lèi)過(guò)程中,對(duì)于一個(gè)類(lèi)Vi=(vl,vl+1,…,vk)以技術(shù)要素詞vi到所屬類(lèi)的中心距離之和為損失函數(shù),μl表示第l個(gè)類(lèi)的質(zhì)心,則最優(yōu)目標(biāo)函數(shù)為:

        (5)

        c.為了提高聚類(lèi)的有效性,還需對(duì)k的取值進(jìn)行實(shí)驗(yàn),同時(shí)選取可解釋性最佳的k值作為聚類(lèi)個(gè)數(shù),最終完成對(duì)子技術(shù)的命名。

        4 技術(shù)機(jī)會(huì)識(shí)別

        4.1 基于鏈路預(yù)測(cè)的潛在關(guān)系識(shí)別

        在技術(shù)知識(shí)抽取基礎(chǔ)上,還需對(duì)現(xiàn)有的技術(shù)知識(shí)網(wǎng)絡(luò)進(jìn)行分析,進(jìn)而識(shí)別相應(yīng)的技術(shù)機(jī)會(huì)。在具體實(shí)施中,鑒于鏈路預(yù)測(cè)方法能夠準(zhǔn)確預(yù)判未來(lái)技術(shù)的發(fā)展方向,本文首先利用隨機(jī)游走算法對(duì)整個(gè)技術(shù)元網(wǎng)絡(luò)進(jìn)行計(jì)算,并以Cos+指標(biāo)確定技術(shù)要素間是否具有潛在關(guān)系[31];然后根據(jù)Cos+指標(biāo)的計(jì)算結(jié)果,在去除Cos+小于0.5的連邊后,將剩余連邊作為具有要素間潛在關(guān)系的連邊,并作為蘊(yùn)含未來(lái)技術(shù)發(fā)展方向的技術(shù)信息予以保留。

        4.2 基于SVM算法的潛在關(guān)系分類(lèi)

        SVM是一種性能優(yōu)越的分類(lèi)算法,相較于樸素貝葉斯、邏輯回歸等模型具有更好的效果[32]。因此,在識(shí)別技術(shù)要素間的潛在關(guān)系后,為了提高技術(shù)機(jī)會(huì)識(shí)別的客觀(guān)性,本文利用SVM算法對(duì)識(shí)別出的具有潛在關(guān)系的技術(shù)要素進(jìn)行了分類(lèi)。

        4.3 技術(shù)機(jī)會(huì)的預(yù)判

        在完成潛在關(guān)系識(shí)別和潛在關(guān)系分類(lèi)基礎(chǔ)上,還需進(jìn)一步預(yù)判具象技術(shù)的創(chuàng)新機(jī)會(huì)。在具體實(shí)施中:

        a.識(shí)別技術(shù)要素潛在關(guān)系的有效性。識(shí)別完成后,還需對(duì)識(shí)別出的潛在技術(shù)元三元組進(jìn)行篩選,以判斷其是否具有技術(shù)創(chuàng)新價(jià)值。

        b.進(jìn)行技術(shù)機(jī)會(huì)分析。在對(duì)技術(shù)要素潛在關(guān)系進(jìn)行有效性識(shí)別基礎(chǔ)上,還需結(jié)合現(xiàn)有技術(shù)元三元組和識(shí)別出的潛在技術(shù)元三元組,完成對(duì)技術(shù)機(jī)會(huì)的識(shí)別,具體流程如圖6所示。

        圖6 技術(shù)機(jī)會(huì)的識(shí)別

        圖6中,TE表示技術(shù)要素;TR表示現(xiàn)有技術(shù)要素間的關(guān)系類(lèi)型;TR'表示預(yù)測(cè)得到技術(shù)要素間的潛在關(guān)系;具有同樣形狀的TE表示其同屬于一個(gè)子技術(shù)。

        5 案例應(yīng)用

        水質(zhì)濁度檢測(cè)技術(shù)在水域治理中起著舉足輕重的作用,亟待進(jìn)行技術(shù)創(chuàng)新。因此,本文將以水質(zhì)濁度檢測(cè)技術(shù)創(chuàng)新機(jī)會(huì)識(shí)別為例,對(duì)本文提出的方法進(jìn)行驗(yàn)證。

        5.1 水質(zhì)濁度檢測(cè)技術(shù)專(zhuān)利數(shù)據(jù)獲取與預(yù)處理

        5.1.1水質(zhì)濁度檢測(cè)技術(shù)專(zhuān)利數(shù)據(jù)的獲取

        本文選用壹專(zhuān)利檢索分析數(shù)據(jù)庫(kù)進(jìn)行專(zhuān)利檢索。

        首先,本文確定檢索式為:“TA=(濁度檢測(cè)) AND (TA=(水) OR TA=(水質(zhì))) AND (TA=(裝置) OR TA=(方法) OR TA=(設(shè)備) OR TA=(傳感器)) and (IPC=(G) OR IPC=(C))”。在數(shù)據(jù)庫(kù)中檢索到381條專(zhuān)利數(shù)據(jù)。

        其次,通過(guò)人工閱讀并剔除與水質(zhì)濁度檢測(cè)無(wú)關(guān)或關(guān)系不大的專(zhuān)利后,共得到355條專(zhuān)利數(shù)據(jù)。

        最后,提取355條數(shù)據(jù)的專(zhuān)利說(shuō)明書(shū)文本。

        5.1.2水質(zhì)濁度檢測(cè)技術(shù)專(zhuān)利的預(yù)處理

        為保證技術(shù)元抽取的效果,在標(biāo)注數(shù)據(jù)之前還需要進(jìn)行文本的預(yù)處理。

        首先,利用正則表達(dá)式去除專(zhuān)利說(shuō)明書(shū)文本中無(wú)意義的字符和數(shù)字。

        其次,利用SnowNLP對(duì)專(zhuān)利文本進(jìn)行斷句處理,拆分標(biāo)識(shí)符為中文句號(hào)。其中,文本段落應(yīng)小于300字符,若超出300字符則利用正則表達(dá)式對(duì)句子切分,多余部分視為另一個(gè)句子。

        最后,構(gòu)建技術(shù)元語(yǔ)料庫(kù),并刪除語(yǔ)料庫(kù)中重復(fù)且句子長(zhǎng)度小于10的句子。

        經(jīng)預(yù)處理后,本文共從355篇專(zhuān)利說(shuō)明書(shū)文本中提取出11 787條語(yǔ)句。

        5.2 水質(zhì)濁度檢測(cè)技術(shù)元抽取

        為便于進(jìn)行技術(shù)元的自動(dòng)化處理,本文利用語(yǔ)義描述模型將技術(shù)元表示為三元組形式,見(jiàn)表3。

        表3 水質(zhì)濁度檢測(cè)技術(shù)的技術(shù)元表示

        本文構(gòu)建了相關(guān)模型進(jìn)行技術(shù)要素和要素間關(guān)系的抽取。

        5.2.1水質(zhì)濁度檢測(cè)技術(shù)的技術(shù)要素抽取

        據(jù)前文所述,本文構(gòu)建了基于對(duì)抗學(xué)習(xí)的BERT-BiLSTM-CRF模型用于技術(shù)要素抽取。

        首先,依據(jù)專(zhuān)利說(shuō)明書(shū),本文從前述提取出的11 787條語(yǔ)句中選取了1 624條以人工方式對(duì)技術(shù)要素進(jìn)行了BIO標(biāo)注,具體標(biāo)注方式如圖7所示。

        圖7 水質(zhì)濁度檢測(cè)技術(shù)要素的BIO標(biāo)注

        其次,對(duì)技術(shù)要素的抽取結(jié)果進(jìn)行定量評(píng)估。本文以8∶2比例劃分訓(xùn)練集與測(cè)試集,用于該模型的訓(xùn)練與測(cè)試。經(jīng)訓(xùn)練后,該模型在測(cè)試集上的精確度為0.789、召回率為0.784、F1值為0.786,抽取效果較好。

        再次,將本模型與三種命名要素識(shí)別模型進(jìn)行對(duì)比,具體結(jié)果見(jiàn)表4。結(jié)果表明,本文構(gòu)建的模型在技術(shù)要素抽取上優(yōu)于其他三種模型。

        表4 水質(zhì)濁度檢測(cè)技術(shù)要素識(shí)別模型的有效性比較

        最后,利用訓(xùn)練完成的技術(shù)要素抽取模型進(jìn)行要素抽取。在抽取完成后,為了保證抽取的質(zhì)量,還需進(jìn)行人工去重與消岐,最終共得到3 672個(gè)所屬不同類(lèi)別的技術(shù)要素,具體分析結(jié)果見(jiàn)表5。

        表5 水質(zhì)濁度檢測(cè)技術(shù)要素抽取的結(jié)果

        5.2.2水質(zhì)濁度檢測(cè)技術(shù)要素關(guān)系抽取

        首先,采用BERT模型進(jìn)行技術(shù)要素間關(guān)系抽取。本文從前述提取出的11 787條語(yǔ)句,對(duì)其中1 624條語(yǔ)句以人工方式進(jìn)行了技術(shù)要素關(guān)系標(biāo)注。

        其次,對(duì)技術(shù)要素關(guān)系的抽取結(jié)果進(jìn)行定量評(píng)估。本文以8∶2比例劃分訓(xùn)練集與測(cè)試集,用于BERT關(guān)系抽取模型的訓(xùn)練與測(cè)試。經(jīng)訓(xùn)練后,該模型在測(cè)試集上的精確度為0.727、召回率為0.712、F1值為0.719,抽取的效果較好。

        再次,利用訓(xùn)練完成的抽取模型抽取技術(shù)要素間的關(guān)系。為保證識(shí)別質(zhì)量,還需進(jìn)行人工去重并刪除無(wú)意義要素間的關(guān)系組,最終共識(shí)別出5 348條關(guān)系,具體結(jié)果見(jiàn)表6。

        表6 技術(shù)要素之間關(guān)系抽取的結(jié)果

        最后,為便于對(duì)技術(shù)元進(jìn)行管理,還需將前述結(jié)果導(dǎo)入到Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),進(jìn)而得到技術(shù)元知識(shí)圖譜。

        5.3 水質(zhì)濁度檢測(cè)技術(shù)的子技術(shù)識(shí)別

        有鑒于前文中抽取的技術(shù)要素僅為單獨(dú)的個(gè)體,為了提高技術(shù)知識(shí)的管理效率,還需進(jìn)一步分析每個(gè)個(gè)體的子技術(shù)類(lèi)別。

        5.3.1技術(shù)要素詞向量的獲取

        首先,將識(shí)別的技術(shù)要素定義為用戶(hù)詞典,鑒于同一要素可能對(duì)應(yīng)不同的技術(shù)要素類(lèi)別,因此在構(gòu)建用戶(hù)詞典時(shí)本文從前述3 672個(gè)所屬不同類(lèi)別的技術(shù)要素中共篩選到3 360個(gè)唯一技術(shù)要素詞。

        其次,利用Jieba分詞將技術(shù)元語(yǔ)料庫(kù)進(jìn)行分詞處理,分詞后的句子作為Word2Vec模型的輸入,然后利用skip-gram模型對(duì)完成分詞的句子進(jìn)行訓(xùn)練,并輸出分詞后句子中每個(gè)詞的詞向量。

        最后,將技術(shù)要素詞與Word2Vec模型輸出的詞向量進(jìn)行匹配,進(jìn)而得到技術(shù)要素詞向量。

        5.3.2技術(shù)要素詞的聚類(lèi)

        在完成技術(shù)要素詞向量提取后,還需利用K-means算法進(jìn)行技術(shù)要素詞聚類(lèi)。此外,為了提高聚類(lèi)效果,本文對(duì)不同聚類(lèi)數(shù)k,聚類(lèi)所得到的結(jié)果進(jìn)行比較后發(fā)現(xiàn),當(dāng)聚類(lèi)數(shù)k=5時(shí),聚類(lèi)結(jié)果的可解釋性最好。

        在聚類(lèi)后,本文對(duì)聚類(lèi)結(jié)果進(jìn)行分析,并對(duì)子技術(shù)類(lèi)別進(jìn)行命名,結(jié)果見(jiàn)表7。

        表7 水質(zhì)濁度檢測(cè)技術(shù)子技術(shù)類(lèi)別的識(shí)別結(jié)果

        由表7可以看出技術(shù)要素詞主要聚類(lèi)在以下5個(gè)方面:

        一是子技術(shù)1表征的濁度檢測(cè)裝置結(jié)構(gòu)。濁度檢測(cè)裝置結(jié)構(gòu)[33]作為濁度檢測(cè)技術(shù)中最常見(jiàn)的一類(lèi)技術(shù),因此包含技術(shù)要素的數(shù)量最多。二是子技術(shù)2表征的控制系統(tǒng)??刂葡到y(tǒng)[34]包含電路控制、光路控制、信號(hào)傳輸控制等,是濁度檢測(cè)技術(shù)中的重要技術(shù)之一。三是子技術(shù)3表征的檢測(cè)相關(guān)功能。主要涉及到濁度檢測(cè)的一些其它功能[35]。四是子技術(shù)4表征的檢測(cè)用組件。在進(jìn)行濁度檢測(cè)時(shí)常常需要一些部件輔助濁度檢測(cè)[36]。五是子技術(shù)5表征的檢測(cè)方法。檢測(cè)方法作為水質(zhì)檢測(cè)技術(shù)的核心內(nèi)容,在檢測(cè)不同環(huán)境水樣時(shí)需要靈活選用不同的方法[37]。

        5.4 水質(zhì)濁度檢測(cè)技術(shù)機(jī)會(huì)分析

        5.4.1水質(zhì)濁度檢測(cè)技術(shù)要素的潛在技術(shù)元三元組確定

        本文利用鏈路預(yù)測(cè)算法識(shí)別技術(shù)元間的潛在關(guān)系。通過(guò)對(duì)現(xiàn)有的5 348個(gè)技術(shù)元三元組進(jìn)行技術(shù)要素之間潛在關(guān)系的確定,本文共識(shí)別出了2 409個(gè)具有潛在關(guān)系的技術(shù)要素,然后利用SVM算法將識(shí)別出的技術(shù)要素劃分為九大類(lèi),以此確定潛在關(guān)系所屬的具體類(lèi)別,進(jìn)而可得到技術(shù)要素的潛在技術(shù)元三元組。

        5.4.2水質(zhì)濁度檢測(cè)子技術(shù)機(jī)會(huì)分析

        針對(duì)識(shí)別出的技術(shù)類(lèi)別中所包含的潛在技術(shù)元三元組,結(jié)合現(xiàn)有的技術(shù)元三元組,對(duì)前文識(shí)別出的5個(gè)子技術(shù)類(lèi)進(jìn)行技術(shù)機(jī)會(huì)分析。

        5.4.3水質(zhì)濁度檢測(cè)子技術(shù)類(lèi)技術(shù)機(jī)會(huì)確定

        在前述分析基礎(chǔ)上,本文以得到的3個(gè)子技術(shù)類(lèi)的技術(shù)機(jī)會(huì)為例進(jìn)行分析,見(jiàn)表8。

        表8 水質(zhì)濁度檢測(cè)技術(shù)機(jī)會(huì)

        由表8可以看出水質(zhì)濁度檢測(cè)子技術(shù)類(lèi)的技術(shù)機(jī)會(huì)主要包括:

        一是水質(zhì)濁度檢測(cè)裝置結(jié)構(gòu)子技術(shù)的技術(shù)機(jī)會(huì)——友好化檢測(cè)裝置。友好化產(chǎn)品設(shè)計(jì)作為未來(lái)技術(shù)發(fā)展的重要發(fā)展方向之一,同樣也適用于水質(zhì)濁度檢測(cè)技術(shù)裝置。必然的,操作友好化[38]、視覺(jué)友好化[39]、環(huán)境友好化[36]等是目前濁度檢測(cè)裝置的重要發(fā)展方向。

        二是水質(zhì)濁度檢測(cè)控制系統(tǒng)子技術(shù)的技術(shù)機(jī)會(huì)——智能控制。智能控制一直以來(lái)作為水質(zhì)濁度檢測(cè)裝置的研發(fā)重點(diǎn),同樣也是值得重點(diǎn)關(guān)注的技術(shù)機(jī)會(huì)。為了滿(mǎn)足不同時(shí)間、空間和環(huán)境等條件的限制,需要利用現(xiàn)有或研發(fā)新的控制技術(shù)實(shí)現(xiàn)對(duì)濁度檢測(cè)裝置的智能控制[34],進(jìn)而實(shí)現(xiàn)更精確的水質(zhì)濁度檢測(cè)。

        三是水質(zhì)濁度檢測(cè)控制系統(tǒng)子技術(shù)的技術(shù)機(jī)會(huì)——智能檢測(cè)。與智能控制相同,智能檢測(cè)是水質(zhì)濁度檢測(cè)技術(shù)重要的研發(fā)方向。隨著計(jì)算機(jī)、傳感器和通訊等技術(shù)的不斷發(fā)展,檢測(cè)技術(shù)將不再局限于傳統(tǒng)水質(zhì)的濁度檢測(cè)[37],急需更便捷、更準(zhǔn)確地進(jìn)行檢測(cè)的方法。同時(shí),在水質(zhì)濁度檢測(cè)基礎(chǔ)上,還可嘗試?yán)脵C(jī)器學(xué)習(xí)算法實(shí)現(xiàn)對(duì)水質(zhì)濁度的預(yù)測(cè)[40],從而為進(jìn)一步提升水質(zhì)監(jiān)測(cè)與管理水平提供可資借鑒的參考思路。

        在完成技術(shù)機(jī)會(huì)識(shí)別后,可根據(jù)現(xiàn)有技術(shù)元三元組,結(jié)合潛在技術(shù)元三元組制定相應(yīng)的技術(shù)方案,進(jìn)而實(shí)現(xiàn)水質(zhì)濁度檢測(cè)技術(shù)產(chǎn)品的創(chuàng)新研發(fā)。

        6 結(jié)論與展望

        綜上所述,為了彌補(bǔ)已有技術(shù)機(jī)會(huì)識(shí)別文獻(xiàn)中對(duì)技術(shù)知識(shí)抽取方法研究的不足,提高分析結(jié)果的客觀(guān)性,本文提出了一種依托知識(shí)元理論開(kāi)展技術(shù)元抽取與技術(shù)機(jī)會(huì)識(shí)別的方法。首先根據(jù)知識(shí)元理論引出技術(shù)元的概念,為技術(shù)知識(shí)管理提供理論支持,并利用基于對(duì)抗訓(xùn)練的BERT-BiLSTM-CRF模型進(jìn)行技術(shù)要素抽取,利用BERT模型進(jìn)行技術(shù)要素間關(guān)系抽取,識(shí)別出完整的技術(shù)元三元組;其次,利用基于語(yǔ)義信息的技術(shù)要素聚類(lèi)方法識(shí)別相關(guān)技術(shù)的子技術(shù)類(lèi)別;再次,利用鏈路預(yù)測(cè)方法,結(jié)合SVM算法,識(shí)別技術(shù)要素間的潛在關(guān)系,并發(fā)現(xiàn)技術(shù)機(jī)會(huì);最后,以水質(zhì)濁度檢測(cè)技術(shù)為例驗(yàn)證了本框架的有效性。

        本文在簡(jiǎn)化技術(shù)知識(shí)獲取難度的同時(shí),拓展了技術(shù)創(chuàng)新理論的研究范疇。為了簡(jiǎn)化技術(shù)知識(shí)獲取的難度,本文依托知識(shí)元理論,通過(guò)引入多維技術(shù)創(chuàng)新圖譜對(duì)技術(shù)要素及其關(guān)系進(jìn)行了標(biāo)注歸類(lèi),并構(gòu)建了相應(yīng)的深度學(xué)習(xí)模型,既彌補(bǔ)了已有技術(shù)機(jī)會(huì)識(shí)別文獻(xiàn)中對(duì)技術(shù)知識(shí)抽取方法研究的不足,又彌補(bǔ)了過(guò)分依賴(lài)專(zhuān)家參與難以保證分析結(jié)果客觀(guān)性的缺陷。同時(shí),在提升技術(shù)機(jī)會(huì)分析客觀(guān)性的同時(shí),也彌補(bǔ)了原有利用鏈路預(yù)測(cè)方法進(jìn)行技術(shù)分析的不足。但是,本研究也存在一定的局限性。盡管本文依據(jù)鏈路預(yù)測(cè)結(jié)果,對(duì)潛在的技術(shù)機(jī)會(huì)進(jìn)行了分析,但由于識(shí)別出的潛在技術(shù)元三元組較多,一定程度上會(huì)受專(zhuān)業(yè)知識(shí)所限,難以快速準(zhǔn)確識(shí)別。因此,在未來(lái)的研究中還需進(jìn)一步對(duì)識(shí)別出的技術(shù)機(jī)會(huì)進(jìn)行量化評(píng)價(jià),以提高技術(shù)機(jī)會(huì)識(shí)別的自動(dòng)化程度和客觀(guān)性。

        猜你喜歡
        水質(zhì)檢測(cè)模型
        一半模型
        水質(zhì)抽檢豈容造假
        環(huán)境(2023年5期)2023-06-30 01:20:01
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        一月冬棚養(yǎng)蝦常見(jiàn)水質(zhì)渾濁,要如何解決?這9大原因及處理方法你要知曉
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        国产区精品一区二区不卡中文| 亚洲人成无码网站久久99热国产| 国产精品亚洲片夜色在线 | 有码精品一二区在线| 精品国产品欧美日产在线| 看大陆男女真人草逼视频| 亚洲乱码中文字幕在线播放| 国产在热线精品视频| 亚洲第一se情网站| 国产在线无码制服丝袜无码| 亚洲中文字幕乱码| 音影先锋色天堂av电影妓女久久 | 亚洲精品熟女乱色一区| 亚洲av专区国产一区| 色偷偷888欧美精品久久久| 挺进朋友人妻雪白的身体韩国电影 | 亚洲亚洲网站三级片在线| AV中文码一区二区三区| 久久精品一区二区熟女| 边添小泬边狠狠躁视频| 国产aⅴ无码专区亚洲av麻豆| 激情内射亚州一区二区三区爱妻 | 精品久久久无码中字| 日本欧美在线播放| 手机在线中文字幕国产| 国产免费人成视频在线观看播放播 | 毛片24种姿势无遮无拦| 日韩精品国产自在久久现线拍| 人妻系列无码专区久久五月天| 麻豆成人久久精品二区三区91| 亚洲精品一区二区高清| 无码无套少妇毛多18pxxxx| 久久综合精品国产丝袜长腿 | 夜夜高潮夜夜爽夜夜爱爱| 精品综合久久久久久8888| 日韩一区三区av在线| 欧美成人家庭影院| 国产精品久久久| 精品一区二区av天堂| 亚洲免费一区二区av| 丝袜美腿亚洲一区二区|