許 婷,董秦剛
(西安航天動(dòng)力研究所,西安 710100)
當(dāng)前我國(guó)航天工業(yè)已進(jìn)入快速發(fā)展階段,實(shí)現(xiàn)航天工業(yè)高質(zhì)量、高效率、高效益發(fā)展,意義重大,影響深遠(yuǎn)。為適應(yīng)航天工業(yè)的快速發(fā)展,液氧煤油發(fā)動(dòng)機(jī)型號(hào)研制任務(wù)越來(lái)越重、指標(biāo)要求越來(lái)越高,一些制約發(fā)展的問(wèn)題日益凸顯。
在過(guò)去的液氧煤油發(fā)動(dòng)機(jī)設(shè)計(jì)研制過(guò)程中積累了豐富的經(jīng)驗(yàn)和大量技術(shù)文件資料、標(biāo)準(zhǔn)規(guī)范、圖紙等資源,但這些資源較為分散,存在專業(yè)技術(shù)知識(shí)分類管理薄弱,缺乏體系化的分類管理,共享程度較低,自動(dòng)化、高效的知識(shí)積累不足,隱形知識(shí)挖掘困難,知識(shí)復(fù)用率低等問(wèn)題,難以支持快速設(shè)計(jì)迭代的研發(fā)模式。
為解決上述問(wèn)題,本文采用人工智能技術(shù)對(duì)液氧煤油發(fā)動(dòng)機(jī)各種資源進(jìn)行知識(shí)智能分類標(biāo)記的研究,構(gòu)建知識(shí)分類標(biāo)記管理體系,結(jié)合發(fā)動(dòng)機(jī)研制業(yè)務(wù)系統(tǒng),形成常態(tài)化、自動(dòng)化的知識(shí)資源轉(zhuǎn)化應(yīng)用模式,希望能為知識(shí)資源的快速?gòu)?fù)用提供高效技術(shù)手段,為新型液氧煤油發(fā)動(dòng)機(jī)設(shè)計(jì)研制提供支撐。
液氧煤油發(fā)動(dòng)機(jī)研制是一項(xiàng)復(fù)雜的系統(tǒng)工程,經(jīng)歷了較長(zhǎng)時(shí)間的發(fā)展,產(chǎn)生了大量有關(guān)液氧煤油發(fā)動(dòng)機(jī)研制設(shè)計(jì)的技術(shù)文檔、設(shè)計(jì)規(guī)范、基礎(chǔ)數(shù)據(jù)等資源,建立了較為完善的理論。這些資源分散存儲(chǔ)在不同的系統(tǒng)中且分類管理模式存在不同程度的差異,缺乏體系化管理,無(wú)法有效支撐液氧煤油發(fā)動(dòng)機(jī)研制設(shè)計(jì)過(guò)程中的知識(shí)復(fù)用、創(chuàng)新。為有效管理這些資源,須對(duì)其進(jìn)行分類、抽象、建模處理。
1.1.1 全生命周期階段劃分知識(shí)分類
根據(jù)文獻(xiàn)[1-4]可對(duì)產(chǎn)品全周期和知識(shí)分類進(jìn)行處理。產(chǎn)品全生命周期是指產(chǎn)品從概念形式到回收的整個(gè)過(guò)程。按照產(chǎn)品全生命周期建模理論,可以將知識(shí)分為設(shè)計(jì)知識(shí)、制造知識(shí)、維護(hù)知識(shí)、回收知識(shí)等。
(1)設(shè)計(jì)知識(shí)。與產(chǎn)品設(shè)計(jì)過(guò)程相關(guān),包括設(shè)計(jì)方法、結(jié)構(gòu)設(shè)計(jì)知識(shí)等。
(2)制造知識(shí)。包括產(chǎn)品的BOM表、供應(yīng)商知識(shí)、材料采購(gòu)知識(shí)、檢驗(yàn)知識(shí)等。
(3)維護(hù)知識(shí)。和產(chǎn)品維護(hù)過(guò)程相關(guān)知識(shí)、包括故障知識(shí)、維護(hù)方法知識(shí)、維護(hù)成本知識(shí)等。
(4)回收知識(shí)。包括回收方法、回收成本知識(shí)。
1.1.2 知識(shí)表現(xiàn)形式的產(chǎn)品知識(shí)分類
基于文獻(xiàn)[5-7],可根據(jù)產(chǎn)品知識(shí)的表現(xiàn)形式,將產(chǎn)品知識(shí)分為文檔類產(chǎn)品知識(shí)、數(shù)據(jù)類產(chǎn)品知識(shí)、程序類產(chǎn)品知識(shí)、協(xié)同類產(chǎn)品知識(shí)。
(1)文檔類產(chǎn)品知識(shí)是以文檔為表現(xiàn)形式的產(chǎn)品知識(shí),包括設(shè)計(jì)文檔、工藝文檔等。
(2)數(shù)據(jù)類產(chǎn)品知識(shí)是以數(shù)據(jù)為表現(xiàn)形式的產(chǎn)品知識(shí),包括設(shè)計(jì)參數(shù)、工藝參數(shù)、制造參數(shù)等。
(3)程序類產(chǎn)品知識(shí)是以程序來(lái)描述產(chǎn)品知識(shí),包括設(shè)計(jì)中的CAE程序、計(jì)算程序等。
(4)協(xié)同類產(chǎn)品知識(shí)是通過(guò)協(xié)同工具來(lái)獲得的產(chǎn)品知識(shí),包括設(shè)計(jì)經(jīng)驗(yàn)、工藝經(jīng)驗(yàn)、維護(hù)經(jīng)驗(yàn)等。
液氧煤油發(fā)動(dòng)機(jī)知識(shí)有著專業(yè)技術(shù)性強(qiáng)、知識(shí)獲取途徑相對(duì)單一,規(guī)范化、結(jié)構(gòu)化程度不同等特點(diǎn)。根據(jù)發(fā)動(dòng)機(jī)結(jié)構(gòu)組件類型可將液氧煤油發(fā)動(dòng)機(jī)知識(shí)分為渦輪泵相關(guān)知識(shí)、推力室相關(guān)知識(shí)、閥門相關(guān)知識(shí)等。根據(jù)知識(shí)對(duì)象類型,液氧煤油發(fā)動(dòng)機(jī)知識(shí)分為專業(yè)規(guī)范、設(shè)計(jì)文件、通用文件、基礎(chǔ)數(shù)據(jù)等。根據(jù)結(jié)構(gòu)化程度不同,液氧煤油發(fā)動(dòng)機(jī)知識(shí)分為非結(jié)構(gòu)化知識(shí)(沒(méi)有特定格式的知識(shí))、結(jié)構(gòu)化知識(shí)、半結(jié)構(gòu)化知識(shí)三類。
通過(guò)信息化手段對(duì)支撐相應(yīng)專業(yè)技術(shù)知識(shí)的資料進(jìn)行收集整理,對(duì)液氧煤油發(fā)動(dòng)機(jī)在研制設(shè)計(jì)過(guò)程中應(yīng)用的專業(yè)技術(shù)資源有效、規(guī)范地梳理形成了液氧煤油發(fā)動(dòng)機(jī)專業(yè)技術(shù)知識(shí)體系。該知識(shí)體系的資源包括:論文、期刊、設(shè)計(jì)圖、各類標(biāo)準(zhǔn)、設(shè)計(jì)規(guī)范、故障歸零及質(zhì)量分析報(bào)告、研試文件等,須進(jìn)行人工分類標(biāo)記。
在前述工作基礎(chǔ)上,構(gòu)建知識(shí)分類模型及自動(dòng)分類標(biāo)記平臺(tái)(以下簡(jiǎn)稱平臺(tái)),對(duì)這些資料進(jìn)行文檔特征提取及分類研究[8-11]。通過(guò)對(duì)知識(shí)所屬的專業(yè)分類、知識(shí)類別、專業(yè)技術(shù)分類、關(guān)鍵技術(shù)分類等進(jìn)行劃分,完成了基于不同分類的文檔知識(shí)的組織,實(shí)現(xiàn)新增技術(shù)成果的自動(dòng)積累和分類標(biāo)記,可更高效地支撐研制經(jīng)驗(yàn)規(guī)范傳承、輔助設(shè)計(jì)及知識(shí)重用。構(gòu)建的平臺(tái)包括:文檔管理模塊、分類模型管理模塊、文檔標(biāo)記模塊、詞庫(kù)管理、分類糾錯(cuò)模塊等五部分功能模塊,五個(gè)模塊是平行并列關(guān)系,如圖1所示。
圖1 構(gòu)建的平臺(tái)組成結(jié)構(gòu)圖
基于文獻(xiàn)[12-13],將平臺(tái)與PDM系統(tǒng)(產(chǎn)品數(shù)據(jù)管理系統(tǒng))進(jìn)行集成,充分獲取液氧煤油火箭發(fā)動(dòng)機(jī)研制過(guò)程積累的各類設(shè)計(jì)報(bào)告、分析報(bào)告等非結(jié)構(gòu)化形式的文檔資源并進(jìn)行存儲(chǔ),也可將技術(shù)資料手動(dòng)批量上傳。通過(guò)文檔批量特征將大量語(yǔ)義內(nèi)容作為數(shù)據(jù)資源進(jìn)行提取,再利用TF-IDF和Word2Vec等方法得到文檔語(yǔ)義特征,構(gòu)建基于語(yǔ)義的文檔分類模型,并整合到知識(shí)分類標(biāo)記系統(tǒng)中,以便對(duì)文檔數(shù)據(jù)進(jìn)行加工處理,利于液氧煤油發(fā)動(dòng)機(jī)詞庫(kù)的生成與展示。
平臺(tái)設(shè)計(jì)與開(kāi)發(fā)基于B/S架構(gòu),平臺(tái)可實(shí)現(xiàn)文檔的自助標(biāo)記分類,其總體框架如圖2所示。該系統(tǒng)在可測(cè)試性、可修改性、可靠性和可移植性等方面均可滿足需求,是穩(wěn)定可靠,擴(kuò)展性強(qiáng)的文檔管理、模型托管、文檔標(biāo)記的綜合平臺(tái)。
圖2 系統(tǒng)總體框架圖
圖3所示為系統(tǒng)具體技術(shù)架構(gòu)圖。由圖3可知,該系統(tǒng)平臺(tái)的文檔批處理、分類模型訓(xùn)練、文檔自動(dòng)標(biāo)注、詞庫(kù)可視化展示等功能以組件化實(shí)現(xiàn),便于后續(xù)擴(kuò)展和系統(tǒng)對(duì)接。
圖3 系統(tǒng)具體技術(shù)架構(gòu)圖
以doc、docx、pdf(非圖片類型)等非結(jié)構(gòu)化文本類型的4萬(wàn)多篇液氧煤油火箭發(fā)動(dòng)機(jī)技術(shù)文件資料為樣本建立模型。通過(guò)模型的分類訓(xùn)練,最終可實(shí)現(xiàn)對(duì)文檔知識(shí)分類、專業(yè)分類、專業(yè)技術(shù)分類、關(guān)鍵技術(shù)分類標(biāo)記。文檔知識(shí)分類結(jié)果示于表1,專業(yè)分類結(jié)果示于表2,專業(yè)技術(shù)和關(guān)鍵技術(shù)分類結(jié)果示于表3。
表1 文檔知識(shí)分類
表2 專業(yè)分類
表3 專業(yè)技術(shù)與關(guān)鍵技術(shù)分類
文檔分類及自動(dòng)標(biāo)記技術(shù)共涉及兩項(xiàng)關(guān)鍵技術(shù):文檔規(guī)則如何產(chǎn)生和文檔模型如何訓(xùn)練,即構(gòu)建先驗(yàn)知識(shí)規(guī)則庫(kù)和卷積神經(jīng)網(wǎng)絡(luò)模型并對(duì)結(jié)構(gòu)特征文檔和內(nèi)容特征文檔進(jìn)行劃分。文檔劃分時(shí)先對(duì)簡(jiǎn)單規(guī)則文檔進(jìn)行篩選分類,再對(duì)技術(shù)內(nèi)容的文檔采用內(nèi)容訓(xùn)練模型進(jìn)行劃分。這樣,一方面可加快模型的訓(xùn)練速度,另一方面可剔除部分干擾使得模型的準(zhǔn)確率更高。
2.2.1 關(guān)鍵技術(shù)一:先驗(yàn)規(guī)則知識(shí)庫(kù)分類
影響文檔分類結(jié)果的主要因素是數(shù)據(jù)預(yù)處理效果和對(duì)規(guī)則特征分析的效果。數(shù)據(jù)預(yù)處理用來(lái)清洗數(shù)據(jù),去除干擾內(nèi)容,進(jìn)行分詞,方便分詞后對(duì)文檔結(jié)構(gòu)進(jìn)行分析,得到文檔的規(guī)則特征。再根據(jù)構(gòu)建的先驗(yàn)規(guī)則知識(shí)庫(kù)是否與提取后的規(guī)則結(jié)構(gòu)特征相匹配進(jìn)行判斷,匹配成功即可依據(jù)先驗(yàn)規(guī)則知識(shí)庫(kù)確定文檔的準(zhǔn)確分類[14-17]。同時(shí),也可不斷迭代更新外部的先驗(yàn)規(guī)則知識(shí)庫(kù)。
先驗(yàn)規(guī)則知識(shí)庫(kù)分類技術(shù)具體包括以下幾個(gè)步驟:
(1)數(shù)據(jù)預(yù)處理,包括去停用詞,詞頻統(tǒng)計(jì),單詞權(quán)重計(jì)算,分詞等;
(2)分詞后對(duì)文檔結(jié)構(gòu)進(jìn)行分析;
(3)提取文檔規(guī)則特征;
(4)與先驗(yàn)規(guī)則知識(shí)庫(kù)匹配分類。
(2)凝汽器:凝汽器喉部焊縫;凝汽器汽側(cè)和熱井人孔門;凝汽器真空破壞門;凝汽器汽側(cè)和熱井空氣門、放水門;各真空泵進(jìn)、出口管路及閥門;凝汽器熱井至凝泵進(jìn)口管路,凝泵抽空氣管,凝泵軸端密封;凝汽器水幕噴水系統(tǒng)管路及閥門;凝結(jié)水再循環(huán)系統(tǒng)閥門;凝汽器檢漏裝置。
先驗(yàn)規(guī)則知識(shí)庫(kù)分類如圖4所示。
圖4 先驗(yàn)規(guī)則知識(shí)庫(kù)分類
2.2.2 關(guān)鍵技術(shù)二:文檔內(nèi)容訓(xùn)練模型分類
先驗(yàn)規(guī)則知識(shí)庫(kù)分類技術(shù)具體包括以下幾個(gè)步驟:
(1)數(shù)據(jù)預(yù)處理,包括去停用詞,文本分詞,詞頻統(tǒng)計(jì),單次權(quán)重計(jì)算與分詞等;
(2)文本向量化:從加權(quán)單詞向量轉(zhuǎn)化為文本向量;
(3)分類模型訓(xùn)練:將文本向量輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,訓(xùn)練分類模型參數(shù)。其中神經(jīng)網(wǎng)絡(luò)模型的實(shí)現(xiàn)基于TensorFlow與keras框架[18-20]。圖5所示為文檔內(nèi)容訓(xùn)練模型流程圖,圖6所示為神經(jīng)網(wǎng)絡(luò)訓(xùn)練示意圖。
圖5 文檔內(nèi)容訓(xùn)練模型流程
圖6 神經(jīng)網(wǎng)絡(luò)訓(xùn)練示意圖
(1)TensorFlow框架。TensorFlow是目前比較流行的深度學(xué)習(xí)框架,TensorFlow是采用數(shù)據(jù)流圖用于數(shù)值計(jì)算的開(kāi)源軟件庫(kù)。流程圖中節(jié)點(diǎn)表示數(shù)學(xué)操作,圖中的線表示在節(jié)點(diǎn)間相互聯(lián)系的多維數(shù)據(jù)數(shù)組,即張量。TensorFlow靈活的架構(gòu)可在多種平臺(tái)上進(jìn)行計(jì)算。
先驗(yàn)規(guī)則知識(shí)庫(kù)數(shù)據(jù)預(yù)處理,對(duì)先驗(yàn)規(guī)則知識(shí)庫(kù)未能匹配的文檔進(jìn)行進(jìn)一步的訓(xùn)練劃分。文檔分類模型的訓(xùn)練效果,一個(gè)重要影響因素是人工標(biāo)注數(shù)據(jù)集的質(zhì)量,人工標(biāo)注數(shù)據(jù)的準(zhǔn)確性以及不同類別間數(shù)據(jù)的平衡性都將對(duì)分類結(jié)果造成很大影響。另一個(gè)重要影響因素是文檔特征提取,文本信息轉(zhuǎn)化為數(shù)值信息是特征轉(zhuǎn)化的一部分,當(dāng)數(shù)值信息能最大程度保留文本原始語(yǔ)義信息時(shí),最終分類結(jié)果準(zhǔn)確率將明顯提高。
2.2.3 關(guān)鍵技術(shù)總結(jié)
綜合前述關(guān)鍵技術(shù)一和技術(shù)二即為平臺(tái)的總技術(shù)路線,即通過(guò)技術(shù)一對(duì)簡(jiǎn)單規(guī)則文本進(jìn)行篩選過(guò)濾后,針對(duì)主要的報(bào)告內(nèi)容的目標(biāo)文本再采用內(nèi)容訓(xùn)練模型進(jìn)行劃分。這樣結(jié)合的優(yōu)點(diǎn)在于:一方面可以加快模型的訓(xùn)練速度;另一方面剔除部分干擾,將使模型準(zhǔn)確率也明顯提高。同時(shí),模型還具備擴(kuò)展性,對(duì)各類新增文檔都可以有效地選擇適合的技術(shù)路線進(jìn)行分類標(biāo)注。模型訓(xùn)練流程如圖7所示。模型的文檔批量分類標(biāo)記流程如圖8所示。
圖7 訓(xùn)練文檔模型流程圖
應(yīng)用以上兩項(xiàng)關(guān)鍵技術(shù)對(duì)設(shè)計(jì)文檔進(jìn)行語(yǔ)義的提取與建模,其中,語(yǔ)義提取中關(guān)鍵詞的提取及語(yǔ)義相似度的計(jì)算過(guò)程均在后臺(tái)進(jìn)行。在知識(shí)標(biāo)記過(guò)程中,通過(guò)對(duì)知識(shí)所屬的知識(shí)類別、專業(yè)分類、專業(yè)技術(shù)分類、關(guān)鍵技術(shù)分類等的劃分,構(gòu)建基于不同分類的文檔知識(shí)的組織結(jié)構(gòu)。
2.3.1 系統(tǒng)開(kāi)發(fā)環(huán)境及使用工具
知識(shí)分類模型及自動(dòng)分類平臺(tái)采用B/S架構(gòu),模型和平臺(tái)前后端均具有良好的兼容性。前端支持Google Chrome、Mozilla FireFox、Microsoft Edge等使用廣泛的瀏覽器,且支持HTTPS加密網(wǎng)絡(luò)傳輸協(xié)議。因設(shè)計(jì)采用了前端分離的開(kāi)發(fā)模型,前端對(duì)后端不同類的框架均具有較好的兼容性。后端使用Python語(yǔ)言的Flask Web框架進(jìn)行開(kāi)發(fā),數(shù)據(jù)庫(kù)使用主流的MySQL數(shù)據(jù)庫(kù),Flask Web框架和MySQL數(shù)據(jù)庫(kù)均能很好地兼容Windows、Mac、Linux等主流操作系統(tǒng),與此同時(shí),系統(tǒng)還對(duì)外提供標(biāo)準(zhǔn)API接口。
模型和平臺(tái)的軟件環(huán)境配置如表4所示。
表4 軟件環(huán)境配置表
2.3.2 系統(tǒng)主要模塊構(gòu)建及功能展示
(1)模型管理模塊。分類模型訓(xùn)練是一個(gè)復(fù)雜的,不斷迭代的過(guò)程。將訓(xùn)練好的分類模型進(jìn)行集中存儲(chǔ)管理,如圖9所示。
點(diǎn)擊“應(yīng)用模型”選擇需要使用的分類模型,再點(diǎn)擊“新建訓(xùn)練任務(wù)”,對(duì)任務(wù)內(nèi)容進(jìn)行填寫(xiě),填寫(xiě)完成后即可開(kāi)始新的模型訓(xùn)練,這有助完善分類模型,使得分類模型的準(zhǔn)確率更高。
(2)文檔管理模塊。文檔管理模塊對(duì)于系統(tǒng)獲取的非結(jié)構(gòu)化文檔資料進(jìn)行管理,管理的文檔屬性包括文檔編號(hào)、文檔標(biāo)題、文檔名稱、文檔版本、文檔類型等信息。同時(shí),對(duì)于已經(jīng)進(jìn)行文檔分類標(biāo)記后的結(jié)果進(jìn)行存儲(chǔ),并顯示文檔的文檔類型、所屬零組件類別、專業(yè)技術(shù)、關(guān)鍵技術(shù)等四類信息的標(biāo)記結(jié)果,如圖10所示(圖中涉密詞已抹去,下同)。
圖10 文檔管理界面
2.3.3 文檔標(biāo)記模塊
文檔標(biāo)記模塊可以對(duì)新獲取的非結(jié)構(gòu)化的文檔資料進(jìn)行批量分類標(biāo)記,文檔標(biāo)記結(jié)束后會(huì)有彈框提示,在右側(cè)當(dāng)前標(biāo)記區(qū)域可顯示標(biāo)記結(jié)果,如圖11所示。
圖11 文檔標(biāo)記模塊
系統(tǒng)可對(duì)標(biāo)記的歷史記錄進(jìn)行瀏覽或下載導(dǎo)出,方便管理人員使用,如圖12所示。
圖12 文檔標(biāo)記歷史記錄下載
2.3.4 詞庫(kù)管理模塊
通過(guò)分類模型的特征提取進(jìn)行數(shù)據(jù)的預(yù)處理,借助分詞結(jié)果構(gòu)建詞庫(kù)中的詞語(yǔ)數(shù)據(jù)源。對(duì)獲取的文檔中所包含的部分有實(shí)意詞語(yǔ)進(jìn)行統(tǒng)計(jì)與可視化顯示。
系統(tǒng)會(huì)在每日定時(shí)對(duì)新增文檔進(jìn)行分析,更新已有詞庫(kù)。進(jìn)入系統(tǒng)后,首先點(diǎn)擊左側(cè)導(dǎo)航欄“詞庫(kù)管理”按鈕進(jìn)入詞庫(kù)管理頁(yè)面,即可瀏覽系統(tǒng)中的詞庫(kù)數(shù)據(jù)。界面左側(cè)為系統(tǒng)中已有的關(guān)鍵詞數(shù)據(jù),按頻率由高到低的順序排列,并顯示了關(guān)鍵詞出現(xiàn)的頻數(shù)和關(guān)鍵詞的類別,右側(cè)為關(guān)鍵詞所組成的詞云,如圖13所示。
圖13 詞庫(kù)管理模塊
2.3.5 文檔知識(shí)分類糾錯(cuò)模塊
該模塊基于已有帶標(biāo)簽文檔訓(xùn)練知識(shí)分類模型,利用得到的模型分析歷史文檔數(shù)據(jù),糾正錯(cuò)誤標(biāo)簽。對(duì)于提供了手動(dòng)人工標(biāo)注的數(shù)據(jù)源文檔,在其通過(guò)自動(dòng)分類模型標(biāo)注后對(duì)比前后標(biāo)注情況,不同的標(biāo)注可以有效幫助對(duì)人工歷史標(biāo)記錯(cuò)誤或者模型標(biāo)注錯(cuò)誤的糾正,有利于知識(shí)常態(tài)化、規(guī)范化的積累和轉(zhuǎn)換應(yīng)用。文檔知識(shí)分類糾錯(cuò)模塊如圖14所示。
圖14 分類糾錯(cuò)模塊
知識(shí)分類模型及平臺(tái)與知識(shí)管理系統(tǒng)的集成,可實(shí)現(xiàn)一鍵登錄模式,在方便管理人員登錄查看、瀏覽知識(shí)分類標(biāo)記結(jié)果的同時(shí),知識(shí)分類模型及自動(dòng)分類標(biāo)記系統(tǒng)也實(shí)現(xiàn)了與PDM系統(tǒng)、知識(shí)管理系統(tǒng)之間集成,從數(shù)據(jù)源系統(tǒng)獲取各類技術(shù)文件資料(非結(jié)構(gòu)化文檔)自動(dòng)進(jìn)行分類標(biāo)記存儲(chǔ),構(gòu)建知識(shí)自動(dòng)積累、轉(zhuǎn)換應(yīng)用機(jī)制,為知識(shí)的快速檢索及敏捷迭代設(shè)計(jì)提供有力支撐。圖15所示為系統(tǒng)集成的界面圖。
圖15 系統(tǒng)集成界面
對(duì)于液氧煤油發(fā)動(dòng)機(jī)研制的文檔資料進(jìn)行分類標(biāo)記處理,模型的準(zhǔn)確率如表5所示。由表5可知,平臺(tái)穩(wěn)定有效,模型的分類標(biāo)記準(zhǔn)確率高于85%。
表5 液氧煤油發(fā)動(dòng)機(jī)知識(shí)分類標(biāo)記驗(yàn)證結(jié)果
應(yīng)用結(jié)果還表明,該模型和平臺(tái)能有效自動(dòng)積累知識(shí)資源,形成常態(tài)化、自動(dòng)化的知識(shí)積累機(jī)制。
采用自然語(yǔ)言處理技術(shù)提取文檔特征,運(yùn)用規(guī)則知識(shí)庫(kù)與神經(jīng)網(wǎng)絡(luò)模型,對(duì)液氧煤油發(fā)動(dòng)機(jī)文檔資料進(jìn)行知識(shí)分類處理,可實(shí)現(xiàn)新增技術(shù)成果所屬的專業(yè)分類、知識(shí)分類、專業(yè)技術(shù)分類、關(guān)鍵技術(shù)分類等維度的自動(dòng)分類標(biāo)記,形成智能化、常態(tài)化知識(shí)資源自動(dòng)積累機(jī)制。應(yīng)用結(jié)果表明,模型與平臺(tái)的穩(wěn)定性良好,準(zhǔn)確率比較高。未來(lái)將液氧煤油發(fā)動(dòng)機(jī)知識(shí)分類模型、自動(dòng)分類標(biāo)記平臺(tái)與MES系統(tǒng)、知識(shí)產(chǎn)權(quán)與專利成功管理系統(tǒng)等業(yè)務(wù)系統(tǒng)進(jìn)行系統(tǒng)集成,可對(duì)數(shù)據(jù)源進(jìn)行知識(shí)的抽取、自動(dòng)標(biāo)記,構(gòu)建機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,實(shí)現(xiàn)實(shí)體和實(shí)體分類識(shí)別的模型,將實(shí)體和實(shí)體關(guān)系進(jìn)行融合,形成知識(shí)點(diǎn),對(duì)照液體火箭發(fā)動(dòng)機(jī)專業(yè)設(shè)計(jì)規(guī)范,將知識(shí)點(diǎn)再次按以上步驟進(jìn)行訓(xùn)練學(xué)習(xí),形成專業(yè)知識(shí)條目庫(kù),輔助研發(fā)人員開(kāi)展設(shè)計(jì)工作,支撐研制經(jīng)驗(yàn)規(guī)范傳承、知識(shí)成果有效重用和研發(fā)效率提升。