才華、許源、董曉軍、劉祎然 /北京航天長(zhǎng)征科技信息研究所
隨著世界范圍內(nèi)工業(yè)產(chǎn)業(yè)升級(jí),我國(guó)航天相關(guān)技術(shù)產(chǎn)業(yè)也隨之不斷發(fā)展、轉(zhuǎn)型,諸如工業(yè)4.0、智能制造、大數(shù)據(jù)、云計(jì)算、量子通信等技術(shù)受到愈加廣泛的應(yīng)用。作為典型的知識(shí)密集型科研機(jī)構(gòu),中國(guó)航天企業(yè)在幾十年的科研生產(chǎn)中積累了大量的歷史知識(shí)數(shù)據(jù),呈現(xiàn)出數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多樣(Variety)、數(shù)據(jù)增長(zhǎng)速度快(Velocity)、數(shù)據(jù)蘊(yùn)藏價(jià)值高(Value)的“4V”特性,如果不輔以采集、挖掘和分析等知識(shí)應(yīng)用技術(shù),其效用難以發(fā)揮。
縱觀數(shù)據(jù)文化已根深蒂固的美國(guó),大數(shù)據(jù)的應(yīng)用已滲透到社會(huì)各行各業(yè),尤其是牽引美國(guó)高新技術(shù)發(fā)展的航空航天領(lǐng)域。美國(guó)國(guó)家航空航天局(NASA)通過(guò)構(gòu)建地球科學(xué)數(shù)據(jù)和信息系統(tǒng)項(xiàng)目,實(shí)現(xiàn)了對(duì)地球衛(wèi)星數(shù)據(jù)的實(shí)時(shí)處理、存檔和發(fā)布,確??茖W(xué)家和公眾可以實(shí)時(shí)地訪問(wèn)從地球到太空的數(shù)據(jù),提升應(yīng)對(duì)氣候和環(huán)境變化的能力;美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)啟動(dòng)其大機(jī)理項(xiàng)目,旨在通過(guò)分析復(fù)雜的經(jīng)濟(jì)、社會(huì)、大氣和生物數(shù)據(jù)之間的深度關(guān)聯(lián)關(guān)系,為醫(yī)學(xué)、環(huán)境等各領(lǐng)域提供決策支持;洛克希德·馬丁公司也開(kāi)始啟動(dòng)大數(shù)據(jù)研究工作,通過(guò)在全球范圍內(nèi)不斷收購(gòu)大數(shù)據(jù)信息技術(shù)企業(yè),探索大數(shù)據(jù)技術(shù)在國(guó)防信息系統(tǒng)建設(shè)方面的應(yīng)用。
目前,眾多企業(yè)機(jī)構(gòu)面向航天大數(shù)據(jù)的體系建設(shè)開(kāi)展了大量的研究與實(shí)踐,然而覆蓋型號(hào)全壽命周期的航天大數(shù)據(jù)管理與控制仍有待深入。一方面,大量數(shù)據(jù)主要依靠各組織單位歸檔,相關(guān)制度標(biāo)準(zhǔn)不健全、數(shù)據(jù)資源分散獨(dú)立、深度挖掘程度低、數(shù)據(jù)共享使用困難以及綜合運(yùn)用水平偏低等矛盾依然突出,成為研制周期優(yōu)化上的短線和瓶頸。另一方面,一線員工面對(duì)各種異構(gòu)繁雜的知識(shí)數(shù)據(jù),普遍希望將工作中的知識(shí)資源通過(guò)某種方式進(jìn)行轉(zhuǎn)化,最終整合并統(tǒng)一推送,從而提升工作效率。
從表1 可看出,決策領(lǐng)導(dǎo)層關(guān)注如何讓多年積累的工作留痕,避免“人去樓空”的現(xiàn)象,并在留痕的基礎(chǔ)上對(duì)知識(shí)資源有序的掌控、流轉(zhuǎn);型號(hào)總師更關(guān)心知識(shí)如何在型號(hào)隊(duì)伍內(nèi)有效流轉(zhuǎn),并將已完成的型號(hào)知識(shí)資產(chǎn)進(jìn)行有效萃取,無(wú)縫對(duì)接到后續(xù)型號(hào);專業(yè)部門的管理者關(guān)注如何讓自己的團(tuán)隊(duì)能夠通過(guò)知識(shí)應(yīng)用,有序地發(fā)展并加速人才培養(yǎng),規(guī)劃清晰的技術(shù)發(fā)展路線;技術(shù)人員則關(guān)注如何讓自己參與的項(xiàng)目開(kāi)展更為順利,將工作中的知識(shí)資源、軟件工具、模板進(jìn)行有效串聯(lián)并伴隨著工作進(jìn)行推送,提高工作效率。
表1 各角色人員對(duì)大數(shù)據(jù)知識(shí)應(yīng)用的典型需求
知識(shí)管理不僅可以使知識(shí)場(chǎng)景化,而且能夠滲透到智能感知以及人工智能領(lǐng)域。1977 年,第五屆國(guó)際人工智能大會(huì)上,斯坦福大學(xué)教授愛(ài)德華·費(fèi)根鮑姆提出知識(shí)管理的概念。國(guó)內(nèi)外知識(shí)工程的發(fā)展大致經(jīng)歷了4 個(gè)階段(見(jiàn)圖1):第一階段以知識(shí)本身為核心,關(guān)注信息檢索、知識(shí)庫(kù)建設(shè)以及知識(shí)加工技術(shù);第二階段以集成為核心,關(guān)注智能檢索、異構(gòu)信息集成以及關(guān)聯(lián)分析技術(shù);第三階段以應(yīng)用為核心,關(guān)注知識(shí)推送、知識(shí)嵌入和行為驅(qū)動(dòng)技術(shù);第四階段進(jìn)入了新知識(shí)工程,強(qiáng)調(diào)以人為核心,關(guān)注基于用戶模型的推送,人和知識(shí)、流程的融合以及大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)等新技術(shù)在知識(shí)工程中的應(yīng)用。
圖1 知識(shí)管理發(fā)展階段
新知識(shí)管理的理念由原來(lái)的人、流程、技術(shù)圍繞知識(shí)轉(zhuǎn)變?yōu)橹R(shí)流程、技術(shù)圍繞人,不僅僅是專家,還包括人的智慧。在人工智能大數(shù)據(jù)時(shí)代,所有人的智慧都可以被計(jì)算,由此產(chǎn)生了群體智慧。
新知識(shí)管理實(shí)踐更為關(guān)注面向諸如業(yè)務(wù)流程、軟件工具協(xié)同、專業(yè)崗位、用戶模型等不同場(chǎng)景形成快速應(yīng)用的機(jī)制,使其更具智能化;伴隨化是在整個(gè)流程里營(yíng)造一個(gè)分享的環(huán)境,當(dāng)感知到各個(gè)崗位需要的知識(shí)時(shí)便進(jìn)行精準(zhǔn)推送;內(nèi)部化是把外部的先進(jìn)技術(shù)引進(jìn)來(lái),時(shí)刻站在巨人的肩膀上保障技術(shù)研發(fā)的前沿化,是打通外部知識(shí)和內(nèi)部知識(shí)的途徑;資產(chǎn)化是建立高關(guān)聯(lián)性單元知識(shí)庫(kù),先進(jìn)行知識(shí)挖掘,再開(kāi)展大數(shù)據(jù)收集,最終形成資產(chǎn)。新知識(shí)管理如果能夠加以良好實(shí)踐,便可解決各個(gè)角色在大數(shù)據(jù)需求中的各個(gè)業(yè)務(wù)痛點(diǎn)。
場(chǎng)景化的知識(shí)應(yīng)用需要將有限的資源構(gòu)建形成無(wú)限的組織知識(shí)庫(kù),在面對(duì)不同用戶時(shí),根據(jù)其需求提供最合理的服務(wù)。整個(gè)流程可以從終端反饋給知識(shí)資源貢獻(xiàn)者,進(jìn)而使知識(shí)工程平臺(tái)得到不斷優(yōu)化,這一過(guò)程可采用霍爾三維結(jié)構(gòu)的思路進(jìn)行構(gòu)建(見(jiàn)圖2)。其中時(shí)間維代表產(chǎn)品型號(hào)預(yù)研—設(shè)計(jì)—生產(chǎn)的過(guò)程,也是業(yè)務(wù)流程;邏輯維表示梳理工作過(guò)程中遇到的每個(gè)問(wèn)題,并對(duì)問(wèn)題進(jìn)行有效識(shí)別,確定問(wèn)題的目標(biāo),進(jìn)行外在條件和內(nèi)在因素的綜合分析,從而達(dá)到?jīng)Q策的思維順序;知識(shí)維表示隨產(chǎn)品周期和邏輯對(duì)問(wèn)題進(jìn)行解決的過(guò)程,運(yùn)用專業(yè)知識(shí)和技能,配合時(shí)間維、邏輯維對(duì)知識(shí)進(jìn)行有效支撐。
圖2 基于霍爾三維結(jié)構(gòu)的知識(shí)應(yīng)用模型
圖3 展示了基于場(chǎng)景化的知識(shí)應(yīng)用建設(shè)總體思路。首先從知識(shí)的采集和存儲(chǔ)開(kāi)始,針對(duì)內(nèi)外部的異構(gòu)資源,采取手動(dòng)或自動(dòng)的采集存儲(chǔ)方式;其次進(jìn)行知識(shí)加工,從人工加工處理數(shù)據(jù)開(kāi)始,對(duì)知識(shí)進(jìn)行分類,建立詞典和基于本體的語(yǔ)義網(wǎng),通過(guò)機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)自動(dòng)的知識(shí)分類;最后基于上述基礎(chǔ),開(kāi)展面向?qū)I(yè)、流程、型號(hào)、知識(shí)萃取、組織、崗位、協(xié)同工具以及用戶模型個(gè)性化等場(chǎng)景化知識(shí)挖掘和知識(shí)推送。
圖3 基于場(chǎng)景化的知識(shí)應(yīng)用建設(shè)的總體思路
知識(shí)采集的方式可分為人工導(dǎo)入、多源異構(gòu)的自動(dòng)采集、集成和智能挖掘等方式。采集中,從內(nèi)容的角度劃分出基礎(chǔ)技術(shù)資源、工程資源和數(shù)據(jù)資源;從來(lái)源的角度,分為內(nèi)部業(yè)務(wù)系統(tǒng)數(shù)據(jù)信息、外部采購(gòu)數(shù)據(jù)信息和外部互聯(lián)網(wǎng)信息;從采集方式的角度,分為文檔資源、數(shù)據(jù)庫(kù)資源和網(wǎng)頁(yè)資源3類,具體設(shè)計(jì)內(nèi)容如圖4 所示。
圖4 知識(shí)采集方式
面向大數(shù)據(jù)存儲(chǔ),考慮數(shù)據(jù)的安全、可靠、效率等關(guān)鍵指標(biāo),分析用戶規(guī)模、服務(wù)范圍、網(wǎng)絡(luò)環(huán)境等方面的挑戰(zhàn),可依托云架構(gòu)的網(wǎng)絡(luò)化、分布式存儲(chǔ)方案,開(kāi)展數(shù)據(jù)譜系建設(shè)、數(shù)據(jù)狀態(tài)管理、數(shù)據(jù)安全防護(hù)、數(shù)據(jù)交換、數(shù)據(jù)高效檢索等數(shù)據(jù)管理技術(shù)研究,為海量航天數(shù)據(jù)的使用和維護(hù)提供支撐。
知識(shí)加工伴隨著結(jié)構(gòu)化處理的難點(diǎn),一方面是數(shù)據(jù)類型多樣化、數(shù)據(jù)格式不統(tǒng)一,需要分析和研究數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化方案或其他技術(shù)解決方案;另一方面是數(shù)據(jù)間的邏輯關(guān)系復(fù)雜、數(shù)據(jù)背后的流程差異大,需要研究和構(gòu)建完善的數(shù)據(jù)關(guān)系模型。因此,采集后的資源需要進(jìn)行數(shù)據(jù)化轉(zhuǎn)換,即進(jìn)行模板化處理。在進(jìn)行元數(shù)據(jù)自動(dòng)標(biāo)引時(shí),自動(dòng)提取關(guān)鍵詞摘要,構(gòu)建基于本體的網(wǎng)絡(luò)、語(yǔ)義關(guān)聯(lián),隨即進(jìn)行查重、敏感詞過(guò)濾,完成后將資源作為后續(xù)知識(shí)挖掘或推送等應(yīng)用。因此,這一處理過(guò)程是基于場(chǎng)景化知識(shí)應(yīng)用落地的關(guān)鍵步驟(見(jiàn)圖5)。
圖5 知識(shí)加工技術(shù)及流程
關(guān)聯(lián)挖掘工作是航天大數(shù)據(jù)工程建設(shè)的核心內(nèi)容之一,目的是將多源異構(gòu)和低價(jià)值密度的數(shù)據(jù)轉(zhuǎn)化為有分析決策價(jià)值的顯性知識(shí)網(wǎng)絡(luò),最大化提高信息處理和分析效率,結(jié)合可視化方法展示挖掘分析結(jié)果,發(fā)揮航天大數(shù)據(jù)建設(shè)的整體效益,為型號(hào)全壽命周期研制提供決策參考?;谝研纬傻慕Y(jié)構(gòu)化航天數(shù)據(jù)庫(kù),開(kāi)展面向?qū)I(yè)、流程、型號(hào)、崗位等維度的場(chǎng)景化快速計(jì)算和關(guān)聯(lián)挖掘研究。
(1)多維關(guān)聯(lián)規(guī)則模型構(gòu)建及其算法
針對(duì)航天數(shù)據(jù)的特點(diǎn)和處理需求,構(gòu)建多維關(guān)聯(lián)規(guī)則模型及其擴(kuò)展形式,建立數(shù)據(jù)的屬性抽取、知識(shí)發(fā)現(xiàn),以及效能和適用性評(píng)估等模型,梳理從選型、建模到評(píng)估的流程及標(biāo)準(zhǔn)??苫跁r(shí)序數(shù)據(jù)的參數(shù)相似性度量及參數(shù)因果關(guān)系辨識(shí),確定適應(yīng)航天數(shù)據(jù)特點(diǎn)的關(guān)聯(lián)挖掘算法,提升關(guān)聯(lián)挖掘的效能。
(2)多維數(shù)據(jù)關(guān)聯(lián)知識(shí)圖譜
針對(duì)測(cè)試參數(shù)、結(jié)構(gòu)參數(shù)、目標(biāo)參數(shù)等數(shù)據(jù)進(jìn)行綜合分析,對(duì)火箭、衛(wèi)星等型號(hào)的工作狀態(tài)、技術(shù)指標(biāo)進(jìn)行關(guān)聯(lián)、聚類和分類等分析,建立關(guān)聯(lián)知識(shí)圖譜,從不同維度挖掘標(biāo)準(zhǔn)要求的設(shè)計(jì)值與實(shí)際試驗(yàn)值之間的差距和問(wèn)題、各項(xiàng)指標(biāo)參數(shù)變化與質(zhì)量態(tài)勢(shì)之間的潛在關(guān)聯(lián)關(guān)系、產(chǎn)品壽命與性能退化之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)整體型號(hào)產(chǎn)品效能影響指數(shù)預(yù)測(cè)、任務(wù)滿足度預(yù)測(cè)、質(zhì)量穩(wěn)定性趨勢(shì)預(yù)測(cè)等。
(3)基于大數(shù)據(jù)的故障模式識(shí)別研究
利用人工智能、大數(shù)據(jù)決策分析等先進(jìn)技術(shù),開(kāi)展故障模式預(yù)示方法研究?;跉v史數(shù)據(jù)開(kāi)展數(shù)據(jù)建模工作,通過(guò)監(jiān)督學(xué)習(xí)算法對(duì)已發(fā)生的故障進(jìn)行訓(xùn)練,并開(kāi)展故障模式識(shí)別,獲取故障關(guān)聯(lián)規(guī)則,降低故障識(shí)別過(guò)程中的誤報(bào)率和漏報(bào)率,為任務(wù)方案、信息處理、指揮控制等方面的持續(xù)改進(jìn)提供依據(jù)。
數(shù)據(jù)經(jīng)過(guò)挖掘分析后,可將挖掘結(jié)果在型號(hào)研制的各個(gè)階段向決策領(lǐng)導(dǎo)、型號(hào)總師、專業(yè)部門管理者和技術(shù)人員進(jìn)行知識(shí)推送。在不同階段,基于不同工具、平臺(tái)或模型進(jìn)行場(chǎng)景化知識(shí)推送,例如在立項(xiàng)論證、可行性論證和總體方案制定階段,基于Word 等協(xié)同編輯工具進(jìn)行推送,在初步設(shè)計(jì)和詳細(xì)設(shè)計(jì)階段基于Catia、UG 等仿真工具進(jìn)行推送,如圖6 所示。
圖6 場(chǎng)景化知識(shí)推送
以基于Word 進(jìn)行知識(shí)推送為例(見(jiàn)圖7)。在Word 中制作插件,在報(bào)告編寫(xiě)過(guò)程中,技術(shù)人員能夠搜索到以往編寫(xiě)的相似報(bào)告或報(bào)告模板,可查看、復(fù)用報(bào)告中的內(nèi)容,同時(shí)在章節(jié)段落的定位中遇到問(wèn)題時(shí)可點(diǎn)擊相關(guān)按鈕進(jìn)行知識(shí)“求助”。
圖7 Word編輯環(huán)境知識(shí)推送流程
基于用戶模型的知識(shí)進(jìn)行推送(見(jiàn)圖8),考慮到用戶的基本信息(所在崗位、組織)、個(gè)人知識(shí)(所發(fā)表的知識(shí)、收藏習(xí)慣以及個(gè)人知識(shí)體系分類)、用戶行為(訂閱、推薦、歷史搜索、瀏覽習(xí)慣和下載習(xí)慣)、學(xué)習(xí)應(yīng)用(提問(wèn)、參加培訓(xùn)、在線答題)以及工作事項(xiàng)(待辦、申請(qǐng)和消息)等模型因素,系統(tǒng)根據(jù)其偏好和行為軌跡、關(guān)系網(wǎng)絡(luò)構(gòu)建個(gè)人的用戶模型,基于上述行為特征向用戶推送知識(shí)。
圖8 用戶模型特征
航天大數(shù)據(jù)建設(shè)是一項(xiàng)知識(shí)密集、技術(shù)復(fù)雜的系統(tǒng)工程,充分利用場(chǎng)景化知識(shí)應(yīng)用方法對(duì)研制生產(chǎn)流程各環(huán)節(jié)的規(guī)范進(jìn)行剛性約束,對(duì)仿真數(shù)據(jù)、可靠性數(shù)據(jù)等分析提供參考,避免出現(xiàn)“信息泛濫而知識(shí)匱乏”的局面,將為型號(hào)和主管部門的決策管理提供一定支撐。