楊 燕,嚴(yán)靖婷,王光宇,丁 劍
(1.云南省科學(xué)技術(shù)院,昆明 650051; 2.云南藍(lán)典科技股份有限公司,昆明 650031)
以數(shù)字化發(fā)展新理念為引領(lǐng),構(gòu)建生物醫(yī)藥科學(xué)數(shù)據(jù)共享平臺(tái),提升數(shù)據(jù)信息管理效果及共享水平,滿足生物醫(yī)藥科學(xué)數(shù)據(jù)全面處理和共享的需求,推動(dòng)相關(guān)科學(xué)數(shù)據(jù)的開(kāi)發(fā)利用。在數(shù)字化發(fā)展新理念下,生物醫(yī)藥產(chǎn)業(yè)應(yīng)重視科學(xué)數(shù)據(jù)共享平臺(tái)的構(gòu)建與開(kāi)發(fā),以達(dá)到預(yù)期的平臺(tái)發(fā)展目標(biāo)。
在數(shù)字化發(fā)展新理念下,構(gòu)建相關(guān)的數(shù)據(jù)共享平臺(tái),需要遵循各類(lèi)基本原則,如圖1所示。
圖1 平臺(tái)構(gòu)建原則Fig.1 Principle of platform construction
1.1.1 遵循醫(yī)藥科技產(chǎn)業(yè)的數(shù)據(jù)信息共享原則
在構(gòu)建數(shù)據(jù)共享平臺(tái)過(guò)程中,要合理開(kāi)發(fā)內(nèi)部和外部信息門(mén)戶網(wǎng)站,設(shè)置標(biāo)準(zhǔn)化的網(wǎng)絡(luò)安全認(rèn)證機(jī)制和協(xié)議,為不同的服務(wù)對(duì)象開(kāi)放有關(guān)的數(shù)據(jù)信息共享平臺(tái)系統(tǒng),確保每套數(shù)據(jù)能供很多平臺(tái)共享和使用。平臺(tái)能根據(jù)服務(wù)對(duì)象共享情況選擇合適的信息內(nèi)容,確??梢赃M(jìn)行信息資源的全面高效化利用、增值開(kāi)發(fā)利用,拓寬數(shù)據(jù)信息的采集渠道。要遵循數(shù)據(jù)信息清洗算法、自然語(yǔ)言理解算法,推出數(shù)據(jù)信息交叉驗(yàn)證服務(wù)和高質(zhì)量的數(shù)據(jù)共享服務(wù),避免不同機(jī)構(gòu)和單位進(jìn)行相同數(shù)據(jù)的反復(fù)采集。
1.1.2 遵循數(shù)據(jù)信息集中化存儲(chǔ)和管理原則
建議在不同分布類(lèi)型、異構(gòu)類(lèi)型、自治類(lèi)型的數(shù)據(jù)源內(nèi)進(jìn)行數(shù)據(jù)信息的集成處理,開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),對(duì)比數(shù)據(jù)差異性,確保相同數(shù)據(jù)信息在不同類(lèi)型的系統(tǒng)中都能符合一致性和完整性要求。需要對(duì)不同應(yīng)用平臺(tái)所需要的核心數(shù)據(jù)信息字段進(jìn)行篩選和抓取,為發(fā)現(xiàn)知識(shí)、制定完善的決策等提供共享數(shù)據(jù)信息,集中化進(jìn)行各類(lèi)數(shù)據(jù)信息的存儲(chǔ)和管理,全面彰顯數(shù)據(jù)共享平臺(tái)的作用和價(jià)值。
1.1.3 遵循數(shù)據(jù)信息統(tǒng)計(jì)分析和決策支持原則
以不同的信息化平臺(tái)為基礎(chǔ),對(duì)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的多元化數(shù)據(jù)進(jìn)行融合與提取,使用空間數(shù)據(jù)挖掘技術(shù)和分析技術(shù),構(gòu)建空間知識(shí)的發(fā)現(xiàn)算法和模型,全面進(jìn)行生物醫(yī)藥產(chǎn)業(yè)各類(lèi)科學(xué)數(shù)據(jù)信息的研究與分析,為科研機(jī)構(gòu)、企業(yè)各部門(mén)制定決策方案提供準(zhǔn)確依據(jù)。
開(kāi)發(fā)設(shè)計(jì)能夠進(jìn)行擴(kuò)展的分布式體系架構(gòu),構(gòu)建企業(yè)和相關(guān)機(jī)構(gòu)無(wú)縫隙集成的異構(gòu)平臺(tái)和接口體系,打造企業(yè)信息申報(bào)與監(jiān)管的智能化平臺(tái)系統(tǒng)。以GIS技術(shù)為基礎(chǔ),構(gòu)建生物醫(yī)藥企業(yè)知識(shí)發(fā)現(xiàn)系統(tǒng)和決策支持系統(tǒng),支持?jǐn)?shù)據(jù)信息的可視化分析。信息申報(bào)的模塊主要設(shè)計(jì)在網(wǎng)絡(luò)平臺(tái)中,設(shè)置B/S架構(gòu),利用外網(wǎng)即可進(jìn)行訪問(wèn)。在B/S系統(tǒng)方面設(shè)置java的架構(gòu)形式時(shí),桌面的應(yīng)用系統(tǒng)需使用先進(jìn)的visual studio技術(shù),并利用SOA技術(shù)和WEB技術(shù)等集成不同技術(shù)的架構(gòu)。數(shù)據(jù)通信部分主要設(shè)置XML的接口形式,利用全面性統(tǒng)一的接口協(xié)議解析模塊和生成模塊進(jìn)行處理,強(qiáng)化共享數(shù)據(jù)信息的傳輸安全管理力度,通過(guò)遠(yuǎn)程技術(shù)在線進(jìn)行系統(tǒng)參數(shù)管控,避免出現(xiàn)數(shù)據(jù)泄露、篡改、欺詐等現(xiàn)象。在中心平臺(tái)和其他單位,可以使用現(xiàn)代化的跨平臺(tái)數(shù)據(jù)整合技術(shù)對(duì)遠(yuǎn)程數(shù)據(jù)進(jìn)行共享處理、集成處理、交互處理,同時(shí)通過(guò)SOA技術(shù)和WEB技術(shù)等對(duì)生物醫(yī)藥產(chǎn)業(yè)申報(bào)的數(shù)據(jù)信息進(jìn)行雙向集成。要合理設(shè)計(jì)現(xiàn)代化工作流引擎,進(jìn)行審批流程監(jiān)管,同時(shí)設(shè)計(jì)現(xiàn)代化報(bào)表引擎,為基礎(chǔ)數(shù)據(jù)的分析和查詢提供支持,并推出不同類(lèi)型數(shù)據(jù)格式的報(bào)表導(dǎo)出功能。可利用現(xiàn)代化數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和工具,構(gòu)建生物醫(yī)藥產(chǎn)業(yè)領(lǐng)域的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),或采用現(xiàn)代化數(shù)據(jù)挖掘算法,為生物醫(yī)藥產(chǎn)業(yè)進(jìn)行政策信息研究和數(shù)據(jù)分析提供支持,及時(shí)發(fā)現(xiàn)知識(shí),進(jìn)行數(shù)據(jù)信息的集聚處理與集成化處理。使用安全控制軟件和CA技術(shù)能夠有效維護(hù)數(shù)據(jù)共享平臺(tái)的安全性,降低安全風(fēng)險(xiǎn),確保數(shù)據(jù)共享平臺(tái)的高效化、穩(wěn)定性運(yùn)行[1]。
在生物醫(yī)藥科學(xué)數(shù)據(jù)共享平臺(tái)的開(kāi)發(fā)建設(shè)過(guò)程中,需完善平臺(tái)中的功能模塊,如文獻(xiàn)庫(kù)模塊、知識(shí)庫(kù)模塊和數(shù)據(jù)集模塊,通過(guò)各類(lèi)模塊向服務(wù)對(duì)象提供高質(zhì)量的數(shù)據(jù)信息共享服務(wù),充分發(fā)揮各類(lèi)功能模塊的價(jià)值,具體如圖2所示。
圖2 平臺(tái)系統(tǒng)的功能模塊Fig.2 Function module of platform system
2.1.1 知識(shí)庫(kù)模塊的設(shè)計(jì)
數(shù)據(jù)共享平臺(tái)中知識(shí)庫(kù)模塊的設(shè)計(jì)主要是將各類(lèi)生物醫(yī)藥圖書(shū)按學(xué)科內(nèi)容、專(zhuān)業(yè)知識(shí)等進(jìn)行分類(lèi)與整合,把疾病當(dāng)做知識(shí)的核心部分,拓展藥品方面、輔助檢查方面、循證醫(yī)學(xué)證據(jù)方面的知識(shí),形成網(wǎng)絡(luò)知識(shí)服務(wù)平臺(tái),將數(shù)字化過(guò)程與增值書(shū)刊等知識(shí)資本相結(jié)合,對(duì)書(shū)刊出版模式進(jìn)行創(chuàng)新,讓信息資源管理向著知識(shí)管理的方向發(fā)展,優(yōu)化生物醫(yī)藥學(xué)知識(shí)獲取途徑,使學(xué)習(xí)變得更加便利。在設(shè)計(jì)生物醫(yī)學(xué)知識(shí)庫(kù)的過(guò)程中,主要涉及疾病類(lèi)型、藥品類(lèi)型、手術(shù)學(xué)類(lèi)型、輔助檢查類(lèi)型、循證醫(yī)學(xué)證據(jù)類(lèi)型、疾病研究進(jìn)展類(lèi)型、手術(shù)圖譜類(lèi)型的數(shù)據(jù)庫(kù)系統(tǒng),還包括醫(yī)保藥品類(lèi)型的數(shù)據(jù)庫(kù)系統(tǒng)、其他知識(shí)服務(wù)與產(chǎn)品的數(shù)據(jù)庫(kù)系統(tǒng)等。可利用不同知識(shí)點(diǎn)間的內(nèi)在聯(lián)系,對(duì)各類(lèi)數(shù)據(jù)庫(kù)進(jìn)行有機(jī)整合,強(qiáng)化不同數(shù)據(jù)庫(kù)之間的知識(shí)鏈接處理力度,為生物醫(yī)藥學(xué)知識(shí)的共享提供保障。
2.1.2 文獻(xiàn)庫(kù)系統(tǒng)的開(kāi)發(fā)構(gòu)建
文獻(xiàn)庫(kù)的開(kāi)發(fā)構(gòu)建需要滿足相關(guān)產(chǎn)業(yè)和企業(yè)對(duì)數(shù)據(jù)共享的需求。應(yīng)以CMCC、CMAC、CMCI等為基礎(chǔ),全面整合、集成、收集相關(guān)文獻(xiàn)數(shù)據(jù),確保各類(lèi)信息的良好應(yīng)用。重點(diǎn)以CMCC為基礎(chǔ),合理開(kāi)發(fā)相關(guān)文獻(xiàn)庫(kù)和數(shù)據(jù)庫(kù),用以檢索上千種生物醫(yī)學(xué)期刊、幾百種生物醫(yī)學(xué)核心期刊、上百萬(wàn)期刊文獻(xiàn),豐富數(shù)據(jù)共享平臺(tái)中的各類(lèi)文獻(xiàn)和數(shù)據(jù)信息,提升文獻(xiàn)庫(kù)建設(shè)水平,充分發(fā)揮不同文獻(xiàn)庫(kù)的作用和價(jià)值。在開(kāi)發(fā)相關(guān)文獻(xiàn)庫(kù)的過(guò)程中,需在文獻(xiàn)庫(kù)內(nèi)部存儲(chǔ)西方國(guó)家語(yǔ)言的文獻(xiàn)內(nèi)容及紙張類(lèi)型書(shū)刊、免費(fèi)類(lèi)型期刊、電子期刊、核心期刊[2]等。
生物醫(yī)藥科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè),應(yīng)重點(diǎn)進(jìn)行知識(shí)服務(wù)功能的設(shè)計(jì)和優(yōu)化,確保平臺(tái)系統(tǒng)能夠有效完成各項(xiàng)知識(shí)服務(wù)任務(wù),提升數(shù)據(jù)共享平臺(tái)的應(yīng)用價(jià)值和服務(wù)水平。
2.2.1 把知識(shí)元當(dāng)做知識(shí)庫(kù)構(gòu)建的基本要素
從本質(zhì)層面而言,知識(shí)由各個(gè)不同類(lèi)型的知識(shí)單元組合而成。知識(shí)單元內(nèi)涉及很多不同的片段知識(shí),是由不同的知識(shí)元組合而成。每個(gè)獨(dú)立性的知識(shí)元能夠根據(jù)邏輯關(guān)系組合成知識(shí)單元。知識(shí)元相互之間有著一定的邏輯關(guān)系,被稱作是知識(shí)元的鏈接,其中的某種知識(shí)體系就是由各類(lèi)知識(shí)單元組合而成。不同知識(shí)單元是各類(lèi)獨(dú)立的知識(shí)元利用知識(shí)元的鏈接進(jìn)行排列組合而成,各類(lèi)知識(shí)相互間可以利用知識(shí)元的鏈接形成各種知識(shí)鏈,編織成整體的知識(shí)架構(gòu)和知識(shí)網(wǎng)絡(luò)。知識(shí)庫(kù)就是利用知識(shí)元鏈接組合成的樞紐,在知識(shí)網(wǎng)絡(luò)內(nèi)能夠存取任何知識(shí)元和單元[3]。
2.2.2 合理進(jìn)行文獻(xiàn)知識(shí)元的抽取處理
如果將不同的文獻(xiàn)當(dāng)做是知識(shí)結(jié)構(gòu)中的知識(shí)單元,就會(huì)在知識(shí)結(jié)構(gòu)之間形成個(gè)性知識(shí)和共識(shí)知識(shí)系統(tǒng),其中的個(gè)性知識(shí)就是對(duì)知識(shí)進(jìn)行創(chuàng)新,共識(shí)知識(shí)就是保證知識(shí)的完整度。在此過(guò)程中,知識(shí)結(jié)構(gòu)可以利用公式進(jìn)行表達(dá):[知識(shí)單元1,知識(shí)單元2,……知識(shí)單元n]。知識(shí)單元也可以利用公式進(jìn)行表達(dá):[知識(shí)元1,知識(shí)元2,……知識(shí)元n]。各類(lèi)知識(shí)元內(nèi)容的對(duì)比非常獨(dú)立單一,便于檢索和構(gòu)建知識(shí)倉(cāng)庫(kù),使用戶可以直接進(jìn)行知識(shí)元的查詢與分析,在改變知識(shí)結(jié)構(gòu)的同時(shí)快速進(jìn)行創(chuàng)新知識(shí)內(nèi)容的提取。
2.2.3 合理設(shè)置知識(shí)元標(biāo)引,有效完成知識(shí)倉(cāng)庫(kù)的知識(shí)管理
目前,文獻(xiàn)知識(shí)標(biāo)引、檢索等主要停留在將整篇文獻(xiàn)作為單元、選擇不同的主題詞或引文索引方面,強(qiáng)調(diào)利用文本知識(shí)發(fā)現(xiàn)文獻(xiàn)內(nèi)的細(xì)節(jié)信息及不同篇章之間的關(guān)聯(lián)。生物醫(yī)藥科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè),可以利用文獻(xiàn)的知識(shí)元科學(xué)合理地完成標(biāo)引設(shè)置,揭示文獻(xiàn)內(nèi)知識(shí)元與學(xué)科知識(shí)結(jié)構(gòu)鏈接間的關(guān)系,尋找信息、知識(shí)導(dǎo)航鏈接的規(guī)律,使用戶直接有效提取知識(shí)元,掌握更多知識(shí)元的使用方式,確保能夠?qū)Ω黝?lèi)數(shù)據(jù)信息進(jìn)行全方位共享和開(kāi)發(fā)利用。知識(shí)元標(biāo)引能夠有效進(jìn)行知識(shí)元的過(guò)濾處理、各類(lèi)連接的引用處理,將生物醫(yī)學(xué)知識(shí)體系劃分成不同類(lèi)型的知識(shí)單元,能夠在各知識(shí)單元中檢索和尋找大量的知識(shí)元信息。例如,在疾病知識(shí)單元內(nèi)檢索相關(guān)疾病信息,在藥品知識(shí)單元內(nèi)進(jìn)行藥品信息的檢索,在輔助檢查知識(shí)單元內(nèi)進(jìn)行檢查項(xiàng)目的檢索,使數(shù)據(jù)共享平臺(tái)的使用者可以利用此類(lèi)功能快速檢索到自己想要的數(shù)據(jù)信息、文獻(xiàn)資料,科學(xué)化、合理化進(jìn)行知識(shí)的檢索與管理,提升知識(shí)元的開(kāi)發(fā)利用效率、處理效果和檢索存儲(chǔ)效果[4]。
在數(shù)字化發(fā)展新理念的引領(lǐng)下,生物醫(yī)藥科學(xué)數(shù)據(jù)共享平臺(tái)的構(gòu)建與開(kāi)發(fā)應(yīng)遵循科學(xué)化、合理化的基本原則,完善其中的數(shù)據(jù)庫(kù)、知識(shí)庫(kù)等,明確平臺(tái)的設(shè)計(jì)方式、設(shè)計(jì)思路和構(gòu)建措施,利用先進(jìn)的數(shù)字化技術(shù),提升生物醫(yī)學(xué)產(chǎn)業(yè)數(shù)據(jù)共享平臺(tái)的建設(shè)水平。