邢玉艷 劉 耀
(中國科學(xué)技術(shù)信息研究所,北京 100038)
精準醫(yī)療作為全新的醫(yī)學(xué)模式,可能會帶來疾病診斷、診療和健康保健方面的革命而造福人類。精準醫(yī)療的發(fā)展給人類帶來福利的同時,也會帶來突出的醫(yī)學(xué)倫理問題。而出現(xiàn)任何倫理的問題,都會對個人和社會帶來巨大損失,同時也會阻礙精準醫(yī)學(xué)的發(fā)展,因此要清醒地認識并積極應(yīng)對[1],為其制定相應(yīng)的規(guī)范和標準體系。
標準體系是在一定范圍內(nèi)的標準按其內(nèi)在聯(lián)系形成的科學(xué)有機整體,是編制標準、修訂計劃的依據(jù)。標準體系包含了宏觀標準體系和微觀標準體系兩種,其中宏觀標準體系是指某領(lǐng)域所有標準構(gòu)建的體系結(jié)構(gòu),微觀標準體系是指某個標準的體系結(jié)構(gòu)[2]。根據(jù)《標準體系構(gòu)建原則和要求》[3],目前通用的標準體系構(gòu)建方法是確定目標、調(diào)查研究、分析整理、編制體系表、動態(tài)維護更新等部分。無論是宏觀標準體系還是微觀標準體系,若要進行標準體系構(gòu)建,標準工作者就需要依據(jù)規(guī)范的方法進行大量的資料整理與搜集,從海量資源中提煉出大量的概念、關(guān)系、結(jié)構(gòu),耗費了大量的人力、物力,但是也難以找全標準體系中包含的各方面內(nèi)容,其廣度和深度都難以達到理想狀態(tài)。為解決這一問題,本研究提出了一種基于數(shù)據(jù)驅(qū)動的標準體系構(gòu)建方法,利用概念自動獲取、關(guān)系自動抽取、結(jié)構(gòu)表示等技術(shù),實現(xiàn)標準體系的自動構(gòu)建。
標準體系模型是標準體系構(gòu)建的基礎(chǔ),同時也需要一定的理論支撐。在標準化領(lǐng)域,經(jīng)常運用的是霍爾三維模型。該模型是美國系統(tǒng)工程專家A.D.HALL[4]于1969年提出的一種系統(tǒng)工程方法論。霍爾三維模型是將系統(tǒng)工程整個活動過程分為前后緊密銜接的7 個階段和7 個步驟,同時還考慮了為完成這些階段和步驟所需要的各種專業(yè)知識和技能,形成由時間維、邏輯維和知識維所組成的三維空間結(jié)構(gòu)。
本研究將精準醫(yī)療倫理的標準體系模型的構(gòu)建分成5 個階段,包括精準醫(yī)療領(lǐng)域概念獲取、醫(yī)學(xué)倫理領(lǐng)域概念獲取、信息安全領(lǐng)域概念獲取、三個領(lǐng)域概念關(guān)系獲取、領(lǐng)域知識獲取。將這5個階段分成了3 個維度,分別是概念維、關(guān)系維和知識維。標準體系模型如圖1 所示。其中,精準醫(yī)療領(lǐng)域概念獲取采用《2018-2023年中國精準醫(yī)療行業(yè)深度分析及發(fā)展前景預(yù)測報告》作為模型構(gòu)建的依據(jù);醫(yī)學(xué)倫理領(lǐng)域概念獲取是借鑒大學(xué)醫(yī)學(xué)專業(yè)教材《醫(yī)學(xué)倫理學(xué)》第五版;信息安全領(lǐng)域概念獲取是借鑒全國信息安全標準委員會發(fā)布的290 個標準;領(lǐng)域知識獲取是根據(jù)所構(gòu)建的檢索式,抽取同時出現(xiàn)上述概念和關(guān)系的句子與段落。模型部分展示如圖2 所示。
圖1 標準體系模型圖
概念詞自動獲取的方法有多種,其中包括基于規(guī)則的方法、基于機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法需要大量的人工,目前已經(jīng)很少使用?;跈C器學(xué)習(xí)和基于深度學(xué)習(xí)的方法是目前比較受歡迎的。其中,Zheng在命名體識別任務(wù)中使用CRF模型,選取的特征有詞性、詞語的TFIDF值,準確率達79.63%,召回率達73.54%,但是需要選擇出對任務(wù)有幫助的特征,并將其轉(zhuǎn)化成被機器學(xué)習(xí)的特征向量[4]。Collobert[5]提出了采用神經(jīng)網(wǎng)絡(luò)搭建概念獲取模型,將詞向量輸入到CNN+CRF模型中,在CONLL2003 數(shù)據(jù)集上取得了89.59 的F值。在相同的數(shù)據(jù)集上,Huang[6]等提出LSTM+CRF模型,得出85.19 的F值??傮w來說,基于深度學(xué)習(xí)的方法,輸入詞向量就可以達到很好的效果,本文也將采用該方法進行后續(xù)實驗。
標準體系概念自動獲取是信息安全標準體系構(gòu)建的關(guān)鍵,因此首先要對標準體系中所需要的關(guān)鍵詞進行分析并進行人工分類。
2.1.1 標準體系概念詞分析
標準體系一般包括標準體系框架和標準明細表,在這里所提到的標準體系是指標準體系框架結(jié)構(gòu)。標準體系框架結(jié)構(gòu)是某個領(lǐng)域內(nèi)的所有標準按照一定的層級結(jié)構(gòu)劃分的有機整體,在這個整體結(jié)構(gòu)中,涉及內(nèi)容范圍廣泛,每個分支都代表一個方面,每個方面又會細分很多小的不同的方面,這些小的不同的方面是由領(lǐng)域的概念詞所組成,一般情況下為名詞或者是名詞性詞組。
標準體系框架中概念詞可能會來源于該領(lǐng)域已有的標準文本,也可能來源于研究性論文、政策文本等,這取決于要制定的標準體系的類型,如果是修改和完善之前的標準體系,那么體系中的結(jié)構(gòu)點就會來源于已有標準,如果是新增性的標準體系,那么其來源相對來說就會比較廣泛,可能是相關(guān)領(lǐng)域的標準、國家政策文本、研究性論文等。本文所研究的精準醫(yī)療倫理的信息安全標準體系,就屬于新增性,在構(gòu)建體系的過程中,就會搜集大量的相關(guān)領(lǐng)域的文本。本文所涉及的領(lǐng)域是精準醫(yī)療領(lǐng)域、信息安全領(lǐng)域以及醫(yī)學(xué)倫理領(lǐng)域。
2.1.2 標準體系概念詞獲取
BiLSTM-CRF的命名實體識別模型作為一個序列標注模型,主要由Embedding層(主要有詞向量、字向量)、雙向LSTM層以及CRF層構(gòu)成[7]。輸入序列輸入X后,通過向量表將每個字符映射成相應(yīng)的向量,將其作為初始向量輸入到神經(jīng)網(wǎng)絡(luò)模型中;雙向LSTM層采用softmax函數(shù)得到概率分布矩陣;最后通過CRF層模型確定一個概率最高的序列路徑,對應(yīng)到每個字符作為最后標簽。其整體結(jié)構(gòu)圖如圖3 所示。
獲取到標準體系概念后,下一步就要識別概念之間的關(guān)系,也就是實體關(guān)系抽取。實體關(guān)系抽取的主要任務(wù)是從句子中自動抽取概念之間的關(guān)系,這也是知識結(jié)構(gòu)化的重要任務(wù)之一。概念關(guān)系的抽取主要包括基于規(guī)則的、有監(jiān)督、弱監(jiān)督、無監(jiān)督的方法。Leek等[8]首次在關(guān)系抽取中使用HMM,完成了從生物學(xué)的文獻中抽取出基因名字和其對應(yīng)位置信息的任務(wù);Ray等[9]結(jié)合句子的短語結(jié)構(gòu)分析信息利用HMM做信息抽取,取得了較好的效果。實驗證明,HMM在關(guān)系抽取任務(wù)上有一定的有效性,與其他方法相比也有一定的優(yōu)越性。但是,也存在HMM結(jié)構(gòu)確定困難等問題。董靜等[10]結(jié)合中文語料庫的特點,將中文實體關(guān)系劃分為包含實體關(guān)系和非包含實體關(guān)系,分別利用不同的句法特征,而其他詞匯等特征完全相同,在CRF模型框架下,以ACE 2007語料作為實驗數(shù)據(jù),取得較好的抽取結(jié)果。
支持向量機是Cortes和Vapnik于1995年首先提出的,它是建立在統(tǒng)計學(xué)習(xí)理論(SLT)基礎(chǔ)之上的一種新型的機器學(xué)習(xí)算法,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力。目前,使用最多的是基于有監(jiān)督的方法,將實體關(guān)系抽取任務(wù)轉(zhuǎn)化成分類問題,因此,一般的分類方法都可以用到實體抽取任務(wù)上。常見的分類算法有:SVM、KNN、樸素貝葉斯、決策樹等。SVM分類器理論框架完善、通用性和魯棒性強、計算簡單,而且還具有較強的抗噪聲能力和較高的分類正確率[11]。SVM分類算法不需要無窮大樣本數(shù)量,也不局限于解決線性問題,也可以通過核函數(shù)處理非線性問題,因此本研究將采用SVM算法進行實體關(guān)系的抽取。
圖2 模型部分展示圖
圖3 Bi-LSTM-CRF模型
本文將信息安全標準體系構(gòu)建中的關(guān)系分為5 類,即推進關(guān)系、融合關(guān)系、阻礙關(guān)系、包含關(guān)系、因果關(guān)系,并根據(jù)設(shè)定的概念關(guān)系進行關(guān)系特征的選取,經(jīng)過分析本文用到的概念特征有概念類別、概念相鄰詞、概念詞間的詞性標注、概念詞的上下文詞、句法依存分析。
標準體系結(jié)構(gòu)的生成主要包括標準體系節(jié)點的表示和標準體系的結(jié)構(gòu)表示。標準體系節(jié)點表示是對所選目標文本中的標題進行向量化,標準體系的結(jié)構(gòu)表示是對所選文本中挑選出的標題下的文本進行向量表示。
2.3.1 標準體系節(jié)點表示
目前已有的網(wǎng)絡(luò)表示學(xué)習(xí)算法[12]各有優(yōu)劣。本文將采用2018年在第二十五屆國際人工智能聯(lián)合會議上,Pan[13]等提出的TriDNR模型。該模型提出一種新的用于深度網(wǎng)絡(luò)表示學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,加強了網(wǎng)絡(luò)結(jié)構(gòu)層次、節(jié)點內(nèi)容層次、節(jié)點標簽層次。TriDNR模型如圖4 所示。從圖4可以看出,該模型分為兩層,節(jié)點關(guān)系建模和節(jié)點標簽與上下文建模,其中上層的節(jié)點關(guān)系建模中采用的Deepwalk算法[14]。該算法隨機游走均勻地選取網(wǎng)絡(luò)節(jié)點(詞語),同時生成固定長度的隨機游走序列,該序列可以看成是句子,最后應(yīng)用Skip-Gram模型預(yù)測上下文節(jié)點,并將該層的隨機排序傳入到下一層中。
2.3.2 標準體系結(jié)構(gòu)表示
本文的層級分為兩種,一種是與概念直接相連的層級,另一種是上層的標題層級,對于前者將概念作為詞,概念連接隨機游走路徑作為句子,利用Doc2vec算法計算該層級向量,后者則采用同一層級取平均的方法。Doc2vec是Le[15]在Word2vec的基礎(chǔ)上提出的一種將文本表示成向量的方法,通過分布式學(xué)習(xí)的方法,對不同長度的文本片段進行采樣,獲取固定長度的特征表示。Doc2vec屬于無監(jiān)督算法,其優(yōu)點就是可以較好地處理沒有太多標記數(shù)據(jù)的任務(wù)。Doc2vec算法的模型如圖5 所示,將文本中的段落映射到向量空間中,用D的一列進行表示,與此同時,將每個詞要映射到向量空間中,用矩陣W來表示,然后將前面得到的段落向量和詞向量相加,作為下一個詞的輸入。
本實驗以精準醫(yī)療倫理中的“個人隱私安全”領(lǐng)域進行標準體系的生成,用于結(jié)構(gòu)生成的語料分為兩大部分:一是某一個具體標準下的規(guī)范性引用文件和參考文獻;二是檢索到與個人隱私安全相關(guān)的標準、政策、法規(guī)。對這兩部分的語料經(jīng)過人工去重后進行本研究后續(xù)的實驗。
圖4 TriDNR模型
信息安全標準體系中包含多個領(lǐng)域、多個方面,每個方面又由多個標準所組成的。為了驗證本文方法的有效性,在體系中挑選目前熱門且急需解決的個人隱私安全領(lǐng)域生成單個標準結(jié)構(gòu)。通常標準有四級標題、五級標題甚至六級標題,本文旨在以說明方法為目的,所生成的標準結(jié)構(gòu)到三級標題。以下是具體的生成步驟。
(1)選取參照標準。為了驗證本文的方法,在個人隱私安全領(lǐng)域中選取目前已經(jīng)發(fā)布的標準作為參照標準,用新生成的標準結(jié)構(gòu)和參照標準結(jié)構(gòu)進行對比。
(2)收集資源。根據(jù)選取的參照標準,找到對應(yīng)的規(guī)范性引用文件和參考文獻列表,對列表中的資源進行檢索,獲取能夠下載的資源,同時在限定領(lǐng)域中檢索其他類似標準并進行下載。
(3)資源預(yù)處理。將收集到的資源進行預(yù)處理,處理成需要用到的格式和需要保留的文本,將不同類型的資源進行統(tǒng)一,最終得到j(luò)son格式的文本。
(4)句子向量表示。利用Doc2vec算法計算所選文本的句子向量,其中用概念節(jié)點表示向量作為該算法的預(yù)訓(xùn)練向量。
(5)標題向量表示。其中三級標題的向量是三級標題下所對應(yīng)的句子向量,二級標題、一級標題、題目節(jié)點向量分別是下一級標題的平均值。
(6)排序篩選。分層次利用Textrank算法進行排序,選擇新結(jié)構(gòu)中需要加入的節(jié)點。
(7)生成新標準結(jié)構(gòu)。將篩選出的章節(jié)節(jié)點按照層次等級進行整合,最終得到新標準結(jié)構(gòu)。
3.3.1 單個標準生成結(jié)果
圖5 Doc2vec模型圖
本次實驗生成了3 個標準的結(jié)構(gòu),其中包括“個人信息安全規(guī)范”“健康醫(yī)療信息安全指南”“個人信息去標識化指南”。由于篇幅原因,在這里給出其中一個標準的具體結(jié)構(gòu)?!敖】滇t(yī)療信息安全指南”生成的新結(jié)構(gòu)及對比如表1 所示。從新生成的結(jié)構(gòu)中可以看出,生成的一級標題:健康醫(yī)療大數(shù)據(jù)、個人信息的使用、個人信息安全事件處置、去標識化概述、法律責(zé)任,基本都是與健康醫(yī)療信息安全相關(guān)的內(nèi)容,可以為相關(guān)研究者提供一定的支持。而一些二級標題的名稱與原結(jié)構(gòu)中標題并不完全匹配,但是所要展現(xiàn)的內(nèi)容則是更加細節(jié)的,比如,安全框架中的實施方法中就包含了新結(jié)構(gòu)中的去標識化,數(shù)據(jù)使用環(huán)境中就包含新結(jié)構(gòu)中的個人信息查詢、更正、刪除等操作,這就需要研究者根據(jù)實際需求進行篩選。
在對結(jié)構(gòu)中的一級標題和二級標題進行比對的同時,計算結(jié)構(gòu)的正確率(Precision)與召回率(Recall)。正確率是正確標題數(shù)目與生成的標題總數(shù)目比值,召回率是生成的標題中含有原結(jié)構(gòu)標題的數(shù)目與原結(jié)構(gòu)中所有標題總數(shù)的比值。正確率與召回率的算法是將一級標題和二級標題同時進行統(tǒng)計的,具體結(jié)果如表2 所示。
通過實驗可以看出,生成的這3 個標準的平均正確率達到86.99%,召回率達到65.53%。這就可以證明本文方法是具有有效性的,可以為標準體系構(gòu)建者提供相應(yīng)的幫助。在生成標準體系或單個標準的過程中,可以首先使用該方法進行自動構(gòu)建,大致得出一個標準體系或者一個標準應(yīng)當(dāng)包含的子體系或者章節(jié),然后依據(jù)系統(tǒng)提供的體系或者章節(jié)點進行修改,這樣避免了標準工作者在前期工作中進行大量的重復(fù)工作,大大提高了標準工作者的工作效率。
3.3.2 單類標準生成結(jié)果
單個標準的生成證明了本文方法的有效性,但是要證明本文方法的有用性,需要生成固定的某一類標準。其中,某一類標準的生成是指類似內(nèi)容的標準生成。本節(jié)以生成個人隱私安全領(lǐng)域中“個人信息安全規(guī)范”結(jié)構(gòu)進行實驗結(jié)果的展示。
在原標準中,主要將個人信息安全分為七部分,也就是一級標題,個人信息安全基本原則,個人信息的收集,個人信息的保存,個人信息的使用,個人信息的委托處理、共享、轉(zhuǎn)讓、公開披露,個人信息安全事件處置,組織的管理要求。按照本文的方法,利用個人信息安全相關(guān)的資源,得到新的一級標題如表3 所示。
從表3 新生成的一級標題中可以看出,新生成的一級標題中包含了原標準結(jié)構(gòu)中該有的個人信息處理流程。將新生成的一級標題進行排序,選擇與原一級標題重合的標題,生成二級標題,也就是某主題下又包含哪些子主題。從排序結(jié)果來看,個人信息采集、個人信息存儲排序靠前,并且原結(jié)構(gòu)有類似表達,可以為研究者提供一定的幫助。下面繼續(xù)用本文方法生成這兩個標題下的二級標題。二級標題結(jié)果如表4 所示。
表1 “健康醫(yī)療信息安全指南”結(jié)構(gòu)對比
表2 標準結(jié)構(gòu)統(tǒng)計表
從表4 中可以看出,新生成的二級標題可以覆蓋原二級標題的一部分,同時又豐富了主題下的子主題,使結(jié)構(gòu)更加全面。通過上面單類標準的實驗,證明了本研究方法的有用性,也就是說在以后要生成某個相關(guān)標準或者相關(guān)標準體系,系統(tǒng)可以自動為研究者提供應(yīng)當(dāng)包含的部分。比如要生成某一領(lǐng)域下的術(shù)語標準,研究者只需設(shè)定資源的條件和范圍,利用本文提出的方法即可得出該標準應(yīng)當(dāng)包含的章節(jié),為標準制定者提供參考,然后再根據(jù)需求進行修改。
本文對標準體系自動構(gòu)建的方法進行了詳細介紹,其中包括標準體系模型的構(gòu)建,該模型是整個模型構(gòu)建中的指導(dǎo);概念、關(guān)系抽取過程中,分別采用BI-LSTM-CRF模型和支持向量機,選取句法語義特征進行實驗,取得了良好的效果;標準體系結(jié)構(gòu)生成過程中,采用TriDNR模型和Doc2vec模型進行實驗,取得了良好的效果。最后選取個人隱私領(lǐng)域生成標準體系,分別形成單個標準和單類標準,最終得到結(jié)果的正確率達到86.99%,召回率達到65.53%。并且單個標準的實驗采用回溯方法,與已發(fā)布的標準進行比對,驗證了本文方法的有效性,單類標準的實驗通過生成某一類的標準,驗證了本文方法的有用性。利用本文方法生成的標準體系可以為相關(guān)研究人員在制定標準體系之前提供一個可以參考的框架與結(jié)構(gòu),縮短了研究人員大量收集相關(guān)材料的時間,大大地提高了工作效率。
表3 一級標題對比表
表4 二級標題對比表
在未來工作中,標準體系制定者若想制定新領(lǐng)域的標準體系或者標準,或者對已知標準體系進行更新,可以運用本文提出的方法限定資源后,進行生成或者篩查,這樣大大提高了標準制定者的工作效率,進一步推動了標準化工作的智能化。當(dāng)然,本文還有不足之處,下一步將會進一步擴大語料范圍進行機器學(xué)習(xí),并利用已有的知識庫輔助概念與關(guān)系的標引,同時將生成的標準體系進行可視化展示。