杜 建
(北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院 北京 100191)
1引入知識(shí)不確定性分析的原因
在數(shù)據(jù)-信息-知識(shí)-智慧(Data-Information-Knowledge-Wisdom,DIKW)模型中,從數(shù)據(jù)到智慧其價(jià)值越來越高,但可計(jì)算性越來越低。如何將隱藏在科學(xué)文本大數(shù)據(jù)中的知識(shí)再次進(jìn)行數(shù)據(jù)化是實(shí)現(xiàn)知識(shí)可計(jì)算性的關(guān)鍵途徑。從數(shù)據(jù)到信息和知識(shí)主要依賴信息學(xué)方法(如本體)和數(shù)據(jù)科學(xué)方法(如機(jī)器學(xué)習(xí)),而從知識(shí)到智慧要解決如何在不確定性的條件下做出最佳決策的問題,見圖1。
美國和歐洲正在進(jìn)行描述可計(jì)算的生物醫(yī)學(xué)知識(shí)(Computable Biomedical Knowledge,CBK)的元數(shù)據(jù)相關(guān)研究,即用哪些屬性或字段描述可計(jì)算的醫(yī)學(xué)知識(shí)。在FAIR(Findable, Accessible, Interoperable, Reusable)原則基礎(chǔ)上增加了T(Trustable)[1],強(qiáng)調(diào)確定性和可靠性在可計(jì)算的醫(yī)學(xué)知識(shí)對(duì)于決策和應(yīng)用中的重要性。例如增加對(duì)于證據(jù)基礎(chǔ)的描述,包括知識(shí)數(shù)據(jù)來源、證據(jù)的確定性程度等??梢娭R(shí)的確定性程度是知識(shí)表示不可或缺的要素。
1.2.1 內(nèi)涵與作用 循證決策是借鑒循證醫(yī)學(xué)而發(fā)展的一套決策理論,其認(rèn)為政策和決策制定應(yīng)吸收和使用最新科學(xué)證據(jù),同時(shí)將社會(huì)經(jīng)驗(yàn)和價(jià)值判斷結(jié)合起來,做出最佳決策,尤其是重大突發(fā)公共衛(wèi)生事件的防控和治療決策。而在政策和實(shí)踐中執(zhí)行循證決策時(shí)需要克服的關(guān)鍵障礙在于知識(shí)缺口與不確定性,以及有爭(zhēng)議、無關(guān)、相互矛盾的證據(jù)。將科學(xué)知識(shí)的不完備性和不確定性作為重點(diǎn)考慮因素能夠降低制定不正確或非循證決策的風(fēng)險(xiǎn)[2]。不確定性作為科學(xué)知識(shí)的認(rèn)知狀態(tài),尤其是科學(xué)探索中各種不確定、不完整和可能相互矛盾的信息,是監(jiān)管機(jī)構(gòu)針對(duì)新醫(yī)療措施進(jìn)行風(fēng)險(xiǎn)評(píng)估和管理時(shí)參考的重要證據(jù)。
1.2.2 啟發(fā)式?jīng)Q策 科學(xué)決策是在決策者的信息處理能力、時(shí)間和知識(shí)有限的情況下做出的。諾貝爾獎(jiǎng)得主赫伯特·西蒙認(rèn)為決策者的理性是有限的。啟發(fā)式?jīng)Q策即有限理性的模型,是一種使用部分可用信息而忽略其余信息的決策策略,僅基于部分變量進(jìn)行決策,不僅可以降低復(fù)雜度,而且可以提高決策的準(zhǔn)確性、速度和透明度[3]??焖偈×Φ膯l(fā)式?jīng)Q策方法最初是在認(rèn)知和決策科學(xué)的背景下提出的。醫(yī)學(xué)、犯罪、商業(yè)、法律、體育等多學(xué)科領(lǐng)域的實(shí)踐表明,這種決策方式得出的結(jié)論質(zhì)量不亞于基于各種數(shù)據(jù)搜集、繁復(fù)計(jì)算得出的結(jié)論。普賴斯獎(jiǎng)得主、德國馬普學(xué)會(huì)文獻(xiàn)計(jì)量學(xué)家Lutz Bornmann將其移植到科研評(píng)價(jià)決策過程中,提出基于文獻(xiàn)計(jì)量學(xué)證據(jù)的啟發(fā)式?jīng)Q策,例如將根據(jù)文獻(xiàn)計(jì)量學(xué)的決策樹模型(Bibliometrics-Based Decision Tree, BBDT)用于確定荷蘭萊頓大學(xué)排名中的兩所大學(xué)表現(xiàn)是否存在實(shí)質(zhì)性差異[4],為文獻(xiàn)計(jì)量學(xué)方法廣泛用于科研評(píng)價(jià)目的提供通用理論框架。基于此可以根據(jù)知識(shí)主張背后的科學(xué)證據(jù)的不確定性程度進(jìn)行啟發(fā)式?jīng)Q策,特別是涉及未知、不完備、不充分的科學(xué)認(rèn)知和證據(jù)基礎(chǔ)上進(jìn)行決策時(shí),使用啟發(fā)式?jīng)Q策可能是最佳策略。
1.2.3 循證啟發(fā)式?jīng)Q策實(shí)施路徑 科學(xué)家與決策者之間溝通不暢、科學(xué)知識(shí)與決策過程脫節(jié)的原因之一在于決策者可能無法區(qū)分穩(wěn)健、可信的科學(xué)證據(jù)與模糊、不確定的科學(xué)論斷。所有科學(xué)都具有不確定性,只有有效地揭示和傳遞科學(xué)的不確定性才能更好地促進(jìn)循證決策[5]。復(fù)雜網(wǎng)絡(luò)領(lǐng)域的學(xué)者通過定量分析政策文件和科學(xué)論文之間的引用關(guān)系,揭示了科學(xué)和政策的共演化特征和循證決策模式,發(fā)現(xiàn)很多政策文件引用了最新、經(jīng)過同行評(píng)審、高影響力的科研成果[6]。提示政策界與學(xué)術(shù)界的緊密互動(dòng)方式展現(xiàn)出二者之間的聯(lián)系已經(jīng)發(fā)揮了作用,但科學(xué)知識(shí)和政策之間具體、微觀的交互模式尚不明確。政策和實(shí)踐中的循證過程也是證據(jù)分析過程,是在一階科學(xué)證據(jù)基礎(chǔ)上進(jìn)行二次分析,形成有助于決策的見解和知識(shí)。做好循證決策需要解決兩個(gè)問題,一是跟上科學(xué)認(rèn)知和證據(jù)的進(jìn)展;二是解決早期信息缺失和中后期信息爆炸并存的問題。如果將科學(xué)證據(jù)的不確定性計(jì)算出來,或?qū)⒕哂忻苄浴_突性的知識(shí)主張清晰揭示出來以輔助決策者進(jìn)行參考,將有助于循證啟發(fā)式?jīng)Q策。而決策總是在復(fù)雜現(xiàn)實(shí)中的多類因素相互動(dòng)態(tài)作用下進(jìn)行的,這種復(fù)雜性正是影響決策的關(guān)鍵問題,可借助成熟可靠的科學(xué)研究幫助解決[7]。
1.3.1 基于文獻(xiàn)的知識(shí)發(fā)現(xiàn) 計(jì)算科學(xué)家從文獻(xiàn)和數(shù)據(jù)庫提取知識(shí)并進(jìn)行計(jì)算處理,挖掘可以在實(shí)驗(yàn)中得到檢驗(yàn)的新假設(shè)。實(shí)驗(yàn)科學(xué)家和計(jì)算科學(xué)家之間的合作已成為科學(xué)知識(shí)發(fā)現(xiàn)的新趨勢(shì)[8]。這一概念與基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)是相似的,即融合零散、非相關(guān)的信息片段,揭示出有發(fā)展前景的新研究方向,或者提供潛在的變革性或突破性的見解[9]?;谖墨I(xiàn)的知識(shí)發(fā)現(xiàn)的最大需求、挑戰(zhàn)、價(jià)值在于識(shí)別當(dāng)前被忽視的研究領(lǐng)域,并結(jié)合其他信息識(shí)別未來值得科學(xué)界探索的前沿[10]。而科學(xué)研究前沿往往具有不確定性,特別是表現(xiàn)為未經(jīng)驗(yàn)證的研究假說、沖突性、矛盾性的知識(shí)主張等。
1.3.2 元知識(shí) 元知識(shí)理論認(rèn)為,從科學(xué)文獻(xiàn)中挖掘知識(shí)不應(yīng)僅關(guān)注知識(shí)本身,有關(guān)知識(shí)的知識(shí)即元知識(shí)也很重要,例如通過分析科學(xué)文本語境信息可評(píng)估特定命題在科學(xué)上的確定性程度[11]??茖W(xué)知識(shí)具有客觀和主觀雙重屬性,要真正實(shí)現(xiàn)從現(xiàn)有知識(shí)大數(shù)據(jù)中再次發(fā)現(xiàn)新知識(shí),不僅要關(guān)注結(jié)構(gòu)化的知識(shí)單元,還要關(guān)注知識(shí)背景,即元知識(shí)[12]。與客觀認(rèn)識(shí)論相對(duì)應(yīng)的是實(shí)踐認(rèn)識(shí)論,該觀點(diǎn)對(duì)科學(xué)知識(shí)可以完全解釋和編碼的假設(shè)提出挑戰(zhàn),認(rèn)為開發(fā)知識(shí)管理工具以及據(jù)此做出決策和判斷需要考慮科學(xué)知識(shí)固有的模糊性、不確定性。而且科學(xué)知識(shí)是多維的,兼具抽象性與具體性、隱性與顯性、集體性與個(gè)體性、發(fā)展性與靜態(tài)性。認(rèn)識(shí)到知識(shí)表達(dá)的多樣性、模糊性、不確定性和不一致性才能更高效地發(fā)現(xiàn)新知識(shí)。將知識(shí)的動(dòng)態(tài)性、不確定性、具象化和爭(zhēng)議性等納入計(jì)算過程,是確保知識(shí)發(fā)現(xiàn)有效性和可靠性的關(guān)鍵因素。
美國國家癌癥研究所(National Cancer Institute,NCI)對(duì)醫(yī)學(xué)知識(shí)的不確定性進(jìn)行分類,認(rèn)為不確定性有3種來源或表現(xiàn),即可能性(Probability)、模糊性(Ambiguity)、復(fù)雜性(Complexity)[13]。其中模糊性主要體現(xiàn)在對(duì)于結(jié)果的估計(jì)缺乏可靠性、可信性和充分性。復(fù)雜性這一類型不是由事件的不確定性(可能性)或缺乏可靠性、可信度或有關(guān)該事件的信息的充分性(模糊性)引起的,而是緣于事件和概念本身可能出現(xiàn)狀態(tài)的多樣性。以上3種知識(shí)不確定性的類型無法全部量化,見圖2。
圖2 知識(shí)不確定性的3種類型(以乳腺癌治療為例說明)
科學(xué)中假設(shè)推測(cè)的驗(yàn)證和爭(zhēng)議矛盾的解決過程,分別對(duì)應(yīng)漸進(jìn)性研究和變革性研究。提示科學(xué)家發(fā)表研究成果時(shí)對(duì)科學(xué)發(fā)現(xiàn)表述的不確定性修辭和學(xué)術(shù)同行早期的爭(zhēng)論式、批評(píng)式引用也是變革性的一類早期信號(hào)??茖W(xué)文獻(xiàn)遭遇負(fù)面引用并不總是說明該研究因無法重復(fù)而質(zhì)量較低,需要分析負(fù)面引用在文獻(xiàn)全文中的位置做出判斷。結(jié)果和討論部分的負(fù)面引用多緣于對(duì)數(shù)據(jù)結(jié)果的討論,往往驅(qū)動(dòng)在此基礎(chǔ)之上開展進(jìn)一步漸進(jìn)性研究;而引言和結(jié)論部分的負(fù)面引用往往反映觀點(diǎn)和概念分歧,更容易孕育變革性研究,其對(duì)科學(xué)前沿的預(yù)測(cè)意義更大。
科學(xué)知識(shí)主張主要通過科學(xué)出版物以文本形式表達(dá),實(shí)現(xiàn)科學(xué)發(fā)現(xiàn)的可計(jì)算性應(yīng)該深入到知識(shí)單元的微觀層次,分析單元應(yīng)側(cè)重于觀點(diǎn)和范式及其前提、證據(jù)和論證過程。因此提出面向知識(shí)發(fā)現(xiàn)、深入到知識(shí)單元和句子層面的不確定性科學(xué)知識(shí)表示與計(jì)算模型,其分為4個(gè)組件:編碼;以三元組表示的知識(shí)單元;知識(shí)來源,即關(guān)于知識(shí)主張的陳述;認(rèn)知狀態(tài),即不確定性分級(jí)(包括未知、假設(shè)推測(cè)、爭(zhēng)議矛盾)[12]。進(jìn)一步以該模型為基礎(chǔ),挖掘肺癌領(lǐng)域和心血管領(lǐng)域不確定性醫(yī)學(xué)知識(shí)主張,尤其是爭(zhēng)議性、沖突性、矛盾性的知識(shí)。該模型將以自然語言表達(dá)的海量知識(shí)主張進(jìn)行結(jié)構(gòu)化,并與其背后的數(shù)據(jù)或證據(jù)關(guān)聯(lián)起來,既實(shí)現(xiàn)了細(xì)粒度表示知識(shí)對(duì)象的目標(biāo),又解決了當(dāng)前知識(shí)發(fā)現(xiàn)研究忽略知識(shí)不確定性程度的問題,見圖3。
圖3 深入到知識(shí)單元和句子層面的不確定性科學(xué)知識(shí)表示模型
醫(yī)學(xué)知識(shí)不確定性的表示和計(jì)算的核心在于將不確定性文本轉(zhuǎn)化成數(shù)值、數(shù)字。如可以用量表、概率、證據(jù)評(píng)估、信息商等方法。美國學(xué)者將診斷報(bào)告的不確定性做成Likert量表[14],根據(jù)診斷報(bào)告中表達(dá)不確定性的詞和短語,例如“possible” “probable”“definite”“uncertain”“l(fā)ikely”“unlikely”“consistent with”“compatible with”“diagnostic of”“cannot exclude”醫(yī)生和患者遵從上述體系建立標(biāo)準(zhǔn),降低了信息丟失、信息誤差,見圖4。
圖4 診斷的不確定性示例
荷蘭學(xué)者從自然語言的完整語義表示的角度提出科學(xué)主張的形式化表示模型,該模型分為4部分:適用情境(Context class)、主語(Subject class)、修飾符(Qualifier)、關(guān)系(Relation type);賓語 (Object class)。為兼顧科學(xué)主張表達(dá)的機(jī)構(gòu)化和完整性,在用“主語-關(guān)系-賓語”三元組表達(dá)核心知識(shí)主張的同時(shí)不能忽略科學(xué)主張的適用情境和修飾符[15],例如在三元組中,“肥胖并伴有代謝異常-同時(shí)發(fā)生-膝蓋骨關(guān)節(jié)炎”的適用情境是人。還有一個(gè)修飾詞是generally,對(duì)應(yīng)著這一事件的發(fā)生概率,即可能性程度??梢詫⒉煌木€索詞轉(zhuǎn)化為概率,見表1。這一詞表可以拓展,如likely、very likely等。從長遠(yuǎn)來看,研究人員可以用上述模式表達(dá)其發(fā)現(xiàn),從而將研究工作直接添加到科學(xué)發(fā)現(xiàn)的復(fù)雜知識(shí)圖譜中。在此基礎(chǔ)上可以開展查詢類似研究、證實(shí)科學(xué)主張、發(fā)現(xiàn)矛盾、提供聚合和可視化、回答問題以及許多其他類型任務(wù)。
表1 將表達(dá)不確定性的線索詞轉(zhuǎn)化為概率
本研究提出可以通過科學(xué)評(píng)論文本的情感計(jì)算方法對(duì)證據(jù)進(jìn)行評(píng)估??茖W(xué)評(píng)論是一類出版物,是指正式發(fā)表的短篇文章(例如觀點(diǎn)、社論、評(píng)論、給編輯的信等),表達(dá)對(duì)所關(guān)注的原始研究支持性或反駁性的觀點(diǎn),或討論其中的方法和發(fā)現(xiàn),是對(duì)證據(jù)重要性和有效性進(jìn)行科學(xué)評(píng)估的一種有效方式。以某種疾病藥物治療為例,早期關(guān)于新藥治療存在大量缺失、不確定、沖突甚至不準(zhǔn)確的證據(jù),通過PubMed獲取被評(píng)論過的疾病相關(guān)文獻(xiàn)作為證據(jù)(Evidence),以及疾病相關(guān)評(píng)論(Comment),構(gòu)建證據(jù)-評(píng)論網(wǎng)絡(luò)(Evidence-Comment Networks)。通過PubTator文本挖掘工具從標(biāo)題/摘要句中抽取并識(shí)別常被評(píng)論的實(shí)體和概念。選擇6組藥物通過探索證據(jù)-評(píng)論網(wǎng)絡(luò)的結(jié)構(gòu)性和情感性信息,詳細(xì)分析并重新生成經(jīng)評(píng)論過濾后的證據(jù)主張。應(yīng)用世界衛(wèi)生組織(World Health Organization,WHO)指南對(duì)于這6類藥物的使用建議作為金標(biāo)準(zhǔn)對(duì)照,以驗(yàn)證評(píng)論用于重塑臨床知識(shí)主張的準(zhǔn)確性、覆蓋度和效率。分析結(jié)果表明,關(guān)于6類藥物的證據(jù)被評(píng)論的積極/消極情感與WHO指南中對(duì)該藥物使用的支持/反對(duì)建議完全一致。評(píng)論主題涵蓋了證據(jù)評(píng)估的所有重要方面,以及方法學(xué)、臨床適用性以外的其他方面,如倫理學(xué)、社會(huì)文化等。在時(shí)效性方面,50%的批評(píng)性評(píng)論比指南發(fā)布時(shí)間平均提前了4.25個(gè)月。評(píng)論中還提示了表明臨床實(shí)踐中藥物使用的不確定性,例如無法確定最佳劑量。筆者認(rèn)為,評(píng)論可以作為一種快速證據(jù)評(píng)估工具,通過評(píng)估現(xiàn)有證據(jù)中的益處、局限性和其他臨床實(shí)踐問題而具有選擇效應(yīng)。科學(xué)評(píng)論可以幫助選擇出重要的證據(jù)并對(duì)其有效性進(jìn)行重塑。建議從信息學(xué)角度建立一個(gè)基于評(píng)論主題和情感取向的評(píng)分系統(tǒng),以充分發(fā)揮科學(xué)評(píng)論在證據(jù)評(píng)估和不確定性決策中的潛力[16]。
3.4.1 用信息熵測(cè)度知識(shí)不確定性程度 信息熵(Information Entropy,IE)概念是用于描述信源的不確定性。借鑒到醫(yī)學(xué)的不確定性中,例如某條知識(shí)的表達(dá)是模糊、不完備甚至沖突、矛盾的,就發(fā)出了這樣的信號(hào)。受陳超美相關(guān)研究啟發(fā)[17],提出用信息熵測(cè)度知識(shí)不確定性程度的方法。信息熵是反映事件不確定性的測(cè)量指標(biāo)。其中事件即表示“模糊修飾”和“爭(zhēng)議矛盾”的線索詞是否出現(xiàn)。1個(gè)知識(shí)單元(三元組)的不確定性,即信息熵U(t),等于與之相關(guān)的n個(gè)句子(n≥1)信息熵的總和:
每個(gè)句子(sentence)的信息熵U(s),與該句子中表示“模糊修飾”和“爭(zhēng)議矛盾”的線索詞(word)的概率p(w)有關(guān):
這類詞如果沒有出現(xiàn)在句子中,則該句子的信息熵為0,即該句子沒有表達(dá)不確定性;這類詞一旦出現(xiàn)在句子中,出現(xiàn)得越多則不確定性越高、信息熵越大。
這類詞的概率p(w)與該詞在所有由句子表示的知識(shí)主張構(gòu)成的知識(shí)體系中的出現(xiàn)頻次有關(guān)。在醫(yī)學(xué)領(lǐng)域中可以用SemMedDB中近2億條能夠抽取出三元組的句子中含每個(gè)詞的句子數(shù)占總句子數(shù)的比例來計(jì)算。例如2020年最新版SemMedDB共含214 721 135個(gè)句子(PubMed標(biāo)題和摘要中的句子),其中“controvers*”(含controversial和controversy)出現(xiàn)在208 264個(gè)句子中,該詞在整個(gè)醫(yī)學(xué)知識(shí)體系中的出現(xiàn)頻率即概率是0.000 969 91。通過計(jì)算表征不確定性的線索詞在SemMedDB中的出現(xiàn)頻次可知,所得信息熵的值與這些線索詞的概率呈正相關(guān)。如possible的信息熵高于controversial是否一定說明用possible表達(dá)的知識(shí)比controversial表達(dá)的知識(shí)的不確定性程度要高,這一問題在科學(xué)機(jī)理上似乎難以解釋清楚,見表2。
表2 表達(dá)假設(shè)推測(cè)和爭(zhēng)議矛盾的線索詞的概率及信息熵
3.4.2 科學(xué)知識(shí)認(rèn)知狀態(tài)不確定性的測(cè)度指標(biāo)和方法 單個(gè)線索詞實(shí)際反映了認(rèn)知狀態(tài)?;诖颂岢隹茖W(xué)知識(shí)認(rèn)知狀態(tài)不確定性的測(cè)度指標(biāo)和方法。采用信息熵來測(cè)度認(rèn)知狀態(tài)的分布是離散還是集中。將認(rèn)知狀態(tài)作為變量X,X的取值總體上可以分為4類:未知的、不清楚;推測(cè)、假設(shè);爭(zhēng)議、矛盾、沖突;未明確表達(dá)不確定性??梢酝ㄟ^計(jì)算每個(gè)三元組的來源語句中4種狀態(tài)的概率分布是集中還是離散來測(cè)度三元組認(rèn)知狀態(tài)的不確定性[18]。但在眾多文獻(xiàn)中,有一小部分知識(shí)主張(含表達(dá)不確定性的判斷)是“原創(chuàng)的”,其余很多文獻(xiàn)中的相關(guān)句子和判斷其實(shí)是照搬效仿的,即受到了早期原創(chuàng)性論斷的影響。如果能從時(shí)序上篩選出“原創(chuàng)的”、早期的主張,只分析這部分?jǐn)?shù)據(jù),可能得出的結(jié)論比“大數(shù)據(jù)”更可靠。今后擬繼續(xù)研究這一問題。
3.4.3 建立未知庫 科學(xué)通過“提出好問題”而進(jìn)步,但生物醫(yī)學(xué)文本挖掘相關(guān)研究尚未重點(diǎn)關(guān)注這些問題。在科學(xué)文獻(xiàn)中發(fā)現(xiàn)科學(xué)問題或未知知識(shí)陳述不僅會(huì)產(chǎn)生新的文本挖掘工具,還會(huì)追蹤學(xué)科中科學(xué)思想的演變,指出現(xiàn)有理論中的差距或缺陷,以及為未來洞察提供新途徑[19]。因此相對(duì)于知識(shí)庫提出建立未知庫的構(gòu)想。知識(shí)庫主要包括先驗(yàn)知識(shí),未知庫則包括未知的知識(shí),如尚未驗(yàn)證的科學(xué)假設(shè)、未解決的醫(yī)療問題或醫(yī)療需求。
DIKW模型中,從數(shù)據(jù)到信息和知識(shí)主要依賴信息學(xué)方法(如本體)和數(shù)據(jù)科學(xué)方法(如機(jī)器學(xué)習(xí));而從知識(shí)到智慧要解決的是如何在不確定性的條件下做出最佳決策的問題。將知識(shí)/證據(jù)的不確定性測(cè)度和結(jié)構(gòu)化知識(shí)圖譜相結(jié)合,為三元組配置置信度并提出置信度計(jì)算方法。對(duì)于高確定性的知識(shí)可由機(jī)器做決策;對(duì)于低確定性知識(shí)要觸發(fā)人機(jī)交互,必須由機(jī)器和醫(yī)生(科學(xué)家)一起做決策,以此提高知識(shí)驅(qū)動(dòng)的決策支持效率。這也是將情報(bào)學(xué)與醫(yī)學(xué)信息學(xué)進(jìn)行交叉研究的一個(gè)方向。
歡迎訂閱 歡迎賜稿