于 霜 許 鑫
(華東師范大學(xué)信息學(xué)系 上海 200241)
?
自閉癥問答知識庫構(gòu)建與應(yīng)用
于 霜 許 鑫
(華東師范大學(xué)信息學(xué)系 上海 200241)
闡述自閉癥研究現(xiàn)狀,對比分析中美自閉癥網(wǎng)絡(luò)服務(wù)的差距,提出利用國外主流的社會化問答社區(qū)數(shù)據(jù),構(gòu)建自閉癥問答知識庫,介紹知識庫的數(shù)據(jù)采集、管理、服務(wù)流程及關(guān)鍵問題,給出知識服務(wù)應(yīng)用實例。該知識庫構(gòu)建為用戶提供有針對性、高價值的知識服務(wù),提高檢索效率。
自閉癥;知識服務(wù);醫(yī)護支持;知識庫;問答系統(tǒng)
2014年美國疾病控制與預(yù)防中心(Centers for Disease Control and Prevention,CDC)發(fā)布的最新自閉癥發(fā)病率統(tǒng)計報告“自閉癥障礙監(jiān)察網(wǎng)絡(luò)”(Autism and Developmental Disabilities Monitoring Network,ADDM)顯示:2002年出生的孩子自閉癥發(fā)病率為68∶1,與1972年的2 500∶1相比,發(fā)病率翻了37倍[1]。這一報告在網(wǎng)絡(luò)上引起一片熱議,各大媒體爭相報道。同年10月17日中國教育學(xué)會家庭教育專業(yè)委員會自閉癥研究指導(dǎo)中心聯(lián)合五彩鹿兒童行為矯正中心和新華公益共同發(fā)布的“中國自閉癥兒童發(fā)展?fàn)顩r報告”也顯示,近年來自閉癥發(fā)病率呈不斷上升的趨勢,據(jù)推算中國自閉癥患者可能超過1 000萬[2]。
由于國內(nèi)自閉癥治療機構(gòu)稀少且治療費用高昂,因此網(wǎng)絡(luò)搜索成為相關(guān)人群尋求幫助的主流方式。然而我國健康信息質(zhì)量不高,可信程度較差[3],人們的健康信息素養(yǎng)有待提高[4];而且我國對自閉癥的認(rèn)識比發(fā)達國家晚,對自閉癥的干預(yù)也缺乏深度的理論理解與循證層面上的操作經(jīng)驗。對于自閉癥的治療,個人的力量是微薄的,需要政府、社會甚至是網(wǎng)絡(luò)社區(qū)承擔(dān)起相應(yīng)的責(zé)任。對于政府,給予自閉癥患者合理的法律保護和補助措施是必要的;對于社會,公平對待自閉癥患者,創(chuàng)造一個交流平臺是重要的;對于網(wǎng)絡(luò)社區(qū),承擔(dān)交流平臺的角色,為自閉癥患者提供其所需要的信息,為自閉癥的治療研究提供充分的素材也是同樣重要的。
我國與發(fā)達國家在自閉癥的研究方面還相距甚遠,并且網(wǎng)絡(luò)社區(qū)交流平臺還未充分發(fā)揮功效,國內(nèi)的自閉癥信息和醫(yī)療資源遠遠滿足不了龐大的自閉癥人群的需求。鑒于這樣的情況,如何為國內(nèi)自閉癥患者提供一些正確的指導(dǎo)?如何給予國內(nèi)自閉癥醫(yī)護人員更多的信息支持?本文為此進行探索,利用國外發(fā)展成熟的自閉癥問答社區(qū)數(shù)據(jù)構(gòu)建了一個自閉癥問答知識庫,通過其提供的知識服務(wù)來滿足自閉癥患者的多重信息需求,提高其知識素養(yǎng),減輕醫(yī)護人員的咨詢負(fù)擔(dān)。
自閉癥又稱孤獨癥或者自閉癥譜系障礙(Autism Spectrum Disorders, ASD), 是一種小兒廣泛性的發(fā)展障礙[5]。1943年約翰霍布金斯大學(xué)的教授Leo Kanner在“情感交流的自閉癥障礙”(Autistic Disturbances of Affective contact) 一文中首次經(jīng)臨床研究使用“自閉癥”一詞并描述了其相關(guān)癥狀[6]。目前普遍認(rèn)為自閉癥是腦功能障礙所致的發(fā)育障礙,以社會交往障礙、言語發(fā)育障礙、興趣范圍狹窄和刻板重復(fù)的行為方式為基本臨床特征的一組行為癥候群[7]。自Kanner發(fā)現(xiàn)并命名自閉癥以來,自閉癥的相關(guān)探索就從未止步。1978年Rutter等觀察歸納了兒童自閉癥的3個主要特征:人際關(guān)系障礙、語言交流障礙和自覺僵化[8],對自閉癥的診斷提出了依據(jù);1991年Jorde等研究指出自閉癥的產(chǎn)生不是由某個單一基因直接導(dǎo)致的[9];2000年Davidovitch等提出環(huán)境因素會影響自閉癥的產(chǎn)生[10]等。此外,諸多學(xué)者在自閉癥的原因、診斷或治療方面也進行了探索,推動了自閉癥研究的進展,但是對自閉癥網(wǎng)絡(luò)服務(wù)的研究未見報道。
目前,我國在健康信息服務(wù)方面的發(fā)展還落后于發(fā)達國家[11],自閉癥服務(wù)網(wǎng)站和問答平臺發(fā)展?fàn)顩r也與美國有較為顯著的差距,見表1,自閉癥服務(wù)網(wǎng)站稀少而又缺少權(quán)威性,問答平臺信息內(nèi)容雜亂而又缺乏生活指導(dǎo)。近幾年我國自閉癥發(fā)病人數(shù)逐步增多,人們對自閉癥網(wǎng)絡(luò)查詢服務(wù)的需求不斷增大,然而自閉癥的研究還未充分利用大數(shù)據(jù)時代用戶健康信息的價值[12],這顯然已成為自閉癥服務(wù)最為薄弱的環(huán)節(jié)。本文利用國外發(fā)展較為成熟的自閉癥社區(qū)問答數(shù)據(jù)構(gòu)建知識庫,進而為社會公眾提供專業(yè)自閉癥知識,一方面滿足自閉癥人群的咨詢需求,減輕機構(gòu)咨詢的負(fù)擔(dān),另一方面更好地利用網(wǎng)絡(luò)資源實現(xiàn)了網(wǎng)絡(luò)健康信息服務(wù)的智能化。
表1 中美自閉癥網(wǎng)絡(luò)服務(wù)對比
4.1 總體框架
本文將一般的知識庫構(gòu)建與自動問答的需求和實現(xiàn)流程相結(jié)合,提出問答知識庫構(gòu)建框架,見圖1。
圖1 問答知識庫構(gòu)建框架
4.2 明確知識庫需求
知識庫的職能是根據(jù)用戶提問,利用已有的相關(guān)回答給予用戶回饋,達到向公眾提供信息服務(wù)、普及知識的目的。而本文的研究分析客觀上需要圍繞知識庫平臺的信息資源展開,因此知識庫構(gòu)建的合理性和有效性直接影響是否符合研究需求,即知識庫的構(gòu)建應(yīng)為任務(wù)導(dǎo)向型,使得用戶可以有效、便捷地利用該知識庫。
4.3 知識庫的數(shù)據(jù)采集與管理
結(jié)合知識庫的構(gòu)建目標(biāo),數(shù)據(jù)來源應(yīng)具備針對性、準(zhǔn)確性和應(yīng)用普遍性的特點,因此知識庫的問答數(shù)據(jù)來源值得認(rèn)真尋找。此外,利用已有的問答記錄構(gòu)建知識庫來提供自動問答的信息服務(wù),關(guān)鍵在于對用戶輸入的問句信息的合理組織和整理,準(zhǔn)確、快速地為用戶做出回答。為達到這一目的本文首先依據(jù)問答知識的使用頻次構(gòu)建了一個高頻訪問知識庫(extended Frequently Asked Questions,eFAQ),然后把其他問答信息即非高頻訪問知識庫作為基礎(chǔ)知識庫,旨在通過eFAQ和基礎(chǔ)知識庫的構(gòu)建為用戶提供更加完善的知識服務(wù)。
4.4 知識庫的知識服務(wù)流程
基于問答知識庫的知識服務(wù)實現(xiàn)主要經(jīng)歷以下5個步驟:步驟1,問句匹配:當(dāng)用戶輸入一條問句A,系統(tǒng)首先將問句A與eFAQ知識庫進行快速匹配。如果直接匹配則返回其對應(yīng)的數(shù)據(jù),進入步驟5;如果沒有匹配則進入步驟2。步驟2,問句預(yù)處理:當(dāng)問句A到來之后,系統(tǒng)先對問句A進行處理,包括剔除停用詞和同義詞轉(zhuǎn)換等,以方便步驟3的進行。步驟3,問句相似度計算:用處理好的問句A依次和基礎(chǔ)知識庫內(nèi)處理好的問句計算相似度,尋找與問句A最相近的問句。若問句之間表現(xiàn)為相似,即大于已設(shè)定的閥值,則返回其系統(tǒng)內(nèi)相應(yīng)的數(shù)據(jù),否則進入步驟4。步驟4,相關(guān)推薦:利用處理好的問句A的信息到網(wǎng)絡(luò)尋求相關(guān)信息,用網(wǎng)絡(luò)爬蟲對其網(wǎng)面內(nèi)容進行抽取,返回其內(nèi)容和鏈接,為用戶提供服務(wù),再進入步驟5。步驟5,答案返回:將已解決的問句A的答案進行可視化處理,在系統(tǒng)中返回,呈現(xiàn)給用戶可用的信息。
5.1 基礎(chǔ)知識庫與eFAQ知識庫構(gòu)建
為滿足廣大用戶的多方面需求,基礎(chǔ)知識庫的建立最重要的就是覆蓋面廣、信息全面和準(zhǔn)確。因此本文根據(jù)PubMeb Health[14]和美國自閉癥&埃斯博格綜合癥協(xié)會[15]對自閉癥的描述與分類,進一步完善出一個更加具體的分類體系,見表2。根據(jù)這個分類體系,選取合適的問答數(shù)據(jù)構(gòu)建基礎(chǔ)知識庫,然后在此基礎(chǔ)上利用自閉癥領(lǐng)域?qū)<覍@些問題進行判斷,分別從表2所述10類中選取常見問題,收錄進高頻訪問知識庫eFAQ。
表2 自閉癥類目體系及分類策略
5.2 問句處理及相似度計算
首先對問句進行預(yù)處理,即根據(jù)編制的停用詞表剔除停用詞和對受人稱、時態(tài)等影響的單詞進行同義詞替換,然后計算兩個問句之間的相似度,這時需提取每個問句的關(guān)鍵詞并賦予相應(yīng)的權(quán)重。本文選擇經(jīng)典的詞頻(Term Frequency, TF)算法,計算公式如下:
(1)
式中:TFij表示詞條i在問句qj中出現(xiàn)的頻率。ni,j表示該詞在問句qj中的出現(xiàn)次數(shù);Σknkj表示在問句qj中所有字詞的出現(xiàn)次數(shù)之和。在此基礎(chǔ)上,可以構(gòu)建問句i和問句j的關(guān)鍵詞集合,即Ki和Kj。
問句相似度,顧名思義就是問句之間的相似程度。本文基于問句的關(guān)鍵詞并采用夾角余弦(Cosine)算法來計算,公式如下:
(2)
式中i和j分別代表問句i和j;k代表關(guān)鍵詞,且k∈ki,k∈kj。于是可以計算得到問句之間的相似度。
6.1 自閉癥問答數(shù)據(jù)準(zhǔn)備
近年來,Yahoo!Answers作為全美最受歡迎的問答社區(qū)[16],因其龐大的規(guī)模和豐富的高質(zhì)量信息成為眾多研究者搜集數(shù)據(jù)的來源[17]。本文按Autism/Autistic的檢索式,收集了2013-01-01到2013-10-01的數(shù)據(jù),篩選其中1 000條相關(guān)數(shù)據(jù),具體分布,見表3。這1 000條數(shù)據(jù)構(gòu)成了基礎(chǔ)信息知識庫,在此基礎(chǔ)上本文邀請自閉癥專家在這些數(shù)據(jù)中按類別共篩選出了50條常見的自閉癥提問數(shù)據(jù)構(gòu)成eFAQ知識庫。
表3 Yahoo!Answers中自閉癥采集數(shù)據(jù)分布
6.2 實例演示及分析
在構(gòu)建好知識庫的基礎(chǔ)上就可以為用戶提供知識服務(wù)。假設(shè)一個用戶在系統(tǒng)中輸入一個問題“what is autism?”,系統(tǒng)將首先到eFAQ知識庫中匹配,若剛好用戶的問題在eFAQ知識庫中完全匹配,則將庫中的答案返回給用戶,若該問題不在eFAQ知識庫中,則會自動到基礎(chǔ)知識庫中查找并返回其最相關(guān)的答案。如用戶在系統(tǒng)中輸入“What do you think the worst mental illness to have ?”,則系統(tǒng)將會找出其最相關(guān)問題的答案反饋給用戶“I would say, schizophrenia,annorexia/bulimia,multiple personality(sometimes),autism(all types) and depression/bordeline/bipolar, I really can′t choose one but deffinelty annorexia and autism and schitzo in my top 3”。由于目前知識庫構(gòu)建的知識存儲量有限,不是所有的問題都能在知識庫內(nèi)找到答案,所以本文提出利用龐大的網(wǎng)絡(luò)資源來為用戶解決難題,利用網(wǎng)絡(luò)爬蟲抽取網(wǎng)絡(luò)中的相關(guān)信息反饋給用戶,提供相關(guān)鏈接以便用戶進一步查詢信息。如用戶在系統(tǒng)中輸入“有沒有關(guān)于自閉癥治療的書籍?”,在知識庫中沒有相關(guān)問題,系統(tǒng)則會自動在網(wǎng)絡(luò)中搜索該問題并反饋其相關(guān)網(wǎng)頁的文字和相關(guān)鏈接“《不尋常的治療》是由(美)簡·海利編著,蘇小波,焦玉梅譯,用平實易懂的語言來描述艾瑞克森的療法,幫助心里出現(xiàn)困難的患者治療心理問題,快速有效?!獢?shù)據(jù)來源互動百科,相關(guān)鏈接為http://www.baike.com/wiki/%E3%80%8A%E4%B8%8D%E5%AF%BB%E5%B8%B8%E7%9A%84%E6%B2%BB%E7%96%97%E3%80%8B”。該知識庫不僅充分利用了eFAQ和基礎(chǔ)知識庫的信息為用戶服務(wù),而且還利用了網(wǎng)絡(luò)爬蟲對網(wǎng)絡(luò)中的相關(guān)信息進行抓取,最大限度地滿足了用戶的需求,實現(xiàn)用戶信息查找的一站式服務(wù)。
從自閉癥研究發(fā)展來看,問答知識庫結(jié)合已有的問答數(shù)據(jù)和廣泛的網(wǎng)絡(luò)資源的構(gòu)思將會成為一種趨勢。本文基于我國目前自閉癥落后的研究現(xiàn)狀和已有的研究成果,通過對自閉癥問答知識庫的簡單實現(xiàn)和對其信息服務(wù)的分析,提出了問答知識庫的構(gòu)建流程,為自閉癥的網(wǎng)絡(luò)服務(wù)提供了一個新的研究方向。雖然本文構(gòu)建的知識庫還存在著諸多不足,但是這種洋為中用,取長補短,充分利用網(wǎng)絡(luò)資源實現(xiàn)知識服務(wù)的思想值得借鑒。在自閉癥知識服務(wù)上雖然任重而道遠,但是通過不懈努力終會實現(xiàn)對自閉癥患者的在線支持和為醫(yī)護人員服務(wù)提供支持的目標(biāo)。
1 CDC′s Autism and Developmental Disabilities Monitoring Network[EB/OL].[2014-10-20].http://www.cdc.gov/ncbddd/autism/states/addm-fact-sheet_508.pdf.
2 中國自閉癥兒童發(fā)展?fàn)顩r報告[EB/OL].[2014-12-27].http://www.guduzheng.net/2014/10/38086448.html.
3 宋立榮,齊娜,張群.網(wǎng)絡(luò)健康信息傳播的信息質(zhì)量問題思考[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(10):8-12.
4 張士靖,杜建.健康信息素養(yǎng)應(yīng)成為中國公眾健康素養(yǎng)促進的關(guān)鍵點[J]. 醫(yī)學(xué)信息學(xué)雜志, 2010,31(2):45-48.
5 American Psychiatric Association. Diagnostic and statistical manual of mental disorder[M].Washington DC: American Psychiatric Publishing,2013.
6 Kanner L. Autistic Disturbances of Affective Contact[J]. Nervous Child, 1943,38( 2): 217-250.
7 王安蓮,劉志榮. 自閉癥研究現(xiàn)狀[J]. 安徽預(yù)防醫(yī)學(xué)雜志, 2013,19(5):367-382.
8 楊蕢芬.自閉癥學(xué)生之教育[M].臺北:心理出版社, 2005.
9 Jorde L B, Hasstedt S J, Ritvo E R, et al .Complex Segregation Analysis of Autism[J]. Am J Hum Genet, 1991, (49):932-938.
10 Davidovitch M, Glick L, Holtzman G, et al.Developmental Regression in Autism: maternal perception[J]. J Autism Dev Disord, 2000, (30):113-119.
11 沈麗寧.國外健康信息服務(wù)現(xiàn)狀掃描及啟示[J]. 醫(yī)學(xué)信息學(xué)雜志, 2010,31(6):38-51.
12 彭琰,嚴(yán)莉,朱紅.大數(shù)據(jù)時代用戶健康信息學(xué)的價值[J]. 醫(yī)學(xué)信息學(xué)雜志, 2014,31(1):2-6.
13 張會會,馬敬東,邸金平.網(wǎng)絡(luò)健康信息質(zhì)量評估研究綜述[J]. 醫(yī)學(xué)信息學(xué)雜志, 2014,35(4):2-5.
14 PubMeb Health[EB/OL].[2014-12-02].http://www.ncbi.nlm.nih.gov/pubmedhealth/PMH-0002494/.
15 US Autism&Asperger Association[EB/OL].[2014-12-02].http://www.usautism.org/tv/.
16 Gazan R. Social Q&A[J]. Journal of the American Society for Information Science and Technology, 2011, 62(12): 2301-2312.
17 Kim S, Oh S. Users′Relevance Criteria for Evaluating Answers in a Social Q&A Site[J]. Journal of the American Society for Information Science and Technology, 2009, 60(4): 716-727.
Construction and Application of Autism Q&A Knowledge Base
YUShuang,XUXin,
DepartmentofInformationScience,EastChinaNormalUniversity,Shanghai200241,China
The paper firstly introduces the research status of autism and analyzes the gap between China and the US in autism network service, proposes using the mainstream socialized Q&A community data in foreign countries to construct an autism Q&A knowledge base. It introduces data collection, management, service process and key issues of the knowledge base and gives application examples of the knowledge services. Construction of this knowledge base can provide targeted and valuable knowledge services to users and can help enhance the retrieval efficiency.
Autism; Knowledge service; Health care support;Knowledge base;Q&A system
2015-04-20
于霜,碩士研究生;通訊作者:許鑫,副教授,博士。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.08.013