熊 晶,鐘 珞,王愛民,
(1.安陽師范學院計算機與信息工程學院,河南 安陽455000;2.武漢理工大學計算機科學與技術學院,湖北 武漢430070)
甲骨文距今已有3 500 多年的歷史,記載了商代王室的占卜記錄,其歷史內(nèi)容非常豐富,具有重要的史料價值[1]。自1899年甲骨文首次發(fā)現(xiàn)以來,經(jīng)過110多年的發(fā)展,甲骨文的研究已形成一門具有嚴密規(guī)律、有豐富研究資料和多方面研究課題的學科—甲骨學。甲骨學和語言文字學、歷史學、考古學、古代科學史、歷史文獻學、人類學等學科有著緊密的聯(lián)系[2],因此研究甲骨文不能孤立地以釋讀甲骨片上的文字為對象,而應充分考慮其與相關學科的關系。然而,傳統(tǒng)的甲骨文研究方式難度極大,培養(yǎng)一名甲骨文專家需要一二十年甚至更長的時間[2],這嚴重阻礙了甲骨文的研究進展。計算甲骨學利用信息技術改善傳統(tǒng)的研究方式,綜合語言學、邏輯學、哲學、計算機科學、人工智能、數(shù)學和統(tǒng)計學等學科來進行甲骨文信息處理的研究,是解決或緩解這一問題的有效途徑。
目前,甲骨文信息處理研究取得了較多成果,包括甲骨文字庫、計算機輔助甲骨綴合、甲骨文語料標注、甲骨文字編輯、甲骨文機器翻譯等多方面[3],安陽師范學院在這些方面做了一些有意義的工作,積累了大量的多源異構的甲骨文數(shù)據(jù)集[1]。但是,這些研究均是針對甲骨文字本身的,而忽略了與甲骨文息息相關的其它學科背景知識,也忽略了甲骨文的知識演化歷程,如甲骨文、金文、小篆、隸書、楷書、草書、行書等書體變化,漢字結構上的自然流變,以及與現(xiàn)代漢語的傳承關系等。目前這一問題的解決依賴于甲骨學專家的研究經(jīng)驗及其學術積累,但這是一個長期的過程;而且,專家的知識無法有效地共享和重用,往往專家需要重復解決同一個問題。如何采取有效的手段充分共享已有的研究成果和專家知識?知識圖譜具有“圖”和“譜”的雙重特性,既是可視化的知識圖形,又是序列化的知識譜系,可以勝任這一工作。因此,本文的研究目標是通過發(fā)現(xiàn)實體及實體間的關聯(lián)關系,構建甲骨文知識圖譜KM (Knowledge Mapping)。
目前,知識圖譜的研究有兩大主流:基于文獻計量學的科學知識圖譜MKD (Mapping Knowledge Domains)和以Google為代表的知識圖譜KG(Knowledge Graph)。
MKD 是將應用數(shù)學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現(xiàn)分析等方法結合,用可視化的圖譜形象地展示學科的核心結構、發(fā)展歷史、前沿領域以及整體知識架構的多學科融合的一種研究方法[4]。MKD 是目前計量學等學科關注的前沿學術領域之一,被廣泛應用于社會科學與自然科學領域,并已從情報學迅速擴散到其它學科領域[5]。國外具有影響力的機構有德萊克斯大學、布魯內(nèi)爾大學、美國的圣蒂亞國家實驗室、荷蘭的伊拉茲馬斯大學等[6],其中德萊克斯大學的陳超美[7]被認為是該領域的領軍人物,其開發(fā)的知識圖譜分析軟件CiteSpace[8]獲得了廣泛的應用。
國內(nèi),大連理工大學、武漢大學、中國科學院、浙江樹人大學、南京大學、天津師范大學、河北大學等單位研究實力較強[9],其中大連理工大學[10]最早從科學計量學視角引進MKD 方法,成為推動國內(nèi)MKD 研 究 的 先 行 者[9]。研 究 表 明,MKD 既 可從時間軸縱向揭示特定領域的不同子領域的研究演化模式及其相互關系;也可以從橫向比較中揭示研究主題接近所屬領域熱點問題的程度,進而預測領域知識的發(fā)展趨勢。但是,一方面,目前相關研究均以文獻計量為本,側重分析學科結構及布局、研究領域進展、重點研究方向及熱點、主流研究機構和學者及其合作網(wǎng)絡等宏觀知識群,而在分析領域內(nèi)部微觀知識方面研究較少;另一方面,MKD的分析關系大多是直接或間接關聯(lián)關系,無法表達甲骨文知識中深層次的語義關系,如商王世系關系、貞人與商王的關系、方國地理位置關系、祭祀對象關系等。因此,僅采用MKD 不足以表達甲骨學領域中的微觀知識。
自2012年Google KG 融入Google搜索引擎之后,迅速成為研究熱點,引發(fā)了大規(guī)模知識庫的又一輪研究熱潮。KG 是一個描述客觀世界有關人物、地點和事物以及它們之間的關聯(lián)關系的系統(tǒng),其結點表示實體或概念,通過邊連接實體/概念之間的語義關系。因此,構建KG 的關鍵是確定實體及其關系。目前,大量研究是利用網(wǎng)絡資源尤其是Wiki類資源和鏈接開放數(shù)據(jù)LOD (Linking Open Data)[11],通 過 抽 取 實 體 及 其 關 系 來 構 建KG。文獻[12]基于Wikipedia實現(xiàn)了社交媒體的實體抽取、鏈接、分類及標注;文獻[13]基于Wikipedia實現(xiàn)概念、實體及關系的抽??;文獻[14]通過抽取網(wǎng)頁中的文本、表格數(shù)據(jù)、網(wǎng)頁結構和人工標注信息進行融合,構建了一個網(wǎng)絡級的概率知識庫Knowledge Vault;Zhishi.me[15]通過整合百度百科、互動百科和中文維基百科資源構建了中文LOD;文獻[16]基于中英文維基百科以及百度百科和互動百科構建了跨語言知識圖譜;文獻[17]研究了維基百科中實體間缺失語義關系的發(fā)現(xiàn)算法;基于跨語言知識庫;文獻[18]通過先給定少量的種子鏈接,再利用概念標注方法發(fā)現(xiàn)新的鏈接,實現(xiàn)了知識的擴充。
綜上所述,目前KG 的構建方法,大多是綜合Wiki、網(wǎng)絡知識庫、搜索日志、LOD、社會網(wǎng)絡、眾包等資源實現(xiàn)實體抽取和實體鏈接,并利用本體進行知識映射或知識融合。但是,在線的甲骨學數(shù)據(jù)及知識描述資源極少,絕大多數(shù)數(shù)據(jù)均以不同的形式存儲在各研究機構,因此針對這類線下數(shù)據(jù)需要重新考慮知識實體的發(fā)現(xiàn)及關系挖掘方法。
由于甲骨文的古籍特性,使得甲骨文研究必須充分依賴大量的文獻資料,而MKD 在文獻計量方面極具優(yōu)勢。甲骨文研究離不開相關的輔助學科,如借助考古學,去解決甲骨出土問題;借助歷史學和文獻學,去解決甲骨文中的殷商歷史問題;借助語言學,去解決甲骨文字的問題。同時,甲骨文研究又促進了相關學科的發(fā)展,并延伸到其它學科領域。這些學科的文獻資料對甲骨文的研究起到積極作用。
但是,MKD的分析關系大多是直接或間接的關聯(lián)關系,無法表達甲骨文知識中深層次的語義關系,如商王世系關系、貞人與商王的關系、方國地理位置關系、祭祀對象關系等,而且甲骨文中還存在大量需借助推理獲取的潛在關系,如甲骨字考釋、甲骨文分期斷代、殘辭擬補等。因此,引入本體對MKD進行優(yōu)化,提出圖1所示的實體關系發(fā)現(xiàn)框架。
Figure 1 Entity relation discovery framework of OBI knowledge mapping圖1 甲骨文知識圖譜實體關系發(fā)現(xiàn)框架
現(xiàn)有的MKD 繪制方法較多,如共引分析法、共詞分析法、聚類分析法、社會網(wǎng)絡分析法等。在眾多的方法中,具有知識表達功能的元素只有引文、分類和詞(短語),如基于引文的共引分析和基于主題詞的共詞分析等。引文指向的是一篇文獻,代表的是一條法則、規(guī)律或一個問題,是若干知識單元的集合,所以基于引文的分析是不能反映微觀層次的知識關聯(lián)的。分類一般代表的是一個綜合的知識領域,即使是比較詳細的分類,對微觀知識的反映也是有限的[19]。共詞分析方法通過分析在同一個文本主體中的關鍵詞對共同出現(xiàn)的形式,確定文本所代表的學科領域中主題間的關系,從而分析該領域的科學發(fā)展[20]。為了明確分析知識之間的關聯(lián)關系,只有選擇知識繼承與發(fā)展的最小功能單元——詞作為分析對象[19]。因此,選擇共詞分析法描述知識之間的聯(lián)系。
本文選擇余弦函數(shù)作為共詞關系RC(Relation of Co-word)的計算方法。設存在關鍵詞集合Di=(d1i,d2i,…,dni)T和 關 鍵 詞 集 合Dj=(d1j,d2j,…,dnj)T,其中d1i和d1j均為 文獻中 的關鍵詞,則Di與Dj之間由余弦函數(shù)計算的RC表示為:
用于建立RC的詞往往是來自于文獻的關鍵詞列表,或者從標題、摘要或全文中提取的主題詞,它們體現(xiàn)的是詞的共現(xiàn)關系,在一定程度上可以描述同一或相近主題之間的知識關聯(lián)。但是,RC缺乏深層次的語義描述功能,尤其是在描述甲骨文領域知識中人、事、物、時空之間的語義關系方面無能為力。而本體作為共享概念模型的形式化規(guī)范說明[21],可以精確定義領域內(nèi)的概念及它們之間的關系,可以很好地彌補RC在語義表達能力上的不足。
在甲骨文信息處理的研究成果基礎上構建甲骨文本體庫,可為MKD 提供概念模型和邏輯基礎。甲骨文本體庫主要包括甲骨文文獻本體、甲骨文內(nèi)容本體和甲骨文常識本體三個本體[1]。其中,甲骨文文獻本體描述的是關于甲骨文研究論文及專著的資源本體,如圖2a所示;甲骨文內(nèi)容本體是描述經(jīng)甲骨文專家及歷史學家考釋出來的,反映商代社會國家機構、政治、社會、軍事、文化、科技、經(jīng)濟等內(nèi)容及其相互關系的知識庫,如圖2b所示;甲骨文常識本體描述的是甲骨文基礎知識,包括甲骨文發(fā)現(xiàn)歷史、考古記錄、文字特征、語法知識等,如圖2c所示。
Figure 2 OBI ontology library圖2 甲骨文本體庫
基于本體實現(xiàn)實體消歧和語義擴展,需要考慮語義相似度和語義相關度的計算。語義相似度是指兩個實體(或概念)之間存在某些共同特性。相似度計算通??紤]is-a關系;語義相關度是指兩者之間可能不存在相似性,但是可以通過某些其它關系關聯(lián)起來。相關度計算通??紤]is-a之外的關系,如part-of關系等[22]。
甲骨文專家研究發(fā)現(xiàn)甲骨文同現(xiàn)代漢語有許多相同之處,如造字法、用字法、詞的分類和句型等。商代人對事物的認識也與現(xiàn)代人大同小異:甲骨文所載卜辭大體可分為名物類(包括地理、天象、建筑、時間、空間、方位、物品、人、鬼神、動植物、組織、稱謂等)、事件類(包括生產(chǎn)、生活、軍事行動、占卜、祭祀等)、性質(zhì)狀態(tài)類、數(shù)量類等。HowNet[23]規(guī)定了現(xiàn)代漢語最基本的運算單元,即萬物(包括物質(zhì)和精神)、部件、屬性、屬性值、事件、時間和空間等。HowNet在語義相似度和相關度計算方面有著廣泛的應用,因此擴展HowNet體系的描述范圍,構建“甲骨文知網(wǎng)OBIHownet(Oracle Bone Inscriptions HowNet)”,將甲骨文同現(xiàn)代漢語在語義上進行融合,實現(xiàn)HowNet在甲骨文方面的語義計算。OBIHownet構建步驟參見文獻[1]。
目前我們已添加300個甲骨詞條到HowNet,擴充后的HowNet在語義相似度方面的對比結果如圖3和圖4所示。
Figure 3 Semantic similarity computing based on HowNet圖3 HowNet語義相似度計算
圖3顯示,HowNet中“日”“月”的語義相似度達到0.95,這是因為該例中“日”和“月”均是“天體”的實例,因此相似度很高。
Figure 4 Semantic similarity computing based on OBIHownet圖4 “甲骨文知網(wǎng)”的語義相似度計算
圖4顯示,OBIHownet在HowNet中加入了甲骨文詞條“日祭”后,與“日”的相似度只有0.000 624。這個結果與甲骨文知識是吻合的,因為“日祭”是一種祭祀事件,是指對太陽神的祭拜,從而與作為“天體”實例的“日”相似度很低。
實驗表明,通過構建OBIHownet進行語義相似度和相關度的計算是可行的。
利用知識推理可以發(fā)現(xiàn)更多的隱含知識,并挖掘?qū)嶓w間更多的潛在語義關聯(lián)。本文的知識推理包含兩個部分:一是基于本體關系的推理,即利用甲骨文本體已經(jīng)定義好的關系(既有kind-of、instance-of、property-of、part-of、equivalence等通用關系,也有甲骨學領域涉及的商王世系、占卜事件、地理位置、時間空間等復雜的語義關系)和公理進行推理,還可以充分利用關系的傳遞性、自反性等進行推理;二是基于規(guī)則的推理,即需要書寫顯式的規(guī)則來表示本體無法直接完成的推理,如因果關系、甲骨字考釋、甲骨文分期斷代、殘辭擬補等。
基于本體關系的推理參見作者的前期研究[24]?;谝?guī)則的推理需要建立有效的甲骨文知識規(guī)則庫,利用本體推理機,獲取更多的隱含語義信息。例如,假設主祭者x的祭祀對象是y,而y是z的子孫后代,則x也會祭祀z。例如,“祖甲”祭祀“武丁”,而“武丁”又是“小乙”“祖丁”“祖辛”等商王的后代,則“祖甲”也會祭祀“小乙”“祖丁”“祖辛”等。規(guī)則表示如下:
RULE:(?xsacrifice?y),(?yhasAncestor?z)→(?xsacrifice?z)
將規(guī)則寫入obi.rules文件,再利用Jena實現(xiàn)推理,關鍵代碼如下:
基于本體關系和規(guī)則的推理,可以得到層次關系RH(Relation of Hierarchy)、語義關聯(lián)關系RR(Relation of Relevance),將其與共詞關系RC進行融合。融合時RH的權重系數(shù)Wrh、RR 的權重系數(shù)Wrr和RC的權重系數(shù)Wrc可以通過下列公式[19]計算:
其中,rh_max、rr_max和rc_max分別為關鍵詞集合的層次關系矩陣、關聯(lián)關系矩陣和共詞關系矩陣中非對角線的最大值,且滿足rh_max+rr_max+rc_max=1。
關系融合即是將三類關系矩陣進行合并,合并操作時,先將RC分別與RH、RR進行合并,再將三者進行融合。
以CNKI收錄的文獻為數(shù)據(jù)來源,用“甲骨文”作為主題詞檢索1986~2015年的文獻,從檢索結果中隨機選取350篇進行實驗。由于文獻的標題、關鍵詞和摘要已經(jīng)能反映出甲骨文知識的大部分內(nèi)容,因此實驗中只取文獻的標題、關鍵詞和摘要進行共詞分析,而不需要文獻全文。利用CiteSpace工具,采用余弦函數(shù)進行的共詞分析片段如圖5所示。圖5所示的結果存在的最大問題是未考慮語義關系對關鍵詞的優(yōu)化,如“比較”“字符”“字頻”等對表示甲骨文知識的意義不大,應該剔除;相反,有助于表示甲骨文知識的同義詞、上位詞、下位詞等關系則沒有體現(xiàn)出來。因此,利用本體進行優(yōu)化并與RC進行融合,得到的結果如圖6所示。
Figure 5 Co-word analysis of OBI knowledge mapping圖5 甲骨文知識圖譜的共詞分析片段
Figure 6 OBI knowledge mapping of co-word relations and ontology relations圖6 共詞關系與本體關系融合的知識圖譜片段
圖6 結果較之圖5 有更為豐富的語義關系。如通過圖5中的“武丁”可以獲取圖6中的“婦好”,因為本體中定義了“武丁”的妻子是“婦好”這一關系;利用本體關系,通過“刻辭”能獲取“卜辭”;通過“粟”,可在本體中得到其屬于“農(nóng)業(yè)”,進而得到“麥”“大豆”“黍”等更多的農(nóng)作物。
實驗中還發(fā)現(xiàn),利用本體可以剔除與甲骨文領域無關的信息。如“甲骨文軟件中國公司的差異化競爭戰(zhàn)略研究”“甲骨文公司的應用產(chǎn)品發(fā)展策略研究”等文獻的信息不會出現(xiàn)在甲骨文KM 中,原因是甲骨文本體限定了描述領域為古文字中的“甲骨文”而不是軟件公司“甲骨文”。
本文針對甲骨文專家知識的共享及重用程度低的問題,提出了構建甲骨文知識圖譜的解決方案,其關鍵技術是發(fā)現(xiàn)知識圖譜中實體的關聯(lián)關系。甲骨文文獻是甲骨文研究的第一手資料,基于MKD 的共詞分析方法可以發(fā)現(xiàn)甲骨文知識實體及實體之間的關系,利用本體的語義優(yōu)勢,融合MKD 共詞關系,從而發(fā)現(xiàn)更多的隱藏語義關系。在下一步研究計劃中,將擴充本體庫及OBIHownet,并考慮利用規(guī)則挖掘技術來減輕手工書寫規(guī)則的負擔。
[1] Xiong Jing,Gao Feng,Wu Qin-xia.Research on semantic mining for large-scale oracle bone inscriptions foundation data[J].New Technology of Library and Information Service,2015,31(2):7-14.(in Chinese)
[2] Jiang Ming-h(huán)u.Natural language processing[M].Beijing:Higher Education Press,2006.(in Chinese)
[3] Xiong Jing,Zhong Luo,Wang Ai-min.Example and ontology based machine translation for oracle bone inscriptions[J].Journal of Huazhong University of Science and Technology(Nature Science Edition),2013,41(S2):222-226.(in Chinese)
[4] Qin Chang-jiang,Hou Han-qing.Mapping knowledge domain-a new field of information management and knowledge management[J].Journal of Academic Libraries,2009,27(1):30-37.(in Chinese)
[5] Hu Ze-wen,Sun Jian-jun,Wu Yi-shan.Research review on application of knowledge mapping in China[J].Library and Information Service,2013,57(3):131-137.(in Chinese)
[6] Liu Ze-yuan,Chen Yue,Hou Hai-yan,et al.Mapping knowledge domains methods and application[M].Beijing:People’s Publishing House,2008.(in Chinese)
[7] Chen C,Ibekwe Sanjuan F,Hou J.The structure and dynamics of cocitation clusters:A multiple-perspective cocitation analysis[J].Journal of the American Society for Information Science and Technology,2010,61(7):1386-1409.
[8] Chen C.CiteSpace II:Detecting and visualizing emerging trends and transient patterns in scientific literature [J].Journal of the American Society for information Science and Technology,2006,57(3):359-377.
[9] Tang Jian-min,Yu Feng-min.Review and evaluation of knowledge mapping research in China:2004-2010[J].Information and Documentation Services,2012(1):16-21.(in Chinese)
[10] Chen Yue,Liu Ze-yuan.The rise of mapping knowledge domain[J].Studies in Science of Science,2005,23(2):149-154.(in Chinese)
[11] Bizer C,Heath T,Berners-Lee T.Linked data-the story so far[J].International Journal on Sematic Web and Information Systems,2009,5(3):1-22.
[12] Gattani A.Entity extraction,linking,classification,and tagging for social media:A wikipedia-based approach[J].Proceeding of the VLDB Endowment,2013,6(11):1126-1137.
[13] Deshpande O,Lamba D S,Tourn M,et al.Building,maintaining,and using knowledge bases:A report from the trenches[C]∥Proc of the 2013ACM SIGMOD International Conference on Management of Data,2013:1209-1220.
[14] Dong X,Gabrilovich E,Heitz G,et al.Knowledge vault:A web-scale approach to probabilistic knowledge fusion[C]∥Proc of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2014:601-610.
[15] Wu C,Wang H,Qu J,et al.ZhishiLink:entity linking on zhishi.me[C]∥Proc of the 7th China Sematic Web Symposium,2013:161-174.
[16] Wang Z,Li J,Wang Z,et al.XLore:A large-scale English-Chinese bilingual knowledge graph[C]∥Proc of International Semantic Web Conference (Posters & Demos),2013:121-124.
[17] Xu M,Wang Z,Bie R,et al.Discovering missing semantic relations between entities in Wikipedia[C]∥Proc of the Semantic Web-ISWC 2013,2013:673-686.
[18] Wang Z,Li J,Tang J.Boosting cross-lingual knowledge linking via concept annotation[C]∥Proc of the 23rd International Joint Conference on Artificial Intelligence,2013:2733-2739.
[19] Wang Jian-fang.Analysis method of mapping knowledge domains based on ontology[EB/OL].[2014-01-15].http://ir.las.ac.cn/handle/12502/3837.(in Chinese)
[20] Xiao Zhi-xiong,Gu Jing.Co-word analysis-based study on research hotspots of synergetics in China[J].Information Research,2015(5):6-9.(in Chinese)
[21] Borst W N.Construction of engineering ontologies for knowledge sharing and reuse [D].Ensched:Universiteit Twente,1997.
[22] Liu Hong-zhe,Xu De.Ontology based semantic similarity and relatedness measures review [J].Computer Science,2012,39(2):8-13.(in Chinese)
[23] Dong Z,Dong Q,Hao C.Hownet and its computation of meaning[C]∥Proc of the 23rd International Conference on Computational Linguistics:Demonstrations,2010:53-56.
[24] Xiong Jing,Wang Ai-min,Xu Jian-liang.Information retrieval optimization strategy based on domain ontology[J].Computer Engineering and Design,2011,32(8):2695-2699.(in Chinese)
附中文參考文獻:
[1] 熊晶,高峰,吳琴霞.甲骨文大規(guī)模基礎數(shù)據(jù)的語義挖掘研究[J].現(xiàn)代圖書情報技術,2015,31(2):7-14.
[2] 江銘虎.自然語言處理[M].北京:高等教育出版社,2006.
[3] 熊晶,鐘珞,王愛民.基于實例和本體的甲骨文機器翻譯方法研究[J].華中科技大學學報(自然科學版),2013,41(S2):222-226.
[4] 秦長江,侯漢清.知識圖譜——信息管理與知識管理的新領域[J].大學圖書館學報,2009,27(1):30-37.
[5] 胡澤文,孫建軍,武夷山.國內(nèi)知識圖譜應用研究綜述[J].圖書情報工作,2013,57(3):131-137.
[6] 劉則淵,陳悅,侯海燕,等.科學知識圖譜:方法與應用[M].北京:人民出版社,2008.
[9] 湯建民,余豐民.國內(nèi)知識圖譜研究綜述與評估:2004-2010年[J].情報資料工作,2012(1):16-21.
[10] 陳悅,劉則淵.悄然興起的科學知識圖譜[J].科學學研究,2005,23(2):149-154.
[19] 王建芳.基于本體的科學知識圖譜分析方法研究[EB/OL].[2014-01-15].http://ir.las.ac.cn/handle/12502/3837.
[20] 肖志雄,谷靜.基于共詞分析法的國內(nèi)協(xié)同學研究熱點分析[J].情報探索,2015(5):6-9.
[22] 劉宏哲,須德.基于本體的語義相似度和相關度計算研究綜述[J].計算機科學,2012,39(2):8-13.
[24] 熊晶,王愛民,徐建良.基于領域本體的信息檢索優(yōu)化策略[J].計算機工程與設計,2011,32(8):2695-2699.