高梅香,朱家祺,劉 爽,程 鑫,劉 冬,李彥勝,*
1 寧波大學地理與空間信息技術系,寧波 315211 2 寧波市高等學校協(xié)同創(chuàng)新中心“寧波陸海國土空間利用與治理協(xié)同創(chuàng)新中心”,寧波 315211 3 北京師范大學密云實驗中學,北京 101500 4 武漢大學遙感信息工程學院,武漢 430079 5 中國科學院東北地理與農業(yè)生態(tài)研究所,濕地生態(tài)與環(huán)境重點實驗室,黑土地保護與利用全國重點實驗室,長春 130102
土壤動物多樣性研究目前主要以多樣性格局、維持機制和功能作用等為研究重點,相較于其他生物類群,土壤動物研究在這些領域的進展相對緩慢,缺少智能化、定量化的數據分析和深度挖掘方法是其重要障礙之一。線粒體基因組[1]、環(huán)境DNA[2]、數字全息顯微鏡[3—4]、高清相機[5]、深度學習[6—7]等智能化監(jiān)測儀器和現(xiàn)代方法技術的推廣應用,實現(xiàn)了小時級甚至秒級的自動化監(jiān)測,促進了土壤動物研究數據量的快速增加。目前土壤動物研究的數據管理、分析仍主要采用相對簡單的數據庫[8],在面對如此大規(guī)模的數據量時,產生了數據快速增長和數據處理能力不足之間的矛盾[9—10]。土壤動物相關研究經歷了實驗科學、理論科學、計算科學這三個科學研究范式階段,正面臨著從第三研究范式到數據驅動的第四研究范式轉變的快速發(fā)展時期[11—13], 表現(xiàn)為第一、二、三研究范式和第四研究范式并存和相互促進的科學研究階段[7, 14—15]。推動基于海量數據的定量化、智能化研究模式,是解決土壤動物學面臨難題的重大機遇,也是當代土壤動物多樣性研究的前沿領域。
知識圖譜(Knowledge Graph)是解決前述難題和挑戰(zhàn)的有效途徑。知識圖譜是一種用圖結構建模事物及事物間聯(lián)系的數據表示形式,其背后是龐大的信息庫,可以將信息表達成更接近人類認知的方式,提供了一種組織管理和認知理解海量信息的能力[16]。知識圖譜受到學術界的廣泛關注[17—18],已被應用在動物學、農學、林學等領域[19—22],但土壤動物領域未見相關報道。知識圖譜在定量刻畫土壤動物及相關事物之間聯(lián)系和作用方面具有突出優(yōu)勢,土壤動物知識圖譜(Soil animal knowledge graph, SAKG)的研究與發(fā)展,將進一步拓展數據與知識雙重驅動的研究新方向[23],促進土壤動物相關領域的定量化、智能化研究。
土壤動物知識圖譜是土壤動物與知識圖譜的交叉研究,體現(xiàn)了土壤動物學與信息科學、計算機科學、數據庫科學等多學科交叉優(yōu)勢,有助于推動土壤動物信息學這一全新學科的發(fā)展。本文首先分析土壤動物知識圖譜的基礎理論知識;然后以“山地生物多樣性聯(lián)合研究網絡”的階段性成果為例,闡述土壤螨類知識圖譜的構建方法;利用基于土壤動物知識圖譜的查詢、推理和知識表示等數據挖掘方法,探討可以定量化解決的重要科學問題,并進一步分析土壤動物知識圖譜的發(fā)展趨勢、可以解決的重要科學問題與前沿方向。旨在通過山地土壤動物知識圖譜的構建和實踐,推動土壤動物信息學的發(fā)展。
谷歌于2012年引入知識圖譜技術[24],通過在搜索查詢中找到概念之間的關聯(lián)來獲取知識[25]。知識圖譜是很多相關技術相互影響和集成發(fā)展的產物,包括語義網絡、知識表示、本體論、自然語言處理等[16]。其本質是一種結構化的大規(guī)模語義知識庫,用符號形式描述物理世界中的概念及其相互關系[26],既包含豐富的語義信息,又具有圖的各種特征。
知識圖譜被定義為G={E,R,F},其中E,R和F分別代表實體、關系和事實的集合,事實被定義為一個三元組 (h,r,t) ∈F,h和t分別代表頭實體和尾實體,r代表頭實體和尾實體之間的關系。圖1是土壤動物知識圖譜的一個片段,圖中節(jié)點表示實體,有向邊表示實體之間的關系,邊的方向表明了實體是作為主體還是對象出現(xiàn)。三元組 (端三甲螨屬,包含,姬端三甲螨) 表達了端三甲螨屬包含姬端三甲螨這一物種的系統(tǒng)分類事實;三元組 (姬端三甲螨,具有,特征)、(特征,具有,體色) 和 (體色,表現(xiàn),棕黃色) 表達了姬端三甲螨體色是棕黃色的功能性狀事實;三元組 (姬端三甲螨,分布,地理區(qū)域)、(地理區(qū)域,省,浙江省),表達了姬端三甲螨分布在浙江省的地理分布事實。這些三元組是表達土壤動物知識圖譜的片段或基本形式,基于這些實體、實體間關系,可以實現(xiàn)土壤動物基礎知識、科學問題的基本搜索和深度挖掘。
圖1 土壤動物知識圖譜案例Fig.1 Example of soil animal knowledge graph虛線框內所示為實體對應的屬性
按照數據來源,可將知識圖譜分為基于網絡百科資源和基于結構化、半結構化、非結構化數據的知識圖譜[27—28];按照覆蓋范圍,可分為通用和領域知識圖譜[29]。通用知識圖譜覆蓋內容廣,融合實體多,但準確度不高,難以借助標準知識庫來規(guī)范實體、屬性和關系。領域知識圖譜針對特定領域數據來構建,實體屬性和數值詳細規(guī)范,包含更復雜更全面的領域知識。本文采用基于野外調查和文獻資料獲取的數據來構建土壤動物知識圖譜,屬于基于結構化數據構建的領域知識圖譜。
知識圖譜主要有自頂向下和自底向上兩種構建方式[16]。自頂向下方式首先構建頂層關系本體,然后將抽取到的實體匹配更新到所構建的頂層本體中[30]。自底向上的方式直接將抽取數據中發(fā)現(xiàn)的類別、實體、屬性及關系合并到知識圖譜中[31]。采用自頂向下的方式構建土壤動物知識圖譜。
以大規(guī)模語義網絡為基礎的語義知識圖譜 (Semantic Knowledge Graph),不同于基于文獻計量學的科學知識圖譜 (Mapping Knowledge Domain)??茖W知識圖譜起源于Garfield提出的將引文索引應用于檢索文獻的思想[32],于2005年被我國學者引入到相關研究中[33],目前已成為國內文獻研究的重要方法。依托科研文獻發(fā)現(xiàn)實體關系,實現(xiàn)從科學知識圖譜計量關聯(lián)到語義知識圖譜語義關聯(lián)的轉換,有助于構建更專業(yè)化、標準化的領域知識圖譜,這將是土壤動物學領域一個重要的研究方向[34—35]。
土壤動物知識圖譜是一種語義網絡知識庫,是一個具有有向圖結構的知識庫,其中圖的節(jié)點代表與土壤動物相關的實體或概念,圖的邊代表實體或概念之間的各種語義關系。構建土壤動物知識圖譜的目的在于建模、識別、發(fā)現(xiàn)和推理土壤動物學相關概念、事物之間的復雜網絡關系,基于土壤動物概念、事物關系的可計算模型,采用基于知識圖譜的數據查詢、推理、知識表示等數據挖掘方法,解決土壤動物學面臨的基礎理論和實踐應用難題,促進數據科學范式時代土壤動物學的快速發(fā)展。土壤動物知識圖譜涉及如下基本概念(圖1):
實體:也被稱為實例,每一條實際的數據或信息被稱為實體,如姬端三甲螨、人工林等。
概念:也被稱為類型,用于管理土壤動物知識圖譜中的節(jié)點,通過配置屬性可結構化實體,實體與概念的關系是多對多,如果一個實體屬于多個概念,則其結構為這些概念屬性的集合,如姬端三甲螨屬于物種名稱、甲螨亞目、疥螨目、蜱螨亞綱、蛛形綱、節(jié)肢動物門、動物界這些概念。
關系:用于管理土壤動物知識圖譜中的邊,通過配置屬性可結構化邊實體,一個邊實體只能屬于一個關系,如包含、分布等。
屬性:每個概念或關系可以設置多個屬性,如天目山的屬性包括經度、緯度、氣候類型等。
土壤動物知識圖譜的方法論涉及多個方面。一般流程為:首先確定知識表示模型,然后根據數據來源選擇不同的知識獲取手段導入知識,接著綜合利用知識抽取、知識融合、知識加工等技術對構建的知識圖譜進行質量提升,最后根據需求設計不同的知識訪問、呈現(xiàn)和挖掘方法,如圖譜可視化分析等 (圖2)。
圖2 土壤動物知識圖譜構建技術流程Fig.2 Technical process of constructing soil animal knowledge graph
知識來源。可以從多種來源獲取土壤動物知識圖譜數據,包括文本、結構化數據庫、多媒體數據、傳感器數據和人工眾包等。每一種數據源的知識化都需要綜合各種不同的技術手段,結構化、半結構化和文本數據是目前土壤動物知識圖譜最主要的知識來源[16, 36]。
知識表示。是指用計算機符號描述和表示人腦中的知識,以支持機器模擬人的心智進行推理的方法和技術。知識表示決定了土壤動物知識圖譜構建的產出目標,即土壤動物知識圖譜的語義描述框架、本體、知識交換語法、實體命名及ID體系[16, 37—38]。
知識抽取。是從不同來源、不同結構的數據中提取知識,形成結構化數據存入土壤動物知識圖譜[5],其任務一般包括概念抽取、實體識別、關系抽取(實體屬性抽取、實體關系抽取)、事件抽取和規(guī)則抽取等[16, 37]。
知識融合。是將不同知識庫得到的同一實體或概念的描述信息融合起來。描述信息可以是同種類型,也可以是不同類型,如文字、圖像、音頻、視頻等[16, 37]。
知識加工。主要包括基于土壤動物知識圖譜的知識檢索、知識推理、知識挖掘等,實現(xiàn)形式包括語義檢索、智能問答、知識挖掘等[16, 37]。
土壤動物知識圖譜屬于交叉領域,除了土壤動物學之外,涉及土壤學、生態(tài)學、人工智能、數據庫、自然語言處理、機器學習、分布式系統(tǒng)等,具體涉及數據庫系統(tǒng)、智能問答、推理、推薦系統(tǒng)、區(qū)塊鏈與去中心化的知識圖譜等技術[16],相關研究算法涉及傳統(tǒng)模型 (LaSIE-II、Bootstrap)、基于神經網絡的模型 (CNN-CRF、ED-LAN) 和基于圖神經網絡的模型 (CGN、GNED) 等[36, 39]。
數據來源為“山地生物多樣性聯(lián)合研究網絡” (Biodiversity along Elevational Gradients: Shifts and Transitions, BEST) 調查的山地土壤動物數據。截至2022年6月1日,收集了183個垂直梯度、732個樣方、1512個土壤動物樣品數據。本文以浙江天目山為例說明土壤動物知識圖譜的構建和數據挖掘方法。
天目山位于浙江省西北部的杭州市臨安區(qū) (30°18′—30°21′ N, 119°24′—119°27′ E),主峰仙人頂海拔1506m,最低海拔約300m。地處中亞熱帶北緣,受海洋性季風氣候影響,年均氣溫8.8—14.8℃,年均降水量1390—1870mm。海拔600m以下為紅壤帶,600—1200m為黃壤帶,1200m以上為棕黃壤帶[40—41]。
2021年6月,在天目山12個20m×20m的海拔梯度樣地中分別設置4個2m×2m樣方,在每個樣方內隨機采集3個15cm×15cm的凋落物層樣品,再使用土鉆隨機采集3個0—15cm的土壤層樣品。按照Krantz和Walter[42]分類系統(tǒng)將土壤螨類鑒定到種,共獲取85個物種、6918只個體。
本體構建的目標是依照土壤動物領域的專業(yè)知識,對山地土壤動物知識體系進行建模,形成客觀明確的描述規(guī)范,在結構化、形式化和語義化層面實現(xiàn)描述、表達、挖掘、推理和聯(lián)想知識的能力,并通過本體描述語言使土壤動物專業(yè)知識可以被計算機理解和處理,構建流程如下 (圖3):
圖3 山地土壤動物本體的構建流程Fig.3 Construction workflow of mountain soil animal ontology
(1)確定本體描述的專業(yè)領域。在構建本體之前確定本體所描述的領域范疇以及邊界,包括山地不同垂直帶土壤動物的基礎知識、與土壤動物生存有緊密關系的土壤、植被數據等。
(2)設計本體概要模型。以土壤動物專業(yè)領域知識為基礎,搜集該領域的信息資源,掌握相關的知識體系,總結、抽象概念并建立本體概要模型,形成山地土壤動物本體框架。
(3)定義核心類及類的層次結構。對山地土壤動物概要模型進行細化和補充,圍繞科學問題和實踐應用需求,梳理、精煉核心概念及概念類間的層次結構。
(4)定義本體屬性。通過定義本體類的對象屬性和數據屬性,將土壤動物自身的特征信息,以及土壤動物與樣地、環(huán)境因子、現(xiàn)有的知識組織體系的語義關聯(lián)引入本體模型,體現(xiàn)完整的土壤動物知識關聯(lián)體系。
(5)本體驗證與評估。構建領域本體后,采用專家咨詢法,請領域專家從本體結構、實踐應用場景等方面對所構建的本體模型進行評估,進一步修正與完善本體。
(6)編程語言描述本體。通過驗證和評估后,對本體模型進行形式化表示,增強本體的表達能力。
(7)本體迭代優(yōu)化。概念模型的構建是一個動態(tài)過程,本文以土壤螨類數據為例構建知識圖譜,后續(xù)獲得土壤跳蟲、線蟲、蚯蚓等類群數據后,可通過上述流程綜合分析,將其它類群的數據擴充到本體模型中,進一步迭代和完善山地土壤動物知識圖譜的本體。
2.3.1土壤動物本體模型
本體概要模型描述了在抽象層次由概念及概念間關系建立的邏輯模型,借助概要模型可梳理本體構建的概念范圍及核心屬性的取值范圍。本文采用人工構建的方法,由領域專家協(xié)作和指導,使用Protégé構建本體庫,將山地森林土壤動物本體設置為7層,包括土壤動物類、類群類、山地類、樣地類、樣方類、樣品類、物種類。以天目山土壤螨類為主要實例,用抽象層面自頂向下的要素列舉方法,設計的細粒度土壤動物本體概要模型見圖4。
2.3.2核心類及類的層次結構
在山地土壤動物知識圖譜的本體中,類是用于描述具有相同屬性的一類概念的集合,是構成本體的重要成分,實例和屬性都是對類的明確和說明。類的上下位關系表達了類之間的基本關系,本研究主要根據一級類對其他類進行類的劃分,并進行了描述。為了使本體的構建、管理過程更加規(guī)范,便于后續(xù)的編程工作,對本體中類和屬性運用英文名稱進行了定義。本體中的類具體如下:
(1) 1個一級類,即土壤動物類。研究的是山地森林土壤動物領域本體構建并將其進行形式化表示,因此以土壤動物作為最高層次類。
(2) 8個二級類,即類群類 (Group)。設置了螨 (Mite)、跳蟲 (Collembola)、線蟲(Nematode)、蚯蚓 (Earthworm)、甲蟲 (Beetle)、馬陸 (Millipede)、蜈蚣 (Centipede)、蜘蛛 (Spider)用于描述山地森林主要土壤動物類群。本研究主要添加了螨類的數據屬性,后續(xù)可以補充其他類群的數據屬性,進一步拓展類群類及其之間的關聯(lián)。
(3) 12個三級類,即山地類 (Mountain)。包括天目山 (TMS)、天山野核桃溝 (TS1)、天山庫爾德寧 (TS2)、大別山 (DBS)、峨眉山 (EMS)、金佛山 (JFS)、官山 (GS)、玉龍雪山 (YLXS)、戴云山 (DYS)、大明山 (DMS)、高黎貢山 (GLGS)和霸王嶺 (BWL)。
(4) 183個四級類,即樣地類 (Plot)。以天目山為例,設置了樣地1 (TMS1)、樣地2 (TMS2)、樣地3 (TMS3) 等12個位于不同海拔梯度的樣地。根據事實,不同山地設置的樣地數量不同,例如高黎貢山和玉龍雪山分別設置了31和19個樣地類。
(5) 732個五級類,即樣方類 (Quadrat)。以天目山的樣地1 (TMS1) 為例,設置了樣方1 (TMS1_1)、樣方2 (TMS1_2)、樣方3 (TMS1_3) 和樣方4 (TMS1_4) 4個本體。
(6) 1512個六級類,即樣品類 (Sample)。以天目山樣地1的樣方1 (TMS1_1) 為例,設置了凋落物層樣品 (TMS1_1LL) 和土壤層樣品 (TMS1_1SL) 2個本體。
(7) 85個七級類,即物種類 (Species)。設置的物種本體是天目山的85個土壤螨類物種。
2.3.3本體屬性定義
類本身不足以描述土壤動物專業(yè)領域的知識體系,需要通過定義類的內部屬性信息和外部關系信息來描述概念的具體內涵。本體中類的屬性用于描述類具有的特征,分為對象和數據屬性。對象屬性揭示類之間的語義關系,是在本體中進行邏輯推理的基礎,決定了土壤動物知識圖譜的豐富程度和應用效果。數據屬性描述類自身的特點,使用具體的數據類型進行表示,包括文本、數值、日期等多種類型。
(1)定義本體對象屬性。定義了6個對象屬性,為了增強語義嚴謹性,設置了對象屬性的英文標識、定義域和值域 (表1)。
表1 山地森林土壤動物知識圖譜本體的對象屬性
(2)定義本體數據屬性。用來描述本體自身的特征,詳見表2:
表2 山地森林土壤動物知識圖譜本體的數據屬性
土壤動物類,定義了1個數據屬性,描述山地土壤動物知識圖譜的主要對象。
類群類,定義了6個數據屬性,描述類群的生物學分類地位。
山地類,定義了14個數據屬性,描述山地的基本特征,其中最低和最高緯度、最低和最高經度,是為了數據挖掘時分析該山地土壤動物所在位置、分布范圍、生存界限等。
樣地類,定義了21個數據屬性,涉及微氣候、地形和植被等對土壤動物有重要影響的因子。
樣方類,設置了5個數據屬性,其中長邊、短邊、半徑用于數據挖掘時計算和分析樣方面積。
樣品類,設置了12個數據屬性,形狀、長邊、半徑和深度等用于計算和分析樣品的面積和體積。采集年份、采集月份和采集日,可用于計算和分析土壤動物多樣性動態(tài)特征。
物種類,設置了8個數據屬性,用于計算分析物種多樣性和功能多樣性特征。
2.3.4本體驗證與評估
本體的評估標準一般包括清晰性、一致性、完善性和可擴展性。清晰性指所定義的山地土壤動物知識圖譜的類和屬性必須明確,有科學依據和意義,不存在歧義。一致性指土壤動物知識圖譜類間的關系在邏輯上必須是一致的,保證數據推理和挖掘的科學性、嚴謹性。完整性指所定義的山地土壤動物知識圖譜領域內類和屬性是完整的,可以用于描述數據來源中的知識體系??蓴U展性指當領域內出現(xiàn)新的概念時,山地土壤動物知識圖譜的本體可規(guī)?;瘮U展。本體初步構建完成后采用專家咨詢的方法,邀請土壤動物學和山地森林生態(tài)學領域多名專家進行評估。專家認為本文所構建的山地土壤動物領域本體包含了較完整的山地土壤動物概念體系,符合上述評估標準和預期要求,可進行本體的語言描述。
圖數據庫將知識圖譜的實體和概念作為圖節(jié)點,實體屬性和關系作為邊,以圖的形式進行存儲,比較直觀地反映知識圖譜的內部結果,有利于進行圖查詢以及知識推理,并具有很強的擴展性。Neo4j是一個開源的圖數據庫系統(tǒng),底層使用圖數據結構進行存儲,大幅度提升數據檢索的性能,是目前用于知識圖譜存儲的主要途徑。將山地土壤動物知識圖譜存儲于Neo4j圖數據庫中[43]。
首先將獲取的實體節(jié)點和關系數據分別保存為.csv文件,然后通過Cypher語言的LOAD CSV語句導入節(jié)點和關系。采用Cypher語句將實體和實體間的關系存儲到Neo4j圖數據庫中[44],形成山地土壤動物知識圖譜 (圖5)。
圖5 山地土壤動物知識圖譜的可視化Fig.5 Visualization of mountain soil animal knowledge graph圖中圓圈為實體節(jié)點,帶箭頭的邊為關系,縮寫的含義見圖4和表1;Sp.1:Damaeus spiniger 矩刺珠甲螨;Sp.2:Platynothrus peltifer;Sp.3:Hypochthonius rufulus 淡紅縫甲螨;Sp.4:Hypochthoniella minutissima;Sp.5:Ceratozetella sp.1;Sp.6:Hypochthonius luteus 金黃縫甲螨;Sp.7:Oribatida sp.7 甲螨sp.7;Sp.8:Acrotritia ardua姬端三甲螨;Sp.9:Eremulus avenifer 阿沙甲螨;Sp.10:Oribatida sp.10 甲螨sp.10;Sp.11:Suctobelbella sp.1;Sp.12:Atropacarus striculus
基于構建的土壤動物知識圖譜,本文圍繞生物多樣性研究的三個重要科學問題“分布在哪里”、“哪些物種共存在一起”和“環(huán)境條件如何影響物種分布”,舉例說明知識圖譜如何幫助我們定量化地回答這些科學問題。
頭長單翼甲螨Protoribatescapucinus分布在哪些喬木豐富度大于20種、坡度大于20°、土壤全氮值大于0.25的生境中?數據挖掘過程如下:
PROFILE
MATCH (a:Species{title:′Protoribates capucinus′})-[*3..5]-(b:Plot)
WHERE b.richness>20 AND b.slope>15 AND b.TN>0.25
RETURN a.title, b.title
可以發(fā)現(xiàn)頭長單翼甲螨Protoribatescapucinus分布在6個滿足前述條件的生境中,包括TMS1、TMS3、TMS7、TMS8、TMS10、TMS12樣地 (圖6)??梢赃M一步推理,如果補充了12個山地所有的土壤螨類數據,便可以推理從新疆天山到海南霸王嶺跨越25個緯度的大空間尺度上,某個或某些土壤動物分布在哪些符合特定條件的地點或生境。
圖6 案例1的數據挖掘結果Fig.6 Data mining result of case 1縮寫的含義見圖4;Protoribates capucinus:頭長單翼甲螨
頭長單翼甲螨Protoribatescapucinus和土庫曼羅甲螨Lohmanniaturcmenica共同生存在哪些個體數量大于50只、物種數量大于10種、時間節(jié)點為5月的生境中?數據挖掘過程如下:
PROFILE
MATCH (a:Species{title:′Protoribates capucinus′})-[*1..5]->(b:Sample)<-[*1..5]-(c:Species{title:′Lohmannia turcmenica′})
WHERE b.ind_num>50 AND b.spe_num >10 AND b.month=5
RETURN a.title,b.title,c.title
結果發(fā)現(xiàn)頭長單翼甲螨Protoribatescapucinus和土庫曼羅甲螨Lohmanniaturcmenica共存在12個生境中,主要為海拔高度為500—1000m的凋落物層(圖7)。該案例表明土壤動物知識圖譜可用于共存物種之間、共存物種與生存環(huán)境因子之間的查詢與推理,有助于揭示土壤動物物種共存特征、共存物種與環(huán)境因子之間的關系對共存物種的影響等科學問題,在生物間作用、環(huán)境過濾對多樣性維持的貢獻等關鍵科學問題中將發(fā)揮重要作用。
圖7 案例2的數據挖掘結果Fig.7 Data mining result of Case 2縮寫見圖4和表1;Protoribates capucinus:頭長單翼甲螨;Lohmannia turcmenica:土庫曼羅甲螨
海拔高度大于300m、坡度大于15°、喬木物種豐富度大于15種、土壤有機碳含量大于10%、土壤pH值大于3.7、土壤有效磷含量大于7mg/kg的復雜環(huán)境條件,影響哪些個體數量大于50頭、在5月份活躍在天目山的土壤螨類的物種分布。數據挖掘過程如下:
PROFILE
MATCH (a:Plot)-[*1..5]-(b:Species), (c:Sample)
WHERE b.num>50 AND a.elevation>300 AND a.slope>15 AND a.richness >15 AND a.OC>10 AND a.pH>3.7 AND a.AP>7 AND c.month=5
RETURN a.title,b.title
結果表明,前述綜合的復雜環(huán)境條件共同影響20個物種在天目山的分布,包括頭長單翼甲螨Protoribatescapucinus、Eremulusavenifer、Tectocepheusvelatus等 (圖8)。
圖8 案例3的數據挖掘結果Fig.8 Data mining result of Case 3Nippohermannia parallela:平行日本漢甲螨;Eremulus avenifer:阿沙甲螨;Acrotritia ardua:姬端三甲螨;Ceratozetella sellnicki:塞氏小尖棱甲螨;Archoplophora rostralis:吻直卷甲螨;Oribatida sp.5:甲螨sp.5;Protoribates lophothrichus:冠長單翼甲螨;Hypochthonius rufulus:淡紅縫甲螨;Tectocepheus velatus:覆蓋頭甲螨;Gymnodamaeus adpressus:扁裸珠甲螨;Anachipteria grandis:大無前翼甲螨;Scheloribates laevigatus:滑菌甲螨;Ramusella sengbuschi:沈氏枝奧甲螨;Oribatida Sp.13:甲螨Sp.13
前述3個案例僅是基于天目山土壤螨類數據的實踐和應用,基于山地土壤動物知識圖譜的查詢、推理和知識表示等方法,可以進一步挖掘更多科學問題。如:(1) 哪些土壤動物可以同時生活在土壤pH值在4—7的凋落物層和土壤層中。(2) 哪些土壤動物是特定山地的特有種,至少在3次數據調查中發(fā)現(xiàn)其只分布在該特定山地。(3) 哪些土壤動物是所有海拔高度的廣布種,廣泛分布在從200—3000m的山地中。(4) 哪些土壤動物是跨緯度山地生態(tài)系統(tǒng)的廣布種,同時分布在從溫帶到熱帶的山地中。(5) 土壤有機碳含量大于6%、山地坡度大于15°、每公頃樹木胸徑大于30mm的生境中共存土壤動物的體長、體寬、生物量范圍。(6) 是否存在著在所有山地都是優(yōu)勢種的土壤動物,其個體數量在所有山地的占比都大于10%。(7) 什么性狀的土壤動物更喜歡生活在凋落物層而不會生活在土壤層。
構建土壤動物知識圖譜是一項系統(tǒng)性知識工程。相較于其他研究方法,土壤動物知識圖譜在解決土壤動物學的基礎理論、應用實踐方面具有獨特的優(yōu)勢和作用。
(1) 友好的可移植性
依據生物地理學和生態(tài)學的基礎理論知識,可以實現(xiàn)土壤動物知識圖譜的移植、共享和完善。以“土壤動物-包含->類群->分布->山地-包含->樣地-包含->樣方-包含->樣品-包含->群落-包含->物種”的15元組為核心對知識進行表達,通過一個完整的知識鏈路,將土壤動物數量和性狀信息與其生存環(huán)境中植被、土壤、地形、氣候等信息表達出來,實現(xiàn)了基于土壤動物知識圖譜對科學問題的解釋和挖掘。該知識表達方式和知識鏈路可以橫向移植到其他生態(tài)系統(tǒng)中,如農田土壤動物知識圖譜、濕地土壤動物知識圖譜等。
(2) 優(yōu)良的可擴展性
可擴展性是土壤動物知識圖譜的一個基本特性,當專業(yè)領域出現(xiàn)新概念或需要添加新知識時,可以方便地實現(xiàn)知識本體的規(guī)?;瘮U展[45]。構建的山地土壤動物知識圖譜,以土壤動物類為起點,可以進一步拓展土壤動物與植物、微生物、哺乳動物、鳥類等知識概念之間的關聯(lián),構建土壤動物與其他生物之間彼此互聯(lián)的復雜知識圖譜。又如基于本研究中的山地類,后續(xù)可以進一步拓展長白山、武夷山、貢嘎山等本體類的實例和屬性,構建中國乃至全球山地土壤動物知識圖譜。
(1) 土壤動物學基礎科學問題
相對于農作物害蟲[46]、林業(yè)[47]、醫(yī)學[48]等領域,土壤動物學對知識發(fā)現(xiàn)和知識梳理的表現(xiàn)性和科普性仍顯不足。如姬端三甲螨分布在我國哪些省、市、縣的哪些生境地點,這些分布地點年均溫、年均降水量、土壤有機質含量分別相差多少。雖然已經積累了較多的數據和資料,由于缺乏有效的知識表達形式,仍然難以回答這些土壤動物學的基礎科學問題。土壤動物知識圖譜還可以精準地量化其他基礎科學問題,如年均溫小于等于10℃的地區(qū)生活著哪些土壤動物;同種土壤動物在不同分布區(qū)的體長、體寬等功能性狀相差多少;某個土壤動物物種喜好什么生境,喜好與哪些物種共存在一起等。
(2) 土壤動物多樣性維持機制
土壤動物多樣性維持機制是土壤動物學研究的核心內容之一[49]。目前解釋土壤動物多樣性維持機制的假說主要包括中性理論、生態(tài)位理論等[50—51],致力于解決的科學問題集中于擴散[52]、環(huán)境過濾[53]和生物間作用[54]的影響。由于一直難以精準量化前述基本科學問題,導致相關研究進展緩慢。基于土壤動物知識圖譜的分析與挖掘,有望量化前述相關科學問題。如量化并回答哪些DNA序列與特定范圍的體長、體寬等功能性狀、特定范圍的土壤、植被、地形等環(huán)境條件之間存在緊密聯(lián)系;在給定土壤、植被、地形、氣候等特定環(huán)境條件下,有哪些土壤動物可以存活,這些存活的土壤動物在數量、性狀、DNA信息等方面有什么適應性特征和一般性規(guī)律;在給定土壤、植被、地形、氣候等特定環(huán)境中,感興趣的土壤動物之間是否可以共存,在什么環(huán)境范圍內共存關系最顯著。
尺度是土壤動物多樣性維持機制研究關注的一個重要問題[55],基于土壤動物知識圖譜的數據挖掘可以幫助解決尺度相關的科學難題。尺度是連接格局與過程的橋梁和紐帶[56—57],相關研究證明地理距離和環(huán)境因子對土壤動物分布格局的影響具有尺度依賴性[58—59],但尺度一直是土壤動物多樣性維持機制研究的難點?;趪乐數闹R體系和知識鏈路,土壤動物知識圖譜有潛力將“種群-群落-樣地-生境-局地-區(qū)域-全球尺度”的土壤動物多樣性與其生存環(huán)境的關聯(lián)表達出來,再通過數據挖掘等方式發(fā)現(xiàn)多尺度、跨尺度的科學規(guī)律。
(3) 土壤動物多樣性功能作用
土壤動物功能作用是土壤動物學、群落生態(tài)學等相關研究的重要問題[60—61],現(xiàn)代技術方法和數據科學的交叉與耦合有助于解決該問題[62]。土壤動物活躍于復雜系統(tǒng)中,目前的研究框架難以將多樣性子系統(tǒng)、外部環(huán)境子系統(tǒng)、功能作用子系統(tǒng)有機地聯(lián)系在一起[61, 63],難以有效地表達土壤動物功能作用與其他子系統(tǒng)所具有的相互依賴性和非平穩(wěn)性特征[64],在處理海量數據和復雜關系過程中面臨諸多困難和挑戰(zhàn)。土壤動物知識圖譜不僅可以建立子系統(tǒng)內部要素間的橫向關聯(lián) (圖9a),還可以構建跨子系統(tǒng)的細粒度要素間的縱向關聯(lián) (圖9b),為研究土壤動物多樣性功能作用提供細粒度的、可量化方向和關系的研究模式。
圖9 土壤動物復雜系統(tǒng)Fig.9 Complex systems of soil animalsa 刻畫了子系統(tǒng)內部要素間的橫向關聯(lián);b 刻畫了跨子系統(tǒng)的細粒度要素間縱向關聯(lián),以每個子系統(tǒng)中的單個要素為例
(4) 土壤動物學的實踐應用
土壤動物知識圖譜在土壤動物多樣性保護、土壤質量提高、土壤健康管理、農產品質量提升等方面,都將有很大的應用潛力。在土壤動物知識圖譜中構建與人類活動相關的類,如農藥施用類、化肥施用類、農業(yè)灌溉類、耕作方式類、農產品產量類、農產品質量類等,便可以基于知識體系和知識鏈路,挖掘某些農藥、化肥、灌溉、耕作等特定管理模式下會生存哪些土壤動物,以及這些土壤動物的性狀、DNA信息特征,這些預見成果將為土壤質量、土壤健康及人類健康評估等重要科學問題提供有效的數據和方法[65]。
土壤動物知識圖譜正處于萌芽時期,即將迎來快速發(fā)展階段。采用哪些模式和方法構建科學的土壤動物知識圖譜,采用哪些數據挖掘方法有效發(fā)現(xiàn)科學規(guī)律,利用土壤動物知識圖譜解決哪些關鍵科學難題,都是土壤動物知識圖譜發(fā)展的前沿領域和重要方向。介紹了土壤動物知識圖譜的基礎理論和構建方法,以構建的山地土壤動物知識圖譜為例,圍繞分布在哪里、哪些物種共存在一起和環(huán)境條件如何影響物種分布這三個重要科學問題,探討了土壤動物知識圖譜的優(yōu)勢和可以解決的科學問題。研究結論將推動土壤動物學、信息科學和數據科學的交叉研究,促進土壤動物信息學新領域的發(fā)展。