寇蕾蕾
(中國科學院西北生態(tài)環(huán)境資源研究院)
維基數(shù)據(jù)(Wikidata)是維基媒體基金會于2012年10月成立的項目,其作為輔助數(shù)據(jù)庫,為280多個語言版本的維基百科提供支持,以提高維基百科的內(nèi)容質(zhì)量和一致性。概括而言,Wikidata提取了不同語言版本維基百科中具有共同認知的條目,抽取了該頁面中的結(jié)構(gòu)化數(shù)據(jù),是一個基于語義的超大知識數(shù)據(jù)庫,支持用戶、機器讀取和編輯。Wikidata具有自由開放、協(xié)作編輯、多語言、結(jié)構(gòu)化等特點,受到許多機構(gòu)的重視。
數(shù)據(jù)來源是一種元數(shù)據(jù),用于記錄描述數(shù)據(jù)產(chǎn)品生命周期的各種狀態(tài)信息。[1]目前,網(wǎng)絡(luò)數(shù)據(jù)數(shù)量龐大,質(zhì)量難以保證,而數(shù)據(jù)來源是評價網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量的一種有效手段,近年來得到了許多研究者的重視,應(yīng)用于食品、醫(yī)學、工作流系統(tǒng)、信息科學等眾多領(lǐng)域。Wikidata對結(jié)構(gòu)化數(shù)據(jù)附加來源信息,為用戶提供各個記錄項的出處,以供用戶進行選擇和查證,但由于數(shù)據(jù)項的來源收集過程通常是機器自動抓取,Wikidata本身不對數(shù)據(jù)的準確性進行評判,故難免存在不同數(shù)據(jù)來源之間的數(shù)據(jù)值相互矛盾的現(xiàn)象。因此,本文從數(shù)據(jù)來源角度出發(fā),選取人名名稱為研究對象,統(tǒng)計其在Wikidata聲明中的來源參引狀況,明確Wikidata結(jié)構(gòu)化數(shù)據(jù)的基本來源情況,并基于數(shù)據(jù)質(zhì)量維度分析Wikidata附加來源信息的質(zhì)量,目標是通過對Wikidata中人物來源信息的分析,進一步完善Wikidata結(jié)構(gòu)化信息來源,滿足用戶對高質(zhì)量數(shù)據(jù)的需求。
Wikidata以結(jié)構(gòu)化形式存儲維基百科網(wǎng)頁描述的事物的數(shù)據(jù),其數(shù)據(jù)結(jié)構(gòu)主要涉及條目、屬性、聲明、斷言、參引等基本概念。條目(Items)為描述維基百科頁面主題的實體,是單個事物或一類事物,Wikidata給每個條目分配一個ID作為標識符,標識為“Q+數(shù)字”;屬性(Proverty)是描述條目與屬性值之間關(guān)系的實體,標識為“P+數(shù)字”;聲明(Statement)是描述結(jié)構(gòu)化數(shù)據(jù)的方法;斷言(Claim)指事實及為這種事實提供依據(jù)的參引,常見形式是屬性和值;限定詞(Qualifiers)用于進一步描述或限定屬性值;參引(Reference)用于指向聲明中數(shù)據(jù)的特定來源,通過參引記錄(Reference Record)來給定,包含至少一個屬性值對。
Wikidata對條目的描述見圖1。頁面的上部分是條目的一些基本信息,包括標識符、標簽、別名、簡要描述及到其他語種維基百科的鏈接?;拘畔⒅率菞l目的聲明列表,聲明由斷言和參引列表構(gòu)成。斷言包含屬性、屬性值、限定詞;參引列表是提供參引記錄的列表,可以為空。
圖1 Wikidata數(shù)據(jù)描述結(jié)構(gòu)
Wikidata是一個來源數(shù)據(jù)的集合,大部分的聲明附加來源信息,其定義了兩個提供來源的屬性:Stated in(P248) 和 Reference URL(P854)。前者主要描述Wikidata內(nèi)部來源條目,指向出版物和媒體;后者主要描述Wikidata外的其他來源,指向網(wǎng)址和在線數(shù)據(jù)庫。不考慮來源類型,在聲明中添加來源時需要遵循四個步驟:① 使用條目標題檢查Wikidata中是否存在該條目;② 若Wikidata中不存在且其不是一個網(wǎng)頁,則將它添加為一個條目;③ 為聲明中屬性值添加參引,并指向條目來源;④ 添加所有來源信息及必要的限定符。[2]并非所有的Wikidata聲明都需要添加來源,以下三種情況不需要添加來源信息:① 屬性值為沒有爭議的常識;② 條目的屬性直接指向外部來源,如數(shù)據(jù)庫或規(guī)范控制文檔,通過此外部來源可以確認條目的其他屬性;③ 條目本身是一個來源。[2]
Wikidata包含人物、類目、結(jié)構(gòu)、管理實體、事件等內(nèi)容。[3]其中,人物信息在Wikidata中所占比例較大。因此,為了使研究具有代表性,本文以人物為研究對象,基于世界名人網(wǎng)[4]選取研究對象,世界名人網(wǎng)包含不同領(lǐng)域的名人共5,789位,并對其做了歸類。本文從積極分子、作家、領(lǐng)導者、商人、畫家、時尚人士、發(fā)明家、歷史名人、科學家、音樂家、學者、醫(yī)生及其他共13類領(lǐng)域中,隨機選取260人(每類20人)為研究對象,且選取的人物在Wikidata的聲明中至少包含10個以上屬性。
2.2.1 屬性整體分布
基于本文統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)共有148個條目描述人物的屬性,且每個屬性至少附有一條來源。依據(jù)屬性對人物的描述深度,可將其細分為基本屬性、擴展屬性及規(guī)范文檔標識符?;緦傩园ㄐ詣e、出生日期、死亡日期、出生地、死亡地、職業(yè)、實例、國籍、姓名、照片、配偶及子女,占比8%;擴展屬性包括受教育院校、所獲獎項、成員、作品、宗教、工作地、工作領(lǐng)域、職務(wù)等,占比46%;標識符包括虛擬國際規(guī)范文檔(VIAF)ID、國際標準名稱標識符(ISNI)、網(wǎng)絡(luò)知識庫(Freebase)ID、德國規(guī)范文檔(GND)ID等,占比46%??梢?,除了基本屬性,Wikidata也使用多個擴展屬性對人物進行描述,并提供了不同規(guī)范文檔的標識符,進一步完善了人物屬性的描述能力。
2.2.2 高頻屬性分布
假定在所有屬性中,出現(xiàn)10次以上的為高頻屬性,則共有67個高頻屬性。在高頻屬性中,出現(xiàn)最多的為性別,達993次,出現(xiàn)最少的為死亡原因,僅10次。出現(xiàn)次數(shù)在100-1,000之間的屬性共有21個,主要包括性別、出生日期、實例、死亡日期等基本屬性及VIAFID、Freebase ID、GNDID等標識符;出現(xiàn)次數(shù)在100以下的屬性涉及所獲獎項、受教育院校、職務(wù)等擴展屬性及藝術(shù)家標識符(Discogsartist)ID、歐洲研究圖書館聯(lián)盟(CERL)ID等標識符。與擴展屬性相比,基本屬性出現(xiàn)次數(shù)普遍較高,而標識符的出現(xiàn)次數(shù)要視具體規(guī)范文檔而定,如VIAF ID出現(xiàn)次數(shù)達531次,而數(shù)學家標識符(MacTutor)ID僅出現(xiàn)11次。
2.2.3 高頻屬性來源數(shù)
平均來源數(shù)是指同一屬性來源項的出現(xiàn)總次數(shù)與其出現(xiàn)的條目個數(shù)之比,體現(xiàn)了每個條目屬性附加的來源比例,平均來源數(shù)通常反映Wikidata人物條目的整體來源情況。由于屬性的出現(xiàn)次數(shù)大于等于條目數(shù),因此平均來源數(shù)大于等于1。在圖2中,平均來源數(shù)在4以上的有3個,分別是4.6、11和14:最高的屬性為“成員”(P463),共出現(xiàn)101次,而僅有7個人物條目提供該屬性,平均而言,每個條目中該屬性附有14個來源,這是因為“成員”屬性通常包括多個屬性值,不同屬性值又附加了多個來源;“姓名”(P735)屬性共出現(xiàn)164次,有15個條目具有該屬性,平均每個條目有11個來源,原因可能為姓名作為人物的特定標識符在不同名稱規(guī)范文檔中會被提及;“性別”(P21)屬性出現(xiàn)次數(shù)和條目數(shù)都較高,出現(xiàn)次數(shù)達993次,條目數(shù)為215個,平均每個條目中該屬性附有4.6個來源。其余屬性的來源比例在1-4之間,表明大部分屬性提供1-4個來源。與平均來源數(shù)相對,最高來源數(shù)指某屬性附加的最高來源個數(shù),統(tǒng)計發(fā)現(xiàn),“Q187199”條目中的“成員”屬性共包含11個屬性值,附加了19個來源信息,是所有條目屬性中出現(xiàn)最高的來源數(shù);最低來源數(shù)指某屬性附加的最少來源個數(shù),在本文統(tǒng)計數(shù)據(jù)中,最低來源數(shù)為1,而在Wikidata中,最低來源數(shù)為0,即屬性值沒有附加來源信息。
圖2 高頻屬性的平均來源數(shù)
2.2.4 屬性與屬性值
在Wikidata人物描述中,項目與屬性之間是一對多的關(guān)系,而屬性與屬性值之間既存在一對一關(guān)系,也存在一對多的關(guān)系,即同一屬性具有多個屬性值。其中,一對多關(guān)系可細分為兩種情況:一是該屬性被重復定義,對應(yīng)多個屬性值,如職業(yè)、受教育院校等,表示該人物具有多個同樣屬性;二是該屬性僅有一個屬性值,但由于來源的差異導致其多個屬性值,如多個來源對出生日期的取值可能不一樣。由于Wikidata更追求數(shù)據(jù)的可驗證性而不是準確性,故會提供多個屬性值,且為屬性值附加來源,此時,屬性值有可能是不準確或矛盾的,需要基于屬性值附加的來源做進一步查證。在統(tǒng)計的260個人物條目中,有234個條目包含有多個屬性值的屬性,占比90%。通常,職業(yè)、受教育院校、獲獎情況、成員、作品、兄弟、子女等人物屬性包含多個屬性值。在第二種情況下,僅有17個條目包含該類型屬性,占比6%,且主要集中在歷史人物的生卒年月等屬性上,可見Wikidata中有多義性的屬性值并不多。
2.2.5 限定詞
限定詞主要用于進一步限定或修飾屬性值,類似于注釋,其作用可以概括為以下兩個方面:表明條目含義,如“法國,面積213,010平方英里”;可以約束值的有效性,如“截至2011年,德國人口為8,000萬”。[5]260個人物條目用到的限定詞(見下表),主要基于書目屬性、時間屬性、標識符及位置屬性來限定人物“作品”屬性的屬性值。通過使用限定詞,可以限定屬性值的范圍,完善來源描述,減少歧義。
表 統(tǒng)計數(shù)據(jù)中的限定詞
2.3.1 內(nèi)外部來源分布
如前所述,Wikidata使用兩個表示來源的屬性:“Stated in(P248)”和“Reference URL(P854)”。同時,Wikidata也經(jīng)常使用“Imported from(P143)”屬性表示屬性值的來源,其主要標識參引自維基百科或其他維基網(wǎng)站的來源,但僅因在維基百科頁面上提到過,并不意味著維基百科頁面本身可作為Wikidata數(shù)據(jù)的來源,需使用實際的引證。因此,Wikidata規(guī)定,“Imported from”屬性支持的聲明不用于來源聲明,[2]用戶在使用時,若遇到Imported from屬性標識的來源,應(yīng)將其剔除,并添加一個更可靠的來源。在260個人物條目中,“Importedfrom(P143)”屬性出現(xiàn)次數(shù)最多,達4,550次,表明Wikidata數(shù)據(jù)的來源大部分參引自維基百科頁面或其他維基網(wǎng)站,數(shù)據(jù)來源并不可靠,需要用戶進一步查證數(shù)據(jù)的準確來源。不考慮“Imported from”來源屬性,“Stated in(P248)”屬性出現(xiàn)次數(shù)達1,603次,高于“Reference URL(P854)”的967次,表明參引自Wikidata內(nèi)部來源條目要多于Wikidata外的網(wǎng)上來源。
2.3.2 來源出版類型分布
Wikidata依據(jù)出版類型將來源劃分為圖書、學術(shù)期刊/報紙/雜志文章、報告/政策/法律/技術(shù)文檔、網(wǎng)頁、數(shù)據(jù)庫、媒體娛樂6類。[2]若基于人物條目,則共包含圖書、網(wǎng)頁、數(shù)據(jù)庫、媒體娛樂等4種來源類型。其中,數(shù)據(jù)庫類僅指在Wikidata中定義為特定條目并具有相應(yīng)屬性的數(shù)據(jù)庫,媒體娛樂類來源包括電視、電臺。在來源統(tǒng)計中,數(shù)據(jù)庫類出現(xiàn)次數(shù)最多,達2,173次,主要包括法國國家圖書館開放數(shù)據(jù)(Data.bnf.fr)、VIAF、Freebase數(shù)據(jù)轉(zhuǎn)儲等20個開放性的來源數(shù)據(jù)庫;網(wǎng)頁類出現(xiàn)次數(shù)較多,達1,053次,主要為不同的網(wǎng)址來源;圖書類出現(xiàn)次數(shù)相對較少,共出現(xiàn)97次,主要包括《蘇聯(lián)環(huán)球百科全書》(第3版)、《數(shù)學史檔案》等18本圖書;出現(xiàn)次數(shù)最少的為媒體娛樂類(5次),僅包含在線BBC及阿拉伯衛(wèi)星電視臺。總體而言,大部分人物屬性值來源于數(shù)據(jù)庫及網(wǎng)頁,僅有少部分來源于圖書及媒體娛樂類。
2.3.3 來源機構(gòu)開放及關(guān)聯(lián)情況分析
語義網(wǎng)環(huán)境下,數(shù)據(jù)的開放程度是影響其發(fā)展的一個重要因素。機構(gòu)內(nèi)部及機構(gòu)之間數(shù)據(jù)的開放共享及相互關(guān)聯(lián),有助于知識發(fā)現(xiàn)及聚合。各來源機構(gòu)間的關(guān)聯(lián)情況見圖3。Wikidata主要從維基百科頁面抽取結(jié)構(gòu)化的數(shù)據(jù),而維基百科的一個重要特點是免費開放,由全世界不同用戶協(xié)作編輯,其中“維基共享資源”為用戶提供了可共享的媒體文件。同時,為了更好地利用維基百科內(nèi)容,DBpedia從維基百科中抽取了結(jié)構(gòu)化的信息,并以關(guān)聯(lián)數(shù)據(jù)的形式將其發(fā)布在網(wǎng)上,允許用戶基于維基百科實施復雜查詢,與許多數(shù)據(jù)集建立了鏈接關(guān)系,成為關(guān)聯(lián)數(shù)據(jù)云圖(LOD)中最核心的數(shù)據(jù)集。除維基來源外,統(tǒng)計條目中也存在其他數(shù)據(jù)庫來源,其中大部分的數(shù)據(jù)庫與其他數(shù)據(jù)庫建立了關(guān)聯(lián)鏈接關(guān)系。Data.bnf.fr是基于語義網(wǎng)的開放數(shù)據(jù)項目,與LibraryofCongress、DNB、 VIAF、 IdRef、 Geonames、 Agrovoc、 Thesaurus W、CCFr、Europeana、SUDOC、Worldcat及維基百科建立了外部鏈接,與BnF目錄、BnF存檔建立了內(nèi)部鏈接;[6]GND是個人名稱、主題詞和團體名稱的規(guī)范文檔,與DBpedia、維基百科、geonames、sw、VIAF建立了鏈接;[7]VIAF是由OCLC主辦,20個國家圖書館共同實施的聯(lián)合項目,與LCSH、DNB、BNF、DBpedia等數(shù)據(jù)集建立了外部鏈接;[8]Freebase作為Google下的關(guān)聯(lián)數(shù)據(jù)集,與bbc-music、DBpedia、Geospecies及nytimes等建立了鏈接;[9]在線音樂元數(shù)據(jù)數(shù)據(jù)庫(MusicBrainz) 與 IMDb、Allmusic、Rateyourmusic、VIAF等數(shù)據(jù)集建立了鏈接關(guān)系;[10]CERL與機構(gòu)內(nèi)的工作組、專家組及安全組建立了內(nèi)部鏈接,與Europena及LIBFER建立了外部鏈接;[11]挪威國家圖書館規(guī)范數(shù)據(jù)(BIBSYS)是個人名稱的規(guī)范文檔,與DBpedia、DNB、VIAF建立了鏈接;[12]數(shù)學家的學術(shù)譜系與10個數(shù)學網(wǎng)站相連接。[13]其余數(shù)據(jù)庫雖較少與其他數(shù)據(jù)庫建立鏈接,但作為開放性的數(shù)據(jù)庫,用戶可以免費獲取所需知識。ISNI作為全球人物標識符被許多描述人物的數(shù)據(jù)集采用,有助于準確標識及定位資源;網(wǎng)絡(luò)電影數(shù)據(jù)庫(IMDb)目前也發(fā)布為關(guān)聯(lián)數(shù)據(jù)集,用戶基于眾多的數(shù)據(jù)庫內(nèi)容可以查找與電影相關(guān)的信息;國際植物名稱索引(IPNI)是植物名稱及相關(guān)信息的數(shù)據(jù)庫,是英國皇家植物園、哈佛大學標本館和澳大利亞國立植物標本館之間的聯(lián)合項目;[14]在線書目數(shù)據(jù)庫(Open Library)已發(fā)布為關(guān)聯(lián)數(shù)據(jù),用戶可以貢獻或修改數(shù)據(jù)。整體而言,Wikidata描述人物條目的數(shù)據(jù)庫來源開放性普遍較高,且連接了圖書館內(nèi)部的書目數(shù)據(jù)、規(guī)范數(shù)據(jù),有60%數(shù)據(jù)庫已發(fā)布為關(guān)聯(lián)數(shù)據(jù)集。數(shù)據(jù)的開放共享進一步提高了數(shù)據(jù)參引能力,使用戶面對同一“實體”時可以基于不同的檢索點進行查找。
圖3 統(tǒng)計數(shù)據(jù)中數(shù)據(jù)庫來源互聯(lián)情況
數(shù)據(jù)質(zhì)量指數(shù)據(jù)滿足用戶需求的程度,[15]為了評估數(shù)據(jù)質(zhì)量,需要定義不同的質(zhì)量維度,如及時性、可靠性、完整性、可獲取性、安全性、可用性等。數(shù)據(jù)來源是描述數(shù)據(jù)項生命周期的元數(shù)據(jù),來源質(zhì)量是指元數(shù)據(jù)滿足數(shù)據(jù)描述的程度?;跀?shù)據(jù)質(zhì)量維度,本文選取時間性、準確性、完整性及可靠性作為來源質(zhì)量維度,評估Wikidata人物信息的來源質(zhì)量。
(1)時間性:包含數(shù)據(jù)條目產(chǎn)生過程中限定詞對某些屬性的限定時間及用戶獲取數(shù)據(jù)項的時間。Wikidata對于每一個條目頁面會給出最近的修訂時間,對于條目的某些屬性會給出引用時間。以作家茅盾(Q358494)為例,該頁面的最近修訂時間為2017年3月31日16:39;屬性“職位”的屬性值為“中國文化部長”,其來源參引包含任職開始和結(jié)束時間,若用戶下載引用“茅盾”頁面則會產(chǎn)生一個用戶獲取數(shù)據(jù)時間。
(2)準確性:指數(shù)據(jù)項的來源是否正確、有無矛盾性。影響準確性的因素包括:機器統(tǒng)計錯誤、Wikidata基于可驗證性為僅有一個值的屬性添加多個屬性值。對于機器統(tǒng)計錯誤,260個人物條目中共包含830條不重復的來源??捎脕碓粗挥?0條,僅占8%。統(tǒng)計發(fā)現(xiàn),Wikidata為僅有一個值的屬性添加多個屬性值的情況相對較少,僅占6%??傮w而言,影響Wikidata來源信息中準確性的因素主要為機器統(tǒng)計錯誤。
(3)完整性:指是否從多個屬性角度描述數(shù)據(jù)項,且每個屬性的屬性值是否附加多個來源。Wikidata多數(shù)人物的屬性在10個以上,且通常會為每個屬性的屬性值附加來源,如前文所述,描述人物條目的基本屬性出現(xiàn)次數(shù)普遍較高,大部分屬性值附有1-4個來源信息,可見Wikidata的數(shù)據(jù)描述具有完整性。
(4)可靠性:指數(shù)據(jù)項的出處為全球通用且具有較大影響的來源機構(gòu)。Wikidata規(guī)定,“Importedfrom”屬性支持的聲明不用于來源聲明,在可靠性分析時,該屬性參引的來源視為不可靠來源,同時,圖書、數(shù)據(jù)庫、媒體和娛樂、網(wǎng)頁的可靠性依次遞減。由上文可知,來源屬性中“Imported from”屬性出現(xiàn)次數(shù)最多,來源類型中網(wǎng)頁類出現(xiàn)次數(shù)較高,可見人物類Wikidata來源的可靠性并不高。
Wikidata作為一個輔助性數(shù)據(jù)庫,其主要目的是為其他維基媒體基金會項目提供合理保存的高質(zhì)量數(shù)據(jù)。當前,Wikidata仍處于完善階段,通過對Wikidata結(jié)構(gòu)化數(shù)據(jù)來源信息的分析,發(fā)現(xiàn)Wikidata提供的來源信息仍存在諸多問題。同時,如何在不同粒度層級上追溯Wikidata的數(shù)據(jù)來源值需要研究者繼續(xù)進行深入探討。