臧國(guó)全 井 方
?
Web長(zhǎng)期保存的困擾
臧國(guó)全 井 方
摘 要web長(zhǎng)期保存既存在管理方面的困擾,也存在技術(shù)方面的困擾。管理困擾包括保存的合法性、保存內(nèi)容的選擇、惡意軟件的去留、網(wǎng)頁(yè)的去重,技術(shù)困擾包括網(wǎng)頁(yè)收割工具的局限性、web保存的真實(shí)性、時(shí)間一致性、保存格式的有效性。另外,集體貢獻(xiàn)型網(wǎng)站的保存還存在一些特殊的困擾,包括網(wǎng)站抓取的困擾、產(chǎn)權(quán)許可的困難、保存動(dòng)機(jī)的缺失等。參考文獻(xiàn)11。
關(guān)鍵詞web保存 數(shù)字保存 數(shù)字保存質(zhì)量
web長(zhǎng)期保存的對(duì)象是因特網(wǎng)信息資源,其中主要為網(wǎng)站網(wǎng)頁(yè)。網(wǎng)站網(wǎng)頁(yè)具有高度動(dòng)態(tài)性和易失性,對(duì)其進(jìn)行長(zhǎng)期保存的理論探討與實(shí)踐項(xiàng)目伴隨著因特網(wǎng)的誕生而產(chǎn)生。到目前為止,已出現(xiàn)不少該類(lèi)保存項(xiàng)目,其中最著名的是The Internet Archives。但是,與其他類(lèi)型數(shù)字資源(如數(shù)字化圖書(shū)、數(shù)字化期刊論文)相比,這類(lèi)數(shù)字資源具有一些特殊的屬性,對(duì)其進(jìn)行長(zhǎng)期保存也面臨一些特殊的困擾。
1. 1 保存的合法性
在沒(méi)有網(wǎng)站所有人明確許可的情況下,保存機(jī)構(gòu)是否有權(quán)復(fù)制網(wǎng)站內(nèi)容進(jìn)行長(zhǎng)期保存并向用戶(hù)提供訪問(wèn)?這種活動(dòng)是否構(gòu)成了對(duì)網(wǎng)站擁有者版權(quán)的侵犯?一些網(wǎng)站明確列出了產(chǎn)權(quán)許可和版權(quán)信息,例如知識(shí)共享協(xié)議(CC),這在一定程度上解決了這個(gè)問(wèn)題。然而,大多數(shù)情況下,該問(wèn)題的解決方案很大程度上取決于保存機(jī)構(gòu)所在國(guó)家的相關(guān)法律以及保存機(jī)構(gòu)的職權(quán)范圍。
比如,英國(guó)2013年頒布的涉及網(wǎng)絡(luò)文獻(xiàn)保存的《非印刷作品法定保存條例》[1],授權(quán)一些保存機(jī)構(gòu)可收割保存全英網(wǎng)段內(nèi)所有網(wǎng)站,并提供用戶(hù)訪問(wèn)服務(wù)。但是,沒(méi)有獲得授權(quán)的保存機(jī)構(gòu)為了特定的目的需要收割保存網(wǎng)絡(luò)文獻(xiàn)時(shí),要么在網(wǎng)站上明確標(biāo)注知識(shí)共享協(xié)議,要么獲取網(wǎng)站產(chǎn)權(quán)擁有者的產(chǎn)權(quán)許可。
再比如,在美國(guó),web保存的理論與實(shí)踐比較混亂。理論上,主要有兩種:(1)一些法律專(zhuān)家認(rèn)為,已有的一些案例可以作為web保存的先例,如谷歌抓取網(wǎng)頁(yè)的行為,即在沒(méi)有事先獲得網(wǎng)頁(yè)所有者產(chǎn)權(quán)許可的情況下進(jìn)行長(zhǎng)期保存,并供網(wǎng)絡(luò)用戶(hù)檢索瀏覽,但社會(huì)對(duì)谷歌的這種實(shí)際上的侵權(quán)行為給予了默認(rèn),web長(zhǎng)期保存項(xiàng)目的實(shí)施可以參考谷歌等先例。(2)法學(xué)界一些學(xué)者認(rèn)為,圖書(shū)館提供的web保存服務(wù)具有學(xué)術(shù)和教育功能,對(duì)公眾具有顯著的益處,可以歸屬為“合理利用”。上述兩個(gè)觀點(diǎn)仍沒(méi)有得到廣泛認(rèn)可,需要進(jìn)一步討論。實(shí)踐上,也主要有兩種類(lèi)型:(1)因特網(wǎng)存檔(The Internet Archive)是一個(gè)著名的web保存項(xiàng)目,該項(xiàng)目對(duì)web網(wǎng)站的收割保存沒(méi)有獲得明確的授權(quán)許可,基于的理念是“沉默即是默許”,當(dāng)有網(wǎng)站擁有者提出質(zhì)疑時(shí),刪除保存的相應(yīng)網(wǎng)站[2];(2)美國(guó)國(guó)會(huì)圖書(shū)館完全基于產(chǎn)權(quán)許可(采用非獨(dú)占性許可的方式)進(jìn)行web保存[3]。
除此之外,其他國(guó)家的web保存也因國(guó)家而異。有些國(guó)家通過(guò)了法定保存法規(guī),但是僅限于閱覽室內(nèi)瀏覽訪問(wèn)。有些國(guó)家沒(méi)有通過(guò)相關(guān)保存法規(guī),要么基于產(chǎn)權(quán)許可進(jìn)行有選擇性的保存,要么采用不向公眾提供訪問(wèn)的“秘密保存”。大英圖書(shū)館2012年6月針對(duì)全球的國(guó)家圖書(shū)館進(jìn)行的一項(xiàng)調(diào)查顯示,58%的國(guó)家圖書(shū)館希望政府制定相關(guān)法規(guī)支持本國(guó)網(wǎng)段內(nèi)網(wǎng)頁(yè)收割保存的合法化[4]。
1. 2 保存內(nèi)容的選擇
基于目前的實(shí)踐,web保存內(nèi)容的選擇主要有兩種:
(1)基于域集的選擇性保存。比如,選擇一個(gè)國(guó)家域集內(nèi)的所有網(wǎng)站進(jìn)行保存,這些網(wǎng)站包括以國(guó)家域名后綴標(biāo)識(shí)結(jié)束的網(wǎng)站,也包括網(wǎng)站服務(wù)器建在該國(guó)但域名后綴標(biāo)識(shí)不同的網(wǎng)站,還包括網(wǎng)站服務(wù)器雖在國(guó)外但內(nèi)容與該國(guó)密切相關(guān)的網(wǎng)站。
(2)基于條件設(shè)置的選擇性保存。設(shè)置的條件可以是一個(gè)主題(比如數(shù)字圖書(shū)館)、一個(gè)學(xué)科專(zhuān)業(yè)(比如圖書(shū)館學(xué))、一個(gè)事件(比如某屆大選、某屆奧運(yùn)會(huì))、一個(gè)機(jī)構(gòu)(比如可口可樂(lè)公司)等。保存內(nèi)容是web上與設(shè)置條件相關(guān)的所有網(wǎng)絡(luò)文獻(xiàn)。
上述兩種方法都存在一些困擾。針對(duì)第一種保存內(nèi)容的選擇方法,主要困擾有兩個(gè):一是產(chǎn)生于對(duì)域集的界定。因?yàn)橐蛱鼐W(wǎng)是無(wú)國(guó)界的,更無(wú)域集界限,在界定的域集內(nèi)收割的網(wǎng)站中,常常會(huì)包含一些超鏈,而這些超鏈所鏈接的網(wǎng)站不在該域集范圍之內(nèi),因而沒(méi)有被收錄,當(dāng)用戶(hù)點(diǎn)擊這些超鏈時(shí)會(huì)產(chǎn)生死鏈。二是重復(fù)網(wǎng)頁(yè)問(wèn)題。在一個(gè)域集(尤其是大型域集,比如國(guó)家域集)中,重復(fù)網(wǎng)頁(yè)(甚至重復(fù)多次的網(wǎng)頁(yè))的存在是一個(gè)普遍現(xiàn)象。采用這種收集方法,保存系統(tǒng)中收割的網(wǎng)頁(yè)可能包含數(shù)量不小的重復(fù)副本,去重是一個(gè)挑戰(zhàn),因?yàn)槿ブ夭粌H僅是刪除重復(fù)的網(wǎng)頁(yè),還涉及指向被刪除網(wǎng)頁(yè)的鏈接的維護(hù)。
針對(duì)第二種保存內(nèi)容的選擇方法,主要困擾也有兩個(gè):一是網(wǎng)頁(yè)收集的不全面,基于目前的技術(shù),幾乎不可能將與設(shè)置條件相匹配的網(wǎng)絡(luò)文獻(xiàn)完全收割,因?yàn)槿魏纹ヅ渌惴ǘ紩?huì)導(dǎo)致遺漏,也會(huì)產(chǎn)生誤收割;二是保存內(nèi)容的選擇偏差,采用這種方法,需要保存的網(wǎng)站通常需要經(jīng)過(guò)人工篩選過(guò)程,但這個(gè)過(guò)程體現(xiàn)了選擇者的個(gè)人意愿,不可避免地存在選擇偏差。
1. 3 惡意軟件的去留
“惡意軟件”是一類(lèi)存在潛在威脅的軟件的總稱(chēng),廣泛滲透到計(jì)算機(jī)、操作系統(tǒng)或者應(yīng)用程序中,包括病毒、特洛伊木馬、蠕蟲(chóng)、欺騙性的廣告軟件、間諜軟件、鍵盤(pán)記錄器、cookie跟蹤軟件等。每種類(lèi)型的惡意軟件的影響不同。
雖然各類(lèi)網(wǎng)站都采用眾多方法預(yù)防和治理惡意軟件,但這類(lèi)軟件仍普遍存在。許多web保存系統(tǒng)會(huì)對(duì)保存的網(wǎng)站網(wǎng)頁(yè)進(jìn)行掃描以識(shí)別惡意軟件,但大多都不愿意將感染文件刪除,原因在于刪除感染文件可能會(huì)威脅到一個(gè)網(wǎng)站的完整性,也影響未來(lái)感興趣用戶(hù)的可訪問(wèn)性。此外,不少防病毒軟件都存在誤報(bào)現(xiàn)象,基于防病毒軟件對(duì)收割的網(wǎng)站網(wǎng)頁(yè)的掃描結(jié)果進(jìn)行感染文件的刪除,可能會(huì)導(dǎo)致誤刪情況。然而,惡意軟件的保留畢竟是一個(gè)安全隱患,尤其對(duì)規(guī)模較大的保存系統(tǒng)。所以,無(wú)論采取上述哪種方法,保存機(jī)構(gòu)都會(huì)面臨選擇困擾。
1. 4 網(wǎng)頁(yè)的去重
“去重”是指對(duì)相同內(nèi)容的不同版本的網(wǎng)頁(yè)進(jìn)行刪除,包括技術(shù)層面上相同內(nèi)容的刪除和呈現(xiàn)知識(shí)的細(xì)微差別的去重。前者指網(wǎng)頁(yè)存儲(chǔ)的比特字節(jié)相同,后者指網(wǎng)頁(yè)中內(nèi)容的差別較小,不足以被保存為不同版本(一些學(xué)者研究認(rèn)為,不同版本的界定標(biāo)準(zhǔn)應(yīng)該以網(wǎng)頁(yè)內(nèi)容重復(fù)率以不超過(guò)25%為宜[5])。對(duì)于web保存來(lái)說(shuō),去重是一個(gè)很重要的問(wèn)題,因?yàn)樵诓煌臅r(shí)間,對(duì)同一網(wǎng)站的多次抓取很可能會(huì)形成相同內(nèi)容網(wǎng)頁(yè)的多個(gè)版本。
但是,去重并非意味著絕對(duì)排除重復(fù)。比如,為了處理未來(lái)可能出現(xiàn)的網(wǎng)頁(yè)文件破損等問(wèn)題,應(yīng)該在保存系統(tǒng)中保留一定數(shù)量的網(wǎng)頁(yè)文件副本,但副本總量應(yīng)該控制。再比如,一些法律判案網(wǎng)站,呈現(xiàn)在不同網(wǎng)頁(yè)之中的一些判案的相似度可能很高,或許已經(jīng)達(dá)到了去重標(biāo)準(zhǔn)的要求,但它們呈現(xiàn)的畢竟是不同的獨(dú)立判案,應(yīng)該避免去重。
總的來(lái)說(shuō),“去重”是原則,“保留”是例外。但在具體實(shí)踐中,如何清晰地界定“去重”與“保留”之間的“度”,是保存機(jī)構(gòu)面臨的一個(gè)管理困擾。
2. 1 網(wǎng)頁(yè)收割工具的局限性
大多數(shù)web保存采用的網(wǎng)頁(yè)收割工具都是網(wǎng)絡(luò)爬蟲(chóng)。多年來(lái),網(wǎng)絡(luò)爬蟲(chóng)技術(shù)經(jīng)過(guò)了漫長(zhǎng)的開(kāi)發(fā)與應(yīng)用歷程,目前已比較成熟,但是仍有一些類(lèi)型的網(wǎng)頁(yè)很難被其有效抓取:(1)基于數(shù)據(jù)庫(kù)動(dòng)態(tài)驅(qū)動(dòng)的內(nèi)容網(wǎng)頁(yè),即數(shù)據(jù)庫(kù)通過(guò)響應(yīng)用戶(hù)的請(qǐng)求而自動(dòng)生成的網(wǎng)頁(yè);(2)密碼保護(hù)的內(nèi)容網(wǎng)站,如果網(wǎng)站提供密碼,爬蟲(chóng)可以順利進(jìn)行內(nèi)容抓取,反之則無(wú)法進(jìn)行抓??;(3)由動(dòng)態(tài)機(jī)制產(chǎn)生URL的網(wǎng)頁(yè)內(nèi)容。上述這些網(wǎng)頁(yè)常被稱(chēng)為“深網(wǎng)”,其內(nèi)容很難被有效抓取。
另外,也有一些管理方面的因素阻止網(wǎng)絡(luò)爬蟲(chóng)的抓取操作。比如,網(wǎng)頁(yè)暫存數(shù)量的最大值設(shè)定,網(wǎng)絡(luò)爬蟲(chóng)將抓取的網(wǎng)頁(yè)暫存到自己的內(nèi)存之中,當(dāng)達(dá)到最大值設(shè)定時(shí),網(wǎng)絡(luò)爬蟲(chóng)將停止抓取。這個(gè)因素并不是網(wǎng)絡(luò)爬蟲(chóng)本身的問(wèn)題,而是由于不切合實(shí)際的設(shè)置導(dǎo)致的抓取容量限制。
網(wǎng)絡(luò)爬蟲(chóng)的開(kāi)發(fā)研究進(jìn)展很快,可以期待未來(lái)的網(wǎng)絡(luò)爬蟲(chóng)能有效解決上述問(wèn)題,但目前對(duì)web保存仍是一個(gè)困擾。
2. 2 web保存的真實(shí)性
web保存的真實(shí)版本應(yīng)該是原始網(wǎng)站的相同副本。早期的網(wǎng)站比較簡(jiǎn)單,幾乎都標(biāo)注最合適的瀏覽器版本和設(shè)置參數(shù),所以抓取和重現(xiàn)一個(gè)網(wǎng)站的相同副本很容易。但隨著因特網(wǎng)技術(shù)的發(fā)展,個(gè)性化瀏覽技術(shù)逐漸成熟,不同用戶(hù)對(duì)同一個(gè)網(wǎng)站的個(gè)性化體驗(yàn)結(jié)果可能很不一樣,識(shí)別原始網(wǎng)站的構(gòu)成以及它的外觀已變得越來(lái)越困難。不同的瀏覽器不僅會(huì)影響一個(gè)網(wǎng)站的整體呈現(xiàn)外觀,而且展現(xiàn)給瀏覽者的內(nèi)容也會(huì)發(fā)生變化,這樣,原始網(wǎng)站的相同副本也就無(wú)從判斷。
那么,一個(gè)網(wǎng)站保存版本的真實(shí)性如何體現(xiàn)?一般認(rèn)為,它應(yīng)該具有原始網(wǎng)站的所有重要屬性,包括內(nèi)容、語(yǔ)境、外觀、結(jié)構(gòu)和行為動(dòng)作等方面。因此,識(shí)別網(wǎng)站的重要屬性就成為了保存版本是否真實(shí)的判斷依據(jù)。Ball進(jìn)行了一項(xiàng)相關(guān)研究,提供了一個(gè)有關(guān)網(wǎng)站的重要語(yǔ)義、互動(dòng)性、動(dòng)態(tài)性和外觀等方面屬性的列表[6],可為網(wǎng)站重要屬性的制定提供參考。
如何驗(yàn)證保存網(wǎng)站的真實(shí)性?可以通過(guò)對(duì)比保存網(wǎng)站與原始網(wǎng)站的重要屬性的異同來(lái)實(shí)現(xiàn)。一般采用人工測(cè)試的方法,將原始網(wǎng)站和保存網(wǎng)站同時(shí)呈現(xiàn)在相同的標(biāo)準(zhǔn)瀏覽器中,由訓(xùn)練有素的專(zhuān)家基于人工視覺(jué)的方法進(jìn)行評(píng)估。很顯然,這種評(píng)估方法雖比較準(zhǔn)確,但效率低且時(shí)間成本高。采用自動(dòng)化評(píng)估工具效率可提高,但目前開(kāi)發(fā)的該類(lèi)工具很難滿(mǎn)足準(zhǔn)確度的要求,僅能處理一些容易判斷的問(wèn)題,比如明顯的抓取錯(cuò)誤(記錄在爬網(wǎng)日志中)、死鏈、抓取網(wǎng)頁(yè)的大小等[7]。因此,如何確保網(wǎng)站保存版本的真實(shí)性是保存機(jī)構(gòu)面臨的一個(gè)挑戰(zhàn)。
2. 3 時(shí)間一致性問(wèn)題
時(shí)間一致性是web保存的一個(gè)特性,指在一個(gè)時(shí)間節(jié)點(diǎn)上所有保存網(wǎng)頁(yè)同時(shí)存在于web上。與其他類(lèi)型數(shù)字資源的長(zhǎng)期保存相比,web保存的一個(gè)重要特殊性就是時(shí)間維度。保存的web信息資源時(shí)間跨度越大,保存系統(tǒng)的時(shí)代價(jià)值也就越高,但同時(shí)可能導(dǎo)致其時(shí)間的一致性越低。
因?yàn)榕廊∫粋€(gè)網(wǎng)站需要花費(fèi)一定時(shí)間,導(dǎo)致網(wǎng)站內(nèi)部不同網(wǎng)頁(yè)被抓取的時(shí)間節(jié)點(diǎn)不同。如果在抓取網(wǎng)站主頁(yè)過(guò)程中,網(wǎng)站內(nèi)的某些網(wǎng)頁(yè)正在更新,那么網(wǎng)站主頁(yè)與這些被更新網(wǎng)頁(yè)之間存在著時(shí)間不一致現(xiàn)象,在整個(gè)網(wǎng)站抓取保存后,網(wǎng)站主頁(yè)的鏈接標(biāo)題與被鏈接的更新網(wǎng)頁(yè)內(nèi)容之間存在不相符的問(wèn)題。抓取保存的范圍越大,時(shí)間不一致問(wèn)題越突出。比如,針對(duì)一個(gè)域集范圍內(nèi)網(wǎng)絡(luò)文獻(xiàn)的抓取保存,時(shí)間不一致現(xiàn)象是一個(gè)很大的挑戰(zhàn),因?yàn)榛谟蚣ǖ木W(wǎng)段規(guī)模較大,爬取該域集內(nèi)全部網(wǎng)站的網(wǎng)頁(yè)可能需要一段較長(zhǎng)的時(shí)間。
因此,web保存系統(tǒng)中保存的網(wǎng)絡(luò)文獻(xiàn)并不是在一個(gè)時(shí)間節(jié)點(diǎn)上的網(wǎng)站網(wǎng)頁(yè)備份,而是在一個(gè)時(shí)間跨度范圍內(nèi)的備份,所以時(shí)間不一致問(wèn)題在所難免。此外,還會(huì)出現(xiàn)下述一個(gè)問(wèn)題:如果研究人員想知道在過(guò)去一個(gè)特定的時(shí)間節(jié)點(diǎn)上網(wǎng)絡(luò)用戶(hù)能夠訪問(wèn)的網(wǎng)絡(luò)信息,現(xiàn)行的web保存系統(tǒng)將無(wú)法給出準(zhǔn)確答案。目前研制出的確保時(shí)間一致性的實(shí)現(xiàn)工具僅僅局限在單個(gè)網(wǎng)站上,對(duì)于多網(wǎng)站及其他類(lèi)型網(wǎng)絡(luò)文獻(xiàn)的收割,時(shí)間一致性?xún)H停留在概念上,在實(shí)踐中仍是一個(gè)巨大的挑戰(zhàn)[8]。
2. 4 保存格式的有效性
即使原始的軟硬件環(huán)境發(fā)生變化,長(zhǎng)期保存技術(shù)也應(yīng)該能夠應(yīng)對(duì)這種變化所帶來(lái)的挑戰(zhàn),確保保存的web網(wǎng)頁(yè)網(wǎng)站能夠被用戶(hù)有效的訪問(wèn)利用,這是web保存的一項(xiàng)基本原則。有些類(lèi)型web網(wǎng)頁(yè)的使用條件比較低,比如,純粹的HTML格式網(wǎng)頁(yè),可以在普通軟硬件環(huán)境中被絕大多數(shù)瀏覽器有效打開(kāi)并使用。但也有一些類(lèi)型web網(wǎng)頁(yè)的使用對(duì)一些特殊環(huán)境的依賴(lài)度較高。一般來(lái)說(shuō),時(shí)間越久的網(wǎng)頁(yè),準(zhǔn)確呈現(xiàn)與有效使用的問(wèn)題越多。
與其他類(lèi)型數(shù)字資源相比,web長(zhǎng)期保存面臨的格式困擾主要有兩個(gè)[9]:
一是基于web發(fā)布的網(wǎng)頁(yè)文件的格式類(lèi)型較多,且比較復(fù)雜。web保存不僅要對(duì)所有格式的網(wǎng)頁(yè)文件進(jìn)行抓取保存,而且還要采用相應(yīng)的技術(shù)和策略保證這些格式的網(wǎng)頁(yè)文件能夠被未來(lái)用戶(hù)有效訪問(wèn)。
二是網(wǎng)站與所包含網(wǎng)頁(yè)以及網(wǎng)頁(yè)與所包含文件的關(guān)系復(fù)雜。前者主要是一種結(jié)構(gòu)關(guān)系,通過(guò)超級(jí)鏈接實(shí)現(xiàn)。后者主要是網(wǎng)頁(yè)與組成該網(wǎng)頁(yè)的實(shí)體文件之間的關(guān)系,也是通過(guò)超級(jí)鏈接實(shí)現(xiàn)。在web保存中,不僅要抓取網(wǎng)站、網(wǎng)頁(yè)和超鏈的實(shí)體文件,更要維護(hù)超級(jí)鏈接,確保所有超級(jí)鏈接在保存系統(tǒng)環(huán)境中的長(zhǎng)期有效性。其他類(lèi)型數(shù)字資源長(zhǎng)期保存廣泛使用的數(shù)字遷移技術(shù)應(yīng)用到web保存中將面臨挑戰(zhàn),原因在于數(shù)字遷移過(guò)程中文件名(包括文件的后綴名)的改變不可避免,導(dǎo)致上述各種超級(jí)鏈接可能失效。因此,改造數(shù)字遷移技術(shù)以保持超鏈的有效性將是web保存的一項(xiàng)特殊工作。一種解決思路是,設(shè)計(jì)一個(gè)瀏覽器,用戶(hù)使用該瀏覽器訪問(wèn)保存系統(tǒng)中的網(wǎng)站網(wǎng)頁(yè),該瀏覽器具有識(shí)別過(guò)時(shí)格式并能夠?qū)^(guò)時(shí)格式的網(wǎng)頁(yè)進(jìn)行自動(dòng)遷移的功能,同時(shí)更新超級(jí)鏈接兩端文件的相應(yīng)設(shè)置,從而達(dá)到保持超鏈有效的目的。
集體貢獻(xiàn)型網(wǎng)站指web2.0網(wǎng)站,是JavaScript廣泛應(yīng)用的結(jié)果。這類(lèi)網(wǎng)站主要有三類(lèi):社交網(wǎng)站(如Facebook)、維基百科(如Wikipedia、Flickr)和博客(包括微博)等。這類(lèi)網(wǎng)站具有內(nèi)容的高度動(dòng)態(tài)性、產(chǎn)權(quán)擁有的分散性、內(nèi)容的集體貢獻(xiàn)性等特殊屬性,使得其在長(zhǎng)期保存過(guò)程中,除了存在上述傳統(tǒng)結(jié)構(gòu)化網(wǎng)站的困擾外,還有一些特殊的困擾。
3. 1 網(wǎng)站抓取的困擾
抓取頻率的設(shè)置。該類(lèi)網(wǎng)站的抓取涉及的一個(gè)問(wèn)題是:web2. 0網(wǎng)站與傳統(tǒng)網(wǎng)站的區(qū)別是否足夠大,以至于需要采取不同的抓取頻率。例如WIKI,如果使用不僅能夠抓取當(dāng)前頁(yè)面也能爬取網(wǎng)站網(wǎng)頁(yè)歷史版本的爬取工具,那么,WIKI具有的“歷史”頁(yè)面特征是否會(huì)導(dǎo)致爬取頻率的不同?Pinsent的研究表明[10],與傳統(tǒng)的結(jié)構(gòu)化網(wǎng)站相比,web2. 0抓取的時(shí)間依賴(lài)性可能上升,抓取頻率可能加快。
抓取時(shí)間點(diǎn)的選擇。比如博客,每一個(gè)新博文的發(fā)布都是對(duì)網(wǎng)站內(nèi)容的一次增加,在博客保存中,歷史博文通常也有價(jià)值,不應(yīng)該被覆蓋。ULCC(University of London Computer Centre,英國(guó)倫敦大學(xué)計(jì)算機(jī)中心)和UKOLN(UK Office for Library Networking,英國(guó)圖書(shū)館與信息網(wǎng)絡(luò)辦公室)指出[11],內(nèi)容“流動(dòng)性”是web2. 0內(nèi)容的重要特征,這一特征使得網(wǎng)站保存者很難確定一個(gè)時(shí)間點(diǎn),在該時(shí)間點(diǎn)上博客內(nèi)容是完整的,可以收割保存。
抓取內(nèi)容的選擇。社交網(wǎng)站抓取內(nèi)容的選擇尤其困難。例如Twitter,不僅僅包含博文發(fā)布,也包含網(wǎng)友之間的交流。保存一個(gè)Twitter賬戶(hù)意味著僅保存了一方的交流內(nèi)容。對(duì)于一個(gè)Twitter賬戶(hù),可能的抓取范圍有:(1)僅抓取Twitter賬戶(hù)本身的內(nèi)容;(2)抓取針對(duì)一個(gè)Twitter賬戶(hù)的所有回復(fù)內(nèi)容;(3)同時(shí)抓取所有回復(fù)Twitter賬戶(hù)的用戶(hù)的資料,以提供情境信息;(4)鑒于Twitter上鏈接的重要性,同時(shí)抓取來(lái)自目標(biāo)賬戶(hù)的所有鏈接。但保存系統(tǒng)無(wú)法確保這種鏈接的時(shí)間一致性,特別是半衰期非常短的鏈接,即無(wú)法保證被鏈接的網(wǎng)站內(nèi)容就是Twitter用戶(hù)交流時(shí)的網(wǎng)站內(nèi)容,因?yàn)榫W(wǎng)站內(nèi)容的刷新會(huì)導(dǎo)致不同時(shí)間同一地址的網(wǎng)站內(nèi)容的不同。
3. 2 產(chǎn)權(quán)許可的困難
一般來(lái)講,網(wǎng)站內(nèi)容產(chǎn)權(quán)歸內(nèi)容創(chuàng)建者所有。但是,針對(duì)web2. 0網(wǎng)站,其內(nèi)容本來(lái)就是眾多網(wǎng)絡(luò)用戶(hù)集體創(chuàng)作的結(jié)果,所以理論上,這類(lèi)網(wǎng)站的產(chǎn)權(quán)歸所有的內(nèi)容貢獻(xiàn)者。如果這類(lèi)網(wǎng)站的保存是基于產(chǎn)權(quán)許可的方式,那么,保存機(jī)構(gòu)要么從網(wǎng)站擁有者處獲得產(chǎn)權(quán)澄清,要么從每一個(gè)內(nèi)容貢獻(xiàn)者處獲取產(chǎn)權(quán)許可。由于web2. 0網(wǎng)站屬于內(nèi)容托管網(wǎng)站,網(wǎng)站擁有者并非擁有網(wǎng)站的內(nèi)容,所以從網(wǎng)站擁有者處獲得產(chǎn)權(quán)澄清不太可行。但從每一個(gè)內(nèi)容貢獻(xiàn)者處獲取產(chǎn)權(quán)許可,是一項(xiàng)需花費(fèi)大量時(shí)間的巨大挑戰(zhàn)任務(wù),有時(shí)甚至是一項(xiàng)不太可能完成的工作。
產(chǎn)權(quán)許可獲取困難的原因之二是產(chǎn)權(quán)歸屬的人員組成復(fù)雜。這些人員并非集中在一個(gè)機(jī)構(gòu),是廣泛分散的,且可能分布在眾多的行業(yè)領(lǐng)域、廣袤的地域空間。所以,針對(duì)web2. 0網(wǎng)站,采用諸如電子期刊等數(shù)字資源長(zhǎng)期保存的產(chǎn)權(quán)“集體授權(quán)許可”方式是不可行的。
產(chǎn)權(quán)許可獲取困難的原因之三是產(chǎn)權(quán)歸屬的模糊性。web2. 0網(wǎng)站中作者貢獻(xiàn)的內(nèi)容有些是自創(chuàng)的,也有不少是轉(zhuǎn)載于其他地方。這種轉(zhuǎn)載有的是規(guī)范化的引用,但引用缺失是常見(jiàn)的,有的甚至根本就沒(méi)有加入引用標(biāo)識(shí)的意圖。此外,這種轉(zhuǎn)載也可能是多次的。因此,產(chǎn)權(quán)歸屬難以清晰界定。
3. 3 保存動(dòng)機(jī)的缺失
保存動(dòng)機(jī)是指保存機(jī)構(gòu)實(shí)施數(shù)字保存的意愿。影響保存動(dòng)機(jī)的因素有二:數(shù)字資源的保存價(jià)值和保存條件的可獲得性。
保存價(jià)值主要體現(xiàn)在下述三個(gè)方面。(1)用戶(hù)的需求。實(shí)際上,保存價(jià)值來(lái)自于用戶(hù)訪問(wèn)的受益,所以用戶(hù)的需求是保存價(jià)值的決定要素。用戶(hù)需求包括當(dāng)前需求和未來(lái)需求。用戶(hù)的當(dāng)前需求具有發(fā)散性,因?yàn)椴煌挠脩?hù)群體對(duì)這類(lèi)web數(shù)字資源的需求差別很大,比如,年輕者比年長(zhǎng)者需求要大。這導(dǎo)致不同用戶(hù)群體對(duì)這類(lèi)數(shù)字資源的保存價(jià)值的認(rèn)同存在較大差異。用戶(hù)的未來(lái)需求具有預(yù)測(cè)性,因?yàn)閿?shù)字保存是一項(xiàng)跨越時(shí)代的工作,用戶(hù)對(duì)其訪問(wèn)需求不僅分布在現(xiàn)在,更主要分布在未來(lái)。但是,一般來(lái)講,集體創(chuàng)作型web數(shù)字資源的時(shí)效性很強(qiáng),其未來(lái)需求充滿(mǎn)不確定性。(2)數(shù)字資源的本身價(jià)值,包括內(nèi)容的創(chuàng)新性、準(zhǔn)確性和完整性等。但這類(lèi)數(shù)字資源一般不是科研成果,所以其創(chuàng)新性無(wú)從談起。另外,這類(lèi)數(shù)字資源是集體創(chuàng)作的結(jié)果,其準(zhǔn)確性和完整性也難以得到保證。(3)保存內(nèi)容。由上可知,這類(lèi)數(shù)字資源最主要的一個(gè)特征是內(nèi)容的“流動(dòng)性”,導(dǎo)致在任何時(shí)間點(diǎn)上內(nèi)容都不是完整的,這不僅給收割保存帶來(lái)困擾,同時(shí)也說(shuō)明了保存內(nèi)容永遠(yuǎn)不可能是完整的。另外,上文也闡述了保存內(nèi)容有4種選擇,但不管怎樣選擇,保存內(nèi)容的完整性都難以得到保證。還有,其他類(lèi)型數(shù)字資源(如數(shù)字化期刊論文等)的保存對(duì)象幾乎都是單個(gè)文件的實(shí)體,但這種模式對(duì)于其價(jià)值取決于鏈入和鏈出的對(duì)象與數(shù)量的集體創(chuàng)作型web數(shù)字資源來(lái)說(shuō)不完全適合。
保存條件主要有保存資源的可獲得性以及數(shù)字資源產(chǎn)權(quán)許可的可獲得性。在保存資源方面,與其他類(lèi)型數(shù)字資源保存相同,包括所需人力、物力、資金等。在產(chǎn)權(quán)許可方面,由上文分析可知,集體創(chuàng)作型web數(shù)字資源的產(chǎn)權(quán)歸屬非常分散,且存在模糊現(xiàn)象,導(dǎo)致保存機(jī)構(gòu)尋求產(chǎn)權(quán)許可非常困難。
綜上所述,集體創(chuàng)作型web數(shù)字資源的保存價(jià)值存在不確定性,并且獲得產(chǎn)權(quán)許可也極為困難,所以保存機(jī)構(gòu)(至少是商業(yè)性保存機(jī)構(gòu))對(duì)這類(lèi)數(shù)字資源進(jìn)行長(zhǎng)期保存的動(dòng)機(jī)缺失(至少不足)。提升保存動(dòng)機(jī)的基本方法有二:一是采用非排他性許可,減少保存障礙;二是制定法定保存法規(guī),賦予公共保存機(jī)構(gòu)保存動(dòng)機(jī)?;诘谝环N方法,這類(lèi)網(wǎng)站可以在內(nèi)容創(chuàng)建者的注冊(cè)過(guò)程中與其簽訂協(xié)議(如知識(shí)共享協(xié)議),規(guī)定內(nèi)容創(chuàng)建者同意以非獨(dú)占性許可方式將貢獻(xiàn)的內(nèi)容產(chǎn)權(quán)許可給期望保存者;也可以在網(wǎng)站的明顯位置上發(fā)表聲明,說(shuō)明所有內(nèi)容貢獻(xiàn)者默認(rèn)同意將其貢獻(xiàn)的內(nèi)容以非獨(dú)占性方式許可給保存者。對(duì)于第二種方法,由于這類(lèi)數(shù)字資源的保存價(jià)值存在很大的不確定性,商業(yè)性保存機(jī)構(gòu)缺乏必要的保存動(dòng)機(jī),公共保存機(jī)構(gòu)(如公共圖書(shū)館)履行公共職責(zé)對(duì)其進(jìn)行保存,但仍需國(guó)家法定保存法規(guī)的授權(quán),以徹底清除產(chǎn)權(quán)障礙。
web數(shù)字資源是一種重要的數(shù)字資源,對(duì)其進(jìn)行長(zhǎng)期保存的項(xiàng)目已有不少,比如,基于英國(guó)國(guó)家域集的The UK Web Archive、基于機(jī)構(gòu)條件設(shè)置的The Coca-Cola Web Archive等。但是,至今web數(shù)字資源的長(zhǎng)期保存仍然存在各種缺憾,困擾著這類(lèi)數(shù)字資源的有效保存使用。本文對(duì)這些困擾進(jìn)行了分析和總結(jié),以期業(yè)界探討解決方案,完善web數(shù)字資源的保存實(shí)踐。
參考文獻(xiàn)
1UK Parliament. The Legal Deposit Libraries (Non - Print Works)Regulations[EB/OL]. [2015 - 03 - 01]. http://www. copyright. gov/circs/circ07d.pdf.
2Band,J. A new day for Website Archiving 2.0 [EB/OL].[2015-01-09].http://www.arl.org/bm~doc/band_webarchive2012.pdf.
3Grotke,A. Web Archiving at the Library of Congress[EB/OL].[2015-01-29].http://www.infotoday.com/cilmag/dec11/Grotke.shtml.
4Brindley,L. British Library International Durvey on E-Legal Deposit 2013:Summary of Findings [EB/OL].[2015-01-29]. http://www.cdnl. info/2013/pdf/e_2Dlegaldeposit _20survey _20 CDNL_20Slides_20Aug%20.pdf.
5Gomes,D. Managing Duplicates in a Web Archive[EB/OL].[2015-02-21]. http://xldb. fc. ul. pt/daniel/docs/presentations/gomes06du plicatesPPT.pdf.
6Ball,A. Web Archiving[EB/OL].[2015-02-28].http://www.dcc.ac.uk/sites/default/files/documents/reports/sarwa-v1.1.pdf.
7Hockx - Yu H.,et al. Improvement in WCT [EB/OL].[2015-03-09].http://netpreserve. org/events/dc_ ga/03 _ Wednesday/WCTQAImprovement.pdf.
8Mazeika,D,et al.The SOLAR System for Sharp Web Archiving[EB/OL].[2014 - 12 - 09]. http://liwaproject.eu/images/publications/The-SOLARSystem.pdf.
9Thompson,D. Archiving websites[EB/OL]. [2015-04-09].http://www.dcc.ac.uk/sites/default/files/documents/resource/curationman ual/chapters/archiving - web - resources/archiving -web-resources.pdf.
10 Pinsent,E. Working with the Web Curator Tool (part 2):wikis,blog post on ULCC's Da Blog [EB/OL].[2015-02-09].http://dablog.ulcc. ac.uk/2009/03/10/working-with-web-curator -tool-part-2-wikis/.
11 ULCC,UKOLN. Preservation of Web Resources Handbook[EB/OL].[2015-02-17]. http://www. jisc. ac. uk/publications/programmerelated/2008/powrhandbook.aspx.
(臧國(guó)全 教授 鄭州大學(xué)信息管理學(xué)院副院長(zhǎng),井方 鄭州大學(xué)信息管理學(xué)院圖書(shū)情報(bào)專(zhuān)業(yè)2014級(jí)碩士研究生)
業(yè)界動(dòng)態(tài)
Some Confusions in the Long-Term Preservation of Web
Zang Guoquan Jing Fang
Abstract:The long-term preservation of web has some confusions in both management and technology. The confusions in management include legality of preservation, selection of web sites in preservation, removing or keeping off viruses and malware, and web page de-duplication. The confusions in technology include limitation in web harvesting tools, authenticity of web preservation, temporal coherence, and validity of preservation format. In addition, the preservation for web sites in collective contribution has some special confusions, including site scraping, difficulty in property right permission, and deficiency of preservation motivation. 11 refs.
Keywords:Web Preservation;Digital Preservation;Quality of Digital Preservation
收稿日期:2015-07-13