亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)字圖書館視野下的Web信息資源及相關(guān)問題探討

2014-09-27 23:59:14張彥文

大學教育 2014年13期

關(guān)鍵詞：搜索引擎

張彥文

［摘要］網(wǎng)絡(luò)技術(shù)的發(fā)展，涌現(xiàn)了大量的Web信息資源。Web信息資源還不能成為嚴格意義的數(shù)字圖書館。Web信息搜索引擎是用戶查詢和訪問Web信息資源的主要方式?，F(xiàn)有的搜索引擎在使用過程中還有諸多亟待解決的問題：搜索結(jié)果往往會遠遠超過一個人的閱讀能力；搜索結(jié)果的排序是不透明的；Web信息資源的可靠性得不到完全保障等。網(wǎng)絡(luò)百科是一種非常重要的Web信息資源，也是用戶獲得Web信息資源的另一種重要方式。

［關(guān)鍵詞］數(shù)字圖書館 Web 搜索引擎

［中圖分類號］G250.76［文獻標識碼］A［文章編號］2095-3437（2014）13-0082-03

一、引言

數(shù)字圖書館就是以數(shù)字形式貯存和處理信息的圖書館，是將計算機技術(shù)、通訊技術(shù)、微電子技術(shù)等融合為一的信息服務系統(tǒng)。[1]它針對有價值的圖像、文本、語音、影視、軟件和科學數(shù)據(jù)等多媒體信息進行收集、組織和規(guī)范加工，不再是傳統(tǒng)圖書館以紙介質(zhì)或其他非數(shù)字介質(zhì)為存儲載體。它利用現(xiàn)代先進的數(shù)字化技術(shù)，將圖書館館藏文獻數(shù)字化，通過國際互聯(lián)網(wǎng)上網(wǎng)服務，供用戶隨時隨地地查詢，使處在不同地理位置的用戶能夠方便地利用大量的、分散在不同貯存處的信息。只要在有網(wǎng)絡(luò)覆蓋的地方，就可以隨時隨地地查詢資料、獲取信息。通俗地說，數(shù)字圖書館是因特網(wǎng)上的圖書館，是沒有圍墻的圖書館。大量的數(shù)字化資源是數(shù)字圖書館的“物質(zhì)”基礎(chǔ)。數(shù)字圖書館是數(shù)字信息時代傳統(tǒng)圖書館的拓展和延伸，在媒體豐富的當今社會生活中扮演著極其重要的角色。

毫無疑問，萬維網(wǎng)（WWW）上的大量Web信息資源正影響著我們的工作、生活、學習，甚至思維。人們可以通過搜索引擎或直接訪問熟知的網(wǎng)站來獲取Web信息資源。Google、Bing、Yahoo、百度、搜狐等都是我們熟知的Web信息搜索引擎。然而，在使用搜索引擎查找Web信息時，往往會得到遠遠超過一個人閱讀能力的大量匹配記錄，而用戶實際閱讀的僅僅是前面幾頁非常有限的匹配記錄；其次，搜索結(jié)果的排序是不透明的，可能是按付費的多少來排序，可能是根據(jù)點擊率的多少來排序，也可能是根據(jù)誤導用戶的某些因素來排序等等；再次，Web信息資源的可靠性得不到完全保障。

Web信息資源的混雜性和不可靠性決定了Web信息資源還不能視為嚴格意義下的數(shù)字圖書館。如何檢索出可靠的Web信息資源？Web信息資源如何成為嚴格意義下的數(shù)字圖書館？這些都是我們在Web信息資源建設(shè)和利用中需要關(guān)注的問題。[2]本文從數(shù)字圖書館角度，對Web信息搜索引擎等相關(guān)問題進行討論。

二、Web搜索引擎

用戶從大量的Web信息資源中獲得自身期望的信息，有賴于使用Web信息搜索引擎。Google、Bing、Yahoo、百度、搜狐等都是用戶經(jīng)常使用的搜索引擎。這些搜索引擎在查詢Web信息資源時會遇到各種各樣的問題。使用搜索引擎遇到的最明顯問題是，搜索到的信息量太多不便于用戶使用。此外，許多搜索結(jié)果相互之間非常相似，亦即，冗余度太高。最糟糕的情況則是，不同結(jié)果之間有可能是矛盾的。

對于冗余度，未來的搜索引擎最好能夠自動聚集相似的結(jié)果，甚至將結(jié)果集聚成一個連貫的文檔，這樣用戶只需要面對有限量的群集，甚至具有內(nèi)容述評標簽的文檔。研究人員發(fā)現(xiàn)，通過相當簡單的相似性識別算法或者內(nèi)容重復檢測算法，可以將某些Web信息資源中的冗余度減少75%。[3]具體來說，50個論題的20篇文章在沒有丟失任何信息的情況下，可以減少為平均每個論題6.3篇文章。僅有的代價是不能保證所有的文獻資料閱讀起來都像原稿那樣連貫和通順。明顯減少冗余度（不是75%而是99%）并保持文獻連貫（亦即，從搜索到的大量信息片斷中創(chuàng)建出連貫文獻），現(xiàn)在聽起來還是有點像科幻小說。然而，這是搜索引擎當前面臨的最大挑戰(zhàn)，問題的解決取決于文本語料庫語義分析方面能否獲得重大突破。目前，已能夠?qū)崿F(xiàn)聚集相似文檔（采用矢量字方法等）和自動給出一個群集的摘編?？梢暬夹g(shù)可以給出文檔群集間關(guān)系的生動描述。遺憾的是，大量的搜索引擎還沒有采用這一技術(shù)。值得注意的是，Google知識圖（Google Knowledge Graph）已在此方面進行了嘗試：在查找一個文檔時，顯示了與其相關(guān)的文檔。Google利用了歷史查詢的豐富信息，但缺失了一個重要方面：知識圖中的邊沒有與之相關(guān)的元數(shù)據(jù)。因此，并不能直接看出，一個節(jié)點是否支持、矛盾或回答一個問題，等等。

對于大量的檢索信息，目前搜索引擎主要通過排序或個性化來減少提供給用戶的信息數(shù)量。排序是一個重要問題。排序算法通常是不公開的，由此會帶來許多問題。比如，如果條目A排在條目B的前面，它可能確實因為具有更高的點擊率，或者，條目A較之于其后的條目同搜索引擎商有較好關(guān)系，也可能是條目A支付了有優(yōu)先處理權(quán)的費用？曾有傳言：使用Google分析（Google Analytics）就會被Google管理員設(shè)置為優(yōu)先索引，以作為使用Google產(chǎn)品的獎勵，是否屬實？人們可能感興趣的是，排序的負面影響到底有多大。我們通過一個例子來闡述。如果想在某一城市預訂一家旅館，人們一般最容易想到的是找預訂代理商。這些代理商一般都會提供旅館的各種各樣的信息，如交通情況、服務設(shè)施等，但是通常不會提供旅館的有效電話號碼或電子郵箱。大家都明白，代理商并不想讓顧客直接和旅館聯(lián)系。不過，這也沒多大關(guān)系。但是有可能出現(xiàn)如下情形：旅客在旅行中變更計劃，迷路的顧客想要問路，需要取消預訂或重新預訂，等等。這時候就可能需要和旅館直接聯(lián)系。經(jīng)驗豐富的旅客就知道如何克服這個困難：他們通過預訂代理商來查找合適的旅館，接著通過搜索引擎來搜索這家旅館。這往往也會把他們導航至某一家或同一家預定代理商。關(guān)鍵的問題就出現(xiàn)了：在搜索結(jié)果中翻閱前10頁才發(fā)現(xiàn)該旅館的網(wǎng)站，這上面就有所有相關(guān)信息。幸運的話，旅客還可以得到更便宜的房間，當然也可以協(xié)商其他一些事宜，如房間不要靠近電梯，以免受電梯上下的打擾影響休息。有趣的是，一些預訂代理商開始拒絕接受具有自身網(wǎng)站的旅館的預訂代理業(yè)務！大規(guī)模文檔查詢或允許用戶縮放興趣領(lǐng)域是減少信息匹配數(shù)量相關(guān)的研究問題。搜索引擎Blekko通過一系列斜杠標記前綴來縮小搜索范圍。[4]例如Iceland volcano/flickr會給出用戶：網(wǎng)絡(luò)相冊（flickr）中冰島火山（Iceland volcano）的圖片。

關(guān)于Web信息資源的可靠性或準確性，引用如下一段話[3]：“我們都承認，獲得的信息是不可靠的（除了有人能確信信息的來源），而給出不可靠的例子則更為引人注目。通過Google于2010年8月25日搜索‘boiling point of radium得到2個條目。一個條目給出攝氏1737度，另一個則給出攝氏1140度。我們怎么知道哪個是正確的呢？生活并不一定取決于某一特殊的答案。然而，設(shè)想我們采摘了一種野蘑菇，我們?nèi)羰窍胫浪欠窨墒秤茫涂梢栽谒阉饕娴牡?頁得到5個條目，其中3個條目都告訴我們，它是非常美味的可食用蘑菇，1個條目告訴我們它有劇毒且致命，還有1條則簡單告訴我們它有毒！對于似乎可靠的信息來源，怎么會出現(xiàn)如此大的差異和矛盾呢？主要有兩方面原因：其一，定義的不同。如果你搜索“l(fā)argest cave in Canada”（加拿大最大的洞穴），你認為是長度最長、體積最大、高度最高還是其他什么標準？如果你想知道月球上山的高度，你意指相對于鄰近它的最低點的高度，還是假想球面月球平均高度（類似于地球上的海平面高度）之上的高度；其二，不同時間點提供的信息會有所差異，不幸的是，Web上的信息資源總是在不斷地及時更新！這就是前面關(guān)于蘑菇的可食用性得到不同結(jié)論的原因所在。幾千年前，人們吃了它之后沒有副作用；在2002年，突然發(fā)生了似乎和食用了該蘑菇的一道菜有關(guān)的兩起死亡事件。依據(jù)此兩個人的死亡是否就能斷定蘑菇有毒本身也存在疑問，畢竟，這兩人也食用了花生、魚、牛奶等，且兩人也有過敏癥（可能致命），然而我們既不能認為花生，也不能認為魚和牛奶有毒！無論如何，這兩個案例的出現(xiàn)產(chǎn)生了該蘑菇有劇毒的新條目。我們可從中得到這樣的啟示：其一，如果有各種各樣的定義，信息條目應該闡述清楚，但這不應該是搜索引擎的任務，而應該是信息條目作者的責任；其二，所有信息條目必須明確標注日期；其三，信息發(fā)布日期應當是搜索引擎中排序算法需要考慮的因素。值得一提的是，如果想要搜索一個會議、一種算法、一個工具等，更讓人感興趣的是最近的一些內(nèi)容，而不是10年前或者更早以前的內(nèi)容！

與搜索引擎相關(guān)的另一個問題是：傳統(tǒng)的Web搜索引擎大都還采用由“or”“and”“not”將詞匯連接的查詢提問式。然而，自然語言查詢應該是更加貼近語言規(guī)律的方法，對此已有相關(guān)研究工作報道。[5]電子詞典中采用自然語言查詢已有5年多的時間，遺憾的是，這樣的形式讓用戶查詢起來相當費力。一種辦法是分析查詢的第一個詞：“who”顯然是查詢一個人，“where”是查詢一個地址，“why”是查詢一個解釋，等等。例如，查詢“Who was York”。這就直接排除了所有城市名York以及其他領(lǐng)域（音樂、公司等）相關(guān)的York。還有60個名字為York的知名人士（列出的結(jié)果相對來說就可以承受），引用最多的且排在首位的是Lewis和Clark登山隊的探險家York。在Google中輸入“Who was the inventor of the toothbrush？”，經(jīng)過執(zhí)行語言分析后得到“Who invented the toothbrush”。進一步實施Google搜索，給出的結(jié)果是“No exact date known...”，但是接著繼續(xù)給出許多相關(guān)信息，如William Addis于1770年實現(xiàn)了大規(guī)模生產(chǎn)……顯然，語義分析不是僅僅使用重要的詞匯。在Google中輸入“toothbrush inventor”，也會得到不同的結(jié)果。通過Google搜索“Who was the physicist born in Vienna and died in Italy？”,得到的結(jié)果并不理想。分析搜索結(jié)果不難發(fā)現(xiàn)：搜索基于文本，因此Google找到了所有維也納籍物理學家。由于奧地利理論物理學家Schr dinger（還在世）曾經(jīng)在意大利工作過，他的名字較早彈出，但忽視了動詞“die”。使用搜索引擎Bing，準確地得到了結(jié)果Boltzmann，并提供了進一步的相關(guān)信息，其搜索依然是基于詞匯。

總而言之，主流搜索引擎大都還沒有使用深度語言分析工具，往往難以較好地縮減大量的查詢集合，沒有認真對待減少冗余度問題，也沒有充分考慮日期（時間戳），因此，為了滿足用戶需求還需要開展很多工作。由于搜索引擎的重要性，可以預期會有進一步的發(fā)展。從用戶角度考慮，采用Bing或其他完全不同風格的搜索引擎，嘗試新的搜索方式是很重要的。因此，主流搜索引擎，甚至Google，仍需要不斷地通過技術(shù)更新，實現(xiàn)自我完善。實現(xiàn)有價值但有疑問的Web信息資源的價值更大化，并最終轉(zhuǎn)化為數(shù)字圖書館，需要的是能夠搜索語義數(shù)據(jù)，又能確保一定可靠性的搜索引擎。

三、結(jié)束語

Web信息是我們當今學習、工作和生活中非常重要的資源，其信息量在不斷涌現(xiàn)，管理也在逐漸規(guī)范。毫無疑問，我們正在越來越多地使用Web信息資源。信息資源的可靠性是用戶越來越擔心的重要問題。然而，Web信息資源生成及其訪問的各種現(xiàn)有方法分析的結(jié)果表明[3]：任何方法都有某種程度上的缺陷。我們從數(shù)字圖書館的角度開展Web信息資源的討論，目的在于：一方面，Web信息資源的創(chuàng)建和利用，能夠借鑒數(shù)字圖書館組織和管理的一些理念、體系結(jié)構(gòu)甚至技術(shù)；另一方面，圖書館員們能夠及時接納Web信息資源，適時地拓展服務。

Web信息搜索引擎是用戶查詢和訪問Web信息資源的主要方式?，F(xiàn)有的搜索引擎在使用過程中還有諸多亟待解決的問題：搜索結(jié)果往往會遠遠超過一個人的閱讀能力；搜索結(jié)果的排序是不透明的；Web信息資源的可靠性得不到完全保障等等。網(wǎng)絡(luò)百科是一種非常重要的Web信息資源，也是用戶獲得Web信息資源的另一種重要方式。網(wǎng)絡(luò)百科中信息資源的可靠性也是一個重要問題。維基百科是最為成功和用戶最多的網(wǎng)絡(luò)百科之一，在改善信息資源可靠性方面已經(jīng)開展了大量的工作，但是，要實現(xiàn)任何主題的可靠信息資源，直至轉(zhuǎn)換為數(shù)字圖書館的終極目標仍需要重大的技術(shù)突破和持續(xù)不斷的努力。

［參考文獻］

［1］Wiederhold G.Digital Libraries: Value and Productivity［J］.Communication of the ACM,1995（4）:85-96.

［2］Hermann Maure, Heimo Mueller. Can the Web turn into a digital library？［J］.International Journal of Digital Library,2013（13）:65-75.

［3］Wurzinger G.Data consolidation in large bodies of information［J］.Journal of UniversalComputer Science,2010（21）:3314-3323.

［4］Blekko［EB/OL］.http://blekko.com,2013-06-06.

［5］Brockhaus Der elektronische Brockhaus［Z］.Mannheim,Germany,2006.

［6］李鈴.淺議高校圖書館個性化服務［J］.大學教育,2013（6）：33

［責任編輯：覃侶冰］