石蕾
〔摘要〕采用4種檢索方式(無過濾布爾邏輯、過濾布爾邏輯、無過濾自然語言和過濾自然語言)對7個常見數(shù)據(jù)庫ASP、GS、JSTOR、LexisNexis、ProQuest Central、PubMed、Scopus和Web of Science檢索測試,最后分析了在目前技術(shù)環(huán)境下,布爾邏輯和自然語言檢索相比,哪種方式更加有效。
〔關(guān)鍵詞〕布爾邏輯檢索;自然語言檢索;過濾
DOI:10.3969/j.issn.1008-0821.2018.09.011
〔中圖分類號〕G2549〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2018)09-0070-04
A Comparative Study of Boolean Logic Retrieval and
Natural Language RetrievalShi Lei
(Library,Xian Jiaotong University,Xian 710049,China)
〔Abstract〕Four retrieval methods(without filtering Boolean logic,filtering Boolean logic,filtering natural language and filtering natural language)were used to test seven common databases ASP,GS,JSTOR,LexisNexis,ProQuest Central,PubMed,Scopus,and Web of.Finally,it analyzed that in the current technology environment,Boolean logic and natural language search were more effective than those in natural language retrieval.
〔Key words〕Boolean retrieval;natural language retrieval;filter
2000年,ACRL發(fā)布了《ACRL高等教育信息素養(yǎng)能力標(biāo)準(zhǔn)》,其中指出學(xué)生使用布爾操作符是信息素養(yǎng)能力的一個關(guān)鍵績效指標(biāo)[1],在過去15年時間里,這項標(biāo)準(zhǔn)對信息素養(yǎng)教育產(chǎn)生了深遠(yuǎn)的影響,館員在信息素養(yǎng)教育中把布爾邏輯檢索作為一個非常重要的知識模塊。2016年ACRL發(fā)布了《高等教育信息素養(yǎng)框架》。在這個框架中沒有涉及2000年標(biāo)準(zhǔn)中的布爾邏輯檢索,僅僅提到控制詞、關(guān)鍵詞和自然語言??蚣芙档土瞬紶栠壿嫷闹匾裕瑥娬{(diào)更為廣泛的檢索策略,而不是狹義地布爾運算。標(biāo)準(zhǔn)更多地強調(diào)固定檢索模型(如布爾邏輯),框架允許圖書館員采用概念方法教授檢索策略[2-3]。自從2000年ACRL發(fā)布標(biāo)準(zhǔn)后,檢索算法發(fā)生了翻天覆地的變化,這些系統(tǒng)提供給用戶更加方便的自然語言檢索。在這些檢索系統(tǒng)中,布爾邏輯檢索和自然語言檢索哪種效果更好,目前還沒有這方面相關(guān)研究。如果自然語言檢索能夠完全滿足檢索要求,圖書館員在信息素養(yǎng)教學(xué)過程中就可以把布爾邏輯檢索占用的大量時間節(jié)約下來,轉(zhuǎn)而講解其他更重要的知識模塊(如問題進展、信息源評價等),另外布爾邏輯檢索也不符合新的框架,更多的是概念化方法和非常低的可操作性。本文擬對比自然語言和布爾邏輯在7個主流數(shù)據(jù)庫中的檢索效果。
1布爾邏輯檢索面臨的問題
11檢索接口的變化
布爾邏輯檢索步驟為,首先將研究主題分解為幾個主要概念,一般為3個或更多,例如A、B、C,然后確定每一個主題概念的同義詞(A1、A2、A3;B1、B2、B3;C1、C2、C3),再用布爾邏輯符號組成檢索式(A1 OR A2 OR A3)AND(B1 OR B2 OR B3)AND(C1 OR C2 OR C3)。2010年前,大部分?jǐn)?shù)據(jù)庫都符合這種檢索模式,如Ebscohost、JSTOR、Engineering Village、ProQuest平臺等。到了2014年,許多數(shù)據(jù)庫檢索接口發(fā)生了很大變化,默認(rèn)搜索僅僅為一個盒子(因為用戶更喜歡類似于google一樣的單盒搜索),如果點擊“Add Field”會回到從前的檢索接口[4],Scopus和Web of Science等數(shù)據(jù)庫都采用了這種樣式。
12檢索方式的改變
原有數(shù)據(jù)庫檢索主要有以下特點:1)元數(shù)據(jù)(包括主題詞)+摘要,不包括全文;2)精確檢索,輸入的內(nèi)容就是要檢索的內(nèi)容;3)低水平聚合,沒有超過一百萬條條目以上的數(shù)據(jù)庫。在這種環(huán)境下,由于僅匹配元數(shù)據(jù),檢索只返回少量的結(jié)果,有些情況下甚至檢索結(jié)果為零。如果檢索“Youth”,如果作者剛好在標(biāo)題和摘要中使用“Teenager”,檢索結(jié)果將不包括這個結(jié)果。也沒有自動包含單詞的變體(包括英式或美式拼寫),為了保證查全率用戶必須盡可能包含檢索詞的所有變體,如復(fù)數(shù)、名詞、形容詞等形式。還有像Dialog按照檢索次數(shù)或時間收費的系統(tǒng),構(gòu)建精確的搜索語句以執(zhí)行高效的檢索式非常必要。
現(xiàn)在的檢索環(huán)境發(fā)生了很大的變化,出現(xiàn)大量全文數(shù)據(jù)庫,搜索全文數(shù)據(jù)庫和索引數(shù)據(jù)庫存在很大的差距,如一個論文討論“Teenagers”,論文或書的全文中可能出現(xiàn)“Teenager”、“Youth”、“Adolescence”等同義詞,這種情況下不必要構(gòu)造含有同義詞的檢索策略。更為重要的是受Google的影響,越來越多的數(shù)據(jù)庫提供更多的智能,自動詞根、增加相關(guān)同義詞,因此現(xiàn)實情況中不需要增加關(guān)鍵詞的變體,如“Color”和“Colour”或者任何關(guān)鍵詞的復(fù)數(shù)形式。即使做一個最基本的檢索“A AND B AND C”,由于自動詞根、全文匹配,仍能夠得到合理的召回率。
類似于Google Scholar現(xiàn)代搜索工具具有三大特征:全文搜索、高度聚合、自動詞根。
在這種環(huán)境下,使用復(fù)雜的邏輯嵌套、錯誤的選擇同義詞、過度使用截詞符會使檢索結(jié)果變得更差[5]。使用合適的關(guān)鍵詞是保證檢索敏感度和精確度的關(guān)鍵,如用邏輯OR連接某個藥物的名稱列表,但許多研究人員開始并不熟悉該領(lǐng)域的關(guān)鍵詞列表,如果告訴他們列出關(guān)鍵詞列表時,他們可能會過度延伸使用關(guān)鍵詞,從而使檢索結(jié)果變得更加糟糕。如(A1 OR A2 OR A3)AND(B1 OR B2 OR B3)AND(C1 OR C2 OR C3),可能A3、B3、C3不是確切的,而僅僅是為了防止萬一的情況。另外為了使檢索詞更全面匹配而過多地使用截詞符,從而導(dǎo)致匹配錯誤的檢索詞。A3、B3、C3在特定的上下文環(huán)境中是合適的,但在不同學(xué)科表達(dá)的意思完全不同,如“Migration”在醫(yī)學(xué)學(xué)科通常表示“腫瘤的轉(zhuǎn)移”,在社會科學(xué)中表示“移民”的意思?,F(xiàn)在許多檢索系統(tǒng)與典型數(shù)據(jù)庫不同,如Summon、GS沒有學(xué)科限制。由于資源發(fā)現(xiàn)系統(tǒng)有非常大的索引系統(tǒng),A3 AND B3 AND C3很可能匹配到大量不相關(guān)記錄。即使A3 AND B3 AND C3是非常合理的關(guān)鍵詞組配方式,但3個關(guān)鍵詞在全文中匹配也可能帶來不相關(guān)的結(jié)果。當(dāng)檢索系統(tǒng)有自動詞根匹配時,問題會變得更加嚴(yán)重。
14邏輯檢索在不同檢索平臺檢索測試
為了測試邏輯檢索在不同檢索系統(tǒng)中的檢索效果,選擇了西安交大EDS、MIT EDS、GS、Scopus、PubMed,這5個數(shù)據(jù)庫包括了發(fā)現(xiàn)系統(tǒng)、學(xué)術(shù)搜索引擎和傳統(tǒng)索引數(shù)據(jù)。EDS發(fā)現(xiàn)系統(tǒng)提供了4種檢索模式,相關(guān)詞+全文范圍檢索、僅全文檢索、僅相關(guān)詞檢索和關(guān)閉相關(guān)詞和全文檢索[6],其中第4種方式和傳統(tǒng)的索引數(shù)據(jù)庫檢索模式相同。檢索式選擇要求查全率非常高的系統(tǒng)評價檢索式,第1個檢索式包含各關(guān)鍵詞的同義詞“Depression Treatment Placebo AND(Antidepressant OR“Monoamine Oxidase Inhibitors”O(jiān)R“Selective Serotonin Reuptake Inhibitors”O(jiān)R“Tricyclic Drugs”) (“General Practice”O(jiān)R“Primary Care”)AND(Randomized OR Randomised OR Random OR Trial)”;第2個檢索式不包括關(guān)鍵詞的同義詞,“Depression Treatment Placebo AND Antidepressant AND General Practice AND Randomized”。
從表中的結(jié)果可以看到,選擇關(guān)鍵詞的同義詞和相關(guān)詞用OR邏輯組配檢索對發(fā)現(xiàn)服務(wù)和GS影響很小,兩者的檢索結(jié)果基本相同。同義詞、相關(guān)詞布爾邏輯檢索對GS沒有作用。運用同義詞、相關(guān)詞后Scopus增加了4條記錄,PubMed增加了20條記錄,表明同義詞和相關(guān)詞OR邏輯組配方式對傳統(tǒng)索引數(shù)據(jù)庫的影響也越來越小。
2布爾邏輯檢索和自然語言檢索測試
自然語言檢索指的是使用短語或句子檢索,布爾邏輯檢索是指使用AND/OR/NOT構(gòu)造的檢索式。通過對常用的7個數(shù)據(jù)庫進行布爾邏輯和自然語言檢索測試,分析兩種檢索方式在當(dāng)前檢索環(huán)境下的差異。
21數(shù)據(jù)庫和檢索主題
為了保證研究問題的多樣性,在設(shè)計問題時盡可能覆蓋更多學(xué)科,本文設(shè)計的檢索主題如表3。在數(shù)據(jù)庫方面選擇常用的7個數(shù)據(jù)庫,ASP、GS、JSTOR、LexisNexis、ProQuest Central、PubMed、Scopus、Web of Science。每個數(shù)據(jù)庫采用4種檢索方式,無過濾布爾邏輯、過濾布爾邏輯、無過濾自然語言和過濾自然語言。ASP過濾采用限制學(xué)術(shù)/同行評審、GS使用The Closest Equivalent When Available、JSTOR使用“Article”過濾、LexisNexis使用“Law Reviews”過濾、ProQuest Central采用“Peer Reviewed”、 PubMed采用“Journal Article”、Scopus和Web of Science采用“Article”。根據(jù)檢索主題選擇相應(yīng)的數(shù)據(jù)庫。
22方法
將每次檢索前25個結(jié)果導(dǎo)入Endnote文獻(xiàn)管理軟件,根據(jù)評分標(biāo)準(zhǔn)為每條記錄打分,記錄過濾和沒有過濾記錄的重疊數(shù)量,采用快速瀏覽標(biāo)題和摘要評價每條記錄得分,評分原則采用表的0~3分原則,每個分?jǐn)?shù)的具體描述見表4。
23結(jié)果
每種檢索方式都返回大量的檢索結(jié)果。除了JSTOR和LexisNexis數(shù)據(jù)庫,其他數(shù)據(jù)庫自然語言檢索比相應(yīng)的布爾邏輯檢索返回的結(jié)果少(如無過濾自然語言和無過濾布爾邏輯),JSTOR和LexisNexis得到相反的結(jié)果(表5)。
231不同數(shù)據(jù)庫檢索結(jié)果相關(guān)度
4種檢索的平均得分198~208(最高為3),穩(wěn)定在2相關(guān)。最高平均分208是無過濾自然語言,最低平均分198為過濾布爾邏輯。如果只看第一頁的檢索結(jié)果,范圍上升到203~211,無過濾自然語言再次得到最高分(第1頁的結(jié)果數(shù)量根據(jù)不同數(shù)據(jù)庫從10~50范圍),說明第1頁的結(jié)果比全部25個相關(guān)結(jié)果稍微多一些。也間接說明數(shù)據(jù)庫內(nèi)部相關(guān)算法獲得相關(guān)結(jié)果優(yōu)于布爾邏輯檢索(圖1)。
為了更深入理解檢索結(jié)果的相關(guān)性,將檢索結(jié)果的第1頁分成3部分,得分結(jié)果隨著頁面下降逐漸降低。
結(jié)果(1~8)最相關(guān),后2/3結(jié)果稍微下降。整體來說,ASP在所有搜索中最好,平均分?jǐn)?shù)256,GS分?jǐn)?shù)25第二,這兩個數(shù)據(jù)接近非常相關(guān)(3分)。最低的是ProQuest Central(125),LexisNexis(139),這兩個數(shù)據(jù)庫接近不圖1檢索結(jié)果平均分
相關(guān)(1分)。中間部分2分(相關(guān))包括JSTOR(234)、Web of Science(218)、Scopus(212)、PubMed(194)。同一數(shù)據(jù)庫中4種檢索方式的一致性方面,ASP和GS最好,ProQuest Central相關(guān)度分?jǐn)?shù)差異最大,無過濾布爾邏輯192分,過濾自然語言052分。綜合數(shù)據(jù)庫ASP、GS得分超過ProQuest Central。單因素相關(guān)分析同一個數(shù)據(jù)庫不同主題檢索得分之間沒有明顯差異性。
由于不同數(shù)據(jù)庫每頁顯示記錄數(shù)不同(ASP=50、JSTOR、LexisNexis=25、ProQuest Central、PubMed、Scopus=20;GS、Web of Science=10),當(dāng)只計算第一頁的平均分時,大多數(shù)數(shù)據(jù)庫平均分?jǐn)?shù)都有所提高,其中GS增加最多,從25增加到27,PubMed是唯一平均分降低的數(shù)據(jù)庫,從194降到191。單因素回歸分析不同主題間無明顯差異。
232不同檢索方法檢索結(jié)果重疊度
每個數(shù)據(jù)庫不同檢索方法的檢索結(jié)果的重疊百分比,過濾和無過濾重疊百分比表示不同檢索方法獲得的結(jié)果之間的差異程度,也能夠反映數(shù)據(jù)庫內(nèi)容的穩(wěn)定性。重疊百分比低表示檢索結(jié)果差異較大,用戶能夠使用兩種檢索方法得到更多的結(jié)果。ASP重疊率為12%,所以用戶同時利用布爾邏輯和自然語言檢索能夠得到更多相關(guān)結(jié)果。所以如果重疊率較低,建議研究人員應(yīng)該做布爾邏輯和自然語言兩種檢索,以增加查全率。對比無過濾自然語言和無過濾布爾邏輯最相關(guān)重疊記錄(3分),大多數(shù)數(shù)據(jù)庫重疊率超過50%,ASP達(dá)到90%,這表明無論哪種檢索類型(自然語言和布爾邏輯)最相關(guān)結(jié)果之間沒有差異。也就是說對于只想獲得最相關(guān)結(jié)果的研究人員,不需要構(gòu)造復(fù)雜的布爾邏輯檢索。
通過對比過濾和無過濾檢索結(jié)果,評價過濾檢索的有效性。重合百分比高表示過濾和無過濾之間差異性較小,重疊百分比低意味著過濾器產(chǎn)生更多獨特的相關(guān)結(jié)果,7個數(shù)據(jù)庫中GS沒有論文相應(yīng)的過濾器,所以過濾結(jié)果和未過濾結(jié)果相同。PubMed、Scopus和Web of Science有非常高的重疊百分比,表明過濾器對結(jié)果影響非常小。在ProQuest Central和ASP中采用過濾器效果非常明顯,過濾器在JSTOR和LexisNexis Academic中也有一些效果,在ASP中,過濾布爾邏輯比過濾自然語言效果更明顯。
233不同檢索方法檢索精確度
精確度是指相關(guān)(2分)或非常相關(guān)的論文(3分)與整個論文數(shù)量(n=25)的比值。無過濾布爾邏輯和無過濾自然語言結(jié)果相似。3個數(shù)據(jù)庫自然語言檢索比布爾邏輯精確度高,另外3個數(shù)據(jù)庫中布爾邏輯比自然語言精確度,而PubMed兩個檢索樣式精確度相等。從以上分析可以認(rèn)為采用4中檢索方式的任何一種都能獲得非常相關(guān)的記錄結(jié)果。
3結(jié)論
本文測試的7個數(shù)據(jù)庫中,布爾邏輯和自然語言檢索結(jié)果高度相關(guān),同一個數(shù)據(jù)庫兩種類型檢索精確度高度相似(除了ProQuest Central)。ASP和GS兩種檢索相似度最高,平均相關(guān)度和精確度在ProQuest Central數(shù)據(jù)庫中的變化說明在這個數(shù)據(jù)庫中布爾邏輯優(yōu)于自然語言檢索,其他數(shù)據(jù)庫中布爾邏輯檢索和自然語言檢索無論是相關(guān)度和精確度沒有明顯差異。
同一個數(shù)據(jù)庫布爾邏輯和自然語言得到不同的檢索結(jié)果。在每個數(shù)據(jù)庫的前25個檢索結(jié)果中,不論結(jié)果相關(guān)度如何,如果布爾邏輯和自然語言檢索重疊結(jié)果非常低。即使平均相關(guān)度非常接近,布爾邏輯和自然語言存在較大的差異。GS、Scopus和Web of Science分別用布爾邏輯和自然語言檢索能夠得到更多相關(guān)結(jié)果,ASP、ProQuest Central和PubMed兩種檢索方法得到的相關(guān)檢索結(jié)果相同。
使用過濾器后,PubMed、Scopus和Web of Science檢索結(jié)果重疊度達(dá)到95%以上,所以過濾器對這3個數(shù)據(jù)庫基本沒有影響。JSTOR和LexisNexis Academic中過濾器有一些影響,在ProQuest Central和ASP中,過濾器對布爾邏輯檢索影響非常高。ASP數(shù)據(jù)庫中,4種檢索類型檢索結(jié)果重疊度都非常高,所以在ASP中可以使用任何一種檢索方式得到相關(guān)檢索結(jié)果。
自然語言比布爾邏輯檢索有明顯的優(yōu)勢,圖書館館員在信息素養(yǎng)教育過程中應(yīng)該把大量時間留給信息素養(yǎng)概念,如主題和問題的發(fā)展(搜索術(shù)語)和資源評價等內(nèi)容,這部分也正是學(xué)生難掌握的。圖書館員應(yīng)該聚焦更為復(fù)雜的問題,如選擇檢索詞的思考過程而不是使用錯綜復(fù)雜的方法將他們連接起來。但對于高水平學(xué)術(shù)或更復(fù)雜的研究需求,例如文獻(xiàn)綜述時需要高的敏感度(檢索到所有可能的相關(guān)論文),或者一些特殊的學(xué)科如商業(yè)需要考慮許多相互關(guān)聯(lián)因素(工業(yè)、股東、NAICS Code)等情況下,布爾邏輯檢索還是一個非常重要的檢索方式。
參考文獻(xiàn)
[1]陸光華.對美國高等教育信息素養(yǎng)能力五大標(biāo)準(zhǔn)的分析與思考[J].圖書館學(xué)研究,2003,(4):86-89.
[2]韓麗風(fēng),王茜,李津,等.高等教育信息素養(yǎng)框架[J].大學(xué)圖書館學(xué)報,2015,(6):118-126.
[3]秦小燕.美國高校信息素養(yǎng)標(biāo)準(zhǔn)的改進與啟示——ACRL《高等教育信息素養(yǎng)框架》解讀[J].圖書情報工作,2015,(19):139-144.
[4]翟中會.資源發(fā)現(xiàn)系統(tǒng)存在的問題及其對策[J].圖書館建設(shè),2015,(3):63-66.
[5]翟中會.Google與Google學(xué)術(shù)及圖書館傳統(tǒng)數(shù)據(jù)庫差異性研究[J].圖書館工作與研究,2015,(12):31-33.
[6]鄭雯.國外發(fā)現(xiàn)系統(tǒng)分面過濾功能比較——EDS、Summon、Primo[J].大學(xué)圖書情報學(xué)刊,2016,(1):26-30.
(責(zé)任編輯:陳媛)2018年9月第38卷第9期現(xiàn)代情報Journal of Modern InformationSep.,2018Vol38No92018年9月第38卷第9期農(nóng)村民間圖書館眾籌項目社交媒體應(yīng)用對其成功的影響Sep.,2018Vol38No9
收稿日期:2018-04-16