〔摘 要〕提出一個學科發(fā)展熱點推薦平臺的模型,致力于讓許多新進科研人員能夠迅速了解到相關學科領域的前沿和研究熱點。本文詳細闡述了模型系統(tǒng)的邏輯結(jié)構(gòu)和設計思想并以信息采集模塊為例,詳細說明了信息推送的過程和如何通過爬蟲程序在學術(shù)期刊網(wǎng)站上獲取關鍵信息。
〔關鍵詞〕學科熱點;熱點推薦;信息采集
DOI:10.3969/j.issn.1008-0821.20.01.032
〔中圖分類號〕G250.73 〔文獻標識碼〕B 〔文章編號〕1008-0821(20)01-0127-03
Research of Implement Model of Recommended Disciplines Focus Platform
——Take the Function of Information Collection as ExampleXu Min Yang Yingquan Chen Zuqin
(Library,Chongqing University of Science Technology,Chongqing 401331,China)
〔Abstract〕It proposed the mode of recommended disciplines focus platform which in order to enable new researchers to realize the subjects frontier study focus.The essay elaborated the logic structure and designed thought of system model and with the process of information collection as example to expound the information sending and how to get key messages from academic journals website via crawlers program.
〔Keywords〕disciplines focus;recommended focus;information collection
隨著現(xiàn)代科學研究的深入,前沿研究熱點越來越難把握,如何整合學術(shù)信息資源分類提取前沿熱點,實現(xiàn)信息共建共享日益成為科研學術(shù)界普遍關注的問題。本文系中國冶金教育學會教育科學研究計劃課題“學科發(fā)展熱點推薦平臺的實施模式研究”的成果之一,以冶金領域為例,構(gòu)架一個為科研學術(shù)用戶提供高質(zhì)量、個性化和及時的熱點信息服務的學科發(fā)展熱點推薦平臺模型。
1 平臺簡介
學科發(fā)展熱點推薦平臺指的是針對不同學科,首先收集該學科的核心期刊,以期刊或期刊中的不同版塊為單位按其涉及的研究方向進行分類整理,再以每個期刊和期刊欄目下的文章為單位,通過對期刊的影響因子、期刊被引頻次、期刊反應速率、期刊平均引文率、論文的自引和被引頻次、論文發(fā)表周期等進行分析,進行數(shù)據(jù)挖掘,形成有效的學科熱點。舉例來說,以維普或萬方的期刊全文數(shù)據(jù)庫為數(shù)據(jù)源,以網(wǎng)頁爬蟲程序為數(shù)據(jù)采集工具,后臺通過對不同指標賦予不同的權(quán)重進行數(shù)據(jù)評價,然后對結(jié)果進行分類匯總,用戶通過前臺界面進行查詢?yōu)g覽。
由于不同學科甚至同一學科的不同研究領域的發(fā)展程度是不同的,比如生物科技類期刊的影響因子一般高于機械類期刊,再就是醫(yī)學臨床類期刊的影響因子一般高于醫(yī)學內(nèi)科類期刊,所以我們對于期刊以及論文搜集整理后的第一步是以期刊或期刊中的不同欄目為單位按其涉及的研究方向進行分類整理,將其劃分為一個個彼此獨立的小單元,這樣可以避免期刊論文評價中的強勢學科的干擾,再以每個期刊和期刊欄目下的文章為單位,通過事先已經(jīng)建立的具有不同權(quán)重值的指標評價體系表對采集的論文進行評價,提取其中關鍵信息。但是每個研究領域都有其自身的特點,不可能通過完全固化一種指標評價體系,所以考慮每個學科實力較強的一些研究機構(gòu)可以制定出適合本學科的指標評價體系并能調(diào)整修改,為讓結(jié)果更加符合用戶的需求,用戶可以對結(jié)果進行評價或提交自己認可的學科熱點,從而產(chǎn)生用戶主觀知識熱點。
2 學科發(fā)展熱點推薦平臺模型
學科發(fā)展熱點推薦平臺的相關人員分為平臺設計者、平臺架構(gòu)者、數(shù)據(jù)提供者、數(shù)據(jù)獲取者、終端用戶五部分(見圖1),其中平臺設計者可以是一個或多個成員,他們往往來源于每個學科的核心研究機構(gòu),從概念模型到實際架構(gòu),從宏觀設計到細節(jié)布局提出想法,最終形成實施方案,平臺架構(gòu)者利用技術(shù)來實現(xiàn)。平臺架設成功之后其他成員主要進行數(shù)據(jù)提供和數(shù)據(jù)獲取,而終端用戶主要是熱點信息獲取的單位、組織和個人,他們可以獲取熱點并進行評價反饋。整個系統(tǒng)平臺中操作權(quán)限和優(yōu)先級別從高到底分別為“平臺設計者和架構(gòu)者>數(shù)據(jù)提供者和獲取者>終端用戶”。
20年1月第31卷第1期學科發(fā)展熱點推薦平臺的實施模式研究Jan.,20平臺的操作一定是簡潔高效的,符合用戶使用習慣的,而后臺數(shù)據(jù)的存儲和處理過程是用戶不可見的。當在用戶界面進行信息需求的提交操作之后,通過數(shù)據(jù)存取接口來對需求進行分析,首先確定用戶需求知識所屬的學科,可以由一級學科劃分至二級學科直至細分到某些特定研究方向,再根據(jù)研究方向確定知識點的來源,然后將數(shù)據(jù)返回至用戶界面。由于現(xiàn)代學科的研究往往是多學科交叉,所以當用戶在用戶界面提交查詢之后,通過數(shù)據(jù)存取接口的分析處理,可能會分別從學科1的成員1和學科3的成員q中提取知識(見圖2),越是復雜的熱點所涉及的成員就越多。簡而言之就是對用戶的需求進行分解歸類,然后從特定欄目中提取資源提交用戶,這些資源都是來源于各個學科的不同成員。以冶金學科為例,北京科技大學的冶金與生態(tài)工程學院作為平臺中該學科類目的主干力量,起著制定冶金學科指標體系、提供資源、分解任務等方面的作用,然后其他冶金類的??苹虮究圃盒;蛘邆€人用戶可以通過適量付費的方式獲取平臺資源。
圖2 學科熱點推薦平臺成員結(jié)構(gòu)圖
3 平臺主要實現(xiàn)
平臺能夠為用戶很好服務的前提是有一個良好的數(shù)據(jù)基礎,因此如何能夠及時、方便、快捷地從互聯(lián)網(wǎng)上獲取海量學術(shù)信息的指標信息成為一個關鍵,這些指標信息指的就是論文的題名、作者、單位、摘要、關鍵詞、參考文獻、相似文獻、自引和被引頻次、發(fā)表周期以及所屬期刊的影響因子、被引頻次、反應速率、平均引文率等,通過以上這些信息能夠很好的捕捉出每個學科專業(yè)的熱點。而這些數(shù)據(jù)的采集源就是一些大型的學術(shù)期刊網(wǎng),眾所周知,百度谷歌等大型搜索引擎都是可以直接索引學術(shù)期刊網(wǎng)的論文頁面,同樣也是獲取以上那些關鍵信息的過程,只要不索引論文的全文和一些保密信息是不會產(chǎn)生版權(quán)問題的,因為對其的索引首先是方便用戶的信息查詢;其次是對學術(shù)期刊網(wǎng)的宣傳,用戶通過搜索引擎找到文章之后進入相應的學術(shù)期刊網(wǎng)采用單篇文本付費方式獲取資源。本平臺數(shù)據(jù)采集的流程與搜索引擎類似,只采集期刊論文的指標信息,不采集論文全文信息,同樣不會產(chǎn)生版權(quán)問題,另外一個區(qū)別是除了索引信息之外還利用其進行熱點推薦,讓用戶在點開某學科欄目頁面之后了解最新的前沿,并能夠通過點擊熱點論文直接跳轉(zhuǎn)至學術(shù)資源網(wǎng)站的相應頁面查看更多信息或付費下載。
平臺的主要實現(xiàn)是依靠后臺的信息收集整理和前臺的用戶推薦。平臺前臺主要是為了實現(xiàn)信息推送、信息展示和信息搜索這3種功能。前臺學科熱點服務主要為會員用戶、訪客用戶和特定用戶服務。首先是一般性的訪客用戶,他們只是利用本平臺進行信息的瀏覽,通過平臺的用戶界面主觀性地找尋某些研究領域的熱點信息或?qū)W術(shù)資源,由于是一般性訪客,出于知識版權(quán)的考慮,往往對其開放的資源很少;而對于在本平臺注冊的會員用戶除了具備一般性訪客的所有使用權(quán)限之外,平臺還會定期利用E-mail和站內(nèi)郵件等方式為其推送熱點信息,同時會員用戶也可以定制自己感興趣的熱點欄目,并根據(jù)級別開放不同層次的學術(shù)資源。而特定用戶是指需求不明確,研究領域較復雜的特殊用戶,平臺在熱點推薦的模式上可以既采用郵件式主動推送方式也可采取用戶提交需求,專家答疑的方式解決問題(見圖3)。而平臺后臺的實現(xiàn)主要是首先通過爬蟲程序?qū)W術(shù)網(wǎng)站相關學科的頁面進行信息抓取,將所獲得的關鍵信息存儲起來,然后由該學科研究的專家成員根據(jù)本學科特點進行分析制定出熱點評價指標體系,所獲取的信息經(jīng)過指標評價處理之后便形成熱點,然后各個成員再根據(jù)要求提供自有資源,從而構(gòu)成一個既有熱點推薦也有學術(shù)資源共享的平臺。本部分以平臺后臺信息采集為例,通過分析外部學術(shù)資源網(wǎng)情況來實現(xiàn)關鍵信息抓取的過程。以維普的中文科技期刊數(shù)據(jù)庫為例,由于采用類似搜索引擎只抓取期刊論文展示頁面的各項關鍵信息而不涉及其全文信息,所以不會產(chǎn)生版權(quán)糾紛等問題。
圖3 前臺熱點服務模式圖
3.1 后臺信息采集過程
3.1.1 超鏈接分析
前面所討論的是各個成員主動性地將自身資源貢獻給平臺加以整合利用,但是學術(shù)網(wǎng)站的資源往往更加豐富,本平臺的一個熱點指標評價系統(tǒng)就需要通過爬蟲程序?qū)ヂ?lián)網(wǎng)上某一領域?qū)W術(shù)文章的篇名、關鍵詞以及所屬期刊等指標進行收集比對分析,統(tǒng)計這些字段中的實義詞的絕對詞頻、相對詞頻、期刊影響因子等屬性來劃定哪些為學科熱點詞匯。通過后臺的爬蟲程序定期對期刊網(wǎng)站進行頁面信息的抓取以實現(xiàn)數(shù)據(jù)收集的目的,以維普期刊網(wǎng)的一篇名為“高塑性耐熱Ni基合金”的文章為例,其頁面鏈接為http:∥www.cqvip.com/qk/95120X/201003/34264684.html,通過對該超鏈接的分析發(fā)現(xiàn),其中www.cqvip.com為維普期刊網(wǎng)站的一級域名;之后的qk字段為期刊的拼音縮寫,即維普的所有期刊頁面都存儲在該域名下的qk目錄中;95120X字段表示本篇論文所屬的期刊《兵器材料科學與工程》,即《兵器材料科學與工程》的所有論文的頁面都在該目錄下;201003字段表示該期刊的發(fā)行年月或刊號,即該目錄中為2010年3月份的《兵器材料科學與工程》的所有論文頁面;最后的34264684.html就是本篇論文的頁面。通過以上規(guī)律,我們的爬蟲程序可以分層級地在指定的期刊頁面進行遍歷,以《兵器材料科學與工程》期刊為例,首先爬蟲程序會在http:∥www.cqvip.com/qk/95120X/頁面上獲取所有年份以及月份的期刊的目錄(見圖4),接著再從每期的期刊的頁面中進入每篇論文的頁面,獲取每篇論文的關鍵信息。
爬蟲程序?qū)撁娴乃阉魇且粋€深度遍歷的過程(見圖5),首先爬蟲對給予超鏈接的第一層進行遍歷,如果沒有發(fā)現(xiàn)下一層的超鏈接,則出錯,捕捉異常,進行下一個超鏈接的遍歷;若成功則抓取該頁面的關鍵信息并進行存儲,然后進入下一層的超鏈接。以維普期刊網(wǎng)的一個超鏈接為例,我們指定了《兵器材料科學與工程》這份期刊,爬蟲程序會首先進入特定網(wǎng)址http:∥www.cqvip.com/qk/95120X/,本頁面代碼中
圖5 頁面信息提取流程圖
3.1.3 頁面代碼分析
爬蟲程序?qū)τ陧撁嫘畔⒌淖ト∈峭ㄟ^分析頁面的HTML語言,從不同的HTML標簽中獲取正確的信息。以維普期刊網(wǎng)為例,在論文頁面的HTML代碼中字段所對應的為文章篇名、是為了便于搜索引擎采集文章大體內(nèi)容的描述性字段、是為了便于搜索引擎采集文章關鍵詞的字段、字段為摘要信息、字段為關鍵詞信息、字段為作者信息、
字段為所屬期刊名稱及目錄網(wǎng)址信息、字段為期刊的期刊號及目錄網(wǎng)址信息、字段中包含了頁數(shù)和頁碼范圍信息、字段為學科分類信息、字段為相關文章信息。4 結(jié) 語
學科發(fā)展熱點推薦平臺是為了輔助學術(shù)力量薄弱或不了解學科前沿的團體和個人進行學術(shù)研究。本文提出的設計構(gòu)想在應用上還存在著一些不足,其理論研究以及實踐研究也有一些待商榷之處,但是從總體來看,該平臺可以起到促進學術(shù)交流共享,提高學術(shù)研究層次的目的。相信這個不斷完善的系統(tǒng)模型能夠為學科領域的學術(shù)共享發(fā)展起到積極的作用。
參考文獻
[1]宋宇.從主題爬蟲角度看數(shù)字資源建設[J].中國索引,2010,8(1):47-51.
[2]陳麗君,林懷忠.搜索引擎頁面刷新策略研究綜述[J].計算機系統(tǒng)應用,2009,18(7):210-214.
[3]劉漢興,劉財興.主題爬蟲的搜索策略研究[J].計算機工程與設計,2008,29(12):3160-3162.
[4]蘇學.期刊論文學術(shù)水平定量評價指標體系的初步設計[J].情報探索,2010,(5):7-9.
[5]陳樹聲,陳琳.基于Agent的面向主題信息查詢研究[J].現(xiàn)代電子技術(shù),2007,30(3):7-120.