亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        東盟信息特色資源庫建設(shè)初探

        2021-11-30 03:16:04蘇瑞竹胡云龍何瑋
        魅力中國 2021年50期
        關(guān)鍵詞:憑祥采集器資源庫

        蘇瑞竹 胡云龍 何瑋

        (廣西民族大學(xué)管理學(xué)院,廣西 南寧 3 260262)

        一、建設(shè)東盟信息特色資源庫的總體要求

        1.切入點(diǎn)為更為新穎全面的東盟文化,更加系統(tǒng)地整合東盟信息資源,力求普及東盟文化知識。

        2.根據(jù)資源平臺的要求和標(biāo)準(zhǔn),建立數(shù)據(jù)處理和索引,編目并提交到資源包中。

        3.每一套資源包都具有自主知識產(chǎn)權(quán),充分體現(xiàn)東盟文化特色,并應(yīng)結(jié)合當(dāng)前熱點(diǎn)話題,以豐富的內(nèi)容、新穎的形式去拓展東盟文化知識。

        4.要注重知識產(chǎn)權(quán)的保護(hù),對于那些比較敏感的內(nèi)容,必須要有相關(guān)版權(quán)保護(hù)措施。

        二、東盟信息特色資源庫系統(tǒng)非功能需求

        本系統(tǒng)的非功能性需求主要有以下幾個(gè)方面:

        (一)保持流暢的訪問速度

        東盟特色資源庫每年都有一些額外的資源,一方面要求服務(wù)器在處理請求時(shí)能夠快速完成資源的上傳、檢索和修改任務(wù)。此外,在向客戶端返回?cái)?shù)據(jù)時(shí),應(yīng)該盡量減少數(shù)據(jù)冗余。

        (二)資源定位迅速

        為了提高用戶體驗(yàn),除了保持訪問速度流暢外,用戶還應(yīng)該能夠快速找到他們需要的資源。一方面,資源包的作者需要修改和維護(hù)每次成千上萬的資源屬性,要求作者的包可以很容易地找到他所需要的資源在系統(tǒng)中修改,否則,每次資源屬性的調(diào)整將是一個(gè)噩夢。另一方面,由于圖書館資源眾多,游客需要通過系統(tǒng)快速滿足需求的資源。

        三、數(shù)據(jù)采集研究

        (一)資源庫內(nèi)容信息收集要素

        資源庫分為國內(nèi)資源庫及國外資源庫,依據(jù)出版形式又可分為期刊資源庫、圖書資源庫、專利資源庫等,依據(jù)存儲類型又可分為題目目錄式資源庫、全文資源庫等,本次信息收集的目的是將網(wǎng)絡(luò)上所有有關(guān)東盟政治、經(jīng)濟(jì)、文化、科技、商業(yè)、教育等的信息進(jìn)行收集與整合。因此需要進(jìn)行專業(yè)檢索,通過建立檢索式使用檢索工具進(jìn)行檢索,并進(jìn)行批量下載與存儲。

        1.檢索課題分析:基于知識發(fā)現(xiàn)的東盟商業(yè)、政府、科學(xué)、旅游等信息整理、挖掘與應(yīng)用

        2.關(guān)鍵詞:東盟

        (二)資源庫的選擇

        ESI(Essential Science Indicators)、JCR(Joural Citation Report)、Mathscinet 數(shù)據(jù)庫、IEEE/IEE Electronic Library(IEL)、Elsevier(SD)資源庫(1700多種刊)、方正數(shù)字資源平臺-中華數(shù)字書苑、中數(shù)圖中文電子圖書、維普信息資源系統(tǒng)、萬方資源庫跨庫檢索、中國知網(wǎng)(cnki)、http://koran.tempo.co/ 印尼時(shí)代報(bào)、https://www.msn.com/en-my/ MNS 馬來西亞、https://www.brudirect.com/文萊BruDirect、http://www.vientianetimes.org.la/ 老撾新聞、https://mthai.com/ 泰國MThai、https://zingnews.vn/ 越南Zing.vn、https://sabay.com/ 柬埔寨Sabay、https://www.sg.issworld.com/ 新加坡ISS、https://www.msn.com/en-ph MSN 菲律賓、http://www.myanmar.com/ 緬甸日報(bào)。

        (三)選擇檢索工具:火車頭采集器

        四、采集器相關(guān)理論及環(huán)境要求

        (一)功能

        火車采集器主要包含八大特色功能,下面進(jìn)行一一列舉并且說明。

        1.網(wǎng)址采集

        通過設(shè)置網(wǎng)站收集規(guī)則,火車頭可以快速收集到所需的網(wǎng)站信息。手動輸入、批量添加或直接從文字進(jìn)入網(wǎng)站,并能自動過濾刪除重復(fù)的網(wǎng)站信息。

        2.內(nèi)容采集

        火車頭收集器通過對網(wǎng)頁源代碼的分析和內(nèi)容采集規(guī)則的設(shè)置,可以準(zhǔn)確地采集網(wǎng)頁中零散的內(nèi)容數(shù)據(jù),支持多階段、多頁面等復(fù)雜頁面的內(nèi)容采集。通過定義標(biāo)簽,可以在類別中收集數(shù)據(jù)。

        3.數(shù)據(jù)處理

        對于采集到的信息和數(shù)據(jù)進(jìn)行一系列智能化處理,使采集到的數(shù)據(jù)更符合使用標(biāo)準(zhǔn)。主要包括1)標(biāo)簽過濾;2)替換;3)數(shù)據(jù)轉(zhuǎn)換;4)自動文摘分詞;5)下載選項(xiàng)。

        4.數(shù)據(jù)發(fā)布

        收集完數(shù)據(jù)后,收集器默認(rèn)將數(shù)據(jù)保存在本地存儲庫(SQLite、MySQL 和SQLServer)中。您可以根據(jù)需要執(zhí)行后續(xù)操作,發(fā)布數(shù)據(jù)。它支持?jǐn)?shù)據(jù)的直接查看、數(shù)據(jù)的在線發(fā)布、存儲庫的輸入以及用戶發(fā)布界面的使用和開發(fā)。

        5.多任務(wù)多線程運(yùn)行

        收集器可以同時(shí)運(yùn)行多個(gè)任務(wù)。支持不同網(wǎng)站或同一網(wǎng)站下不同欄目的內(nèi)容同時(shí)收集,定時(shí)任務(wù)。在收集和發(fā)布內(nèi)容時(shí),單個(gè)任務(wù)可以使用多個(gè)線程運(yùn)行,從而提高效率。

        6.HTTP 二級代理服務(wù)器

        采集器可以通過輔助代理服務(wù)器的功能實(shí)現(xiàn)IP 替換,避免了IP 受限訪問導(dǎo)致的獲取失敗。獲取代理IP 地址,并將代理IP 地址導(dǎo)入采集器。

        7.計(jì)劃任務(wù)管理器

        采集器可以進(jìn)行自動的收集和釋放時(shí)間,為實(shí)現(xiàn)自動更新功能,添加到計(jì)劃任務(wù)中的任務(wù)在任務(wù)設(shè)定的頻率和運(yùn)行時(shí)間內(nèi)執(zhí)行。

        8.任務(wù)運(yùn)行日志管理

        采集監(jiān)控系統(tǒng)配置在運(yùn)行任務(wù)管理器將記錄信息收集和監(jiān)控模塊生成裝配成一個(gè)日志條目,管理員會將收集和監(jiān)控模塊匯編產(chǎn)生的信息記錄到日志條目中,如果啟用了自動運(yùn)行功能或需要監(jiān)控程序的運(yùn)行狀況。

        (二)采集器的系統(tǒng)環(huán)境

        Win10/Win7/Win8/Win2012/Win2010/Win2008/Win2003/Vista/Xp 以及Linux 要求電腦安裝.NET4.0 框架支持,下載地址:

        http://www.microsoft.com/zh-cn/download/details.aspx?id=17718

        如果需要在 ia64 上進(jìn)行安裝,請使用在此處找到的 ia64 安裝程序。

        五、采集過程

        (一)網(wǎng)址采集規(guī)則的制定

        1.網(wǎng)址采集規(guī)則測試

        起始網(wǎng)址以新浪新聞為例

        將https://search.sina.com.cn/?q=%E4%B8%9C%E7%9B%9F&c=news&from=home&c ol=

        &range=all&source=&country=&size=10&stime=&etime=&time=&dpc=0&a=&ps=0&p f=0&page=2 設(shè)置為網(wǎng)站起始站,然后進(jìn)行批量設(shè)置。設(shè)置完成點(diǎn)擊確定。然后進(jìn)行測試。

        2.網(wǎng)頁內(nèi)容采集規(guī)則的設(shè)置

        通過點(diǎn)擊其列表頁中其中一個(gè)內(nèi)容頁跳轉(zhuǎn)至內(nèi)容采集規(guī)則。與此同時(shí)點(diǎn)開內(nèi)容頁的源代碼查看。

        設(shè)置標(biāo)題規(guī)則

        字符串為<title>首趟長沙-河內(nèi)東盟國際貨運(yùn)班列從憑祥鐵路口岸出境|東盟|憑祥|河內(nèi)_新浪新聞</title>

        選擇內(nèi)容進(jìn)行規(guī)則設(shè)置

        選擇字符串為

        <!--正文 start -->

        <div class=”article”id=”article”>

        <p> <font>4 月3 日,首列長沙-河內(nèi)東盟國際貨運(yùn)班列從憑祥鐵路口岸開出。</font></p><p> <font>該班列在憑祥海關(guān)監(jiān)管下辦理了通關(guān)手續(xù),啟程前往越南河內(nèi),開辟了中歐班列從東南亞出發(fā)的新的陸海通道。</font></p><div class=”img_wrapper”><img src=”//n.sinaimg.cn/sinakd10117/290/w1080h810/20210406/3cf5-knipfse8474593.jpg”w=”1080”h=”810”wh=”1.33”/></div><p> <font>▲憑祥海關(guān)關(guān)員對“長沙-河內(nèi)”班列進(jìn)行關(guān)鎖核驗(yàn)以便快速放行 </font></p><div class=”img_wrapper”><img src=”//n.sinaimg.cn/sinakd10117/290/w1080h810/20210406/d6fa-knipfse8476603.jpg”w=”1080”h=”810”wh=”1.33”/></div><p> <font>中外運(yùn)廣西有限公司憑祥分公司業(yè)務(wù)員韋晶賢:“長沙—東盟國際貨運(yùn)路線的開通能進(jìn)一步降低物流成本,也為中部地區(qū)貨物出口東南亞提供新的通道。”</font></p><p> <font>據(jù)了解,憑祥鐵路口岸是中歐班列往東南亞方向的主要出境口岸,2020 年憑祥海關(guān)共監(jiān)管進(jìn)出境為進(jìn)一步推進(jìn)中國與中南半島經(jīng)貿(mào)合作、維護(hù)全球供應(yīng)鏈穩(wěn)定貢獻(xiàn)中國力量。(來源:邊關(guān)憑祥)</font></p>

        <!--正文 end -->

        通過點(diǎn)擊進(jìn)行測試 那么最初的兩項(xiàng)數(shù)據(jù)采集就已經(jīng)形成,包括了標(biāo)題和內(nèi)容的設(shè)置。只代碼可以在源代碼中找到,就能提取出來。

        3.導(dǎo)入本地硬盤

        接下來跳轉(zhuǎn)第三步,內(nèi)容的發(fā)布。這里選擇導(dǎo)入到本地硬盤,可選擇以WORD 或者textPDF 等格式保存。

        選擇text 文本保存保底。開始運(yùn)行程序,點(diǎn)開一個(gè)內(nèi)容設(shè)置就能查看到改采集的內(nèi)容,將所有的數(shù)據(jù)導(dǎo)出。點(diǎn)擊我的任務(wù),進(jìn)行新建任務(wù)并且進(jìn)行任務(wù)規(guī)則制定。然后點(diǎn)擊保存并啟動。

        開始數(shù)據(jù)收集與整理,數(shù)據(jù)收集以主題為分類進(jìn)行全面收集。收集內(nèi)容涉及科技、商業(yè)、文化、教育、人文、社交、政策等多項(xiàng)類別的內(nèi)容,分別采集的數(shù)據(jù)為文獻(xiàn)名、文獻(xiàn)鏈接、作者、來源、發(fā)表時(shí)間、資源庫、北引次數(shù)、下載次數(shù)。

        數(shù)據(jù)爬取過程以中國知網(wǎng)為例、還需要爬取其他資源庫的數(shù)據(jù)。

        以上只是一部分資源庫的提取,由于大數(shù)據(jù)的數(shù)據(jù)量在TB-PB 級別,這里只引用其中一部分作為解釋,多余不做贅述。采集完成后進(jìn)行下一步,數(shù)據(jù)的整理與加工。

        (二)網(wǎng)頁內(nèi)信息的收集和組織

        1.信息整理加工

        由于數(shù)據(jù)的分析處理軟件需要采用結(jié)構(gòu)化數(shù)據(jù),因此需要將數(shù)據(jù)整理為電腦和人皆可識別的結(jié)構(gòu)化數(shù)據(jù),這里方便數(shù)據(jù)分析與碰撞需要將他加工為EXCEL 表格進(jìn)行分析。

        2.語義描述

        東盟文獻(xiàn)資源收集完成后,需要對收集到的數(shù)據(jù)進(jìn)行語義描述,以實(shí)現(xiàn)資源的后續(xù)檢索和定位,呈現(xiàn)相關(guān)知識。通過提取東盟文檔資源元數(shù)據(jù),如事件、時(shí)間、地點(diǎn)和其他實(shí)體,將原始的東盟文檔資源元數(shù)據(jù)轉(zhuǎn)換為新的元數(shù)據(jù)三元組。通過三元模型,可以表示任何數(shù)據(jù)和知識,實(shí)現(xiàn)計(jì)算機(jī)的可理解。參考DC、CDWA、VRC 等元數(shù)據(jù)標(biāo)準(zhǔn),文檔資源元數(shù)據(jù)可以從標(biāo)題、標(biāo)識符、事件、背景、日期、地點(diǎn)、主題、資源類型、作者等方面獲得。在提取和描述文檔元數(shù)據(jù)的相關(guān)元素之后,使用RDF 和XML 語法規(guī)則來描述元數(shù)據(jù),以便計(jì)算機(jī)能夠理解和識別任何數(shù)據(jù)和知識。

        3.知識關(guān)聯(lián)

        在對東盟文獻(xiàn)資源進(jìn)行元數(shù)據(jù)描述之后,需要通過相關(guān)維度的連接,在資源之間建立更豐富的知識關(guān)系網(wǎng)絡(luò)。建立內(nèi)部語義關(guān)系,通過語義關(guān)系標(biāo)注,形成基于主題、事件、時(shí)間、地點(diǎn)、類型的內(nèi)部關(guān)系。主題:東盟的文獻(xiàn)資源,如泰國、文萊、新加坡等,在建立專有名詞列表時(shí),應(yīng)從詞語的語法位置提取關(guān)鍵詞。事件:東盟文獻(xiàn)資源對象的具體行為大多與當(dāng)時(shí)的社會生產(chǎn)活動相結(jié)合,如新加坡的多元宗教交流、新加坡的文化交流等。對這些語義詞進(jìn)行相關(guān)性分析,可以為當(dāng)時(shí)新加坡與外國的友好交往和文化交流提供歷史證據(jù)。這類詞通常是動詞,需要根據(jù)語境的詞性進(jìn)行分析和提取。時(shí)代性:印度文獻(xiàn)資源的內(nèi)容和意義具有時(shí)代性特征。按照時(shí)間線對資源進(jìn)行排序,有利于縱向比較和建立相關(guān)性的縱向分類。對于時(shí)間語義詞,可以建立時(shí)間詞匯或構(gòu)建詞語規(guī)則。位置:泰國文獻(xiàn)資源的主題空間范圍,如“泰姬陵”“玉佛寺”等,可以通過分析上下文句子中的詞匯來標(biāo)記。類型:東盟文獻(xiàn)資源可分為宗教多元交流、海外貿(mào)易等多種類型。通過外部關(guān)聯(lián)和內(nèi)部關(guān)聯(lián)的建立,東盟文獻(xiàn)資源由松散的資源集合體轉(zhuǎn)變?yōu)閺?fù)雜而有序的東盟文獻(xiàn)資源知識元知識網(wǎng)絡(luò)。為用戶提供更直觀的視覺體驗(yàn)和新的研究思路。

        結(jié)語

        隨著東盟區(qū)域一體化進(jìn)程的不斷加快,使得東盟文獻(xiàn)信息需求不斷增加,作為文化信息交流中心的圖書館,在發(fā)展機(jī)遇下,應(yīng)突出重點(diǎn)信息資源建設(shè),利用東盟的館藏,結(jié)合網(wǎng)絡(luò)資源的深度整合,開發(fā)建設(shè)具有東盟區(qū)域文化特色的知識庫,打造特色優(yōu)質(zhì)服務(wù),實(shí)現(xiàn)優(yōu)勢互補(bǔ),以達(dá)到特色信息資源共享的目的。

        猜你喜歡
        憑祥采集器資源庫
        COVID-19大便標(biāo)本采集器的設(shè)計(jì)及應(yīng)用
        健身氣功開放課程資源庫建設(shè)研究
        貴州●石斛種質(zhì)資源庫
        基于ZigBee的大型公共建筑能耗采集器設(shè)計(jì)
        基于LabVIEW的多數(shù)據(jù)采集器自動監(jiān)控軟件設(shè)計(jì)與開發(fā)
        廣西憑祥重點(diǎn)開發(fā)開放試驗(yàn)區(qū)
        廣西憑祥綜合保稅區(qū)簡介
        廣西憑祥重點(diǎn)開發(fā)開放試驗(yàn)區(qū)
        廣西憑祥重點(diǎn)開發(fā)開放試驗(yàn)區(qū)
        高中歷史信息化教育資源庫應(yīng)用探索
        大肉大捧一进一出视频| 亚洲国产综合精品一区最新| 中文字幕中文字幕在线中二区| 国产综合久久久久久鬼色| 一本色道av久久精品+网站| 午夜不卡亚洲视频| 久久精品国产在热亚洲不卡| 国产精品久久精品第一页| 欧美疯狂做受xxxx高潮小说| 老熟女熟妇嗷嗷叫91| 国产在线观看一区二区三区av| 国产精品白丝久久av网站| 性动态图av无码专区| 免费国产h视频在线观看86| 青青久久精品一本一区人人| 亚洲av无码乱码在线观看富二代| 欧美性videos高清精品| 91极品尤物国产在线播放| 亚洲福利二区三区四区| 亚洲av无码乱码在线观看裸奔| 岛国AV一区二区三区在线观看| 亚洲国产精品一区二区第一 | 人妻有码中文字幕| 免费AV一区二区三区无码| 白丝美女扒开内露出内裤视频| 亚洲丁香婷婷久久一区二区| 人妻系列无码专区久久五月天| 97色综合| 国产成人av三级在线观看韩国| 国产精品美女久久久久av福利| 亚洲成人中文| 一区二区三区在线观看视频免费| 亚洲乱码中文在线观看| 男人添女人下部高潮全视频| 国产精品黄色片在线观看| 极品夫妻一区二区三区| 99久久婷婷国产综合精品青草免费| 欧美日韩综合网在线观看| 免费在线av一区二区| 综合亚洲伊人午夜网| 人妻少妇av无码一区二区|