亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時(shí)代文獻(xiàn)分析與利用

        2014-09-13 07:25:28王英哲
        關(guān)鍵詞:海量石家莊學(xué)院

        王英哲

        (石家莊職業(yè)技術(shù)學(xué)院 圖書館,河北 石家莊 050081)

        大數(shù)據(jù)是需要使用新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[1].它利用各種知識(shí)發(fā)現(xiàn)技術(shù)管理數(shù)據(jù),快速提取有價(jià)值的信息,為提高各行業(yè)的核心競(jìng)爭(zhēng)力提供關(guān)鍵數(shù)據(jù).大數(shù)據(jù)時(shí)代為文獻(xiàn)的分析與利用提供了新的途徑,過去無法收集與分析的數(shù)據(jù)都被新的技術(shù)手段賦予了可能性.

        1 大數(shù)據(jù)的特征

        (1)海量

        大數(shù)據(jù)可以用數(shù)據(jù)海嘯來形容.據(jù)統(tǒng)計(jì),F(xiàn)acebook每天處理27億次Like按鈕點(diǎn)擊,每天上傳3億張圖片.國際數(shù)據(jù)公司(IDC)的研究表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年為0.8ZB,2010年增長為1.2ZB,2011年高達(dá)1.82ZB,2012年達(dá)到2.8ZB,它相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù).全球的數(shù)據(jù)資料存儲(chǔ)量在2020年將達(dá)到40ZB(1024GB=1TB,1024TB=1PB,1024PB=1EB,1024EB=1ZB)[2].

        (2)多樣性

        大數(shù)據(jù)的數(shù)據(jù)包括:網(wǎng)絡(luò)日志、音視頻、圖片、地理位置信息等,數(shù)據(jù)類型豐富.

        (3)精確度高

        基因組數(shù)據(jù)、地理空間數(shù)據(jù)、人口數(shù)據(jù)、經(jīng)濟(jì)運(yùn)行數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)等均要求數(shù)據(jù)的準(zhǔn)確性,而以大數(shù)據(jù)為基礎(chǔ)便能為科學(xué)決策提供精準(zhǔn)的數(shù)據(jù).

        (4)處理速度快

        處理速度快是大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)挖掘技術(shù)最顯著的不同.氣象數(shù)據(jù)、航天遙測(cè)遙控?cái)?shù)據(jù)、交通流量、地震監(jiān)測(cè)數(shù)據(jù)等都要求數(shù)據(jù)的速度及時(shí)效性.而人們可從大數(shù)據(jù)中快速獲得滿足要求的信息.

        2 數(shù)據(jù)處理過程及其主要的知識(shí)發(fā)現(xiàn)技術(shù)

        2.1 數(shù)據(jù)處理過程

        大數(shù)據(jù)的處理流程可以概括為四步,即采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析、挖掘.采集端利用多個(gè)數(shù)據(jù)庫接收客戶端數(shù)據(jù),通過數(shù)據(jù)清理,導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫或者分布式存儲(chǔ)集群,形成數(shù)據(jù)倉庫.利用存儲(chǔ)于數(shù)據(jù)倉庫中的海量數(shù)據(jù)進(jìn)行分析和分類匯總,形成任務(wù)相關(guān)數(shù)據(jù).再利用知識(shí)挖掘技術(shù),從任務(wù)相關(guān)數(shù)據(jù)中挖掘需要的知識(shí).利用知識(shí)的過程中,也會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)又被采集端數(shù)據(jù)庫采集,存儲(chǔ)到數(shù)據(jù)倉庫中.流程如圖1.

        圖1 大數(shù)據(jù)處理流程

        2.2 主要的知識(shí)發(fā)現(xiàn)技術(shù)

        知識(shí)發(fā)現(xiàn)就是從各種數(shù)據(jù)中,發(fā)現(xiàn)知識(shí)片段間顯性及隱含的聯(lián)系,發(fā)現(xiàn)某學(xué)科發(fā)展的軌跡,或者是引起科研人員的某種猜想,從而進(jìn)行知識(shí)挖掘,開展科學(xué)實(shí)驗(yàn),促進(jìn)知識(shí)創(chuàng)新.

        2.2.1 基于相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)

        相關(guān)文獻(xiàn)存在彼此引用、共引用、同被引用的關(guān)系,利用文獻(xiàn)計(jì)量、內(nèi)容分析、聚類分析、專利技術(shù)分析等方法,運(yùn)用共詞、共引理論,從文獻(xiàn)內(nèi)容入手提取重要的深層次信息.

        2.2.2 基于非相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)

        非相關(guān)文獻(xiàn)之間,由于文獻(xiàn)在表面上沒有任何聯(lián)系,基于此進(jìn)行知識(shí)發(fā)現(xiàn)很困難,但這是進(jìn)行知識(shí)創(chuàng)新及科學(xué)發(fā)現(xiàn)非常重要的途徑.可以先利用各種知識(shí)挖掘技術(shù)找到知識(shí)點(diǎn)間隱含的關(guān)系,然后再發(fā)現(xiàn)隱含的知識(shí).目前主要利用Swanson理論中知識(shí)元間的共引關(guān)系來揭示隱含的語義關(guān)聯(lián),再借用Arrowsmith輔助系統(tǒng)進(jìn)行知識(shí)挖掘.如,1986年Swanson基于非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)技術(shù)進(jìn)行知識(shí)挖掘,發(fā)現(xiàn)了雷諾氏病與魚油的關(guān)系,1998年他又發(fā)現(xiàn)了鎂與偏頭痛的關(guān)系[3].

        2.2.3 基于全文獻(xiàn)的知識(shí)發(fā)現(xiàn)

        運(yùn)用文本挖掘理論,從全文本中找出所需單字、詞語和特定字串,從而挖掘文獻(xiàn)關(guān)聯(lián)和發(fā)現(xiàn)知識(shí).

        3 基于知識(shí)挖掘的文獻(xiàn)分析與利用

        3.1 縱觀全局的動(dòng)態(tài)研究

        海量權(quán)威的元數(shù)據(jù)匯集到一起,蘊(yùn)藏了大量的知識(shí),對(duì)基于數(shù)據(jù)的知識(shí)服務(wù)帶來重大影響.以中國知網(wǎng)為檢索平臺(tái),以“石家莊職業(yè)技術(shù)學(xué)院”為檢索詞進(jìn)行檢索,截止到2013年10月,共檢索到作者單位包含“石家莊職業(yè)技術(shù)學(xué)院”的論文3995篇.通過對(duì)這些數(shù)據(jù)集合進(jìn)行知識(shí)挖掘,即從元數(shù)據(jù)倉儲(chǔ)中提取關(guān)鍵詞等信息,可建立多種知識(shí)的關(guān)聯(lián)網(wǎng)絡(luò).以此為基礎(chǔ)綜合分析的石家莊職業(yè)技術(shù)學(xué)院1999年到2013年的科研成果情況,見表1和圖2.

        表1 論文涉及到的排名前10的學(xué)科

        圖2 年度發(fā)表論文趨勢(shì)圖

        從這些關(guān)聯(lián)網(wǎng)絡(luò)中,可以看出石家莊職業(yè)技術(shù)學(xué)院科研成果的發(fā)展脈絡(luò).

        3.2 相關(guān)性追蹤研究

        從元數(shù)據(jù)倉儲(chǔ)中提取數(shù)據(jù),分析作者與合作者的關(guān)系,建立以人為中心的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),可以開展相關(guān)性追蹤研究.如石家莊職業(yè)技術(shù)學(xué)院1999年到2013年的論文數(shù)據(jù)研究結(jié)果見圖3、圖4,圖中的數(shù)字代表基金項(xiàng)目數(shù)量或合作單位的數(shù)量.

        圖3 發(fā)表文章中涉及到的排名前五的基金項(xiàng)目

        圖4 發(fā)表文章中涉及到的排名前五的合作機(jī)構(gòu)

        3.3 基于時(shí)間軸進(jìn)行趨勢(shì)分析

        研究某學(xué)科領(lǐng)域在一個(gè)時(shí)間段的發(fā)展趨勢(shì)對(duì)于了解該學(xué)科的發(fā)展脈絡(luò)、預(yù)測(cè)未來的發(fā)展方向至關(guān)重要.清華大學(xué)圖書館采用提取文章關(guān)鍵詞并分析關(guān)鍵詞在時(shí)間軸上的分布情況的方法來給出該領(lǐng)域的發(fā)展趨勢(shì),該服務(wù)的初步嘗試已得到讀者的青睞[4].通過它可以開展針對(duì)特定研究者研究重點(diǎn)與方向的追蹤.如以石家莊職業(yè)技術(shù)學(xué)院王麗君作者為例,1999年到2013年其共發(fā)表文章55篇,此學(xué)者的研究方向、研究熱點(diǎn)的情況如圖5、表2所示.

        圖5 王麗君的年度發(fā)文情況

        表2 王麗君研究的主要學(xué)科

        由此可見,以CNKI數(shù)據(jù)為基礎(chǔ),通過分析海量文獻(xiàn)數(shù)據(jù)的特點(diǎn),不僅可以自動(dòng)甄別出石家莊職業(yè)技術(shù)學(xué)院的目標(biāo)學(xué)者,獲取目標(biāo)學(xué)者的學(xué)術(shù)出版物、與其緊密關(guān)聯(lián)的合作者、期刊會(huì)議等信息,而且可以應(yīng)用開放鏈接技術(shù)準(zhǔn)確定位石家莊職業(yè)技術(shù)學(xué)院學(xué)者學(xué)術(shù)出版物的全文,并采用可視化視圖的方式直觀展示學(xué)者的學(xué)術(shù)歷程以及以學(xué)者為中心的科研網(wǎng)絡(luò),還可以開展特定文獻(xiàn)的分析,如最新成果、早期研究、影響力最大的圖書、期刊論文、學(xué)位論文、標(biāo)準(zhǔn)、專利等.

        4 結(jié)束語

        大數(shù)據(jù)時(shí)代是信息社會(huì)運(yùn)作的必然結(jié)果,大數(shù)據(jù)時(shí)代的來臨將促使用戶產(chǎn)生更高、更現(xiàn)實(shí)的知識(shí)服務(wù)需求.誰掌握數(shù)據(jù)及數(shù)據(jù)分析的方法,誰就將在這個(gè)大數(shù)據(jù)時(shí)代勝出.

        [1]佚名.大數(shù)據(jù)處理:技術(shù)與流程 [EB/OL].(2013-05-22)[2013-11-22].http://www.caecp.cn/News/News-872.html.

        [2]佚名.大數(shù)據(jù)時(shí)代 [EB/OL].(2013-11-05)[2013-11-22].http://network.pconline.com.cn/news/1212/3109670.html.

        [3]程趁娜,浮肖肖.非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)方法的研究及應(yīng)用進(jìn)展[J].科技視界,2013(9):7.

        [4]鄧景康.大數(shù)據(jù)環(huán)境下清華大學(xué)圖書館的實(shí)踐 [EB/OL].(2013-09-03)[2013-11-22].http://www.print.npicp.com/info-detail/14-526-49756307.html.

        猜你喜歡
        海量石家莊學(xué)院
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        石家莊曉進(jìn)機(jī)械制造科技有限公司
        肉類研究(2022年7期)2022-08-05 04:47:20
        初等教育學(xué)院
        海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
        一個(gè)圖形所蘊(yùn)含的“海量”巧題
        學(xué)院掠影
        人民幣緣何誕生在石家莊
        獨(dú)立學(xué)院高等數(shù)學(xué)教學(xué)改革思考
        河南科技(2014年16期)2014-02-27 14:13:45
        基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲(chǔ)與組織研究
        獨(dú)立學(xué)院:“我該如何存在?”
        青青草好吊色在线观看| 欧美成免费a级毛片| 久久久精品一区aaa片| 人妻少妇精品视频无码专区| 国产av无码专区亚洲av琪琪| 97福利视频| 国产亚洲高清在线精品不卡| 强d乱码中文字幕熟女1000部 | 国语对白精品在线观看| 国产乱妇无乱码大黄aa片| 久久亚洲私人国产精品va| 99热免费观看| 国产精品麻豆A啊在线观看| 91精品国产无码在线观看| 一区二区三区极品少妇| 漂亮人妻出轨中文字幕| 国产太嫩了在线观看| 久久久久久国产精品免费免费| 亚洲欧美日韩一区在线观看| 四虎国产精品视频免费看| 精品人妻一区二区蜜臀av| 99视频一区二区日本| 日本第一影院一区二区| 蜜桃一区二区在线视频| 337p日本欧洲亚洲大胆| 乱码午夜-极品国产内射| 亚洲av成人一区二区三区网址| 亚洲日本中文字幕乱码| 国产日韩厂亚洲字幕中文| 精品偷拍被偷拍在线观看| 俺来也俺去啦最新在线| 在线成人tv天堂中文字幕| 亚洲综合色视频在线免费观看| 久久黄色精品内射胖女人| 日韩欧美aⅴ综合网站发布| 国产在线精品成人一区二区三区| 久久人人爽人人爽人人片av麻烦| 国产在线不卡AV观看| 一区二区三区在线观看精品视频 | 亚洲碰碰人人av熟女天堂| av无码天堂一区二区三区|