亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-means算法的科技事件影響力評估研究

        2019-06-26 07:04:04毛凱劉明李志愷李偉夏瑜潞
        無線互聯(lián)科技 2019年7期
        關(guān)鍵詞:搜索引擎

        毛凱 劉明 李志愷 李偉 夏瑜潞

        摘? ?要:科技事件作為科技發(fā)展的產(chǎn)物,對其影響力進(jìn)行評估,可以對預(yù)測新興科技事件的發(fā)展走向、相關(guān)部門配置科技資源、科教機(jī)構(gòu)進(jìn)行科普教育選取事件提供重要參考。當(dāng)今市場上存在的對科技事件影響力評估的方法具有應(yīng)用場景局限、評價(jià)結(jié)果受人為主觀影響較大等不足。文章提出一種新的評估方法,利用各大搜索引擎產(chǎn)生的海量數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)中的K-means算法,對科技事件的影響力進(jìn)行評估。彌補(bǔ)了當(dāng)前已存在方法對科技事件影響力進(jìn)行評估的局限,解決了如何基于當(dāng)前時(shí)代產(chǎn)生的大量數(shù)據(jù)對科技事件做出一個(gè)較為客觀準(zhǔn)確的評估結(jié)果這一問題。

        關(guān)鍵詞:科技事件;影響力評估;K-means;搜索引擎

        1? ? 相關(guān)工作

        在漫長的科技發(fā)展史中,每一個(gè)科技發(fā)現(xiàn)與創(chuàng)新事件背后往往包含著大量的信息,包括時(shí)空屬性、不同事件之間的互相聯(lián)系、引起的社會討論熱度等。對科技事件在一段時(shí)間內(nèi)的影響力進(jìn)行評估,不僅可以對科技事件的發(fā)展走向進(jìn)行預(yù)測、規(guī)劃,還可以為相關(guān)部門制定科技政策、配置科技資源、和進(jìn)行科普教育提供重要參考。研究表明,對于科技事件影響力評價(jià)方法,目前普遍從定性評價(jià)和定量評價(jià)兩個(gè)角度進(jìn)行。定性評價(jià)方法[1]主要包括同行評議法和案例與回溯評價(jià)法,定量評價(jià)方法主要包括文獻(xiàn)計(jì)量法和經(jīng)濟(jì)計(jì)量評價(jià)法。沈利華等[2]認(rèn)為,同行評議法已經(jīng)被各國廣泛應(yīng)用,可以作為鑒定科研成果的重要評價(jià)手段。但是有很多弊端,如難以支持創(chuàng)新,難以對科技成果保密,評議專家的主觀傾向性占比太大等。案例與回溯評價(jià)方法[3]是對關(guān)鍵事件或典型案例進(jìn)行回顧和分析,分析導(dǎo)致該事件發(fā)生的內(nèi)外部因素,而非事件本身的影響力。趙丹等[4]則認(rèn)為,可以利用科技事件產(chǎn)出的文獻(xiàn)計(jì)量指標(biāo)的定量數(shù)據(jù),采用數(shù)學(xué)和統(tǒng)計(jì)學(xué)方法,對科學(xué)活動規(guī)律及其影響進(jìn)行研究與分析,即文獻(xiàn)計(jì)量評價(jià)法。文獻(xiàn)計(jì)量評價(jià)方法[5]具有統(tǒng)計(jì)學(xué)意義上的合理性和可信度,但存在指標(biāo)單一、學(xué)科間不可比較、科學(xué)價(jià)值不可表征等局限性。而經(jīng)濟(jì)計(jì)量評價(jià)法局限于開發(fā)類科技活動的評價(jià),不適于基礎(chǔ)類、應(yīng)用類的科技事件??梢钥闯?,以上幾種對科技事件的評價(jià)方法應(yīng)用場景局限,無法通過一種方法較好的評價(jià)不同領(lǐng)域內(nèi)科技事件的影響力,并且缺乏數(shù)據(jù)支撐,客觀性不足。

        本文提出一種新的對科技事件影響力的評估方法,首先,選取分屬不同學(xué)科的科技事件,搜集其在百度、谷歌、知網(wǎng)等搜索引擎中的數(shù)據(jù),分析其數(shù)據(jù)特征。其次,通過咨詢領(lǐng)域內(nèi)專家及社會公識度調(diào)查的方式,確定科技事件影響力的級別數(shù)量。最后,利用機(jī)器學(xué)習(xí)算法中的K-means算法,根據(jù)事件不同的數(shù)據(jù)特征,將不同影響力的科技事件聚入不同的類別,完成對科技事件影響力的評估。該方法具有海量的搜索引擎數(shù)據(jù)支撐,因此,評估結(jié)果相比于前文提及的幾種方式更為客觀合理,應(yīng)用場景更為寬闊。

        2? ? 數(shù)據(jù)的獲取與處理

        2.1? 特征選擇

        科技事件具有非常多的屬性,例如:名稱,被發(fā)明或被發(fā)現(xiàn)時(shí)間,發(fā)明人或是發(fā)現(xiàn)人,事件內(nèi)容,事件在網(wǎng)絡(luò)上的搜索指數(shù),事件的相關(guān)論文數(shù)量等,不同的屬性可以形成不同的特征數(shù)據(jù)。建立一個(gè)利用數(shù)據(jù)評估科技事件影響力的數(shù)學(xué)模型,首先需要選取合適的特征數(shù)據(jù)。在科技事件的屬性中,能較為直觀地反映一個(gè)科技事件影響力的是該事件在網(wǎng)絡(luò)上的搜索指數(shù)。同一搜索引擎,產(chǎn)生較多搜索結(jié)果的科技事件在一定程度上比產(chǎn)生較少搜索結(jié)果的科技事件影響力大。但是使用單一的搜索指數(shù)來對科技事件影響力進(jìn)行評價(jià),會存在一定的局限,因?yàn)橐粋€(gè)科技事件在網(wǎng)絡(luò)上的搜索指數(shù),反應(yīng)的更多地是該事件在社會大眾中的影響力,而現(xiàn)實(shí)中存在一個(gè)科技事件影響了很多科技事件的誕生,但是這一科技事件在大眾間的傳播及影響力不大的情況。因此,為了使評估結(jié)果更為客觀合理,還應(yīng)該考慮科技事件在科學(xué)領(lǐng)域的影響力。

        本文通過擴(kuò)寬特征數(shù)據(jù)選擇面和加深特征數(shù)據(jù)提取兩個(gè)途徑,來增加評估結(jié)果的客觀性。擴(kuò)寬特征數(shù)據(jù)選擇面,通過增加知網(wǎng)相關(guān)論文數(shù)量和谷歌學(xué)術(shù)相關(guān)數(shù)據(jù)這兩維特征數(shù)據(jù)實(shí)現(xiàn)。一個(gè)科技事件的影響力不僅包含在媒體大眾間的影響,也包含在科技工作者間的影響,一個(gè)科技事件的影響力大,大概率能得到相關(guān)研究論文數(shù)量多的結(jié)果,因此,科技事件相關(guān)論文數(shù)量的多少,也將作為本模型的一個(gè)特征數(shù)據(jù)。加深特征數(shù)據(jù)提取是指,選用多種主流搜索引擎的數(shù)據(jù),減少因?yàn)樗阉饕嬗脩羯俣鸬恼`差和偶然性。主流搜索引擎的數(shù)據(jù)中,我們選用了百度搜索結(jié)果數(shù)、谷歌搜索結(jié)果數(shù)、百度搜索指數(shù)和媒體指數(shù)這4個(gè)數(shù)據(jù)。理由如下。(1)百度作為國內(nèi)最主要的搜索引擎,搜索結(jié)果數(shù)據(jù)是建立在國內(nèi)大量用戶的搜索之上,具有誤差小、總量大的特征。百度搜索結(jié)果數(shù),能夠反映科技與創(chuàng)新事件在國人中的影響力。(2)谷歌是全球除中國以外其他地區(qū)的主要搜索引擎,谷歌搜索結(jié)果數(shù),具有能夠反映科技事件在全球其他地區(qū)影響力的特征。(3)百度搜索和媒體指數(shù),分為PC端和移動端,根據(jù)當(dāng)前互聯(lián)網(wǎng)在移動端的發(fā)展趨勢,我們將移動端的數(shù)據(jù)也納入了考慮。

        2.2? 數(shù)據(jù)清洗及標(biāo)準(zhǔn)化處理

        本實(shí)驗(yàn)按照信息、交通、醫(yī)藥、農(nóng)林、機(jī)械、化工6個(gè)學(xué)科分別挑選出了120個(gè)該學(xué)科領(lǐng)域內(nèi)具有象征意義的科技事件,爬取了這些事件從2011~2018年每個(gè)月的百度搜索指數(shù)和媒體指數(shù)、百度搜索結(jié)果數(shù)、谷歌搜索結(jié)果數(shù)、谷歌學(xué)術(shù)和知網(wǎng)相關(guān)論文數(shù)。

        爬取的原始數(shù)據(jù)的數(shù)量級和量綱并不相同,如果直接使用原始數(shù)據(jù)進(jìn)行科技事件影響力的評估,數(shù)量級和量綱對最終結(jié)果的影響會遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)本身的影響,產(chǎn)生的誤差較大。此外,部分科技事件的數(shù)據(jù)存在有缺失值的情況。因此,需要通過數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)準(zhǔn)化處理,使不同的特征數(shù)據(jù)具有相同的尺度。

        在實(shí)際實(shí)驗(yàn)中,有28個(gè)科技事件的數(shù)據(jù)缺失了百度搜索結(jié)果數(shù),有32個(gè)科技事件缺失了谷歌搜索結(jié)果數(shù),有53個(gè)數(shù)據(jù)缺少百度搜索指數(shù)或媒體指數(shù)。對缺失數(shù)據(jù)的事件,首先通過人工核查它們的官方命名,并進(jìn)行查找,對能獲取的數(shù)據(jù)進(jìn)行添加。人工查找之后依然缺失數(shù)據(jù)的事件,選擇了新的科技事件進(jìn)行代替。

        猜你喜歡
        搜索引擎
        Chrome 99 Canary恢復(fù)可移除預(yù)置搜索引擎選項(xiàng)
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        基于Lucene搜索引擎的研究
        知識漫畫
        百科知識(2012年11期)2012-04-29 08:30:15
        一種自反饋式元搜索系統(tǒng)的設(shè)計(jì)
        搜索引擎,不止有百度與谷歌
        搜索,也要“深搜熟濾”
        国产高清一区二区三区三州| 成年女人片免费视频播放A| 国产乱人视频在线播放| 精品人妻少妇一区二区三区不卡| 久久免费的精品国产v∧| 精品一品国产午夜福利视频| 国产欧美乱夫不卡无乱码| 伊人久久一区二区三区无码| 久久久久久无中无码| 亚洲精品无人区一区二区三区| 亚洲中文有码一区二区| 精品国产av一区二区三区| 久久亚洲中文字幕伊人久久大| 精品久久亚洲中文字幕| 欧美日韩精品乱国产| 精品免费久久久久久久| 久久精品国产亚洲av大全| 秒播无码国产在线观看| 免费高清日本中文| 中文字幕一区二区网站| 亚洲第一大av在线综合| 上海熟女av黑人在线播放| 日韩视频在线观看| 久久99精品国产麻豆不卡| 亚洲∧v久久久无码精品| 99久久精品国产自在首页| 亚洲av熟女少妇一区二区三区| 亚洲毛片在线免费视频| 国产97在线 | 日韩| 2021久久精品国产99国产精品| 色先锋资源久久综合5566| 中年人妻丰满AV无码久久不卡| 欧美国产伦久久久久久久| 日韩精品中文字幕一区二区| 九九久久99综合一区二区| 成人免费看吃奶视频网站| 国产一区二区精品久久凹凸| 国产一区二区三区亚洲精品| 中文字幕亚洲一区视频| 综合国产婷婷精品久久99之一| 亚洲最大av网站在线观看|