亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)領(lǐng)域?qū)W術(shù)微信號(hào)TOP50挖掘評(píng)價(jià)排名

        2016-03-18 07:58:57楊存榜
        移動(dòng)信息 2016年11期
        關(guān)鍵詞:階梯式語(yǔ)料權(quán)重

        王 云 肖 寒 楊存榜

        ?

        大數(shù)據(jù)領(lǐng)域?qū)W術(shù)微信號(hào)TOP50挖掘評(píng)價(jià)排名

        王 云 肖 寒 楊存榜

        中國(guó)工程物理研究院激光聚變研究中心信息管理中心,四川 綿陽(yáng) 621900

        微信隨學(xué)術(shù)界產(chǎn)業(yè)界紛紛入駐而崛起為重要信息源。為了用豐富關(guān)鍵詞覆蓋大數(shù)據(jù)相關(guān)領(lǐng)域,基于語(yǔ)料共現(xiàn)統(tǒng)計(jì)得到200多“大數(shù)據(jù)”相關(guān)詞,將其分為3組,每?jī)山M之間詞詞組合得到1萬(wàn)多檢索式,搜索并采集微信摘要22萬(wàn)篇,抽取去重并用“濃度”模型篩選高相關(guān)文章14萬(wàn)篇,計(jì)微信號(hào)9104個(gè)。采用“階梯式累進(jìn)權(quán)重”,評(píng)分方法綜合考慮文章量、相關(guān)性和時(shí)間趨勢(shì)。最后得到“大數(shù)據(jù)領(lǐng)域微信號(hào)TOP50”排名表。

        大數(shù)據(jù);微信號(hào);階梯式累進(jìn)權(quán)重算法;數(shù)據(jù)挖掘;統(tǒng)計(jì)評(píng)價(jià)

        1 微信已崛起成為重要學(xué)術(shù)資源

        微信發(fā)布和閱讀方便,來(lái)源信息自由多樣,二次挑選和精煉,可讀性強(qiáng),發(fā)布者自我負(fù)責(zé)維護(hù)品牌吸引關(guān)注,與讀者直接連接及時(shí)反饋。大趨勢(shì)之下,產(chǎn)業(yè)界學(xué)術(shù)界機(jī)構(gòu)和個(gè)人紛紛進(jìn)入微信平臺(tái)。[1]

        如何用豐富關(guān)鍵詞覆蓋大數(shù)據(jù)相關(guān)概念:

        我們用語(yǔ)料共現(xiàn)統(tǒng)計(jì)方法尋找“大數(shù)據(jù)”相關(guān)詞。從“大數(shù)據(jù)”、“數(shù)據(jù)挖掘”等幾個(gè)核心詞出發(fā),搜索如下幾種語(yǔ)料:(1)百科詞條;(2)專著目錄;(3)期刊摘要;(4)網(wǎng)頁(yè)摘要。采集清洗集成為一個(gè)文本文件。

        先用一個(gè)噪音詞表(“但,的,該,和,很,僅,了,……”)對(duì)語(yǔ)料進(jìn)行預(yù)切分,然后進(jìn)行無(wú)詞典統(tǒng)計(jì)分詞,對(duì)分詞結(jié)果進(jìn)行人工挑選,得到200多個(gè)“大數(shù)據(jù)”相關(guān)詞。為制訂搜索策略,將其分為5個(gè)概念組:(1)信息對(duì)象或類型:大數(shù)據(jù),大量數(shù)據(jù),海量,巨量資料,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集,文檔,微信,微博,博客,語(yǔ)料庫(kù),自然語(yǔ)言……;(2)目標(biāo)、公司、用戶:谷歌,沃爾瑪,亞馬遜,淘寶,搜狗,阿里巴巴,百度,騰訊,網(wǎng)易,知乎,微軟,豆瓣,移動(dòng)互聯(lián)網(wǎng),電商,電子商務(wù),顧客,客戶,用戶,消費(fèi)者,社交媒體,社交網(wǎng)絡(luò)……;(3)目標(biāo)和用途:應(yīng)用,個(gè)性化,精準(zhǔn),推薦,興趣,喜好,需求,習(xí)慣,排名,評(píng)分,評(píng)級(jí),評(píng)價(jià),評(píng)估,口碑,指標(biāo),指數(shù),趨勢(shì),預(yù)測(cè),時(shí)間序列,熱點(diǎn),話題,潛在,相關(guān)性,相似,相似度……;(4)工具和方法:解決方案,方案,案例,實(shí)例,示例,工具,人機(jī),軟件,程序,編程,代碼,框架,集成,平臺(tái),體系,流程,基于,策略,技巧,技術(shù),思路,思想,標(biāo)準(zhǔn),規(guī)則,模式,定量,定性……;(5)數(shù)學(xué)方法:智能,智能化,自動(dòng),機(jī)器學(xué)習(xí),監(jiān)督學(xué)習(xí),深度學(xué)習(xí),統(tǒng)計(jì)學(xué)習(xí),挖掘,挖掘技術(shù),數(shù)據(jù)挖掘,數(shù)值,計(jì)算,算法,運(yùn)算,求解,貝葉斯,馬爾科夫,神經(jīng)網(wǎng)絡(luò),遺傳算法……[2]

        2 大規(guī)模采集抽取去重篩選微信文章

        條件太嚴(yán)會(huì)導(dǎo)致搜索結(jié)果太少,且組合數(shù)過(guò)于龐大而難以全部采集(如將5組或3組作為搜索條件)。如果條件太松,則導(dǎo)致搜索結(jié)果太多而文章相關(guān)性不高。綜合權(quán)衡,再將上述5組詞合并為3組,然后每?jī)山M進(jìn)行組合。得到組合數(shù)約1萬(wàn)5千個(gè)。使用這3組詞的兩兩組合分別作為單獨(dú)檢索式,逐一搜索微信文章并采集首頁(yè)返回頁(yè)面。由于微信搜索限制采集,每采集數(shù)頁(yè)或數(shù)十頁(yè)便彈出驗(yàn)證框,致使頗費(fèi)時(shí)間。經(jīng)1周時(shí)間輸入無(wú)數(shù)難以辨認(rèn)的驗(yàn)證碼,采集微信文章220838篇。通代碼解析、內(nèi)容抽取、文字規(guī)范、去重(按標(biāo)題和發(fā)布者兩個(gè)條件相同作為去重條件),刪除2013年文章(數(shù)量不多)。最后獲得微信文章摘要144861篇(2014—2016)。[3]

        刪除了不滿足搜索條件的文章(因搜索引擎返回結(jié)果并不嚴(yán)格遵照用戶輸入,尤其在匹配少時(shí),且還用同義詞替換用戶詞)。刪除低相關(guān)度文章(雖然滿足檢索條件)。相關(guān)度采用“濃度”模型,即搜索詞在標(biāo)題和摘要所占百分比,同時(shí)加入詞頻、詞間距離、詞代表性(與普通語(yǔ)料詞頻成反比)進(jìn)行綜合加權(quán)并進(jìn)行適度平滑處理。按綜合相關(guān)度遞減排序,留下排名居前的微信文章。

        3 以“階梯式累進(jìn)權(quán)重”計(jì)算評(píng)選微信號(hào)

        表1 大數(shù)據(jù)領(lǐng)域?qū)W術(shù)微信號(hào)TOP50

        發(fā)布這10多萬(wàn)篇微信推文的微信號(hào)總計(jì)9104個(gè)。綜合評(píng)分考慮因素如下:(1)發(fā)表相關(guān)文章累計(jì)數(shù)量和相關(guān)性;(2)從2014年到2016年發(fā)表相關(guān)文章數(shù)量的增長(zhǎng)趨勢(shì)。我們沒(méi)有采用“趨勢(shì)預(yù)測(cè)分值”(即用2014和2016數(shù)據(jù)預(yù)測(cè)2017年發(fā)表數(shù)量,“趨勢(shì)預(yù)測(cè)分值”的問(wèn)題在于數(shù)據(jù)稀疏性容易導(dǎo)致違背常識(shí)的奇葩預(yù)測(cè)結(jié)果)。我們采用了更為穩(wěn)妥的“階梯式累進(jìn)權(quán)重”,即既看重近期成果,也不忽略早期成果。只是發(fā)表時(shí)間越近權(quán)重越高,具體權(quán)值設(shè)置是從今年到昨年到前年逐年遞減,從而構(gòu)成一種階梯式權(quán)重。

        大數(shù)據(jù)領(lǐng)域?qū)W術(shù)微信號(hào)TOP50評(píng)價(jià)排名:

        給出9104個(gè)微信號(hào)評(píng)價(jià)排名(前50名,隱去了2014年數(shù)據(jù)及平均值和預(yù)測(cè)值以省篇幅)見(jiàn)表1。

        [1]冀芳,張夏恒. 學(xué)術(shù)期刊微信公眾號(hào)評(píng)價(jià)研究[J]. 科技與出版,2016(7):78-81.

        [2]李明德,高如,LiMingde,等. 媒體微信公眾號(hào)傳播力評(píng)價(jià)研究——基于20個(gè)陜西媒體微信公眾號(hào)的考察[J]. 情報(bào)雜志,2015(7):141-147.

        [3]郝雅婕. 學(xué)術(shù)類微信公眾號(hào)現(xiàn)狀及發(fā)展研究[J]. 新聞研究導(dǎo)刊,2016,7(3):13.

        Large data field academic micro signal TOP50 mining evaluation rankings

        Wang Yun,Xiao Han,Yang Cunbang

        Information Management Center of Laser Fusion Research Center,China Academy of Engineering Physics,SichuanMianyang 621900

        WeChat has been settled in the academic community as an important source of information. In order to cover large data fields with abundant words,corpus co-occurrence statistics more than and 200 "big data" based on Related words,it can be divided into 3 groups,each group between two words combined more than 10 thousand retrieval,search and acquisition of WeChat 220 thousand abstracts,selected to screening of 140 thousand articles with high concentration "model,the 9104 meter micro signal. The "ladder progressive weight",scoring method considering the relevance of the article,and the time trend. Finally get the big data field micro signal TOP50 ranking table.

        big data;micro signal;stepped progressive weighting algorithm;data mining;statistical evaluation

        F49

        A

        1009-6434(2016)11-0121-03

        王云(1965—),男,漢族,副研究館員,研究方向文本信息處理與服務(wù)。

        猜你喜歡
        階梯式語(yǔ)料權(quán)重
        探討個(gè)體化階梯式疼痛管理模式在腫瘤晚期患者中的應(yīng)用效果
        權(quán)重常思“浮名輕”
        探索學(xué)時(shí)積分制 構(gòu)建階梯式成長(zhǎng)激勵(lì)體系
        談階梯式朗讀教學(xué)——以《天上的街市》為例
        甘肅教育(2020年22期)2020-04-13 08:11:44
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        普通高中音樂(lè)鑒賞模塊階梯式教學(xué)法的探索
        《苗防備覽》中的湘西語(yǔ)料
        伊人久久大香线蕉av色| 亚洲综合原千岁中文字幕| 国产一级黄色片一区二区| 女人18片毛片60分钟| 亚洲av日韩综合一区在线观看 | 欧美最猛黑人xxxx黑人猛交| 丰满人妻无奈张开双腿av| 草莓视频在线观看无码免费| 男女视频一区二区三区在线观看| 亚洲综合成人婷婷五月网址| 久久中文字幕人妻熟av女蜜柚m| 日本不卡一区二区高清中文| 国产一区二区三区小向美奈子| 久久天天躁狠狠躁夜夜av浪潮| 男女一边摸一边做爽爽的免费阅读| 免费的一级毛片| 一区二区三区在线日本| 午夜少妇高潮在线观看| 亚洲看片lutube在线观看| 欧美日韩精品福利在线观看| av天堂一区二区三区精品| 国产亚洲av另类一区二区三区| 国产精选污视频在线观看| 少妇无码av无码去区钱| 国产成人自拍视频视频| 97久久婷婷五月综合色d啪蜜芽| 日韩亚洲av无码一区二区不卡| 亚洲九九九| 漂亮人妻出轨中文字幕| 中文字幕日本人妻久久久免费| 亚洲精品夜夜夜| 国产不卡一区二区av| 一区二区国产av网站| 日本免费a级毛一片| 国产福利片无码区在线观看| 国产av一区二区三区狼人香蕉| 2018天天躁夜夜躁狠狠躁| 亚洲av无码成人黄网站在线观看| 人妻av一区二区三区高| 99久久免费看精品国产一| 欧美成人午夜精品久久久|