亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Paper Pal:一個(gè)中英文論文及其代碼大數(shù)據(jù)搜索平臺(tái)

        2020-09-21 02:51:28余萬,付聿煒,熊贇
        大數(shù)據(jù) 2020年5期

        1 引言

        在開展科研工作的過程中,科研人員需要從大量實(shí)時(shí)更新的論文中持續(xù)地跟蹤學(xué)術(shù)界前沿的發(fā)展情況,學(xué)習(xí)最新研究成果。近年來,人工智能(artificial intelligence,AI)、數(shù)據(jù)挖掘等領(lǐng)域受到的關(guān)注度不斷增加,相關(guān)會(huì)議的論文數(shù)量呈爆發(fā)式增長(zhǎng)。圖1顯示了arXiv[1]數(shù)據(jù)庫中2010—2019年AI領(lǐng)域的論文增長(zhǎng)情況[2]。但是,巨大的論文數(shù)量導(dǎo)致科研人員搜索論文的過程中耗費(fèi)了大量的時(shí)間。

        目前,已經(jīng)有很多論文搜索引擎,如Microsoft Academic[3]、Arxiv Sanity Preserver、Papers With Code以及AMiner[4]等。其中,Microsoft Academic根據(jù)研究領(lǐng)域?qū)φ撐倪M(jìn)行了分類,并提供了論文的全文鏈接、所發(fā)表的會(huì)議或期刊、引用的參考文獻(xiàn)等;Arxiv Sanity Preserver提供了arXiv上論文的瀏覽、搜索和排序功能,并根據(jù)用戶收藏的論文,使用TF-IDF[5]和支持向量機(jī)(support vector machine,SVM)[6]實(shí)現(xiàn)論文推薦。對(duì)于計(jì)算機(jī)領(lǐng)域的科研人員,論文中提出的算法、模型的代碼是相當(dāng)重要的學(xué)習(xí)資源,能夠讓人更直觀、快速地理解和掌握一個(gè)新算法或新模型[7],但Microsoft Academic和Arxiv Sanity Preserver等未提供代碼信息。在眾多代碼平臺(tái)中,GitHub[8]成為目前非常有代表性的代碼平臺(tái)。但是,在搜索論文和對(duì)應(yīng)的代碼時(shí),科研人員需要在不同的搜索平臺(tái)上來回切換以獲取論文和代碼,這無疑增加了科研工作的時(shí)間。

        為了解決論文和論文代碼在空間上的差異問題,Atlas ML推出一個(gè)免費(fèi)、開源的機(jī)器學(xué)習(xí)領(lǐng)域的論文和代碼分享平臺(tái)——Papers With Code,該平臺(tái)不提供計(jì)算機(jī)領(lǐng)域的中文論文。AMiner是目前功能較全的研究者、論文搜索平臺(tái),其構(gòu)建的主要目標(biāo)是通過整合多源數(shù)據(jù)提供研究者搜索分析功能來構(gòu)建研究者網(wǎng)絡(luò)和學(xué)術(shù)論文網(wǎng)絡(luò)[9]。該平臺(tái)也提供中英文論文的搜索功能,并包含部分可人工編輯的論文相應(yīng)的代碼鏈接。

        不同于AMiner平臺(tái)的構(gòu)建目標(biāo),本文聚焦中國計(jì)算機(jī)領(lǐng)域的科研人員在搜索論文中的實(shí)際需求,以“中國計(jì)算機(jī)學(xué)會(huì)(China Computer Federation,CCF)推薦分區(qū)論文+代碼+中文期刊+推薦”為定位,設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)使用友好、免費(fèi)、開源的計(jì)算機(jī)領(lǐng)域論文與代碼搜索系統(tǒng)——Paper Pal。

        Paper Pal針對(duì)中國計(jì)算機(jī)領(lǐng)域的科研人員需求,按照CCF推薦論文分區(qū)對(duì)平臺(tái)中的論文進(jìn)行分類,提供方便的選項(xiàng)卡和搜索支持,平臺(tái)功能更加聚焦。目前,Paper Pal共收錄英文文獻(xiàn)29 507篇、中文文獻(xiàn)2 130篇以及代碼6 147份,覆蓋人工智能、數(shù)據(jù)挖掘領(lǐng)域的CCF分區(qū)的35個(gè)A類和B類會(huì)議以及四大計(jì)算機(jī)領(lǐng)域中文期刊(《計(jì)算機(jī)學(xué)報(bào)》《軟件學(xué)報(bào)》《計(jì)算機(jī)研究與發(fā)展》《大數(shù)據(jù)》)。同時(shí),平臺(tái)具有可擴(kuò)展性,將持續(xù)收集整合新的會(huì)議和期刊的論文。

        此外,用戶也可以采用關(guān)鍵詞、期刊名、會(huì)議名等方式進(jìn)行論文搜索。Paper Pal還提供論文收藏功能,以便用戶記錄、整理以及追溯,同時(shí)將用戶收藏的論文作為用戶的行為數(shù)據(jù)來源,利用系統(tǒng)內(nèi)置的論文推薦功能,推測(cè)用戶可能感興趣的論文,幫助用戶在更短的時(shí)間內(nèi)找到所需要的資料,進(jìn)一步提升用戶的使用體驗(yàn)。表1對(duì)Paper Pal和上述其他論文搜索平臺(tái)進(jìn)行了對(duì)比。

        2 相關(guān)技術(shù)

        Paper Pal平臺(tái)負(fù)責(zé)對(duì)論文及其代碼進(jìn)行收集、存儲(chǔ)并提供搜索和推送功能。這里需要解決幾個(gè)問題:第一,數(shù)據(jù)是多來源的,如何合理地進(jìn)行數(shù)據(jù)整合,以提升平臺(tái)數(shù)據(jù)質(zhì)量是基礎(chǔ);第二,論文數(shù)據(jù)是文本類型,如何有效地進(jìn)行存儲(chǔ)和預(yù)處理是核心;第三,平臺(tái)中既有中文論文又有英文論文,如何提供精準(zhǔn)搜索是關(guān)鍵。針對(duì)上述問題,本文采用了當(dāng)前大數(shù)據(jù)領(lǐng)域中主流的數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)檢索技術(shù),并根據(jù)本系統(tǒng)的特點(diǎn)進(jìn)行了改進(jìn),包括在MongoDB與Elasticsearch之間進(jìn)行數(shù)據(jù)同步,從而實(shí)現(xiàn)在利用MongoDB數(shù)據(jù)存儲(chǔ)的優(yōu)勢(shì)和Elasticsearch強(qiáng)大的中文搜索能力的同時(shí),保證搜索結(jié)果與數(shù)據(jù)存儲(chǔ)更新的同步。此外,采用面向異質(zhì)網(wǎng)絡(luò)的推薦模型對(duì)用戶的搜索行為進(jìn)行分析,以實(shí)現(xiàn)論文推送。

        2.1 數(shù)據(jù)獲取與存儲(chǔ)

        實(shí)現(xiàn)Paper Pal的第一步是收集論文及其相關(guān)數(shù)據(jù),目前本系統(tǒng)收集了CCF推薦分區(qū)A類、B類會(huì)議近3年發(fā)表的人工智能、數(shù)據(jù)挖掘領(lǐng)域的論文。數(shù)據(jù)來自DBLP[10]上論文所在的期刊、會(huì)議的詳細(xì)信息。同時(shí),從Microsoft Academic上獲取了論文被引用的次數(shù)。綜合上述信息,系統(tǒng)提供的論文相關(guān)信息包括論文的標(biāo)題、作者、出版日期、論文PDF文檔鏈接和被引用的次數(shù)等。除英文論文外,Paper Pal還從計(jì)算機(jī)領(lǐng)域的中文期刊中獲取了中文論文數(shù)據(jù)。

        表1 Paper Pal與各論文搜索平臺(tái)的對(duì)比

        獲取到論文信息后,進(jìn)一步整合論文中介紹的模型和算法的相關(guān)代碼。系統(tǒng)將GitHub當(dāng)作Paper Pal的代碼數(shù)據(jù)來源,通過GitHub提供的API來獲取代碼數(shù)據(jù)。雖然有些論文沒有論文原作者公布的代碼,但是會(huì)有其他研究人員在GitHub上分享實(shí)現(xiàn)的代碼。

        收集完論文數(shù)據(jù)和對(duì)應(yīng)的代碼之后,將其存儲(chǔ)到數(shù)據(jù)庫中。本系統(tǒng)使用MongoDB提供數(shù)據(jù)存儲(chǔ)和管理服務(wù)。每篇英文論文的記錄有11個(gè)屬性,分別為:論文的ID、標(biāo)題、摘要、作者、發(fā)布日期、代碼鏈接、PDF鏈接、關(guān)鍵詞、被引用次數(shù)、發(fā)表會(huì)議或期刊、發(fā)表年份。

        2.2 中英文論文搜索方法

        Paper Pal收集的論文包括中文論文和英文論文。為實(shí)現(xiàn)更高效、準(zhǔn)確、方便的中英文檢索功能,Paper Pal選取Elasticsearch[11]作為搜索引擎。Elasticsearch是一個(gè)開源的、基于Lucene的分布式數(shù)據(jù)搜索引擎,能夠提供快速的檢索功能,具有易擴(kuò)展、近實(shí)時(shí)的特點(diǎn)。Elasticsearch的倒排索引功能能夠有效地提高多條件查詢的檢索效率;Elasticsearch支持中文分詞插件IK Analyzer,能夠更好、更方便地滿足Paper Pal對(duì)中文文獻(xiàn)的檢索需求。除此之外,Elasticsearch還有與之配套的可視化工具Kibana和日志收集分析工具Logstash,能夠?yàn)镻aper Pal提供日志收集、文本檢索和數(shù)據(jù)可視化分析整套流程的服務(wù)[12]。

        但Elasticsearch容易因?yàn)檐浻布罎⒍斐蓴?shù)據(jù)丟失且無法恢復(fù),因此Elasticsearch通常與關(guān)系型數(shù)據(jù)庫或非關(guān)系型數(shù)據(jù)庫配合使用,其中數(shù)據(jù)庫作為持久化存儲(chǔ)組件提供約束限制和系統(tǒng)魯棒性保證,而Elasticsearch基于數(shù)據(jù)內(nèi)容實(shí)現(xiàn)復(fù)雜的搜索查詢。Paper Pal的數(shù)據(jù)被存儲(chǔ)在MongoDB中,在本系統(tǒng)中,筆者把MongoDB的論文數(shù)據(jù)同步到Elasticsearch中,并實(shí)時(shí)監(jiān)聽MongoDB中數(shù)據(jù)的更新情況。如圖2所示,Paper Pal使用Mongo-connector來跟蹤事先建立好的MongoDB Replica Set的oplog(operations log),利用Mongoconnector的文檔管理器Elastic2-doc-manager將MongoDB的數(shù)據(jù)導(dǎo)入Elasticserach,并實(shí)時(shí)監(jiān)聽oplog的變化,以保持Elasticsearch與MongoDB之間數(shù)據(jù)的同步。

        2.3 論文推薦方法

        考慮到目前收集的用戶數(shù)據(jù)有限,目前Paper Pal使用與Arxiv Sanity Preserver相似的基于內(nèi)容的推薦方法,即根據(jù)用戶收藏的論文的標(biāo)題與摘要,使用TF-IDF和SVM將論文的詞頻等作為特征來計(jì)算其他論文和用戶收藏的論文在詞的語義上的相似度。同時(shí),Paper Pal系統(tǒng)內(nèi)置了筆者提出的基于異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)的基于元路徑增強(qiáng)的圖注意力編碼(metapath enhanced graph attention encoder,MEGAE)[13]模型,模型框架如圖3所示。該模型將論文、用戶看成一個(gè)異質(zhì)網(wǎng)絡(luò),將用戶搜索以及收藏的論文作為用戶和論文之間的邊,當(dāng)用戶注冊(cè)并登錄Paper Pal后,Paper Pal會(huì)將用戶收藏和瀏覽的論文信息記入數(shù)據(jù)庫,這些數(shù)據(jù)將被用來更新網(wǎng)絡(luò),為推薦功能積累數(shù)據(jù)來源。例如,當(dāng)用戶A看了論文B之后,Paper Pal會(huì)在異質(zhì)網(wǎng)絡(luò)中為用戶A和論文B添加一條連邊。Paper Pal使用MEGAE模型學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)中每個(gè)不同節(jié)點(diǎn)的低維向量表示[14]和異質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)信息[15],捕捉用戶的興趣點(diǎn),從而為用戶推薦論文。比起單純使用詞頻作為特征進(jìn)行推薦,MEGAE模型不僅能捕捉到異質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)信息,同時(shí)還能學(xué)習(xí)到異質(zhì)網(wǎng)絡(luò)中隱含的語義關(guān)系,實(shí)現(xiàn)更精準(zhǔn)的個(gè)性化推薦。根據(jù)本系統(tǒng)的特點(diǎn),即論文具有CCF分區(qū)信息,發(fā)表論文的會(huì)議或期刊所屬的CCF分區(qū)和論文領(lǐng)域可以作為論文的標(biāo)簽加入論文節(jié)點(diǎn)的屬性中,即將MEGAE模型應(yīng)用到考慮節(jié)點(diǎn)屬性的屬性網(wǎng)絡(luò)圖中。

        3 平臺(tái)效果

        Paper Pal平臺(tái)為中國計(jì)算機(jī)領(lǐng)域的科研工作者提供了“分區(qū)搜索”功能,即直接進(jìn)入CCF推薦分區(qū)會(huì)議或中文期刊進(jìn)行搜索(如圖4所示)。用戶可以選擇瀏覽CCF推薦分區(qū)會(huì)議或中文期刊的論文,系統(tǒng)根據(jù)用戶的選擇顯示相應(yīng)的論文列表。論文列表包括論文的標(biāo)題、作者、發(fā)表日期、摘要、PDF文檔鏈接、代碼鏈接以及被引次數(shù)等信息??紤]到存在具體某一期刊/會(huì)議論文數(shù)量多并且用戶只想搜索該期刊/會(huì)議下的論文的情況,Paper Pal為用戶提供兩種搜索范圍,一種是在所有期刊/會(huì)議下進(jìn)行搜索,另一種是在某個(gè)特定的期刊/會(huì)議下進(jìn)行搜索?!胺謪^(qū)搜索”是區(qū)分于其他平臺(tái)的重要功能。因?yàn)橛脩魧?duì)高質(zhì)量論文的關(guān)注度通常更高,所以本功能通過給出中國計(jì)算機(jī)學(xué)會(huì)的高質(zhì)量會(huì)議推薦列表及其中的論文,為用戶提供直接的搜索服務(wù)。而在現(xiàn)有其他平臺(tái)上,用戶必須先去查閱哪些會(huì)議在中國計(jì)算機(jī)學(xué)會(huì)的推薦列表中,然后再到搜索平臺(tái)中用關(guān)鍵詞進(jìn)行檢索。因此,本平臺(tái)將大幅減少用戶在搜索高質(zhì)量論文(計(jì)算機(jī)學(xué)會(huì)推薦列表中的會(huì)議論文)時(shí)耗費(fèi)的時(shí)間。此外,用戶耗費(fèi)相當(dāng)時(shí)間查閱到所需的會(huì)議名之后,在現(xiàn)有其他平臺(tái)上將會(huì)議名作為關(guān)鍵詞進(jìn)行搜索時(shí),搜索結(jié)果會(huì)出現(xiàn)偏差。例如international conference on machine learning(ICML)中有“machine learning”,若將“machine learning”作為關(guān)鍵詞進(jìn)行搜索,將會(huì)把該詞作為標(biāo)題或摘要等中的匹配詞返回,而不是搜索ICML。最后,如果在現(xiàn)有其他平臺(tái)上直接使用會(huì)議名的縮寫來搜索會(huì)議,對(duì)搜索質(zhì)量將是更大的挑戰(zhàn)。因此,本平臺(tái)的搜索聚焦關(guān)鍵詞與論文主題等的匹配度,而不需要考慮以會(huì)議名為關(guān)鍵詞的匹配,所以,本平臺(tái)具有更高的精準(zhǔn)度。

        當(dāng)用戶查閱到自己感興趣的論文時(shí),可以進(jìn)入論文的詳情頁面,將論文添加到收藏夾中。Paper Pal根據(jù)論文的標(biāo)題和摘要使用TF-IDF和SVM生成該論文的相似論文目錄。用戶可在論文的詳情頁面(如圖5所示),進(jìn)一步查看與當(dāng)前論文相似的論文。Paper Pal基于MEGAE模型的論文推薦功能需用戶注冊(cè)、登錄,并且在平臺(tái)積累到一定數(shù)量的用戶收藏?cái)?shù)據(jù)后才能使用。MEGAE模型使用圖注意力編碼器來捕捉網(wǎng)絡(luò)結(jié)構(gòu)的信息,能夠增強(qiáng)模型的可解釋性,同時(shí)還能學(xué)習(xí)到由論文、作者、會(huì)議/期刊等構(gòu)成的異質(zhì)網(wǎng)絡(luò)中隱含的語義關(guān)系,實(shí)現(xiàn)更精準(zhǔn)的個(gè)性化推薦。例如,可以根據(jù)論文是否具有合作者或論文是否發(fā)表在不同會(huì)議上等不同的條件,實(shí)現(xiàn)不同語義路徑下的推薦。其生成的推薦目錄可在“為您推薦”版塊中查閱。

        Paper Pal也將持續(xù)收集和更新一系列公開的數(shù)據(jù)集,并根據(jù)不同的研究方向?qū)?shù)據(jù)集進(jìn)行劃分(如圖6所示)。

        4 結(jié)束語

        本文設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)論文及其代碼大數(shù)據(jù)搜索系統(tǒng)——Paper Pal,旨在為中國計(jì)算機(jī)領(lǐng)域的科研人員提供一個(gè)功能更全面的中英文論文及其代碼大數(shù)據(jù)搜索工具。該平臺(tái)基于多源數(shù)據(jù)獲取、MongoDB數(shù)據(jù)庫存儲(chǔ)、非結(jié)構(gòu)化文本抽取轉(zhuǎn)換和Elasticsearch中文數(shù)據(jù)檢索等方法和技術(shù),整合了CCF推薦分區(qū)會(huì)議和部分國內(nèi)計(jì)算機(jī)領(lǐng)域的中文期刊的論文及其已公開在GitHub上的代碼,并提供論文及其代碼大數(shù)據(jù)搜索功能;還采用面向異質(zhì)網(wǎng)絡(luò)的推薦模型實(shí)現(xiàn)用戶搜索行為分析,為用戶推送感興趣的論文。Paper Pal平臺(tái)將大幅縮短科研人員查找文獻(xiàn)的時(shí)間,幫助科研人員在更短的時(shí)間內(nèi)更有效地獲取更多、更全面的資料,并且該平臺(tái)中積累的計(jì)算機(jī)領(lǐng)域高質(zhì)量中英文論文、代碼及其數(shù)據(jù)集形成了科研成果研究的大數(shù)據(jù)資源庫,為科研大數(shù)據(jù)研究提供了豐富的數(shù)據(jù)基礎(chǔ),也為科研趨勢(shì)分析研究提供了數(shù)據(jù)支持,對(duì)持續(xù)開展科研領(lǐng)域的成果進(jìn)展研究具有重要意義。

        国产精品久久中文字幕第一页 | av熟妇一区二区三区| 精品久久久久香蕉网| 国产熟妇搡bbbb搡bb七区| 国产精品色内内在线播放| 亚洲天堂男人的av天堂| 中国孕妇变态孕交xxxx| 丰满少妇被猛烈进入| 日本成人字幕在线不卡| 国产成人精品一区二三区在线观看 | 美女脱了内裤洗澡视频| 少妇人妻综合久久中文字幕| 中国丰满大乳乳液| 亚洲AV永久无码精品一区二国| 亚洲精品一区二区三区在线观| 伊人久久精品无码二区麻豆| 国产肉体ⅹxxx137大胆| 无码成年性午夜免费网站蜜蜂| 谷原希美中文字幕在线| 成人免费直播| 无码不卡高清毛片免费| 日本在线中文字幕一区二区| 国产日本精品视频一区二区| 久久久久亚洲av片无码v| 亚洲AV无码一区二区二三区我| 中文字幕专区一区二区| 熟女无套高潮内谢吼叫免费| 亚洲精品久久久久中文字幕二区| 最新手机国产在线小视频| 久久中文字幕亚洲综合| 影音先锋男人av鲁色资源网| 亚洲第一网站免费视频| 国产三级av在线播放| 少妇人妻综合久久中文字幕| 日本亚洲色大成网站www久久| 成 人 网 站 在线 看 免费 | 精品三级av无码一区| 欧美人与动zozo| 免费黄网站永久地址进入| 久久人妻少妇嫩草av| 久久久精品久久日韩一区综合|