亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向科技情報的互聯(lián)網(wǎng)信息源自動發(fā)現(xiàn)技術

        2015-03-17 03:32:54牛海波
        大數(shù)據(jù) 2015年4期
        關鍵詞:科技情報信息源網(wǎng)頁

        高 輝,陳 鈞,牛海波,羅 威

        中國國防科技信息中心 北京 100142

        面向科技情報的互聯(lián)網(wǎng)信息源自動發(fā)現(xiàn)技術

        高 輝,陳 鈞,牛海波,羅 威

        中國國防科技信息中心 北京 100142

        自動獲取高質(zhì)量互聯(lián)網(wǎng)信息源是科技情報工作的一項基礎性研究內(nèi)容。以網(wǎng)站/網(wǎng)頁類信息源和Twitter信息源為研究對象,基于共引關系以及關注關系和文本內(nèi)容,分別提出了兩類信息源的自動發(fā)現(xiàn)方法,并面向科技情報領域進行了實驗。對信息源自動發(fā)現(xiàn)技術應用形式進行了研究,分析了科技情報工作對信息源服務的具體要求,提出了3類應用場景。

        科技情報;互聯(lián)網(wǎng)信息源;Twitter;共引;社會網(wǎng)絡分析

        1 引言

        科技情報人員通常通過兩種方式獲取互聯(lián)網(wǎng)信息:一是通過搜索引擎對某一主題相關的信息進行全面搜索;二是對所關注的領域積累大量有價值的網(wǎng)絡信息源,通過對這些信息源持續(xù)跟蹤而獲得領域動態(tài)。第二種方式是一個長期而持續(xù)的工作,是進行技術預警、技術熱點發(fā)現(xiàn)與跟蹤、技術發(fā)展趨勢預測等重要工作的基礎。因此,全面掌握所關注領域相關的互聯(lián)網(wǎng)信息源,對科技情報人員來說至關重要。

        互聯(lián)網(wǎng)信息源是指互聯(lián)網(wǎng)上能夠提供信息的各類媒體,各種機構、院校、企業(yè)幾乎都擁有自己的網(wǎng)站甚至社交媒體賬號,大量科技工作者通過各種社交媒體向外界發(fā)布著科技類消息,因此這些網(wǎng)站和社交媒體賬號都是科技工作人員潛在的信息源。隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)信息源的數(shù)量也不斷增長,截至2014年7月全球網(wǎng)站數(shù)目超過9.7億個1http://www. internetlivestats. com/totalnumber-ofwebsites/,2015年5月Twitter用戶數(shù)量超過5億戶,活躍用戶超過3億戶2https:// en.wikipedia.org/ wiki/Twitter。傳統(tǒng)人工積累搜集互聯(lián)網(wǎng)信息源的方式已經(jīng)不能滿足大數(shù)據(jù)時代對科技情報工作的要求,因此必須對互聯(lián)網(wǎng)信息源的自動發(fā)現(xiàn)技術開展研究。

        互聯(lián)網(wǎng)信息源是互聯(lián)網(wǎng)數(shù)據(jù)的生產(chǎn)者,信息源種類和數(shù)量的增加以及活躍度的提高,導致了數(shù)據(jù)的爆炸式增長。全世界數(shù)據(jù)總量以每兩年翻一番的速度遞增,而近十年來增長最快的當屬互聯(lián)網(wǎng)數(shù)據(jù)。未來的任務主要不是獲取越來越多的數(shù)據(jù),而是數(shù)據(jù)的去冗分類、去粗取精,提高知識發(fā)現(xiàn)的產(chǎn)出率[1]。要在不明顯增加采集成本的條件下盡可能地提高數(shù)據(jù)的質(zhì)量。這就要求在采集互聯(lián)網(wǎng)信息時盡量選擇與研究領域緊密相關的信息源,減少不必要的數(shù)據(jù)采集。如何獲取相關性強、權威性高、時效性強的信息源,并能夠及時有效地把信息源提供給科技情報研究人員,是一個重要的研究課題。

        目前公開的互聯(lián)網(wǎng)信息源服務主要有Yahoo Directory、Open Directory Project和Go Guide等,其實質(zhì)屬于目錄式搜索引擎:一種按目錄分類的網(wǎng)站鏈接列表,用戶可以按照分類目錄或關鍵字找到所需要的站點或欄目(即網(wǎng)頁類信息源)。目錄搜索引擎以人工方式或半自動方式搜集信息并整理分類。例如Open Directory Project的編輯工作目前共有近9萬人參與,搜集了400萬個站點信息,擁有100多萬個分類3http:// www.dmoz.org。該類信息源服務的缺點是需要人工介入、維護量大、信息量少、信息更新不及時。

        本文研究科技領域相關的互聯(lián)網(wǎng)信息源自動發(fā)現(xiàn)技術,以網(wǎng)站/網(wǎng)頁類(以下簡稱Web類)和Twitter類信息源作為主要研究對象,提出并實現(xiàn)了互聯(lián)網(wǎng)信息源自動發(fā)現(xiàn)技術,并對信息源的應用要求和服務形式進行了研究。

        2 相關工作

        2.1 問題描述

        科技情報人員關注的互聯(lián)網(wǎng)信息源可分為傳統(tǒng)的Web信息源和社交媒體信息源兩大類。其中,Web信息源主要包括領域相關的新聞聚合頁或者重要機構的新聞發(fā)布頁等。而社交媒體主要包括Twitter、Facebook、BBS、博客或者微信等,本文選取Twitter作為研究對象。

        在信息源發(fā)現(xiàn)的需求建模中,科技情報人員往往無法使用有限的關鍵詞對其關注的信息源進行描述。但是對于具有一定工作經(jīng)歷的科技情報人員來說,他們已經(jīng)掌握了有限數(shù)量的領域內(nèi)信息源,因此本文信息源自動發(fā)現(xiàn)技術的思路是:以已知信息源為種子,通過算法發(fā)現(xiàn)更多未知的信息源。如圖1所示,首先給定一定數(shù)量的已有信息源作為種子,根據(jù)網(wǎng)頁/Twitter所具有的網(wǎng)絡關聯(lián)特性或內(nèi)容相關性,自動發(fā)現(xiàn)與種子領域相關且重要的新信息源,這個過程可以轉化為挖掘與種子網(wǎng)頁和Twitter賬戶相關度高的其他網(wǎng)頁和賬戶的過程。

        2.2 相似網(wǎng)頁自動發(fā)現(xiàn)相關工作

        相似網(wǎng)頁/網(wǎng)站發(fā)現(xiàn)的相關工作可以簡單分為基于內(nèi)容的方法和基于鏈接關系的方法?;趦?nèi)容的方法完全根據(jù)網(wǎng)頁的內(nèi)容來計算網(wǎng)頁間的關聯(lián)度。參考文獻[2]從網(wǎng)頁的各種標簽內(nèi)容中提取特征,提出了一種模糊內(nèi)容分析方法來探索網(wǎng)頁間的相關度。參考文獻[3]首先用元搜索方法得到潛在相關的網(wǎng)頁集合,然后抽取網(wǎng)頁關鍵詞進行相關性分析。SimilarSiteSearch4http://www. similarsitesearch. com/about.html基于網(wǎng)頁內(nèi)容,使用機器學習方法對主題相近的網(wǎng)頁進行識別,并在互聯(lián)網(wǎng)上提供有限的服務和相關API?;阪溄雨P系的算法將全部網(wǎng)頁視為一個有向圖,并利用圖的連通性和加權信息來計算網(wǎng)頁間的關聯(lián)度。PageRank[4]算法和HITS[5]算法可以在一定程度上對相關網(wǎng)頁進行排序,但是PageRank算法過分關注權威性而忽視相關性,HITS算法中可能出現(xiàn)主題漂移現(xiàn)象。參考文獻[6]使用Companion和Co-Citation的兩種算法來度量網(wǎng)頁間的相關度。Companion算法將利用給定網(wǎng)頁的出鏈接與入鏈接及其鄰近網(wǎng)頁構建一個有權圖,并用一種HITS變種算法來挖掘給定網(wǎng)頁的相關網(wǎng)頁。Co-Citation即共引算法,通過檢查網(wǎng)頁的共引關系強度來挖掘給定網(wǎng)頁的相關網(wǎng)頁。參考文獻[7]將網(wǎng)頁分塊算法引入共引過程中,并綜合了鏈接錨文字的相似性和網(wǎng)頁模板塊過濾等方法,提高了關聯(lián)網(wǎng)頁的挖掘精度。

        圖1 信息源自動發(fā)現(xiàn)流程

        2.3 相似微博用戶自動發(fā)現(xiàn)相關工作

        社交媒體用戶之間通過關注、交互等行為形成了巨大的網(wǎng)絡,微博相似用戶發(fā)現(xiàn)方法首先將分析對象定位為網(wǎng)絡的拓撲結構,相關的研究集中在:團體挖掘(發(fā)現(xiàn)用戶的社交圈)[8]、人物影響力計算[9,10]、信息傳播[11]等問題。參考文獻[12]和參考文獻[13]提出了兩種基于標簽信息進行用戶推薦的方法。參考文獻[14]提出在社交網(wǎng)絡的歷史數(shù)據(jù)可以獲取的情況下,使用基于內(nèi)容的方法進行用戶推薦是有效的。參考文獻[15,16]對LDA模型進行改進后,將其應用于微博主題挖掘,得到了較好的效果,能夠進一步用于相似主題用戶的發(fā)現(xiàn)。

        3 互聯(lián)網(wǎng)信息源自動發(fā)現(xiàn)技術

        本文中Web類信息源的自動發(fā)現(xiàn)將完全依賴于鏈接關系而不考慮文本內(nèi)容,這是因為Web類信息源的所有者一般都是機構組織等,網(wǎng)頁內(nèi)鏈接需經(jīng)過審查才得以上線,因此比較能夠代表相關性和權威性。同時網(wǎng)頁內(nèi)正文內(nèi)容難以獲得(各網(wǎng)站頁面結構差異較大),噪聲較多,基于文本內(nèi)容進行相關性與權威性度量并不理想。Twitter信息源則采用基于關聯(lián)關系和內(nèi)容相結合的自動發(fā)現(xiàn)方式,主要因為Twitter用戶多為個人,用戶之間的關注關系比較隨意和多樣化,無法真正反映出領域相關性。同時由于字數(shù)限制,推文(Tweet)內(nèi)容比較精辟,在遣詞造句上多選擇具有實際意義的詞。推文內(nèi)容能夠批量獲得,且結構性比較好,因此本文同時基于關聯(lián)關系和內(nèi)容對Twitter信息源進行自動發(fā)現(xiàn)。

        3.1 網(wǎng)頁類信息源自動發(fā)現(xiàn)技術及實現(xiàn)

        3.1.1 網(wǎng)頁類信息源自動發(fā)現(xiàn)技術

        針對網(wǎng)頁類信息源,主要基于共引思想來自動發(fā)現(xiàn)與信息源相關的新信息源。給定一個網(wǎng)頁u,含有指向u的鏈接的網(wǎng)頁v稱為u的父親網(wǎng)頁,也稱v引用了u;u內(nèi)部的鏈接指向的網(wǎng)頁w稱為u的兒子網(wǎng)頁,也稱w被u引用。如果網(wǎng)頁p1和p2具有相同的父親網(wǎng)頁,則p1和p2稱為共引關系。

        共引分析最早出現(xiàn)在學術文獻的分析中,共引是指兩篇文獻同時被其他文獻引用。同被引用的文獻在主題上具有或多或少的相似性,因此同被引用的次數(shù)可以預測文獻在內(nèi)容方面的相關性。在互聯(lián)網(wǎng)中同樣存在上述特性,一般認為具有共引關系的網(wǎng)頁在所屬領域上具有或多或少的相似性,因此共引次數(shù)可以預測網(wǎng)頁在內(nèi)容方面的相關性[17]。給定種子信息源,本文通過挖掘互聯(lián)網(wǎng)中與其具有共引關系的網(wǎng)站來構建候選信息源。

        共引算法一般過程是[6]:設u為種子信息源,首先找到引用它的父親網(wǎng)頁集合BP,再抽取BP中每一個父親網(wǎng)頁所引用的其他網(wǎng)頁,組成兄弟網(wǎng)頁集合BS。計算BS中網(wǎng)頁與u出現(xiàn)共引的次數(shù),共引次數(shù)越多說明與u的相關性越高。以圖2(a)為例,可以直接看出BS中的共引次數(shù),其中s2,2與u的共引為3次。如果把閾值設為2次,則可以認為s1,2、s2,2、s4,2與u相關,它們是由種子u得到的新信息源。

        圖2 共引算法示意

        在傳統(tǒng)共引算法基礎上,前期研究[18]中提出了基于多種子聯(lián)合共引的信息源發(fā)現(xiàn)算法,與傳統(tǒng)算法不同,該算法選擇N個已有信息源(種子集合U)作為輸入,同時考慮了父親網(wǎng)站的質(zhì)量對最終結果的影響。為了對父親網(wǎng)頁的質(zhì)量進行度量,引入了引用度的概念。如圖2(b)所示,BP中父親網(wǎng)頁pi,j(i∈[1,N],j∈[1,B],其中N為種子信息源總個數(shù),B為每個種子信息源父親網(wǎng)頁的總個數(shù))引用U中所有種子網(wǎng)頁的總次數(shù),稱為pi,j的引用度,表示為C(pi,j),對種子集合引用次數(shù)越多,其引用度就越高,代表與種子之間的相關性(質(zhì)量)越高。假設在圖2(b)中p1,B和pN,1為同一個網(wǎng)頁,即p1,B=pN,1,以圖2(b)的引用關系為例,BP中節(jié)點的引用度見表1。相應地,BS中兄弟網(wǎng)頁si,j,k(k∈[1,BF],其中BF是每個父親網(wǎng)頁除種子信息源外其他兒子網(wǎng)頁的總個數(shù))的共引度則定義為si,j,k所有父親的引用度之和。以圖2(b)的引用關系為例,BS中節(jié)點的共引度見表2。

        與傳統(tǒng)共引思想相同,本文得到的共引度同樣代表了BS中網(wǎng)頁與種子網(wǎng)頁之間的相關性。同時,與HITS算法[5]類似,BP對種子節(jié)點的引用度代表了Hub值,而BS中兄弟節(jié)點被BP引用的次數(shù)則代表了Authority值,因此本文共引度在一定程度上也代表了網(wǎng)頁的重要度。

        3.1.2 網(wǎng)頁類信息源自動發(fā)現(xiàn)技術實現(xiàn)

        在對Web信息源自動發(fā)現(xiàn)技術的實現(xiàn)中,首先對已掌握的信息源按照相關度進行人工分組(每組平均10個),每個組作為輸入的種子信息源集合。令父親網(wǎng)頁數(shù)B=200,兄弟網(wǎng)頁數(shù)BF=40。父親網(wǎng)頁的自動抓取使用Google公司或者AOL公司的Link搜索功能,當查找http://news. sciencemag.org/的父親頁面時,只要輸入“l(fā)ink:http://news.sciencemag.org/”,便會返回眾多父親頁面,本文通過編程實現(xiàn)了父親網(wǎng)頁的自動獲取。目前以現(xiàn)有的200個信息源作為種子,利用本文技術獲得6 200個質(zhì)量較高的新信息源。參考文獻[18]對采用多種子聯(lián)合共引算法與普通共引算法的實驗結果進行了對比,指出準確度能夠提高50%以上。

        表1 BP節(jié)點的引用度

        表2 BS節(jié)點的共引度

        3.2 微博類信息源自動發(fā)現(xiàn)技術及實現(xiàn)

        3.2.1 微博類信息源自動發(fā)現(xiàn)技術

        Twitter用戶之間通過關注、被關注、消息轉發(fā)等行為構成復雜的社會網(wǎng)絡,本文基于社會網(wǎng)絡分析法研究Twitter信息源自動發(fā)現(xiàn)技術。在Twitter使用實踐中,用戶積極選擇并參與構建個性化關系,與一些具有相似特征和愛好的用戶自發(fā)地聚集到一起形成社區(qū)[19],因此可以把與種子信息源處于相同社區(qū)的其他用戶作為領域相關的候選新信息源,可以基于推文內(nèi)容對相關性進一步度量。社會網(wǎng)絡中中心度的概念往往代表著節(jié)點的重要性,因此可以通過研究社區(qū)內(nèi)節(jié)點的中心度來衡量新信息源的權威性。Twitter信息源自動發(fā)現(xiàn)主要分為候選集構建、用戶重要度評估和領域相關性度量3個步驟,具體流程如圖3所示。

        候選集構建。首先選擇種子用戶作為起點,抽取其所有粉絲(關注者)作為第二輪樣本,繼續(xù)選擇每個粉絲的粉絲作為第三輪樣本,依次進行抽取,直到達到終止條件。同時將種子用戶自己關注的其他用戶加入用戶樣本。本質(zhì)上,該滾雪球樣本一般是圍繞著種子用戶的關系而組織的[20],構成的網(wǎng)絡關聯(lián)是緊密的,可以認為該樣本與種子用戶之間已經(jīng)具備一定的領域相關性。在此基礎上,利用基于圖分割的社區(qū)挖掘方法獲得種子所屬的社區(qū),進一步剔除無關用戶。

        用戶重要度評估。中心性分析以社會網(wǎng)絡節(jié)點的度數(shù)衡量節(jié)點中心性特征,以反映出節(jié)點在網(wǎng)絡中的中心性地位差異,如果節(jié)點具有較高的度數(shù),則它可能擁有更大的影響力。本項目用點度中心度來評測社區(qū)中的重要人物,點度中心度值高表示該用戶受到較多人的關注,他發(fā)表的言論能夠迅速被他人接收并對他人產(chǎn)生影響,該用戶具有信息源的潛質(zhì)。

        領域相關性度量。領域相關性是評價信息源質(zhì)量的重要指標,通過社團發(fā)現(xiàn)算法得到的候選集仍存在大量相關性不高的用戶,因此本文引入了基于主題模型的推文內(nèi)容相關性度量方法。LDA(latent dirichlet allocation)是一種重要的主題模型,本文使用LDA對候選集中用戶的推文進行話題聚類,如果某個用戶與種子用戶在某一段時間內(nèi)所發(fā)推文屬于同一主題,則認為該用戶與種子用戶具有領域相關性。

        3.2.2 Twitter信息源自動發(fā)現(xiàn)技術實現(xiàn)

        Web類種子信息源大都對應Twitter官方賬號,本節(jié)以Web類信息源對應的Twitter賬號作為Twitter種子信息源。編程實現(xiàn)了Google搜索和Twitter API用戶搜索相互補充的Twitter賬戶的自動獲取,由200個Web類種子信息源得到了134個Twitter種子信息源。

        圖3 Twitter信息源自動發(fā)現(xiàn)流程

        Twitter信息的獲取主要基于Twitter API實現(xiàn),首先抽取種子用戶的關注用戶以及種子用戶的粉絲、粉絲的粉絲,從而獲得用戶樣本;采用Pajek[21]對該樣本組成的網(wǎng)絡進行可視化分析,計算種子所在社區(qū)以及各節(jié)點點度中心度;抓取每個用戶最新的200條推文組成該賬戶的文檔,使用的JGibbLda工具包對用戶文檔進行聚類,預先設置主題數(shù)量為4;在聚類結果中,如果與種子文檔歸屬相同的主題,則說明該文檔對應的賬戶與種子具有內(nèi)容上的緊密相關性,通過該過程過濾掉不相關賬戶;最后結合各用戶的中心度得到最終相關度高、重要性高的新信息源。

        4 互聯(lián)網(wǎng)信息源自動發(fā)現(xiàn)技術應用

        相比人工搜集方法,本文提出的信息源自動發(fā)現(xiàn)方法具有自動高效、覆蓋面全、對新產(chǎn)生信息源反應快等明顯優(yōu)勢。為了提供完善的應用服務,需要進一步對信息源進行標注和分類,建立國別地區(qū)、技術領域、應用范圍、所有者性質(zhì)(如個人、政府機構、大學院所)等維度的分類體系。然后根據(jù)信息源對應網(wǎng)站和微博的標題、關鍵詞、摘要等描述信息,利用機器學習方法實現(xiàn)對信息源的分類和組織,最后形成完備的信息源庫。結合大數(shù)據(jù)時代對科技情報工作提出的新要求,信息源自動發(fā)現(xiàn)技術具有如下應用場景。

        (1)構建信息源地圖,系統(tǒng)掌控全球科技信息資源

        信息源地圖指的是用可視化手段對信息源的綜合展示,利用地圖、熱圖和網(wǎng)絡圖等多種形式來展現(xiàn)科技領域信息源的地理位置、活躍度、統(tǒng)計分布、類別、信息源間關聯(lián)交互等情況。通過一個全面、準確、動態(tài)的互聯(lián)網(wǎng)信息源地圖,決策人員和情報研究人員可以對科技信息資源進行全局把控和分析,從更高層次上挖掘發(fā)現(xiàn)其特點和規(guī)律,預測其變化趨勢,具有重要戰(zhàn)略意義。

        (2)實現(xiàn)信息源檢索服務,為情報研究工作提供保障

        提供完善、靈活的信息源檢索服務,為情報研究人員實現(xiàn)對科技領域互聯(lián)網(wǎng)信息的持續(xù)跟蹤和完成各項應急任務提供有力保障。其檢索形式主要有以下3種。

        · 目錄式檢索:用戶通過分類層次目錄方式檢索庫中已存在的信息源。

        · 關鍵字檢索:通過匹配信息源對應的描述性信息,檢索庫中已存在的信息源。

        · 種子檢索:當利用以上兩種方式無法檢索到所需要的信息源時,說明庫中可能不存在該類信息源,這時用戶可以輸入已有信息源作為種子,通過服務系統(tǒng)在線挖掘獲得新信息源。

        除提供以上3種基本檢索服務外,還可以開發(fā)個性訂制和相關推薦等多種形式的智能服務。

        (3)全面、深度挖掘科技信息源,為科技情報大數(shù)據(jù)提供數(shù)據(jù)來源

        自動、高效、全面發(fā)現(xiàn)科技領域的信息源,建立標準的訪問接口,實現(xiàn)與互聯(lián)網(wǎng)海量信息采集平臺無縫連接,為成規(guī)模的互聯(lián)網(wǎng)信息資源獲取提供必要前提。依據(jù)具有高度領域相關性的信息源采集數(shù)據(jù),能夠提高互聯(lián)網(wǎng)數(shù)據(jù)采集的精準性和針對性,減少噪聲數(shù)據(jù)的干擾,降低帶寬、存儲和計算成本。

        5 結束語

        互聯(lián)網(wǎng)信息源自動發(fā)現(xiàn)技術能夠高效發(fā)現(xiàn)大量新信息源,但較大的數(shù)量可能會使科技情報人員應接不暇,同時無法保證每個新信息源都是真正需要的,對新信息源的二次甄別也會影響其有效利用。值得慶幸的是,大數(shù)據(jù)相關技術已經(jīng)廣泛用于互聯(lián)網(wǎng)信息的海量采集、處理和分析,大大提高了科技情報工作的效率,本文技術的直接用戶更傾向于機器,而非情報人員本身。

        下一步工作需要充分考慮從不同類型數(shù)據(jù)中發(fā)現(xiàn)信息,更全面地發(fā)現(xiàn)新信息源。因此,Web信息源自動發(fā)現(xiàn)和Twitter信息源自動發(fā)現(xiàn)兩個過程不應孤立串行執(zhí)行,應充分利用兩類信息之間的互相映射、互相引用等關聯(lián)關系,使兩個過程緊密結合起來。再進一步,互聯(lián)網(wǎng)資源采集系統(tǒng)對信息源采集到的網(wǎng)頁和推文中包含的大量外鏈信息或者Twitter用戶信息進行相關度和權威度的評估,選擇優(yōu)質(zhì)信息源入庫,實現(xiàn)信息源庫的自我擴展。

        [1] 中國計算機學會大數(shù)據(jù)專家委員會. 中國大數(shù)據(jù)技術與產(chǎn)業(yè)發(fā)展白皮書(2013), 2013 CCF Task Force on Big Data. White Paper on Big Data Technology and Industry Development in China (2013), 2013

        [2] Loia V, Senatore S, Sessa M I. Discovering related web pages through fuzzy-context reasoning. Proceedings of the 2002 IEEE International Conference on Plasma Science, Banff, Alberta, Canada, 2002: 150~155

        [3] Jaskirat S, Mukesh K. A meta search approach to find similarity between webpages using different similarity measures. Proceedings of ICAC3 2011, Mumbai, India, 2011: 150~160

        [4] Brin S, Page L. The anatomy of a largescale hypertextual Web search engine. Computer Networks and ISDN Systems, 1998, 30(98): 107~117

        [5] Kleinberg J M. Authoritative sources in a hyperlinked environment. Journal of the ACM, 1999, 46(5): 604~632

        [6] Dean J, Monika R. Finding related pages in the world wide web. Computer Networks, 1999, 31(11): 1467~1479

        [7] 沈筱彥. Web信息檢索若干關聯(lián)挖掘問題的研究(博士學位論文). 北京: 北京郵電大學, 2009 She X Y. Research on several association rule mining problems for web information retrieval system (doctor dissertation). Beijing: Beijing University of Posts and Telecommunications, 2009

        [8] Clauset A, Newman M E J, Moore C.Finding community structure in very large networks.Physical Review E: Statistical Nonlinear & Soft Matter Physics, 2004, 70(6): 264~277

        [9] Crandall D, Cosley D, Huttenlocher D,et al. Feedback effects between similarity and social influence in online communities. Proceedings of the KDD’08, Las Vegas, Nevada, USA, 2008: 160~168

        [10] Weng J, Lim E P, Jiang J,et al. Twitterrank:findingtopic-sensitive influential twitterers. Proceedings of the 3rd ACM International Conference on Web Search and Data Mining, New York, USA, 2010: 261~270

        [11] Wang D S, Wen Z, Tong H H,et al. Information spreading in context. Proceedings of the WWW 2011, Hyderabad, India, 2011: 735~744

        [12] Yan Z, Zhou J. User recommendation with tensor factorization in social networks. Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan, 2012: 3853~3856

        [13] Guy I, Zwerdling N, Ronen I,et al. Social media recommendation based on people and tags. Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval, Geneva, Switzerland, 2010: 194~201

        [14] Chen J, Geyer W, Dugan C,et al. Make new friends, but keep the old: recommending people on social networking sites. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, New York, USA, 2009: 201~210

        [15] 張晨逸, 孫建伶, 丁軼群. 基于MB-LDA 模型的微博主題挖掘. 計算機研究與發(fā)展, 2011, 48(10): 1795~1802 Zhang C Y, Sun J L, Ding Y Q. Topic mining for microblog based on MB-LDA model. Journal of Computer Research and Development, 2011, 48(10): 1795~1802

        [16] 張曉艷, 王挺, 梁曉波. LDA模型在話題追蹤中的應用. 計算機科學, 2011, 38(10A): 136~139 Zhang X Y, Wang T, Liang X B. Use of LDA model in topic tracking. Computer Science, 2011, 38(10A): 136~139

        [17] Larson R. Bibliometrics of the world wide web: an exploratory analysis of the intellectual structure of cyberspace. Proceedings of Ann Meeting Am Soc Information Sciences, Medford, USA, 1996

        [18] Gao H, Niu H B, Luo W. Internet information source discovery based on multi-seeds cocitation. Proceedings of International Conference on Security, Pattern Analysis, and Cybernetics (SPAC) 2014, Wuhan, China, 2014

        [19] 王連喜, 蔣盛益, 龐觀松等. 微博用戶關系挖掘研究綜述. 情報雜志, 2012, 31(12): 91~97 Wang L X, Jiang S Y, Pang G S,et al. A literature review of user relationship mining on microblog. Journal of Interlligence, 2012, 31(12): 91~97

        [20] Scott J. 社會網(wǎng)絡分析法(第二版). 劉軍(譯). 重慶: 重慶大學出版社, 2007 Scott J. Social Network Analysis (Second Edition). Translated by Liu J. Chongqing: Chongqing University Press, 2007

        [21] Wouter D N, Andrej M, Vladimir B. Exploratory Social Network Analysis with Pajek (Second Edition). Cambridge: Cambridge University Press, 2011

        高輝,男,博士,中國國防科技信息中心工程師,主要研究方向為互聯(lián)網(wǎng)信息獲取、信息抽取、知識庫構建和信息可視化。

        陳鈞,男,中國國防科技信息中心高級工程師、研究室主任,中國計算機學會大數(shù)據(jù)專家委員會委員,中國科學技術情報學會信息技術專業(yè)委員會委員,主要研究方向為科技信息大數(shù)據(jù)、網(wǎng)絡工程等。

        牛海波,男,中國國防科技信息中心工程師,主要研究方向為大規(guī)?;ヂ?lián)網(wǎng)信息資源獲取、信息重構與融合、知識庫構建等。

        羅威,男,中國國防科技信息中心副研究員,主要研究方向為信息抽取、大規(guī)模文本挖掘。

        Gao H, Chen J, Niu H B,et al. Internet information sources automatic discovery technology for scientific and technological intelligence. Big Data Research, 2015040

        Internet Information Sources Automatic Discovery Technology for Scientific and Technological Intelligence

        Gao Hui, Chen Jun, Niu Haibo, Luo Wei
        China Defense Science & Technology Information Center, Beijing 100142, China

        It is a basic work to discover high quality internet information sources automatically for scientific and technological intelligence. The technology of website/webpage information sources discovery was presented based on the co-citation relationship, and the technology of Twitter information sources discovery was presented based on the following relationship and content analysis. Then, the application forms of automatic discovery of information sources were discussed. Three kinds of application scenarios were presented based on the analysis of the requirements of scientific and technological intelligence.

        scientific and technological intelligence, internet information source, Twitter, co-citation, social network analysis

        10.11959/j.issn.2096-0271.2015040

        2015-10-24

        國家社會科學基金資助項目(No.4CTQ012)

        Foundation Item:The National Social Science Foundation of China (No.4CTQ012)

        高輝,陳鈞,牛海波等.面向科技情報的互聯(lián)網(wǎng)信息源自動發(fā)現(xiàn)技術. 大數(shù)據(jù), 2015040

        猜你喜歡
        科技情報信息源網(wǎng)頁
        突發(fā)公共事件背景下信息源選擇多樣性研究:概念內(nèi)涵與測度方法*
        圖書館論壇(2023年2期)2023-03-10 05:46:38
        基于數(shù)據(jù)工程的國防科技情報生態(tài)體系構建
        睡眠者效應
        睡眠者效應
        新媒體時代,記者如何正確使用信息源
        活力(2019年19期)2020-01-06 07:35:02
        銅陵市科技情報工作存在的問題與發(fā)展對策
        安徽科技(2018年9期)2018-12-31 12:54:31
        基于CSS的網(wǎng)頁導航欄的設計
        電子制作(2018年10期)2018-08-04 03:24:38
        加強科技情報檔案管理工作的建議
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        網(wǎng)頁制作在英語教學中的應用
        電子測試(2015年18期)2016-01-14 01:22:58
        国产一区二区a毛片色欲 | 国产成人综合美国十次| a级国产乱理伦片在线播放| 欧美a视频在线观看| 人妻少妇无乱码中文字幕| 国产情侣自拍在线视频| 成人做受视频试看60秒| 亚洲一级黄色毛片| 国产成人精品一区二区日出白浆| av黄页网国产精品大全| 国产午夜精品一区二区三区| 国产伦精品一区二区三区视| 国产一区二区高清不卡在线| 蜜桃一区二区在线视频| 国产国拍亚洲精品mv在线观看| 精品国产亚洲一区二区在线3d| 一区二区三区精品偷拍| 韩国av一区二区三区不卡| 四虎影视免费观看高清视频| 人妻无码中文专区久久综合| 日本一区二三区在线中文| 中文有码亚洲制服av片| 激情综合色五月丁香六月亚洲| av深夜福利在线| 亚洲精品国产av成拍| 国产又色又爽无遮挡免费软件| 亚洲精品无码高潮喷水在线 | av无码小缝喷白浆在线观看| 2019最新国产不卡a| 久久精品国产亚洲AV古装片| 国产精品亚洲精品一区二区| 久久久久久曰本av免费免费| 最新国产在线精品91尤物| 亚洲一区有码在线观看| 成人无码av免费网站| 亚洲av无码av吞精久久| 国产高清一区在线观看| 日韩极品视频免费观看| av在线亚洲欧洲日产一区二区| 亚洲人成网站久久久综合 | 亚洲av综合色区无码另类小说|