亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于論文題名的知識驅動關系分析方法研究*
        ——以信息與知識傳播研究領域為例

        2022-01-28 03:08:20張運良
        情報雜志 2022年1期
        關鍵詞:概念分析研究

        張運良

        (1.中國科學技術信息研究所 北京 100038;2.富媒體數(shù)字出版內容組織與知識服務重點實驗室 北京 100038)

        知識是人類在實踐中認識客觀世界的成果,是人類智慧的結晶[1]。在從基礎的數(shù)據(jù)升華到智慧的復雜過程中,研究者提出多種模型,知識都在其中占據(jù)一席之地[2-3],而且都處于從數(shù)據(jù)和信息發(fā)展到智慧的關鍵位置。同時,知識也是人類改造客觀世界的有力工具,在推動人類發(fā)展和社會進步的過程中具有重要的作用,當前人工智能如火如荼,但以數(shù)據(jù)驅動的人工智能發(fā)展面臨瓶頸,將知識驅動與數(shù)據(jù)驅動結合發(fā)展第三代人工智能的新思路被提出[4],以知識驅動的檢索、問答、甄別等應用日益普遍,知識重要性進一步凸顯。

        知識驅動關系是特定研究領域中重要概念之間的一種關系,這種關系體現(xiàn)了概念之間有方向的影響程度。研究驅動關系影響的強度與路徑,有助于進一步布局關鍵和高潛力研究方向,科學有效的引導領域發(fā)展。近年來,情報工程正向著更高的分析精準度方向發(fā)展[5],本文是在這個方向上的一個嘗試,將定量和定性相結合,形成系統(tǒng)了解和梳理不同研究領域中概念之間驅動關系的體系方法。

        為了研究和驗證相關分析方法,本文選擇信息與知識傳播研究領域作為實例,為了降低問題難度,本文用論文題名代替全文進行分析。在信息與知識傳播研究領域中“知識”及相關概念是最為重要的研究內容之一,對于揭示本研究領域及相關研究領域概念之間驅動關系具有較為充分的代表性。深入理解和分析論文文本內容是最為理想的方法,但是一方面由于數(shù)據(jù)量大導致處理難度較大,另一方面無關的論述也可能為關鍵知識驅動關系的確定帶來干擾。為此本文基于題名進行研究,其合理性在于“題名是科技論文的必要組成部分,它要求用最簡潔、恰當?shù)脑~語來準確表達論文的中心內容”[6],是全文分析的非常好的替代。本文基于采集的信息與知識傳播研究領域題名數(shù)據(jù),經(jīng)短語結構分析后,以介詞短語和動詞短語為切入點,抽取領域概念和概念間知識驅動關系,并利用圖分析為主的方法對本研究領域中的知識驅動情況進行分析。

        1 相關研究

        目前,尚未見直接研究知識驅動關系分析的文獻,但具有相關的分析基礎。驅動關系是相關關系的特例,更是共現(xiàn)關系的特例,原有基于共現(xiàn)統(tǒng)計的共詞分析等方法可以作為分析的基礎;但是驅動關系要體現(xiàn)方向,這是目前共詞分析尚不能解決的,本文基于圖分析對文本內容進行深入分析。共詞分析和圖分析方法相關研究都有重要的借鑒意義。

        1.1共詞分析方法共詞分析是文獻計量的常用分析方法,通過分析在同一個文本主體中的款目(單詞或名詞短語對,以后簡稱為詞對)共同出現(xiàn)的形式,以發(fā)現(xiàn)科學領域的學科結構的一種分析方法[7]。共詞分析方法基于這樣的一個基本認識:某一詞對在同一篇文獻中出現(xiàn)的次數(shù)越多,則代表這兩個詞之間的關系越緊密。進而擴大范圍,統(tǒng)計一組文獻的主題詞兩兩之間在同一篇文獻出現(xiàn)的頻率,便可形成一個由這些詞對關聯(lián)所組成的共詞網(wǎng)絡,網(wǎng)絡內詞對之間的距離便可以反映對應概念之間的關聯(lián)關系。這種數(shù)值化的直觀表示方法已經(jīng)被廣泛應用到自然科學和社會科學領域[8-9],在研究領域知識揭示上發(fā)揮了重要的作用[10]。當前,共詞分析已經(jīng)發(fā)展形成較為完善的流程,包括SPSS、Ucinet、CiteSpace等在內的系列工具,可以有效支撐各個領域的基本分析、聚類分析和可視化展示[11]。

        1.2圖分析方法將相關主題、概念或者因素納入到一個圖的結構來進行研究,會對領域形成更為直觀的認識。圖分析主要研究連通性、可遍行性、可平面性、匹配性質、染色性質、某些特殊結構、特殊頂點子集等性質[12]。實際上共詞分析也需要建立圖結構,但是一般為無向圖。在本領域中具有代表性的圖分析對象包括概念地圖、認知地圖和因果圖。概念地圖是利用概念以及概念之間的關系表示關于某個主題的結構化知識的一種圖示方法。概念地圖用節(jié)點表示概念,用連接線和連接語表示概念之間的關系;節(jié)點和連線按照寬泛概念在上、具體概念在下的順序,形成等級結構[13]。概念地圖有時候有方向,但一般揭示的是定性的關系,沒有對關系進行量化。認知地圖是一種認知映射工具,是一種使領域概念和概念之間關系同時顯示的可視化表達,是一個由節(jié)點構成的有向圖,通過因果鏈接,建立起多個實體之間的關系。也有研究將其泛化,而將因果圖(Causal Map)作為其一個特例,研究者通過深度訪談確定了“關于低碳經(jīng)濟下武鋼可持續(xù)發(fā)展認知地圖”中重要概念以及影響的方向和權重的正負,并通過調查問卷方法求得具體的權重數(shù)值,為決策提供了支撐[14]。驅動關系構成的圖類似于認知地圖??傊畧D分析,分析對象涵蓋無向圖和有向圖,但是有向圖包含更為豐富的信息,有助于進一步揭示事物內在的規(guī)律。

        2 數(shù)據(jù)準備

        2.1采集、清洗本文研究的數(shù)據(jù)采集自萬方數(shù)據(jù)(采集日期為2021年3月18日),由于只分析題名,因此檢索時在“題名”字段中用“知識”作為檢索詞,同時將網(wǎng)站定義的學科分類限定在“文化、科學、教育、體育”大類下的“信息與知識傳播”類目,采集數(shù)據(jù)共31 187條。

        由于題名本身長度和命名規(guī)則各異,為了將驅動關系提取出來,首先用“驅動”來篩選全部數(shù)據(jù)記錄,得到結果55條,作為候選集合的一部分,但是數(shù)據(jù)量較小,大量隱含的驅動關系沒有體現(xiàn)出來。通過對題名進行觀察,發(fā)現(xiàn)大多數(shù)情況下是復雜的短語,可以先進性短語結構分析。本文選取Stanford parser[15]進行分析,并重點關注其中的介詞P,經(jīng)統(tǒng)計共出現(xiàn)10 276條,這是因為一個句子中可能出現(xiàn)多個介詞,如“關于信息服務向知識服務轉變的深度思考”的分析結果如圖 1所示,該題名包含“關于”和“向”兩個介詞。對全部介詞進行統(tǒng)計分析,發(fā)現(xiàn)所有的介詞共56種,其中出現(xiàn)10次以上的有24種,如表1所示。其中有一個英文介詞“of”看上去比較突兀,因此返回到原始題名分析,發(fā)現(xiàn)題名中包含了“Web of Science”或“Web of Knowledge”,體現(xiàn)的是研究的數(shù)據(jù)源。其中“基于”“對”“以”“從”“為”等屬于頻次較高并且體現(xiàn)驅動關系可能性較大的介詞,以此篩選出5 288條題名,然后對介詞后的近鄰的名詞短語NP進行抽取,部分示例如表2所示。但是存在包含這些介詞但未體現(xiàn)驅動關系的情況,部分示例如表3所示。

        圖1 包含雙介詞的題名短語結構分析結果示例

        序號介詞詞頻序號介詞詞頻序號介詞詞頻1基于36379到13317據(jù)282在143310論9118由283對133411向8919作為224與118112用7320of185以94713自3321面向186從47914和3022按137關于36715于2923通過138為15216給2824當12

        表2 部分知識驅動關系抽取示例

        表3 部分包含介詞但未體現(xiàn)驅動關系的題名示例

        續(xù)表3 部分包含介詞但未體現(xiàn)驅動關系的題名示例

        2.2自動篩選處理、人工審校在上述5288條記錄基礎上進行人工校對處理,主要的處理策略包括規(guī)范化、拆分、調整邊界和刪除。其中記錄規(guī)范化主要是去除復雜的修飾成分,雖然這些修飾成分實際上可能體現(xiàn)了作者的創(chuàng)新,在其他的分析中可能有重要的作用,但這里需要從本質上進行歸納,部分歸納示例如表4所示。記錄拆分主要針對并列的概念,拆分過程中實際上也包含了規(guī)范化的處理,部分示例如表 5所示。調整邊界主要針對因短語結構分析錯誤引起的驅動關系識別錯誤,部分示例如表6所示。刪除處理主要對于關系提取錯誤無法調整或者規(guī)范化前后關系前后概念皆不包含“知識”的情況,如“泛在知識環(huán)境下基于用戶需求的高校圖書館服務模式研究”提取出“用戶需求→高校圖書館服務模式”的驅動關系應刪除。

        表4 部分規(guī)范化的驅動關系示例

        表5 部分拆分的驅動關系示例

        表6 部分驅動關系邊界調整示例

        2.3待分析數(shù)據(jù)集情況說明以上數(shù)據(jù)記錄經(jīng)過人工審核,確認在3 928個題名中,共標識出4 124條驅動關系,每條驅動關系包含兩個概念節(jié)點,至少其中一個概念節(jié)點中包含“知識”,以此作為后續(xù)分析的數(shù)據(jù)基礎,嚴格來講,這些節(jié)點應該是詞語而不是概念,但是本文假設通過規(guī)范化能夠將詞語形成概念,只是在不同情況下規(guī)范化程度不同,不影響本文的分析方法研究。

        3 分析研究

        3.1相關指標定義為了更好的分析驅動關系,特別對部分指標定義做說明。本文引入圖分析中的度、出度、入度等概念,并進一步定義驅動強度、絕對驅動強度、相對驅動強度、純主動驅動概念、純被動驅動概念、驅動鏈條、驅動關系強度,強驅動鏈條、驅動回路等概念,如下。

        定義1:驅動強度即該概念作為主體驅動其他概念的強度,分為絕對驅動強度和相對驅動強度。

        定義2:絕對驅動強度以該概念在有向圖的中出度的單調增函數(shù)定義,本文簡單定義為該概念在有向圖中的出度。

        定義3:相對驅動強度以該概念在有向圖的中出度的單調增函數(shù)和入度的單調減函數(shù)定義,本文簡單定義為有向圖中出度減去入度的差。

        定義4:純主動驅動概念即有向圖中入度為0的概念。

        定義5:純被動驅動概念即有向圖中出度為0的概念。

        定義6:驅動鏈條即在驅動關系形成的有向圖中,由兩個或者兩個以上概念形成的節(jié)點及相關的邊形成的具有單一方向的路徑。

        定義7:驅動關系強度即對特定兩個概念從驅動主體到驅動客體之間驅動實例的個數(shù)。

        定義8:強驅動鏈條即鏈條上任意驅動關系強度都達到一定閾值以上的驅動鏈條。

        定義9:驅動回路即形成了閉環(huán)的驅動鏈條。

        3.2“知識”相關的核心概念統(tǒng)計分析依據(jù)絕對驅動強度排名TOP20概念如表7所示,由于最后兩個概念強度相同,實際上有21個概念。依據(jù)相對驅動強度排名TOP20概念如表 8所示,由于驅動強度相同原因,相對驅動強度最高的概念有22個,相對驅動強度最低的概念有21個。找出純主動驅動概念依據(jù)其出度排名,純被動驅動概念依據(jù)其入度排名,TOP20概念如表9所示,由于出度或入度相同原因,純主動驅動概念有21個,純被動驅動概念有22個。

        表7 絕對驅動強度TOP20概念

        表8 相對驅動強度TOP20概念

        續(xù)表8 相對驅動強度TOP20概念

        表9 純主動驅動概念和純被動驅動概念TOP20

        依據(jù)上述驅動關系形成的復雜網(wǎng)絡進行分析,提取出度和入度前20名(其中出度第20名有兩個并列)并做標識,如圖2所示,可以觀察到在出入度前20名的概念中,重復的概念有8個,并且其排序也有所差異,說明這8個概念在驅動其他概念,同時也被其他概念驅動,其中“知識管理”和“知識圖譜”的出度大于入度,相對驅動強度更高,而其余6個概念,出度小于入度,相對驅動強度較低。

        圖2 出度和入度TOP20節(jié)點關聯(lián)

        3.3核心驅動鏈條研究為了更好的觀察不同概念之間的驅動關系,找到核心驅動鏈條,使用Graphviz和PyGraphviz繪圖,采用橢圓表示概念節(jié)點,橢圓的高度用節(jié)點度的對數(shù)加上一個常數(shù)(這里取0.5)定義。兩個節(jié)點之間的邊的寬度用兩個節(jié)點之間實際產生驅動關系數(shù)量的平方根來定義??疾靾D需要選擇特定的驅動關系強度閾值,首先設定閾值為10的驅動關系及相關概念進行展示分析,可知在本領域最核心驅動主體是“知識管理”,其次是“知識圖譜”“本體”,最后是“DSpace”,“知識管理”驅動了“圖書館管理”“圖書館服務”“信息服務”等,但是“本體”也是“知識管理”的驅動主體,并且同時也驅動了“知識組織”“知識庫”和“知識檢索”?!爸R管理”驅動“知識服務”,并和“知識服務”一起驅動“圖書館”和“檔案管理”,當然關于“知識服務”還有“知識構建”“用戶需求”“大數(shù)據(jù)”等驅動主體?!爸R圖譜”的唯一驅動主體是“CiteSpace”,可見這里的知識圖譜仍然是“Knowledge Mapping”的含義,這是圖情領域在過去對知識圖譜使用最多的內涵,而非近年來更廣泛使用的“Knowledge Graph”,圖中還有一條獨立的驅動鏈條,即“DSpace”對“機構知識庫”的驅動。

        把驅動關系強度閾值降低為5,大體結構不變,只是增加了更多的驅動關系細節(jié)。如“文獻→知識發(fā)現(xiàn)→知識服務→……”,“關聯(lián)數(shù)據(jù)→知識發(fā)現(xiàn)→知識服務→……”,“關聯(lián)數(shù)據(jù)→知識組織→知識服務→……”,“主題圖→知識組織→知識服務→……”等鏈條,“知識圖譜”的驅動主體增加了“VOSviewer”,同時增加了“SNS”對“知識社區(qū)”的驅動。進一步降低驅動關系強度閾值至2時,由于邊過多,整體可讀性降低,但仍然可以通過局部放大的方式進行觀察,“知識圖譜”這一概念通過對“檔案管理”的驅動,與“知識管理”所屬的最大連通子圖(這里連通性依據(jù)有向圖的底圖考察)連接在一起,但是產生了更多的相對獨立的驅動鏈條,一些子圖式樣如圖 3所示。

        圖3 部分未與最大連通子圖連通的子圖示例

        3.4驅動回路研究僅保留驅動回路,可以發(fā)現(xiàn),核心結構仍然由“知識管理”“知識服務”和“圖書館”“數(shù)字圖書館”構成,由于“數(shù)字圖書館”屬于“圖書館”的下位概念,所以實際上是由“知識管理”“知識服務”和“圖書館”構成了穩(wěn)定的三角結構,還可以提取出多個驅動回路。但是這些回路仍主要通過核心的驅動三角回路發(fā)揮作用,在與“知識管理”關聯(lián)的概念中,存在“開放獲取?機構知識庫?學科服務”回路,此外還有“分類?知識發(fā)現(xiàn)?知識圖譜?計量分析”回路,以及“知識共享?教育”“Wiki?知識組織”兩條較短的回路。如果把驅動關系強度閾值逐步提高到3,如圖4所示,發(fā)現(xiàn)唯一的驅動回路變成了“知識管理?知識服務?圖書館”,盡管各邊驅動強度不同,但是這是目前在研究領域內最重要的回路。

        圖4 驅動回路(驅動關系強度閾值3)

        3.5與共詞分析方法比較共詞分析方法的典型分析結果包括共詞矩陣、高頻詞聚類分析樹狀圖、類團分析(包括凝聚子圖)、多維尺度分析(包括戰(zhàn)略坐標圖)等等,揭示了領域內高度關聯(lián)的概念,但是重要程度的分析主要基于概念本身的頻率和共現(xiàn)頻率,而知識驅動關系分析則在共現(xiàn)基礎上,明確了概念之間關系的方向。在共詞分析中,如果兩組概念的共現(xiàn)次數(shù)是一樣的,則對其解讀是一樣的,在知識驅動關系中還要區(qū)分是概念A影響概念B,還是概念B影響概念A,或者兩者皆有,則兩組關系也可能大相徑庭,以此為視角能夠得到一系列新的觀察結果。如在本文的數(shù)據(jù)中,“語義網(wǎng)-知識服務”和“知識管理-人力資源管理”均共現(xiàn)9次,但是前者9次均是“語義網(wǎng)”驅動“知識服務”,“語義網(wǎng)”是一個純主動驅動概念,后者中有8次是“知識管理”驅動“人力資源管理”,還有1次是 “人力資源管理”驅動“知識管理”,體現(xiàn)了兩個概念相互影響,但是以“知識管理”驅動“人力資源管理”為主的情況。當然由于共詞分析不需要進行方向的分析,實現(xiàn)相對容易,而本文分析方法需要引入短語結構分析,實現(xiàn)起來相對困難,也正是基于此,本文采用了以題名代表論文的簡化研究方法,減少分析的數(shù)據(jù)量和可能帶來的干擾。

        4 結論與展望

        本文在對論文題名短語結構分析的基礎上,通過將概念之間的驅動關系表示為加權有向圖,提出了相關指標及分析方法,并在信息與知識傳播研究領域進行實證研究。本文發(fā)展了共詞分析方法,本文能夠觀察到一些獨特的關聯(lián)和性質,如:a.不同概念在某一領域的驅動強度大小,又可以從絕對驅動強度和相對驅動強度來分別進行分析;b.特定的驅動路徑,包括強驅動路徑和驅動回路,為進一步干預和影響相關工作提供了可參考的依據(jù);c.若干具有穩(wěn)定或脆弱驅動關系的概念團組。從驅動強度角度對領域研究全貌進行了解,有助于尋找重點攻關的研究內容和潛在的研究方向

        本文研究還存在一定的改進空間。首先是概念的歸并問題,作者在擬定題名的時候往往使用不同的術語,或者加以限定修飾,需要加以歸并,概念歸并的程度和準確性在一定程度上會對領域概念驅動強度大小、驅動鏈條和驅動回路的發(fā)現(xiàn)、整體連通性等的觀察研究產生影響,但不影響本方法的有效性。其次是題名的代表性問題,盡管絕大多數(shù)題名代表了論文的核心內容,但是仍有一些題名過于簡單,或題名中概念存在歧義,這些可能還需要通過對摘要和全文的理解才能實現(xiàn)。最后是驅動關系的發(fā)現(xiàn)和確認,本文采用了基于部分介詞和動詞為核心的分析方法,但是在具體處理上,仍然需要人工干預。

        本文中對知識驅動關系強度的確定是等權的,未來可以對其類型進行區(qū)分并設置不同權重,以得到更為準確的分析結果。本文分析高頻概念間的驅動關系并未考慮時間因素,未來可以進一步研究驅動網(wǎng)絡的時間演化、萌芽狀態(tài)驅動關系的發(fā)現(xiàn)、各不連通子圖之間的潛在可能驅動關系預測。

        猜你喜歡
        概念分析研究
        FMS與YBT相關性的實證研究
        Birdie Cup Coffee豐盛里概念店
        遼代千人邑研究述論
        隱蔽失效適航要求符合性驗證分析
        幾樣概念店
        視錯覺在平面設計中的應用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        學習集合概念『四步走』
        聚焦集合的概念及應用
        亚洲精品国偷拍自产在线观看蜜臀 | 大地资源网高清在线播放 | 亚洲色图视频在线| 亚洲国产免费公开在线视频 | 美女人妻中出日本人妻| 日日天干夜夜狠狠爱| 亚洲肥老太bbw中国熟女| 网友自拍人妻一区二区三区三州| 91久久国产香蕉熟女线看| 男人女人做爽爽18禁网站| 乌克兰少妇xxxx做受6| 国产视频精品一区白白色| 国产女优一区在线观看| 无人区一码二码三码四码区| 久久国产A√无码专区亚洲| 亚洲免费人成网站在线观看| 玖玖色玖玖草玖玖爱在线精品视频| 亚洲午夜福利在线视频| 国产精品女视频一区二区| 久久国产女同一区二区| 人人妻人人添人人爽欧美一区| 亚洲欧美在线观看| 国内视频一区| 少妇人妻无奈的跪趴翘起| 毛片免费视频在线观看| 香蕉色香蕉在线视频| 亚洲av高清在线一区二区三区| 天天做天天爱夜夜夜爽毛片| 亚洲国产另类久久久精品黑人| 熟妇人妻不卡中文字幕| 亚洲精品国产一区二区免费视频| 国产亚洲精品精品精品| 欧美成人专区| 最新中文字幕乱码在线| 久久精品中文字幕| 激情97综合亚洲色婷婷五| 久久伊人网久久伊人网| 日本精品一区二区高清| a级毛片在线观看| 亚洲精品国产福利在线观看| 国产自拍成人免费视频|