亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于 Neo4j 的語言學(xué)術(shù)語知識圖譜構(gòu)建研究

        2023-07-23 18:31:25王浩學(xué)王興隆
        中國科技術(shù)語 2023年3期
        關(guān)鍵詞:知識圖譜

        王浩學(xué) 王興隆

        摘 要:此研究以《語言學(xué)名詞》為數(shù)據(jù)源,使用Neo4j圖數(shù)據(jù)庫,采用自頂向下的圖譜構(gòu)建模式,融合事件理論與事理知識圖譜構(gòu)建方法生成語言學(xué)術(shù)語知識圖譜,直觀展現(xiàn)語言學(xué)術(shù)語內(nèi)部的五類屬性值及術(shù)語節(jié)點(diǎn)之間的九類關(guān)系,提供了一種較為合理的學(xué)科知識圖譜構(gòu)建模式,對語言學(xué)術(shù)語知識圖譜的部分特征進(jìn)行了分析,并對語言學(xué)術(shù)語知識圖譜研究進(jìn)行了總結(jié)和展望。

        關(guān)鍵詞:事理圖譜;知識圖譜;語言學(xué)術(shù)語;學(xué)科術(shù)語;Neo4j

        中圖分類號:H083文獻(xiàn)標(biāo)識碼:ADOI:10.12339/j.issn.1673-8578.2023.03.003

        Abstract:Taking? the Chinese Languistic Terms as data source and using the Neo4j graph database, we adopt a topdown graph construction model, and integrate event theory and event evolutionary graph construction methods to generate linguistic terminology knowledge graphs. We hope to visualize the five types of attribute values within linguistic terms and nine types of relationships among term nodes, and provide a more reasonable disciplinary knowledge graph construction model. We also analyze some features of the linguistic terminology knowledge graph, and summarize and outlook the research on linguistic terminology knowledge graph.

        Keywords:event evolutionary graph; knowledge graph; linguistic term; subject term; Neo4j

        0 引言

        知識圖譜的定義由Google公司在2012年提出,被界定為用來提升搜索引擎功能的輔助知識庫。知識圖譜是用圖模型來表述人類認(rèn)識并構(gòu)建與世界萬物之間關(guān)系的技術(shù)方式,實(shí)質(zhì)上是表述實(shí)體與實(shí)體之間關(guān)系的一個語義網(wǎng),其基本構(gòu)成單元為“實(shí)體-關(guān)系-實(shí)體”的三元組[1],包括實(shí)體及其關(guān)聯(lián)屬性值對,實(shí)體之間通過關(guān)系互相連接,從而形成網(wǎng)狀知識結(jié)構(gòu)。

        知識圖譜作為知識管理的重要手段,以通用直觀的方式來檢索和分類數(shù)據(jù),通常服務(wù)于網(wǎng)絡(luò)大數(shù)據(jù)分析工作,Google、Bing和Yahoo等搜索引擎均已引入知識圖譜。同時,知識圖譜對于梳理某一專業(yè)領(lǐng)域的發(fā)展脈絡(luò)也具有重要意義。國家層面也提出“構(gòu)建涵蓋數(shù)十億實(shí)體規(guī)模的多源、多學(xué)科和多數(shù)據(jù)類型的跨媒體知識圖譜”[2]。在近期研究中,也出現(xiàn)了一些對特定知識領(lǐng)域的知識圖譜研究,如董曉曉等[3]完成的融合知識組織與教育教學(xué)原理和規(guī)律來定義實(shí)體類型、實(shí)體屬性和實(shí)體關(guān)系的教育領(lǐng)域知識圖譜模式構(gòu)建方法;王松等[4]對知識圖譜的概念、關(guān)鍵技術(shù)及中醫(yī)藥知識圖譜研究現(xiàn)狀進(jìn)行了綜述,并對中醫(yī)藥知識圖譜研究的發(fā)展趨勢進(jìn)行了展望;肖飛龍等[5]基于Neo4j圖數(shù)據(jù)庫構(gòu)建了疾病預(yù)防與控制措施知識圖譜,探索疾病預(yù)防控制機(jī)構(gòu)的數(shù)量、人員等防控措施現(xiàn)狀,為防控體系的完善提出建議。在語言學(xué)領(lǐng)域,有學(xué)者基于CiteSpace等文獻(xiàn)分析圖譜進(jìn)行綜述性研究,如陳風(fēng)華等[6]使用CiteSpace對國內(nèi)核心期刊與國際核心期刊歷年發(fā)表的多模態(tài)話語研究文獻(xiàn)做了知識圖譜演化分析;劉霞等[7]使用CiteSpace對1998年至2013年發(fā)表于CSSCI刊物的語料庫相關(guān)文獻(xiàn)進(jìn)行了量化分析和可視化呈現(xiàn)。此類研究的數(shù)據(jù)來源為期刊網(wǎng)站的文獻(xiàn)數(shù)據(jù),一般只限于某一微觀研究領(lǐng)域,其研究目的主要是分析某一研究熱點(diǎn)并撰寫綜述性文章,并不涉及語言學(xué)術(shù)語體系圖譜的建立。通過查詢中國知網(wǎng)、萬方等期刊數(shù)據(jù),筆者發(fā)現(xiàn)國內(nèi)暫無研究人員采取圖數(shù)據(jù)庫的方式儲存并展現(xiàn)整個語言學(xué)術(shù)語的發(fā)展脈絡(luò)?!靶g(shù)語是對已知事物的命名,是通向未知的基礎(chǔ),往往成為一個學(xué)科乃至整個知識體系建構(gòu)的重要節(jié)點(diǎn)和衍生點(diǎn)。就此而言,一個學(xué)科領(lǐng)域的關(guān)鍵術(shù)語猶如該學(xué)科的基因,具有學(xué)術(shù)繁衍力。”[8]語言學(xué)發(fā)展到今天,已經(jīng)具備較為龐大的知識體系,可以說,語言學(xué)術(shù)語的知識圖譜構(gòu)建具有重要意義。

        基于前述研究現(xiàn)狀,本研究在系統(tǒng)梳理和分析語言學(xué)術(shù)語發(fā)展脈絡(luò)與發(fā)展特征的基礎(chǔ)上,采用領(lǐng)域知識圖譜常用的自頂向下構(gòu)建模式,以《語言學(xué)名詞》[9]作為結(jié)構(gòu)化數(shù)據(jù)源,將傳統(tǒng)知識圖譜的節(jié)點(diǎn)和邊的關(guān)系進(jìn)行重構(gòu)和梳理,基于事件理論加以事理邏輯類型,構(gòu)建事理知識圖譜。事理知識圖譜的本質(zhì)為一種以事件為節(jié)點(diǎn)的知識庫,是知識圖譜研究下的一種延伸與演化,其發(fā)展源頭可追溯至20世紀(jì) 70 年代的專家系統(tǒng)[10]。本文的語言學(xué)術(shù)語知識圖譜是以“術(shù)語事件”為核心節(jié)點(diǎn)和動力樞紐,以“術(shù)語事件屬性值”為次核心節(jié)點(diǎn)和關(guān)聯(lián)單元,以“術(shù)語事件關(guān)系”為演化框架和延伸路線,以“術(shù)語事件屬性值關(guān)系(屬性)”為結(jié)構(gòu)內(nèi)容和分布網(wǎng)絡(luò)的新形態(tài)知識圖譜,由此構(gòu)筑語言學(xué)術(shù)語空間的演化邏輯鏈條,搭建術(shù)語知識的內(nèi)容分布模型?;贜eo4j圖數(shù)據(jù)庫構(gòu)建語言學(xué)術(shù)語知識圖譜,梳理語言學(xué)發(fā)展現(xiàn)狀,并總結(jié)語言學(xué)知識圖譜的主要特征,從而深入地探究語言學(xué)術(shù)語知識圖譜模式構(gòu)建方法,以期推動語言學(xué)術(shù)語知識圖譜的應(yīng)用發(fā)展,并嘗試為學(xué)科術(shù)語知識圖譜提供一種構(gòu)建范式。

        1 相關(guān)理論及技術(shù)

        1.1 知識圖譜構(gòu)建

        知識圖譜主要可分為兩類:通用知識圖譜和領(lǐng)域知識圖譜,劃分的主要標(biāo)準(zhǔn)是知識數(shù)據(jù)的領(lǐng)域范圍和圖譜構(gòu)建方法的差別。通用知識圖譜注重知識廣度,數(shù)據(jù)一般來源于采用大規(guī)模爬蟲所收集的互聯(lián)網(wǎng)資源,通過命名實(shí)體識別及屬性抽取等算法構(gòu)建知識圖譜,一般采用自底向上的構(gòu)建模式。領(lǐng)域知識圖譜又稱為垂直知識圖譜或行業(yè)知識圖譜,它的知識廣度限制在某一特定領(lǐng)域,基于該領(lǐng)域的專業(yè)知識進(jìn)行構(gòu)造,具有數(shù)據(jù)冗余量少、結(jié)構(gòu)化程度高等特征,一般采用自頂向下的構(gòu)建模式,更具專業(yè)性和精確性[11]。

        本文所研究的語言學(xué)術(shù)語知識圖譜屬于領(lǐng)域知識圖譜,其自頂向下的構(gòu)建方法要求從頂層概念出發(fā),首先是對領(lǐng)域知識的本體構(gòu)建,在概念層先給出一個清晰合理的結(jié)構(gòu),后續(xù)的知識圖譜構(gòu)建再將實(shí)例和數(shù)據(jù)進(jìn)行對應(yīng)。本體的構(gòu)建十分重要,決定了最后的知識圖譜是否反映出該領(lǐng)域知識的廣度及精度,是否可以正確體現(xiàn)出該領(lǐng)域的特點(diǎn)和領(lǐng)域間不同概念之間的關(guān)系。

        大多數(shù)知識圖譜在視覺上呈現(xiàn)為互相連接的節(jié)點(diǎn)和邊,對應(yīng)著節(jié)點(diǎn)、關(guān)系、屬性三大要素。節(jié)點(diǎn)(Node)即實(shí)體對象,分為起始節(jié)點(diǎn)和終止節(jié)點(diǎn),兩個節(jié)點(diǎn)通過關(guān)系進(jìn)行連接,節(jié)點(diǎn)相對于傳統(tǒng)數(shù)據(jù)庫中的ER圖(Entity Relationship Diagram)中的實(shí)體,主要通過實(shí)體的標(biāo)簽信息進(jìn)行區(qū)別,可以包含或不包含屬性信息(屬性信息是描述實(shí)體的信息)。關(guān)系(Relationship)在圖數(shù)據(jù)庫中的呈現(xiàn)形式即連接節(jié)點(diǎn)的“邊”,用于表示實(shí)體與實(shí)體間的聯(lián)系。屬性(Property)通過KeyValue(鍵值對)表示,包含節(jié)點(diǎn)或者關(guān)系內(nèi)部的某些特征信息。

        1.2 圖數(shù)據(jù)庫Neo4j與Pyneo2

        圖數(shù)據(jù)庫是一種NoSQL數(shù)據(jù)庫,基于圖形理論,表現(xiàn)客觀世界中的實(shí)體與實(shí)體之間、實(shí)體各屬性之間的關(guān)系[12]。在遍歷圖進(jìn)行本地讀取這方面,圖形數(shù)據(jù)庫的表現(xiàn)非常出色,同時還能使用各種數(shù)據(jù)圖形模型及其數(shù)據(jù)擴(kuò)展[13]。語義關(guān)系復(fù)雜、數(shù)據(jù)體量較大的數(shù)據(jù)常使用這種方式。相比于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,圖數(shù)據(jù)庫更適合作為知識圖譜的存儲媒介,用于圖數(shù)據(jù)庫處理的Cypher圖形查詢語言,可實(shí)現(xiàn)關(guān)聯(lián)查詢和圖算法,更有利于支持查詢和價值挖掘[14]。主要的圖數(shù)據(jù)存儲系統(tǒng)包括RDF圖模型和屬性圖模型。前者以RDF(Resource Description Framework)三元組為存儲對象。RDF由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示實(shí)體/資源或者屬性,邊表示實(shí)體和實(shí)體之間的關(guān)系以及實(shí)體和屬性的關(guān)系。RDF圖模型具有較成熟的標(biāo)準(zhǔn)體系和標(biāo)準(zhǔn)查詢語言SparQL,常見的數(shù)據(jù)庫有Jena和Virtuoso等。屬性圖是目前主流圖數(shù)據(jù)庫選擇的數(shù)據(jù)模型,更確切地說是帶標(biāo)簽的屬性圖(LabeledProperty Graph),它的節(jié)點(diǎn)和邊都可以定義屬性[15]。常見的圖數(shù)據(jù)庫有Neo4j、FlockDB、GraphDB等類型,其中,開源的Neo4j以其高性能、高穩(wěn)定性、可擴(kuò)展性強(qiáng)等優(yōu)點(diǎn)成為當(dāng)前應(yīng)用最為廣泛的原生圖數(shù)據(jù)庫之一[16]。Neo4j采用原生圖存儲和處理數(shù)據(jù),反映了關(guān)系網(wǎng)絡(luò)中實(shí)體聯(lián)系的本質(zhì),在查詢中能以快捷的路徑返回關(guān)聯(lián)數(shù)據(jù),表現(xiàn)出高效的查詢性能;支持非結(jié)構(gòu)化數(shù)據(jù)的存儲與大規(guī)模數(shù)據(jù)的增長,能很好地適應(yīng)需求的變化,具有很大靈活性。此外,它還可以對實(shí)體間復(fù)雜的關(guān)系進(jìn)行分析與推理,支持邏輯語言分析與面向約束的推理。Neo4j擁有自己的查詢語言——Cypher語言,它是一種面向圖分析、聲明式、表達(dá)能力強(qiáng)的描述性圖形查詢語言[17],對用戶十分友好,操作簡便,主要使用的關(guān)鍵字有create(主要用于創(chuàng)建圖形節(jié)點(diǎn)、關(guān)系及屬性)、match(在已有圖形數(shù)據(jù)庫中匹配目標(biāo)信息)、where(是match功能的條件)、return(完成匹配后,返回指定值),基于這些查詢語句實(shí)現(xiàn)對圖形數(shù)據(jù)的分析與推理。Neo4j以美觀清晰的圖結(jié)構(gòu)形式存儲知識數(shù)據(jù),具有節(jié)點(diǎn)和關(guān)系兩種基本類型,每個節(jié)點(diǎn)表示一個實(shí)體,一個節(jié)點(diǎn)可以存在多個關(guān)系、屬性,并由此與其他節(jié)點(diǎn)產(chǎn)生關(guān)聯(lián)。關(guān)系指兩個節(jié)點(diǎn)之間的關(guān)系,用戶可根據(jù)頂層要求自主設(shè)計關(guān)系類型[12]。

        Py2neo是一個客戶端庫和工具包,Python應(yīng)用程序與命令行能夠使用該庫與Neo4j建立連接。Py2neo封裝了官方驅(qū)動程序,添加了對 HTTP的支持、更高級別的API、OGM、管理工具、交互式控制臺,用于Pygments 的CypherLexer 以及許多其他功能。Py2neo包提供了一系列的Neo4j解析和存儲功能,利用Py2neo包,可以在計算機(jī)內(nèi)存中建立與存儲Neo4j的模型。通過生成節(jié)點(diǎn)與關(guān)系、過濾重復(fù)的數(shù)據(jù),最終可生成Neo4j圖形數(shù)據(jù)庫[18]。本研究使用Py2neo構(gòu)建Neo4j模型,并進(jìn)行Neo4j數(shù)據(jù)庫的增刪查改等操作。

        2 構(gòu)建語言學(xué)術(shù)語知識圖譜

        2.1 構(gòu)建思路

        語言學(xué)術(shù)語多為名詞性質(zhì),但是其中隱藏的事件名詞具有動詞性質(zhì),是推動術(shù)語之間關(guān)系動態(tài)化、術(shù)語圖式化的核心驅(qū)動,應(yīng)該重點(diǎn)和突出刻畫。首先,以語言學(xué)學(xué)科的[理論/學(xué)說/方法]為核心節(jié)點(diǎn)和動力樞紐,架構(gòu)起術(shù)語知識圖譜的網(wǎng)絡(luò)框架和演化模型。這樣更符合語言學(xué)術(shù)語的思維習(xí)慣和認(rèn)知規(guī)律。其次,以[理論/學(xué)說/方法]的存續(xù)時間、存續(xù)地域、代表人物、關(guān)鍵詞(高頻/基礎(chǔ)/核心術(shù)語)、觀點(diǎn)為其邏輯主體和主要內(nèi)容,編制成術(shù)語知識圖譜的關(guān)聯(lián)網(wǎng)絡(luò)和關(guān)聯(lián)節(jié)點(diǎn)。最后,以[理論/學(xué)說/方法]的關(guān)鍵詞及它們之間的關(guān)系所構(gòu)成的觀點(diǎn)(三元組:關(guān)鍵詞術(shù)語-關(guān)系-關(guān)鍵詞術(shù)語)為邏輯單元和關(guān)鍵信息,構(gòu)成術(shù)語知識圖譜的內(nèi)容實(shí)體和知識鏈條。上述三點(diǎn),和事件理論中的“事件”“事件關(guān)系”“事件和事件元素關(guān)系”“事件元素”“事件元素關(guān)系”存在邏輯順應(yīng)和功能對應(yīng)。

        基于上述思路,語言學(xué)術(shù)語知識圖譜中的三元組主要包含以下三個要素:

        (1)術(shù)語事件:本研究中特指語言學(xué)術(shù)語中蘊(yùn)含的理論/學(xué)說/方法。它們的產(chǎn)生和存續(xù)行為及核心凝聚力和“事件”近似,因此稱之為“(語言學(xué))術(shù)語事件”,在知識圖譜中體現(xiàn)為眾多節(jié)點(diǎn);

        (2)關(guān)系:各個理論/學(xué)說/方法之間的演化模式和事件鏈條,在知識圖譜中體現(xiàn)為連接節(jié)點(diǎn)的邊;

        (3)屬性值:各個理論/學(xué)說/方法的存續(xù)時間、存續(xù)地域、代表人物、關(guān)鍵詞、觀點(diǎn)等的具體取值。

        圖1展示了本研究中語言學(xué)術(shù)語知識圖譜的構(gòu)建流程:對《語言學(xué)名詞》中的知識數(shù)據(jù)進(jìn)行命名實(shí)體、關(guān)系、屬性的知識抽取工作后,對相關(guān)內(nèi)容進(jìn)行對齊,實(shí)現(xiàn)知識融合,之后基于Neo4j實(shí)現(xiàn)圖譜可視化,進(jìn)行知識圖譜特征分析等知識應(yīng)用工作。

        2.2 知識來源

        本研究中知識圖譜的結(jié)構(gòu)化數(shù)據(jù)來源于《語言學(xué)名詞》。《語言學(xué)名詞》是一部結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)男g(shù)語詞典,內(nèi)容是由全國科學(xué)技術(shù)名詞審定委員會審定公布的語言學(xué)名詞,包括理論語言學(xué)、文字學(xué)、語音學(xué)、語法學(xué)、語義詞匯學(xué)、辭書學(xué)、方言學(xué)、修辭學(xué)、音韻學(xué)、訓(xùn)詁學(xué)、計算語言學(xué)、社會語言學(xué)、民族語言學(xué)共13部分,收詞2939條[19],正文按中文名所屬學(xué)科相關(guān)的概念體系和知識系統(tǒng)排列,定義給出其基本內(nèi)涵,注釋則簡明扼要闡釋其內(nèi)涵,中文名后列出對應(yīng)的英文名。本研究將其中的術(shù)語條目作為主要實(shí)體,并從術(shù)語條目的解釋內(nèi)容中提取出術(shù)語關(guān)系及屬性值關(guān)系。

        2.3 實(shí)體抽取與對齊

        本研究基于《語言學(xué)名詞》中的2939條術(shù)語條目,去除部分非典型術(shù)語條目,如“匹配”等,以術(shù)語條目作為知識圖譜主節(jié)點(diǎn),以術(shù)語事件為中心,構(gòu)建語言學(xué)術(shù)語知識體系。在得到節(jié)點(diǎn)之后,需要進(jìn)行實(shí)體對齊,即解決“名異實(shí)同”問題,檢查知識圖譜中的節(jié)點(diǎn)是否采用不同詞匯指稱同一概念,解決圖譜數(shù)據(jù)中的實(shí)體混淆、實(shí)體歧義等問題。例如“轉(zhuǎn)換生成學(xué)派”又稱“生成語法學(xué)派”,如果不進(jìn)行消歧去重,那么在檢索過程中會產(chǎn)生冗余和遺漏現(xiàn)象,故實(shí)體對齊是知識圖譜構(gòu)建過程中必不可少的環(huán)節(jié)之一。因《語言學(xué)名詞》是一部術(shù)語詞典,詞典性質(zhì)本身已基本避免術(shù)語重復(fù)的情況,數(shù)據(jù)冗余量小,對于存在的少量“名異實(shí)同”的術(shù)語及闡釋,本研究利用人工校對的方式將近似表達(dá)統(tǒng)一為相同實(shí)體。

        2.4 關(guān)系及屬性值抽取與對齊

        知識圖譜的本質(zhì)是語義網(wǎng)絡(luò),節(jié)點(diǎn)與節(jié)點(diǎn)之間需要用“關(guān)系”來連接。關(guān)系是使知識圖譜形成網(wǎng)絡(luò)的關(guān)鍵所在,本研究在語言學(xué)術(shù)語知識圖譜的構(gòu)建過程中,采用了事理邏輯類型來定義節(jié)點(diǎn)關(guān)系。事理圖譜是由Yang等[20]最先提出的,是一個描述事件之間演化規(guī)律和模式的事理邏輯知識庫。在層次結(jié)構(gòu)上,事理知識圖譜是一個有向圖,其中節(jié)點(diǎn)代表事件,有向邊代表事件之間的邏輯關(guān)系[21]。語言學(xué)術(shù)語具備清晰的發(fā)展邏輯,適合于事理圖譜的構(gòu)建,并可以展示語言學(xué)術(shù)語的發(fā)展變化。本研究歸納了語言學(xué)術(shù)語之間的九類實(shí)體關(guān)系:因果、條件、種屬、構(gòu)成、繼承、并發(fā)、對立、類似、互補(bǔ),能夠揭示語言學(xué)術(shù)語的演化規(guī)律與邏輯,如表1所示。

        上述九類關(guān)系是從術(shù)語外部出發(fā)的關(guān)系。術(shù)語從內(nèi)部看,由眾多屬性構(gòu)成,屬性是術(shù)語內(nèi)部的構(gòu)成要素,語言學(xué)術(shù)語發(fā)生于一定的時空范圍內(nèi),對于某一個術(shù)語事件,其實(shí)體本身大多數(shù)具備時間、地域、代表人物、關(guān)鍵詞、觀點(diǎn)等屬性值,本研究根據(jù)語言學(xué)術(shù)語所包含的重要知識特征,定義了五個屬性值,用以從術(shù)語事件內(nèi)部發(fā)掘術(shù)語內(nèi)在特征之間的規(guī)律,如表2所示。

        屬性值對齊指針對同一屬性的屬性值存在多種表達(dá)形式的問題,設(shè)置統(tǒng)一的標(biāo)注規(guī)則,減少數(shù)據(jù)冗余,提高知識表達(dá)能力。如時間屬性中“20世紀(jì)中期”與“20世紀(jì)50年代”的屬性值表述不同,但所指概念基本相同,此類問題為屬性值冗余問題。就本次研究而言,屬性值冗余問題主要存在于時間和人物屬性,采取統(tǒng)一的格式規(guī)則對這兩種屬性進(jìn)行對齊,如表3所示。

        2.5 知識存儲及可視化實(shí)現(xiàn)

        本研究采用自頂向下的構(gòu)建模式,對節(jié)點(diǎn)、屬性、關(guān)系的相關(guān)類別進(jìn)行頂層設(shè)計和格式規(guī)范后,進(jìn)行《語言學(xué)名詞》術(shù)語收集和三元組構(gòu)建工作。最終匯總得到6211條三元組,兩端的實(shí)體(屬性)由中間的關(guān)系連接,如表4所示。

        利用Py2neo及Cypher語法將csv文件導(dǎo)入Neo4j數(shù)據(jù)庫中,并進(jìn)行可視化圖譜展示,因圖譜體量龐大,故節(jié)選部分節(jié)點(diǎn)關(guān)系作為示例,如圖2所示。在Neo4j中,以“共時語言學(xué)”父節(jié)點(diǎn)為例,其“人物”關(guān)系的屬性值為“索緒爾”,“地點(diǎn)”關(guān)系的屬性值為“瑞士”。 同時該節(jié)點(diǎn)以“歷史比較語言學(xué)節(jié)點(diǎn)”為“條件”關(guān)系,與“歷時語言學(xué)”為“對立”關(guān)系。通過 Neo4j 中層次化的圖結(jié)構(gòu)可以將語言學(xué)術(shù)語中的關(guān)系與屬性直觀地展示出來。

        知識圖譜具有豐富的檢索功能,基于此知識圖譜,可以從多種角度梳理語言學(xué)術(shù)語的發(fā)展脈絡(luò),更清晰地了解語言學(xué)的發(fā)展歷史及現(xiàn)狀。本研究也在后文以某些宏觀特征進(jìn)行簡單分析。

        3 語言學(xué)術(shù)語知識圖譜內(nèi)容分析與討論

        3.1 整體特征分析

        (1)數(shù)量龐大,涵蓋面廣。語言學(xué)是一門歷史悠久的學(xué)科,其術(shù)語涉及的知識范圍也很龐大,本次研究共生成6263組三元組,上至傳統(tǒng)的小學(xué),下至新興的交叉學(xué)科,跨度廣,知識精細(xì)程度高,是一個較為系統(tǒng)全面的領(lǐng)域知識圖譜。該圖譜的構(gòu)建也有助于后期拓展語言學(xué)術(shù)語研究的深度和廣度。

        (2)層次清晰,結(jié)構(gòu)性強(qiáng)。本次研究的數(shù)據(jù)源《語言學(xué)名詞》將語言學(xué)術(shù)語劃分為理論語言學(xué)、文字學(xué)、語音學(xué)等13個部分,每一部分再拆分為小分支,如第二部分“文字學(xué)”所轄分支有總論、漢字的起源和發(fā)展、漢字的結(jié)構(gòu)、漢字的形體、漢字系統(tǒng)內(nèi)部關(guān)系、漢字政策、應(yīng)用研究等。每一部分的小分支數(shù)量不固定,但條目大約控制在300條之內(nèi),是知識圖譜構(gòu)建過程中可以直接使用的結(jié)構(gòu)性數(shù)據(jù)。

        (3)規(guī)范性強(qiáng)。語言學(xué)術(shù)語本身作為學(xué)術(shù)研究的產(chǎn)物,具有準(zhǔn)確嚴(yán)謹(jǐn)?shù)奶攸c(diǎn)。如“深層結(jié)構(gòu)”“表層結(jié)構(gòu)”“層次分析法”等在理論誕生之初就已經(jīng)定義完備,具備不可更改和不可替換的特質(zhì)。在《語言學(xué)名詞》的術(shù)語條目闡釋中,往往先給出其上位概念,后指出其含義,最后說明其影響。這種較為固定的術(shù)語闡釋模式也為節(jié)點(diǎn)、關(guān)系和屬性的提取提供了便利,具有較強(qiáng)的規(guī)范性。

        3.2 局部特征分析

        基于Neo4j的Cypher語法,可以根據(jù)檢索需求篩選需要的知識數(shù)據(jù),從而發(fā)現(xiàn)語言學(xué)術(shù)語的某些發(fā)展規(guī)律,本研究僅以地點(diǎn)屬性為例簡要說明檢索過程。如對于術(shù)語地點(diǎn)屬性值進(jìn)行全圖檢索,輸入Cypher命令:MATCHp=()[r:′地點(diǎn)′]>()RETURNpLIMIT300,可以得到地點(diǎn)屬性的部分節(jié)點(diǎn),其中比對圖表可得“美國”在術(shù)語地點(diǎn)屬性值中占有最高的頻次,如圖3所示??梢娫谡Z言學(xué)的發(fā)展中,美國具有最多的術(shù)語產(chǎn)出。

        3.3 語言學(xué)術(shù)語事理動態(tài)關(guān)系探討

        語言學(xué)術(shù)語知識圖譜的組織和架構(gòu),既不能與通用知識圖譜一樣,偏重[實(shí)體-關(guān)系-實(shí)體]和[實(shí)體-屬性-屬性值],忽略宏觀的、大顆粒的知識演化框架,也不能與事理圖譜一樣,偏重[事件-關(guān)系-事件],忽略微觀、細(xì)顆粒的知識關(guān)聯(lián)形態(tài)。應(yīng)充分融合靜態(tài)知識圖譜和動態(tài)事理圖譜的構(gòu)造特征和存在模式,構(gòu)建基于“靜態(tài)-動態(tài)”融合特征的語言學(xué)術(shù)語知識圖譜。雖然術(shù)語多是名詞性質(zhì)的,但是其中隱藏的事件名詞具有動態(tài)性質(zhì),它們是推動術(shù)語之間關(guān)系動態(tài)化、術(shù)語圖式化的核心驅(qū)動,應(yīng)該重點(diǎn)和突出刻畫。人類的命題記憶是以“事件”為存儲單位的,存儲的是組成事件的概念及其之間的關(guān)系以及事件與其之間的關(guān)系[22]。以事件作為知識的基本單元更能反映知識,特別是知識的動態(tài)性,從認(rèn)知科學(xué)的角度來看,事件更符合人類的理解與思維習(xí)慣。

        本文正是采用事理邏輯的類型來構(gòu)建節(jié)點(diǎn)間的關(guān)系,并且邏輯類型所構(gòu)成的三元組又恰好成為術(shù)語事件的“觀點(diǎn)”屬性值,如圖4所示,轉(zhuǎn)換生成學(xué)派的“觀點(diǎn)”屬性指向“深層結(jié)構(gòu)-決定-表層結(jié)構(gòu)”三元組。某一觀點(diǎn)內(nèi)部已構(gòu)成三元組,同時以一個整體作為更高層級三元組的構(gòu)成要素,這顯示了語言學(xué)術(shù)語發(fā)展的動態(tài)關(guān)系和事理邏輯,較小層級的節(jié)點(diǎn)關(guān)系層層嵌套,推進(jìn)大節(jié)點(diǎn)關(guān)系的構(gòu)成與發(fā)展,并最終推動語言學(xué)術(shù)語的發(fā)展。

        4 結(jié)語

        本文展現(xiàn)了語言學(xué)術(shù)語知識圖譜的構(gòu)建過程,并最終實(shí)現(xiàn)了知識圖譜的呈現(xiàn),所構(gòu)建的較為完備的語言學(xué)術(shù)語知識圖譜,填補(bǔ)了學(xué)界對語言學(xué)知識圖譜的研究空白,可以使用此圖譜查詢數(shù)據(jù)以發(fā)現(xiàn)語言學(xué)術(shù)語的演變規(guī)律。其次本文提供了一種“動態(tài)-靜態(tài)”的術(shù)語圖譜構(gòu)建模式,該構(gòu)建模式適用于大多數(shù)學(xué)科術(shù)語圖譜模式的構(gòu)建,具備一定的可遷移性。該方法也有助于構(gòu)建一種從詞典的單向封閉主義轉(zhuǎn)向“詞典-用戶”的雙向融合互動的融媒體辭書[23]。此外基于Neo4j的功能,該圖譜可以外接至網(wǎng)站接口,實(shí)現(xiàn)面向用戶的前端圖譜網(wǎng)頁。

        本次知識圖譜構(gòu)建中,還存在不足。首先,參考有限。由于目前還沒有中國學(xué)者對語言學(xué)術(shù)語知識圖譜進(jìn)行構(gòu)建和研究,本文只能參考與本項(xiàng)研究的目的相類似的知識圖譜研究,總體來說技術(shù)上還不成熟。雖然獲得了相對完整的語言學(xué)術(shù)語知識圖譜體系,但在關(guān)系準(zhǔn)確率方面還存在問題,一些孤立節(jié)點(diǎn)缺乏與其他術(shù)語的聯(lián)系,需要在后期研究中進(jìn)一步挖掘術(shù)語之間的深度關(guān)系。其次,數(shù)據(jù)來源較為單一。本文的語言學(xué)術(shù)語知識渠道依賴于《語言學(xué)名詞》,所以知識數(shù)量具有局限性,抽取的知識數(shù)量不夠,圖譜精度還有待提高,在后期研究中將會補(bǔ)充其他語言學(xué)百科類書籍及相關(guān)文獻(xiàn)作為數(shù)據(jù)源。再次,數(shù)據(jù)更新能力較差。本研究的數(shù)據(jù)源《語言學(xué)名詞》是2011年出版的,此后新出現(xiàn)的語言學(xué)術(shù)語未被納入,數(shù)據(jù)具有滯后性。針對此問題,后期將會加入爬蟲框架從各種語言學(xué)學(xué)術(shù)網(wǎng)、會議網(wǎng)、語言學(xué)者博客、百度百科、維基百科等提取最新語料,并基于相關(guān)模型進(jìn)行命名實(shí)體識別和自動特征學(xué)習(xí)。

        參考文獻(xiàn)

        [1] 劉嶠, 李楊, 段宏, 等. 知識圖譜構(gòu)建技術(shù)綜述[J]. 計算機(jī)研究與發(fā)展, 2016, 53(3): 582-600.

        [2] 國務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[A]. 中華人民共和國國務(wù)院公報, 2017(22): 7-21.

        [3] 董曉曉, 周東岱, 黃雪嬌, 等. 學(xué)科核心素養(yǎng)發(fā)展導(dǎo)向下教育領(lǐng)域知識圖譜模式構(gòu)建方法研究[J]. 電化教育研究, 2022, 43(5): 76-83.

        [4] 王松, 李正鈞, 楊濤, 等. 中醫(yī)藥知識圖譜研究現(xiàn)狀及發(fā)展趨勢[J]. 南京中醫(yī)藥大學(xué)學(xué)報, 2022, 38(3): 272-278.

        [5] 肖飛龍, 張爽, 胡志凌. 基于Neo4j的疾病預(yù)防與控制知識圖譜研究[J]. 電子技術(shù)與軟件工程, 2021(22): 180-182.

        [6] 陳風(fēng)華, 弗朗西斯科·維勒索. 多模態(tài)話語研究的知識圖譜演化分析:基于國內(nèi)外核心期刊的研究[J]. 華僑大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 2017(6): 154-166.

        [7] 劉霞, 許家金, 劉磊. 基于CiteSpace的國內(nèi)語料庫語言學(xué)研究概述(1998—2013)[J]. 語料庫語言學(xué), 2014, 1(1): 69-77,112.

        [8] 趙世舉, 鄭蒙. 術(shù)語與科技話語能力建設(shè):法國的實(shí)踐及啟示[J]. 語言戰(zhàn)略研究, 2022, 7(5): 58-68.

        [9] 全國科學(xué)技術(shù)名詞審定委員會. 語言學(xué)名詞[M]. 北京: 商務(wù)印書館, 2011.

        [10] 白璐. 面向政治領(lǐng)域的事理演化圖譜構(gòu)建[D]. 北京:國際關(guān)系學(xué)院, 2020:19.

        [11] 付雷杰, 曹巖, 白瑀, 等. 國內(nèi)垂直領(lǐng)域知識圖譜發(fā)展現(xiàn)狀與展望[J]. 計算機(jī)應(yīng)用研究, 2021, 38(11): 3201-3214.

        [12] 孫敏敏, 毛雪岷. 基于Neo4j的肺部疾病知識圖譜構(gòu)建[C]//第十五屆(2020)中國管理學(xué)年會論文集. 中國管理現(xiàn)代化研究會,復(fù)旦管理學(xué)獎勵基金會, 2020: 25-30.

        [13] POKORN J. Functional querying in graph databases[J]. Vietnam Journal of Computer Science, 2018, 5(2): 95-105.

        [14] JOUILI S, VANSTEENBERGHE V. An Empirical Comparison of Graph Databases[C]//2013 International Conference on Social Computing. Alexandria, VA, USA: IEEE, 2013: 708-715.

        [15] 王力, 韓紅旗, 高雄, 等. 關(guān)系數(shù)據(jù)庫向Neo4j圖數(shù)據(jù)庫轉(zhuǎn)化的應(yīng)用研究:以工程科技詞系統(tǒng)為例[J]. 中國科技資源導(dǎo)刊, 2021, 53(5): 55-65.

        [16] FLEMING J, LEVY S, NAG P, et al. Graph database system and method for facilitating financial and corporate relationship analysis[P]. United States Patent 8674993,2014-03-18.

        [17] 張維沖, 王芳, 黃毅. 基于圖數(shù)據(jù)庫的貴州省大數(shù)據(jù)政策知識建模研究[J]. 數(shù)字圖書館論壇, 2020(4): 30-38.

        [18] 蘇翔. 基于知識圖譜的“數(shù)據(jù)結(jié)構(gòu)”教學(xué)資源平臺的構(gòu)建研究[D]. 北京:北京林業(yè)大學(xué), 2019:17.

        [19] 《語言學(xué)名詞》出版[J]. 語文研究, 2012,122(1): 45.

        [20] YANG C C, SHI X. Discovering event evolution graphs from newswires[C]//Proceedings of the 15th international conference on World Wide WebWWW06. Edinburgh, Scotland: ACM Press, 2006: 945.

        [21] 朱福勇, 劉雅迪, 高帆, 等. 基于圖譜融合的人工智能司法數(shù)據(jù)庫構(gòu)建研究[J]. 揚(yáng)州大學(xué)學(xué)報(人文社會科學(xué)版), 2019, 23(6): 89-96.

        [22] 仲兆滿, 劉宗田, 李存華. 事件本體模型及事件類排序[J]. 北京大學(xué)學(xué)報(自然科學(xué)版), 2013, 49(2): 234-240.

        [23] 王興隆, 亢世勇. 新時代融媒體漢語學(xué)習(xí)詞典的融合特征及其優(yōu)化路徑:以《當(dāng)代漢語學(xué)習(xí)詞典》為例[J]. 語言文字應(yīng)用, 2021(4): 132-141.

        作者簡介:王浩學(xué)(2000—),男,廣西大學(xué)文學(xué)院碩士研究生,研究方向?yàn)閷?shí)驗(yàn)語音學(xué)、計算語言學(xué),主持國家級大學(xué)生創(chuàng)新項(xiàng)目1項(xiàng)、廣西研究生創(chuàng)新項(xiàng)目1項(xiàng)、山東省語言資源開發(fā)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室開放課題1項(xiàng),發(fā)表CSSCI論文1篇。通信方式:wanghx@st.gxu.edu.cn。

        王興隆(1982—),男,魯東大學(xué)文學(xué)院副教授,國家語委漢語辭書研究中心、山東省語言資源開發(fā)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室專職研究員。主要研究方向?yàn)槎Z學(xué)習(xí)、詞匯學(xué)與詞典學(xué)。主持各類科研項(xiàng)目11項(xiàng),包括國家語言文字工作委員會重點(diǎn)項(xiàng)目、全國科學(xué)技術(shù)名詞審定委員會項(xiàng)目、教育部語言合作中心項(xiàng)目、山東省社會科學(xué)規(guī)劃項(xiàng)目等。在《外語教學(xué)與研究》《語言文字應(yīng)用》等期刊(包括CSSCI期刊)、論文集發(fā)表論文20余篇。獲山東省高校人文社科優(yōu)秀成果一等獎1項(xiàng),主編論文集2部。通信方式:wangxinglong100@163.com。

        猜你喜歡
        知識圖譜
        國內(nèi)外智庫研究態(tài)勢知識圖譜對比分析
        國內(nèi)信息素養(yǎng)研究的知識圖譜分析
        國內(nèi)圖書館嵌入式服務(wù)研究主題分析
        國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
        近十五年我國小學(xué)英語教學(xué)研究的熱點(diǎn)、問題及對策
        基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
        智富時代(2016年12期)2016-12-01 16:28:41
        基于知識圖譜的智慧教育研究熱點(diǎn)與趨勢分析
        國內(nèi)酒店品牌管理研究進(jìn)展的可視化分析
        從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
        專家知識圖譜構(gòu)建研究
        国产成人精品人人做人人爽97| 精品国产一区二区三区av片| 亚洲av蜜桃永久无码精品 | 亚洲永久精品ww47| 亚洲精品成人国产av| 国产一区二区三区视频了| 国产精女同一区二区三区久| 人妻少妇精品视频一区二区三区l| 澳门蜜桃av成人av| 亚洲av无码乱码国产精品| 国产又色又爽无遮挡免费| 亚洲欧美中文在线观看4| 蜜芽尤物原创AV在线播放| 国产av在线观看91| 国产无套中出学生姝| 精品国产一二三产品区别在哪 | 东风日产车是不是国产的| 狠狠色欧美亚洲狠狠色www| 最爽无遮挡行房视频| 精品熟女日韩中文十区| 国产精品久久码一区二区 | 亚洲少妇一区二区三区老| 国产一区二区三区久久悠悠色av| 边添小泬边狠狠躁视频| 国产成人亚洲精品| 澳门精品无码一区二区三区| 亚洲欧洲日产国码无码av野外| 人妻熟女妇av北条麻记三级| 日本女优激情四射中文字幕| 国产成人精品优优av| 精品久久欧美熟妇www| 国产女在线| av免费一区在线播放| 久草视频这里只有精品| 国产激情无码一区二区| 亚洲av综合色区无码一二三区| 国模精品无码一区二区二区| 久久精品国产亚洲AV古装片| 中文字幕久久精品一区二区| av大全亚洲一区二区三区| 粉嫩被粗大进进出出视频|