亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向工業(yè)軟件開發(fā)的半結(jié)構(gòu)化知識(shí)語(yǔ)義檢索方法

        2021-09-13 03:27:54王春雨蔣祖華王福華吉永軍
        關(guān)鍵詞:子網(wǎng)知識(shí)庫(kù)結(jié)構(gòu)化

        王春雨,蔣祖華+,王福華,吉永軍,江 輝

        (1.上海交通大學(xué) 機(jī)械與動(dòng)力工程學(xué)院,上海 200240;2.上海宏路數(shù)據(jù)技術(shù)股份有限公司,上海 200080)

        0 引言

        工業(yè)軟件開發(fā)是智力密集型的系統(tǒng)工程活動(dòng),企業(yè)在日常開發(fā)活動(dòng)中積累了許多工程知識(shí),如問(wèn)題解決方案、版本更新說(shuō)明、項(xiàng)目開發(fā)公告等。為解決遇到的工程問(wèn)題,工程師需要花費(fèi)大量時(shí)間從企業(yè)知識(shí)庫(kù)中尋找和篩選工程知識(shí)來(lái)輔助解決問(wèn)題[1-2],知識(shí)檢索效果對(duì)開發(fā)效率有顯著的影響。因此,面向工業(yè)軟件開發(fā),研究快速定位經(jīng)驗(yàn)知識(shí)的檢索工具,對(duì)提高企業(yè)知識(shí)的利用水平具有重要的意義。

        知識(shí)檢索采用多種相關(guān)性度量,從工程師輸入的自然語(yǔ)言形式查詢語(yǔ)句中挖掘描述用戶需求的語(yǔ)義信息,將工程知識(shí)按相關(guān)性高低排序后推薦給工程師?,F(xiàn)有的知識(shí)檢索技術(shù)分為基于關(guān)鍵詞匹配和基于深層語(yǔ)義匹配兩大類。

        (1)基于關(guān)鍵詞匹配的知識(shí)檢索技術(shù)按照用戶查詢和文本域的匹配關(guān)系細(xì)分為一對(duì)一的結(jié)構(gòu)化檢索和一對(duì)多的多文本域檢索。前者要求輸入與屬性、特征、分類等數(shù)據(jù)域?qū)?yīng)的結(jié)構(gòu)化查詢語(yǔ)句,系統(tǒng)在多個(gè)數(shù)據(jù)域上進(jìn)行關(guān)鍵詞匹配[3],這類技術(shù)依賴開發(fā)者定制的結(jié)構(gòu)化查詢語(yǔ)句,難以用于缺乏嚴(yán)格類型約束的知識(shí)檢索;后者計(jì)算并匯總知識(shí)中多個(gè)文本域與用戶查詢的相關(guān)性[4-5],可用于格式靈活的知識(shí)?;陉P(guān)鍵詞匹配的檢索技術(shù)只使用了淺層的字符統(tǒng)計(jì)學(xué)特征,忽視了實(shí)體間的深層關(guān)聯(lián),不能深入評(píng)估查詢和知識(shí)的語(yǔ)義相關(guān)性,在語(yǔ)義豐富的工程知識(shí)庫(kù)上的檢索效果不夠理想。

        (2)基于深層語(yǔ)義匹配的檢索技術(shù)多面向非結(jié)構(gòu)化的文本型知識(shí),按推理方法的不同細(xì)分為基于概念知識(shí)的檢索技術(shù)和基于語(yǔ)言模型的檢索技術(shù)。概念知識(shí)描述了實(shí)體概念間的語(yǔ)義關(guān)聯(lián)[6],基于概念知識(shí)的語(yǔ)義推理即利用實(shí)體間的關(guān)聯(lián)關(guān)系計(jì)算用戶查詢與知識(shí)間的語(yǔ)義相關(guān)性[7],其符合人類的推理直覺(jué),檢索結(jié)果的準(zhǔn)確度高[8],然而通用的概念知識(shí)庫(kù)普遍缺乏軟件開發(fā)中的領(lǐng)域語(yǔ)義知識(shí)[9],如何利用概念知識(shí)描述知識(shí)復(fù)雜的上下文是研究的一個(gè)方向。語(yǔ)言模型通過(guò)捕獲自然語(yǔ)言的表達(dá)模式計(jì)算兩段文本的語(yǔ)義相關(guān)性[10],HUANG等[11]設(shè)計(jì)的雙塔式語(yǔ)義搜索模型將文本分解為三聯(lián)字符袋嵌入低維語(yǔ)義空間,用余弦值計(jì)量查詢—知識(shí)間的語(yǔ)義相關(guān)性?;谡Z(yǔ)言模型的深層語(yǔ)義匹配方法通過(guò)捕獲表達(dá)模式等語(yǔ)義信息,較好地解決了用戶檢索中“詞不達(dá)意”和“一詞多義”的問(wèn)題[10,12],克服了基于關(guān)鍵詞匹配方法忽視自然語(yǔ)言文本中實(shí)體間語(yǔ)義關(guān)聯(lián)的缺點(diǎn),但也存在領(lǐng)域概念知識(shí)獲取難和語(yǔ)言模型計(jì)算復(fù)雜、響應(yīng)速度慢等缺點(diǎn)。

        近年來(lái),根據(jù)應(yīng)用場(chǎng)景的獨(dú)特語(yǔ)義結(jié)構(gòu)設(shè)計(jì)算法成為檢索領(lǐng)域[13-15]的研究熱點(diǎn)。已有研究從問(wèn)題結(jié)構(gòu)[16]、評(píng)分特征[17]等出發(fā)提出一些面向軟件開發(fā)的語(yǔ)義檢索方法。筆者在研究中發(fā)現(xiàn),軟件開發(fā)中會(huì)重用大量代碼模塊,工程知識(shí)會(huì)隨代碼重用影響所有導(dǎo)入的產(chǎn)品,因此產(chǎn)品適用的工程知識(shí)集存在重疊的現(xiàn)象,然而已有方法未考慮軟件開發(fā)中這種結(jié)構(gòu)的產(chǎn)品關(guān)聯(lián)關(guān)系。另外,軟件企業(yè)以半結(jié)構(gòu)化形式記錄的工程知識(shí)兼有標(biāo)簽和文本兩類信息,標(biāo)簽包含稠密直觀的概念語(yǔ)義信息,文本則隱含稀疏的自然語(yǔ)義信息,兩類語(yǔ)義產(chǎn)生于工程知識(shí)形成的不同階段,單類語(yǔ)義不能全面地解釋采用工程知識(shí)解答問(wèn)題的可行性和合理性[18]。針對(duì)上述工業(yè)軟件開發(fā)工程知識(shí)檢索存在的問(wèn)題,本文提出一種基于知識(shí)超網(wǎng)絡(luò)的語(yǔ)義檢索方法,通過(guò)軟件開發(fā)工程知識(shí)的提取、工程知識(shí)超網(wǎng)絡(luò)的構(gòu)建、復(fù)合語(yǔ)義相關(guān)性的推理,解決半結(jié)構(gòu)化知識(shí)復(fù)合語(yǔ)義檢索的困難,為軟件工程師提供更有效的知識(shí)檢索方法。

        1 面向軟件開發(fā)的半結(jié)構(gòu)化知識(shí)語(yǔ)義檢索方法框架

        1.1 軟件開發(fā)中的工程知識(shí)

        半結(jié)構(gòu)化數(shù)據(jù)既不同于文本流、音頻流、視頻流等完全非結(jié)構(gòu)數(shù)據(jù),也不同于數(shù)據(jù)庫(kù)中嚴(yán)格規(guī)范約束的結(jié)構(gòu)化元數(shù)據(jù),是具有模式信息隱含、數(shù)據(jù)結(jié)構(gòu)不規(guī)則、類型約束弱等[19]特征的數(shù)據(jù)。企業(yè)在軟件開發(fā)中常以半結(jié)構(gòu)化的格式記錄知識(shí),并在未來(lái)的工作中重用這些知識(shí)[20],如圖1所示。文檔結(jié)構(gòu)的多樣性不會(huì)對(duì)人類閱讀造成障礙,但是不便于機(jī)器進(jìn)行計(jì)算和推理。因此,需要先將軟件開發(fā)工程知識(shí)規(guī)范化表征為便于計(jì)算機(jī)處理的統(tǒng)一形式。

        1.2 工程知識(shí)的規(guī)范化表征

        將原始的半結(jié)構(gòu)化異構(gòu)文檔中的工程知識(shí)表征為規(guī)范化單元以便統(tǒng)一檢索,然后采用軟件開發(fā)中工程知識(shí)通用的4個(gè)屬性描述核心特征,構(gòu)建規(guī)范化表征的工程知識(shí)元EKU=AP,AO,KT,CD。從原始文檔中提取的工程知識(shí)元如圖2所示,各屬性的內(nèi)涵如下:

        (1)適用產(chǎn)品(Applicable Production,AP) 該方案/說(shuō)明/公告生效的產(chǎn)品情境,如.Net Core。

        (2)應(yīng)用對(duì)象(Apply-to Object,AO) 該方案/說(shuō)明/公告應(yīng)用的具體模塊,如身份認(rèn)證程序。

        (3)知識(shí)類型(Knowledge Type,KT) 工程知識(shí)的類型,用于識(shí)別內(nèi)容描述的敘述模式。

        (4)內(nèi)容描述(Content Description,CD) 知識(shí)內(nèi)容正文,包含原始文檔的文本信息。

        1.3 考慮復(fù)合語(yǔ)義信息的工程知識(shí)語(yǔ)義檢索方法框架

        本文的語(yǔ)義檢索方法框架如圖3所示,其中知識(shí)超網(wǎng)絡(luò)包括產(chǎn)品樹、應(yīng)用對(duì)象的概念語(yǔ)義子網(wǎng)和知識(shí)內(nèi)容的自然語(yǔ)義子網(wǎng)。3個(gè)語(yǔ)義子網(wǎng)對(duì)應(yīng)工程知識(shí)“在某產(chǎn)品情境針對(duì)某應(yīng)用對(duì)象,產(chǎn)生了某工程知識(shí)”的形成過(guò)程,構(gòu)成工程知識(shí)解答用戶查詢的推理邏輯。通過(guò)貝葉斯方法模擬工程知識(shí)的推理過(guò)程,以評(píng)估工程知識(shí)元和用戶查詢的語(yǔ)義相關(guān)性,相關(guān)性表現(xiàn)為條件概率P(EKU|QAP,QAO,Q),即工程知識(shí)元EKU被推薦的概率,其中Q表示用戶查詢,QAP,QAO表示用戶查詢中的產(chǎn)品情境和應(yīng)用對(duì)象。

        (1)屬性抽取和規(guī)范化表征 將原始知識(shí)文檔數(shù)據(jù)轉(zhuǎn)化為規(guī)范的工程知識(shí)元,解決工程知識(shí)弱類型約束問(wèn)題。

        (2)知識(shí)超網(wǎng)絡(luò)的構(gòu)建 基于原始知識(shí)文檔規(guī)范化表征的工程知識(shí)元,將工程知識(shí)元映像為超網(wǎng)絡(luò)中的超邊,組成工業(yè)軟件開發(fā)知識(shí)庫(kù)的產(chǎn)品、對(duì)象、知識(shí)3層超網(wǎng)絡(luò),計(jì)算各節(jié)點(diǎn)間的子網(wǎng)內(nèi)關(guān)聯(lián)度和子網(wǎng)間節(jié)點(diǎn)超度等統(tǒng)計(jì)指標(biāo)。

        (3)基于超網(wǎng)絡(luò)的深度語(yǔ)義推理 包括概念語(yǔ)義相關(guān)性計(jì)算、自然語(yǔ)義相關(guān)性計(jì)算和超網(wǎng)絡(luò)的貝葉斯概率推理。概念語(yǔ)義相關(guān)性的計(jì)算過(guò)程如圖4所示,基于超網(wǎng)絡(luò)的統(tǒng)計(jì)指標(biāo)用于評(píng)估用戶查詢和工程知識(shí)元間的語(yǔ)義相關(guān)性;自然語(yǔ)義相關(guān)性基于語(yǔ)言模型計(jì)算,用于評(píng)估工程知識(shí)元中文本信息和用戶查詢的語(yǔ)義相關(guān)性;最后用貝葉斯定理推理工程知識(shí)元和用戶查詢的匹配程度。

        2 方法的具體實(shí)現(xiàn)

        2.1 工程知識(shí)的屬性抽取和規(guī)范化表征

        原始文檔存在的屬性缺失問(wèn)題,可以通過(guò)分離和抽取知識(shí)中的實(shí)體概念來(lái)補(bǔ)全。

        (1)

        (2)

        (3)

        2.2 知識(shí)超網(wǎng)絡(luò)模型的構(gòu)建

        工業(yè)軟件開發(fā)中,工程師對(duì)知識(shí)的需求可以分解到適用產(chǎn)品、應(yīng)用對(duì)象、知識(shí)內(nèi)容3個(gè)屬性維度匹配來(lái)語(yǔ)義上下文,因此本文搭建產(chǎn)品子網(wǎng)、對(duì)象子網(wǎng)、知識(shí)子網(wǎng)組成的超網(wǎng)絡(luò)模型描述工程知識(shí)元的3種語(yǔ)義元素。工程知識(shí)元映像到模型中的超邊[22]HE表示在產(chǎn)品情境中針對(duì)應(yīng)用對(duì)象產(chǎn)生的具體工程知識(shí)內(nèi)容。

        (1)產(chǎn)品子網(wǎng)NP工程知識(shí)產(chǎn)品情境實(shí)體VP及其之間的關(guān)聯(lián)EP構(gòu)成一個(gè)有向加權(quán)樹。父子節(jié)點(diǎn)間為單向關(guān)聯(lián)關(guān)系(Kind-of),參考文獻(xiàn)[1]的領(lǐng)域本體構(gòu)建方法,父子節(jié)點(diǎn)間的關(guān)聯(lián)系數(shù)取0.7;同級(jí)節(jié)點(diǎn)間為雙向關(guān)聯(lián)關(guān)系(Similar-with),考慮軟件開發(fā)中代碼模塊復(fù)用的情況,同級(jí)節(jié)點(diǎn)間的關(guān)聯(lián)系數(shù)與產(chǎn)品間重疊度相關(guān),即

        (4)

        (5)

        (6)

        (7)

        (8)

        知識(shí)子網(wǎng)NK和對(duì)象子網(wǎng)NO間節(jié)點(diǎn)的超關(guān)聯(lián)度

        (9)

        2.3 融合概念知識(shí)和自然語(yǔ)言信息的深度語(yǔ)義檢索方法

        2.3.1 用戶查詢的解析

        在語(yǔ)義相關(guān)性計(jì)算前,基于知識(shí)超網(wǎng)絡(luò)中的實(shí)體概念,查詢解析器將自然語(yǔ)言形式的用戶查詢映射到知識(shí)超網(wǎng)絡(luò)中,稱為起始超邊HEQ,

        2.3.2 考慮類型特性的自然語(yǔ)義相關(guān)性計(jì)算

        工程知識(shí)元的CD屬性蘊(yùn)含了自然語(yǔ)言的深層語(yǔ)義,考慮知識(shí)內(nèi)容的邏輯結(jié)構(gòu)差異,在語(yǔ)義相關(guān)性計(jì)算中需要區(qū)別處理不同類型工程知識(shí)。例如,在本文使用的原始知識(shí)庫(kù)中存在“解決方案”、“軟件包說(shuō)明”和“開發(fā)公告”3類工程知識(shí),“解決方案”類知識(shí)內(nèi)容描述由標(biāo)題(摘要)→癥狀(問(wèn)題描述)→解決方案3段組成,其中標(biāo)題(摘要)→癥狀(問(wèn)題描述)是匹配用戶查詢的核心;“軟件包說(shuō)明”類知識(shí)內(nèi)容描述由摘要→已知問(wèn)題→關(guān)聯(lián)信息3段信息組成,其中對(duì)軟件包的核心功能描述只有摘要部分,已知問(wèn)題和關(guān)聯(lián)信息與用戶查詢不匹配;“開發(fā)公告”類知識(shí)的正文是參考信息,取公告標(biāo)題與用戶查詢進(jìn)行匹配。

        基于注意力機(jī)制的語(yǔ)言模型具有強(qiáng)大的深層語(yǔ)義理解能力,本文采用基于Transformers的雙向編碼表示(Bidirectional Encoder Representations from Transformers, BERT)模型評(píng)估用戶查詢和工程知識(shí)元在自然語(yǔ)義層面的相關(guān)性。計(jì)算用戶查詢與工程知識(shí)元CD屬性文本域的相關(guān)性分?jǐn)?shù),評(píng)估每個(gè)文本域和用戶查詢的相關(guān)性,而非工程知識(shí)元整體與用戶查詢間的相關(guān)性。因此,本文的計(jì)算模塊采用孿生網(wǎng)絡(luò)和平均池化設(shè)計(jì),模塊的架構(gòu)如圖6所示。

        2.3.3 基于貝葉斯定理的深度語(yǔ)義推理

        基于知識(shí)超網(wǎng)絡(luò)的語(yǔ)義推理,即搜索起始超邊HEQ相關(guān)性最高的工程知識(shí)元,P(EKU|QAP,QAO,Q)為在QAP產(chǎn)品情境中針對(duì)應(yīng)用對(duì)象QAO,工程知識(shí)元EKU可以滿足用戶查詢Q的概率:

        P(EKU|QAP,QAO,Q)=

        (10)

        式中:

        (11)

        (12)

        (13)

        (14)

        合并式(10)~式(14),最終得到知識(shí)超網(wǎng)絡(luò)中每個(gè)工程知識(shí)元與用戶查詢之間的相關(guān)性評(píng)分

        (15)

        式中S(EKU,Q)為介于[0,1]的值。按分?jǐn)?shù)倒序排列知識(shí)庫(kù)中的工程知識(shí),取得分最大的若干條輸出給工程師。

        3 案例實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        為了驗(yàn)證本文方法的有效性,在Core i7 7700HQ@2.81 GHz,16 G內(nèi)存Windows 10系統(tǒng)下編寫和運(yùn)行實(shí)驗(yàn)用程序。

        3.1.1 數(shù)據(jù)來(lái)源與采集方法

        本文從微軟知識(shí)庫(kù)(Microsoft knowledge base)爬取實(shí)驗(yàn)所用原始知識(shí)文檔,過(guò)濾無(wú)正文知識(shí)內(nèi)容的文檔,按前文所述方法規(guī)范化表征為工程知識(shí)元,存儲(chǔ)在JSON格式的交換文件中,用于本文實(shí)驗(yàn)。實(shí)驗(yàn)前先構(gòu)建原始知識(shí)庫(kù)的知識(shí)超網(wǎng)絡(luò)模型,并以節(jié)點(diǎn)列表+邊列表的形式存儲(chǔ),對(duì)象子網(wǎng)和知識(shí)子網(wǎng)以鄰接表的形式保存。

        為降低計(jì)算耗時(shí),工程師輸入用戶查詢后最多召回100條候選項(xiàng),然后采用本文方法進(jìn)行排序,最后將返回的20條相關(guān)工程知識(shí)推薦列表給工程師。測(cè)試使用的用戶查詢語(yǔ)句是一段自然語(yǔ)言文本,摘取自微軟Q&A和SegmentFault,共計(jì)10條用戶查詢。用戶查詢“基于.Net Framework 3.5的開發(fā)項(xiàng)目,多線程并行模塊調(diào)用的線程池維護(hù)線程未按預(yù)期方式工作”的輸入,解析得到的起始超邊和評(píng)分輸出如表1所示。

        表1 一次檢索對(duì)應(yīng)的輸入(用戶查詢)和輸出(知識(shí)推薦列表)

        續(xù)表1

        表中,“起始超邊”是“用戶查詢”經(jīng)解析后得到的,對(duì)應(yīng)2.3.1節(jié);“文章ID”對(duì)應(yīng)微軟知識(shí)庫(kù)中的KBNumber,通過(guò)該ID可以鏈接到富文本的知識(shí)原文;“文章標(biāo)題”是知識(shí)原文的標(biāo)題;“相關(guān)性評(píng)分”是式(15)的計(jì)算結(jié)果。請(qǐng)工程師評(píng)判檢索結(jié)果,其中正確符合用戶查詢需求的知識(shí)用下劃線加粗顯示。

        3.1.2 評(píng)估方法

        與文獻(xiàn)[4,10,12]中的知識(shí)檢索方法對(duì)比檢索結(jié)果的準(zhǔn)確率Precision。文獻(xiàn)[10]選擇Doc2Vec作為語(yǔ)義分析模塊,RM3作為查詢擴(kuò)展模塊,相似度閾值設(shè)為0.6;文獻(xiàn)[12]采用和本文方法相同的方式精調(diào),實(shí)驗(yàn)時(shí)將工程知識(shí)元的CD屬性合并為整段文本送入,準(zhǔn)確率計(jì)算如下:

        (16)

        式中:P@N表示檢索的推薦列表中前N項(xiàng)的準(zhǔn)確率,P是Precision的縮寫;TP為檢索的推薦列表中符合用戶查詢需求的知識(shí)數(shù)量;FP為推薦列表中不符合用戶查詢需求的知識(shí)數(shù)量。

        3.2 實(shí)驗(yàn)結(jié)果

        3.2.1 自然語(yǔ)義相關(guān)性計(jì)算模塊訓(xùn)練測(cè)試

        表2 不同預(yù)訓(xùn)練模型的檢索準(zhǔn)確率

        從實(shí)驗(yàn)結(jié)果來(lái)看,兩種mask方式的模型對(duì)整體檢索性能的影響沒(méi)有顯著差異。這是由于字mask模型以中文字為單元,分詞時(shí)會(huì)將一個(gè)完整的詞切分為若干子詞,全詞mask模型則以完整的中文詞為單元。而本文使用的軟件開發(fā)領(lǐng)域知識(shí)庫(kù)中,存在許多預(yù)訓(xùn)練模型未登錄的專有詞,全詞mask模型中這些專有詞會(huì)被歧義切分,降低了P@10和P@15的準(zhǔn)確率。而P@20中全詞mask的準(zhǔn)確率略高于字mask,則是因?yàn)槿~mask對(duì)通用中文詞的完整切分,可以發(fā)現(xiàn)更多相關(guān)的長(zhǎng)尾知識(shí)??傮w來(lái)看,自然語(yǔ)義相關(guān)性為先驗(yàn)概率,修正概念語(yǔ)義相關(guān)性后,先驗(yàn)概率的決定性降低,同時(shí)受限于預(yù)訓(xùn)練模型對(duì)領(lǐng)域?qū)S性~的收錄,兩種mask方式的模型對(duì)本文知識(shí)檢索性能的影響不顯著。

        3.2.2 與其他方法的對(duì)比

        對(duì)比文獻(xiàn)[4]基于關(guān)鍵詞的方法、文獻(xiàn)[10]基于本體概念推理的方法、文獻(xiàn)[12]基于語(yǔ)言模型的方法和本文方法,記為BM25F,SELM,NDSSM,CNDSSM,實(shí)驗(yàn)使用10組用戶查詢,統(tǒng)計(jì)4種方法輸出的P@10,P@15,P@20,結(jié)果如表3和圖8所示。

        表3 4種語(yǔ)義檢索方法檢索結(jié)果的準(zhǔn)確率

        由對(duì)比試驗(yàn)可見(jiàn),本文方法的工程知識(shí)檢索準(zhǔn)確率高于其他方法。SELM雖然同樣基于概念知識(shí)進(jìn)行上下文推理的語(yǔ)義檢索,但是只使用了本體的單類概念語(yǔ)義,沒(méi)有充分利用半結(jié)構(gòu)化工程知識(shí)中復(fù)合概念語(yǔ)義信息和文本的自然語(yǔ)義信息,因此檢索準(zhǔn)確率低于CNDSSM方法。NDSSM是基于語(yǔ)言模型的交互式深度語(yǔ)義搜索方法,所用模型從自然表達(dá)的上下文判斷兩段文本的相關(guān)性,并未考慮工程知識(shí)產(chǎn)生上下文對(duì)相關(guān)性的影響,因此準(zhǔn)確率低于CNDSSM方法。在取前10個(gè)最相關(guān)工程知識(shí)時(shí)(P@10),BM25F方法的準(zhǔn)確率僅有0.25,CNDSSM的領(lǐng)先優(yōu)勢(shì)較P@20時(shí)更為顯著,這是由于BM25F基于關(guān)鍵詞進(jìn)行匹配,受信息密度變化的影響,不能公平地計(jì)算不同類型知識(shí)與用戶查詢語(yǔ)句的相關(guān)性,在返回的推薦列表前部給出了更多長(zhǎng)文本的工程知識(shí)。而CNDSSM在定制多文本域自然語(yǔ)義計(jì)算模塊、解決長(zhǎng)度問(wèn)題的同時(shí),利用工程知識(shí)元中的實(shí)體信息計(jì)算概念語(yǔ)義,提高了語(yǔ)義相關(guān)性評(píng)估的準(zhǔn)確性。可以看出,采用本文提出的CNDSSM方法對(duì)軟件開發(fā)中的工程知識(shí)進(jìn)行檢索時(shí)效果更好。

        4 結(jié)束語(yǔ)

        針對(duì)傳統(tǒng)檢索方法的不足,本文面向工業(yè)軟件開發(fā)提出一種基于超網(wǎng)絡(luò)模型的知識(shí)檢索方法。該方法針對(duì)代碼模塊重用的現(xiàn)象,使用產(chǎn)品樹表示語(yǔ)義關(guān)聯(lián);基于已知的概念知識(shí)抽取屬性信息解決屬性缺失的問(wèn)題,并將多類型的工程知識(shí)規(guī)范化表征為適合機(jī)器處理的工程知識(shí)元;通過(guò)知識(shí)超網(wǎng)絡(luò)表示復(fù)合的語(yǔ)義關(guān)聯(lián),將工程知識(shí)的產(chǎn)品情境、應(yīng)用對(duì)象、知識(shí)內(nèi)容3種信息整合到統(tǒng)一框架下,采用貝葉斯方法計(jì)算用戶查詢和工程知識(shí)的語(yǔ)義相關(guān)性。本文有兩個(gè)特點(diǎn):①針對(duì)半結(jié)構(gòu)化工程知識(shí)的特點(diǎn),設(shè)計(jì)了一種多信息域聯(lián)合的實(shí)體識(shí)別方法,適用于工程知識(shí)的規(guī)范化表征;②基于預(yù)訓(xùn)練語(yǔ)言模型,設(shè)計(jì)了一種考慮知識(shí)類型的自然語(yǔ)義相關(guān)性計(jì)算模塊,以在相關(guān)性推理中融合概念語(yǔ)義和自然語(yǔ)義,適用于工程知識(shí)庫(kù)的檢索。實(shí)驗(yàn)結(jié)果表明,本文方法有效利用了軟件開發(fā)工程知識(shí)的深層語(yǔ)義,其準(zhǔn)確率較其他語(yǔ)義檢索方法提高了至少12.5%。

        因?yàn)楸疚姆椒▽?duì)不同類型知識(shí)的識(shí)別和處理還需人工干預(yù),所以將其應(yīng)用于載體類型復(fù)雜的異構(gòu)知識(shí)庫(kù)時(shí)難度較大。下一步研究將考慮更多的知識(shí)類型,從識(shí)別異構(gòu)工程知識(shí)的通用性出發(fā),捕獲多維語(yǔ)義信息,擴(kuò)展方法在不同工程場(chǎng)景下的應(yīng)用。

        猜你喜歡
        子網(wǎng)知識(shí)庫(kù)結(jié)構(gòu)化
        一種簡(jiǎn)單子網(wǎng)劃分方法及教學(xué)案例*
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
        子網(wǎng)劃分問(wèn)題研究及應(yīng)用
        子網(wǎng)劃分的簡(jiǎn)易方法
        高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
        基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        基于安全協(xié)議的虛擬專用子網(wǎng)研究
        河南科技(2014年16期)2014-02-27 14:13:04
        人妻丰满av∨中文久久不卡| 级毛片内射视频| 欧美狠狠入鲁的视频777色| 精品无码专区久久久水蜜桃 | 国产熟妇按摩3p高潮大叫| 欧美国产亚洲日韩在线二区| 国产三级自拍视频在线| 狼人伊人影院在线观看国产| 国产高清一区在线观看| 亚洲女同免费在线观看| 精品国产精品国产偷麻豆| 国产av国片精品| 日韩精品欧美激情国产一区| 成人av一区二区三区四区| 人妻少妇精品无码专区| 亚洲国产区男人本色| 国产 无码 日韩| 亚洲黄色一级在线观看| 亚洲色爱免费观看视频| 含羞草亚洲AV无码久久精品| 国产网红一区二区三区| 久久精品国产免费观看三人同眠 | 国产亚洲精品一区在线| 秘书边打电话边被躁bd视频| 色爱区综合激情五月综合小说 | 国产a级午夜毛片| 亚洲国产人成自精在线尤物| 成人区人妻精品一区二区三区| 成年无码av片完整版| 音影先锋色天堂av电影妓女久久| 青青草视频在线观看绿色| 人妻少妇精品视频专区| 免费一区二区三区在线视频| 亚洲中文字幕久爱亚洲伊人| 中文字幕色资源在线视频| 又爽又黄又无遮挡网站| 三级网址在线| 人妻系列少妇极品熟妇| 国产麻豆精品精东影业av网站| 无遮高潮国产免费观看| 精品中文字幕手机在线|