張鄭
摘要:隨著人們對手機需求、功能等要求逐漸增多,手機市場的競爭越來越激烈,手機質(zhì)量的好壞直接影響產(chǎn)品的競爭優(yōu)勢,及時發(fā)現(xiàn)產(chǎn)品質(zhì)量問題,找出解決辦法,對提高手機產(chǎn)品競爭力具有十分重要的作用。知識圖譜是一種展示實體之間關(guān)系的語義網(wǎng)絡(luò),具有強大的推理能力,在數(shù)據(jù)挖掘、存儲、展示等方面具有重要應(yīng)用。本文結(jié)合手機生產(chǎn)、使用過程中的故障知識,構(gòu)建手機檢測領(lǐng)域知識圖譜,通過檢測標(biāo)準(zhǔn)知識圖譜進行產(chǎn)品質(zhì)量檢測,提高手機質(zhì)量檢測效率。
關(guān)鍵詞:手機檢測;知識圖譜;語義網(wǎng)絡(luò)
1、引言
21世紀(jì)以來,移動通信技術(shù)迅速發(fā)展,手機產(chǎn)品推陳出,已經(jīng)成為人們生活中必不可缺的電子產(chǎn)品?,F(xiàn)階段手機故障檢測多數(shù)依靠人工檢測的方法,檢測效率低、差錯率較高、并且對于檢測過程中產(chǎn)生的大量檢測業(yè)務(wù)數(shù)據(jù)沒有深度挖掘,無法建立故障數(shù)據(jù)之間的知識關(guān)聯(lián),不能夠為今后的質(zhì)量檢測提供知識性支撐,延長手機質(zhì)量檢測周期。
知識圖譜(Knowledge Graph)是由谷歌公司2012年提出[1],是新一代語義網(wǎng)的實現(xiàn),主要是對各種不同類型知識資源與其載體進行挖掘與分析,并建立他們之間的聯(lián)系,通過將事實描述存儲為三元組,以結(jié)構(gòu)化形式反映現(xiàn)實世界里各個實體、概念與關(guān)系。知識圖譜的使用能夠解決數(shù)據(jù)冗余、關(guān)聯(lián)、展示等問題。構(gòu)建手機檢測領(lǐng)域知識圖譜,能夠?qū)⑹謾C檢測過程中不同類型的數(shù)據(jù)進行集成,進行數(shù)據(jù)推理,找出之間聯(lián)系,實現(xiàn)信息共享,提高檢測效率。
2、關(guān)鍵技術(shù)
知識圖譜的本質(zhì)是一種語義網(wǎng),將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行整合,構(gòu)建為一個數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò),主要以實體或者概念為節(jié)點,以關(guān)系為邊,將不同類型數(shù)據(jù)鏈接在一起并通過圖結(jié)構(gòu)表示,通常各種實體和概念以及他們之間的關(guān)系以三元組的形式表示:
G=(E1,R,E2) (1)
G=(E,A,V) (2)
第一個三元組表示實體之間、概念之間的關(guān)系,第二個三元組表示實體內(nèi)部的特性,屬性及其屬性值。本文構(gòu)建手機質(zhì)量檢測領(lǐng)域知識圖譜需要從邏輯層和技術(shù)層兩方面進行設(shè)計。
知識圖譜邏輯層面設(shè)計包含圖譜模式層和數(shù)據(jù)層[2]。模式層主要構(gòu)建了本圖譜的基本“骨架”,它定義了該領(lǐng)域的涉及的類和類之間關(guān)系以及概念與概念之間的關(guān)系,從而能夠規(guī)范化對知識庫進行管理。數(shù)據(jù)層是在模式層指導(dǎo)下,對所采集的數(shù)據(jù)源進行處理,實現(xiàn)實體識別,關(guān)系抽取以及數(shù)據(jù)存儲,從而實現(xiàn)將不同數(shù)據(jù)類型轉(zhuǎn)化為三元組形式,進行可視化表達(dá)。
知識圖譜數(shù)據(jù)層面主要是依靠應(yīng)用的場景和構(gòu)建的需求,根據(jù)領(lǐng)域特色采用不同的數(shù)據(jù)處理辦法,主要集中于命名實體識別、實體關(guān)系抽取、知識消歧和知識存儲等方面,依據(jù)不同的場景選擇不同處理方法,提高數(shù)據(jù)的準(zhǔn)確度和精確度。
本文為面向手機質(zhì)量檢測領(lǐng)域知識圖譜構(gòu)建,通過數(shù)據(jù)層和模式層共同構(gòu)建領(lǐng)域知識圖譜。模式層主要根據(jù)手機質(zhì)量檢測過程中遵循的行業(yè)檢測標(biāo)準(zhǔn),專業(yè)術(shù)語,及其相關(guān)概念采用“自頂向下”的方式構(gòu)建其“基本骨架”,數(shù)據(jù)層從手機質(zhì)量檢測領(lǐng)域中產(chǎn)生的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中進行數(shù)據(jù)抽取,主要實現(xiàn)手機領(lǐng)域的命名實體識別,關(guān)系抽取、屬性提取。最后通過Neo4j數(shù)據(jù)庫進行圖譜的可視化展示。
3、知識圖譜構(gòu)建關(guān)鍵技術(shù)
3.1 命名實體識別
命名實體識別是對已經(jīng)給定的非結(jié)構(gòu)化文本中,提取出能夠表示具體實體或者抽象實體的詞組或單詞,是知識結(jié)構(gòu)化、實體語義表示和數(shù)字化的基礎(chǔ)[3].基于神經(jīng)網(wǎng)絡(luò)將命名實體識別看作是一種序列標(biāo)注問題,利用詞向量為特征,減少人工特征標(biāo)注。通過BIEO方法對手機基本檢測數(shù)據(jù)進行數(shù)據(jù)集標(biāo)注,通過雙向長短期記憶網(wǎng)絡(luò)與條件隨機場組合模型(Bi-directional Long Short-Term Memory+Conditional Random Field,Bi-LSTM+CRF)訓(xùn)練實現(xiàn)手機檢質(zhì)量測領(lǐng)域?qū)嶓w識別。
3.2 實體關(guān)系抽取
實體關(guān)系抽取主要是對于非結(jié)構(gòu)化數(shù)據(jù)而言,抽取出文本間或句子間兩個實體的語義關(guān)系,將實體通過關(guān)系進行連接,從而形成結(jié)構(gòu)化數(shù)據(jù)。實體關(guān)系抽取是知識圖譜構(gòu)建構(gòu)成中的重要環(huán)節(jié)。為了減少關(guān)系抽取對人工關(guān)系設(shè)計特征的依賴性,提高抽取準(zhǔn)確率,采用神經(jīng)網(wǎng)絡(luò)方式自動提取文本特征,并在已有的Bi-LSTM網(wǎng)絡(luò)模型訓(xùn)練基礎(chǔ)上,引入膠囊網(wǎng)絡(luò),構(gòu)建出初級膠囊,在通過動態(tài)路由算法進行選擇得到相匹配的輸出膠囊,動態(tài)路由算法是以迭代的方法構(gòu)造一個非線性映射,由一個較低級別神經(jīng)元決定發(fā)送輸出給更高級別的神經(jīng)元,確保每個膠囊的輸出被發(fā)送到下一層中的適當(dāng)父級,通過路由算法,當(dāng)膠囊將自己學(xué)習(xí)預(yù)測到的數(shù)據(jù)傳給更高層次膠囊時,如果預(yù)測一致時,父級膠囊將變得更加活躍,這樣就可以使?jié)撛诘母讣墝ο罄脛討B(tài)路算法減小連接強度。通過該方法,可以較好的提高關(guān)系抽取的準(zhǔn)確度。
3.3 知識存儲
知識圖譜的數(shù)據(jù)存儲主要有:資源描述框架(RDF存儲模式)[4]和圖
數(shù)據(jù)庫存儲兩種模式,利用圖數(shù)據(jù)庫進行知識存儲,具有數(shù)據(jù)遍歷、檢索效率高,數(shù)據(jù)更新實時性快,擴展性能好等優(yōu)勢。采用Neo4j圖數(shù)據(jù)庫對抽取的實體、實體關(guān)系及其屬性值組成的三元組進行存儲,從而進行可視化展示,通過Cypher語句查詢相應(yīng)節(jié)點、搜尋實體之間的關(guān)系。
結(jié)語
手機的質(zhì)量直接影響人們的使用、安全,是一個品牌的競爭優(yōu)勢的重要因素,因此必須嚴(yán)格保障手機質(zhì)量,及時進行質(zhì)量檢測、手機維修。本文通過構(gòu)建手機質(zhì)量檢測領(lǐng)域知識圖譜,整合質(zhì)量檢測數(shù)據(jù)資源,通過數(shù)據(jù)關(guān)聯(lián)、知識可視化,為質(zhì)檢人員提供更加直接的數(shù)據(jù)支撐,提高數(shù)據(jù)的利用率。
參考文獻(xiàn):
[1]Newton C. Google. s Knowledge graph tripled in size in seven months[EB/OL]. [2019-01-20]. https://en.wikipedia.org/wiki/CBS_Interac‐tive.
[2]劉 嶠 , 李 楊 , 段 宏 , 等 . 知 識 圖 譜 構(gòu) 建 技 術(shù) 綜 述 [J]. 計 算 機 研 究 與 發(fā) 展 , 2016, 53(3):582-600.
[3]Zheng S, Hao Y, Lu D, et al. Joint entity and relation extraction based on a hybrid neural network[J]. Neurocomputing, 2017, 257: 59-66.
[4]王曉云, 楊子煜. 基于科研本體的國防科技知識圖譜構(gòu)建[J]. 中華醫(yī)學(xué)圖書情報雜志, 2018, 27(7):6-13.