任媛 李家興 陸相羽
摘 要: 為利用人臉識(shí)別快速了解學(xué)術(shù)會(huì)議參會(huì)人員、來(lái)訪學(xué)者的信息,以及他們與本校學(xué)者的聯(lián)系,構(gòu)建相關(guān)領(lǐng)域知識(shí)圖譜尤為重要,本文首先介紹系統(tǒng)構(gòu)建的流程、功能模塊,其次介紹了知識(shí)圖譜的技術(shù)路線,最后對(duì)該系統(tǒng)提出改進(jìn)和展望。
關(guān)鍵詞: 知識(shí)圖譜;圖數(shù)據(jù)庫(kù);人臉識(shí)別;學(xué)者信息
1.背景介紹
隨著學(xué)校辦學(xué)水平的提升,越來(lái)越多的專家學(xué)者蒞臨我校進(jìn)行學(xué)術(shù)交流,為每位來(lái)訪學(xué)者建立數(shù)據(jù)庫(kù),記錄其交流的內(nèi)容和與本校老師合著的信息,對(duì)未來(lái)進(jìn)一步的科研教學(xué)合作有著至關(guān)重要的意義。傳統(tǒng)的基于關(guān)鍵詞的搜索由于其固有的重名低效等缺點(diǎn)將不適用于復(fù)雜的來(lái)訪學(xué)者信息搜索系統(tǒng),所以構(gòu)建一套新的搜索系統(tǒng)是很有必要的,基于此本文提出了一種基于人臉識(shí)別的來(lái)訪學(xué)者信息知識(shí)圖譜構(gòu)建方法。
2.系統(tǒng)構(gòu)建流程
本系統(tǒng)利用圖數(shù)據(jù)庫(kù)對(duì)學(xué)者信息進(jìn)行存儲(chǔ),使用人臉識(shí)別技術(shù)代替人名關(guān)鍵詞進(jìn)行檢索,系統(tǒng)在安卓平臺(tái)的智能手機(jī)上運(yùn)行。用戶通過(guò)客戶端拍照,將目標(biāo)照片導(dǎo)入人臉庫(kù)系統(tǒng),然后目標(biāo)照片在系統(tǒng)中完成識(shí)別和檢索等操作,將目標(biāo)照片所對(duì)應(yīng)的ID發(fā)送請(qǐng)求到服務(wù)器端,服務(wù)器端收到請(qǐng)求后,連接圖數(shù)據(jù)庫(kù),返回實(shí)體屬性關(guān)系等信息。
3.知識(shí)圖譜
3.1 信息抽取
3.1.1信息來(lái)源
現(xiàn)有的知識(shí)圖譜主要從自頂向下和自底向上的兩種構(gòu)建方式:
3.1.2 信息抽取
數(shù)據(jù)獲取后,還需要從這些數(shù)據(jù)中抽取出實(shí)體、屬性、關(guān)系等結(jié)構(gòu)化信息建立圖數(shù)據(jù)庫(kù)。
1)實(shí)體抽取
早期是人工編寫抽取規(guī)則,輔助利用機(jī)器學(xué)習(xí)方法進(jìn)行實(shí)體抽取,但這種方法耗費(fèi)大量人力,可擴(kuò)展性差,算法性能依賴于訓(xùn)練樣本的規(guī)模,具有明顯的局限性。面向開放域的實(shí)體抽取和分類技術(shù)能夠較好地解決這一問(wèn)題,即對(duì)于任意給定的實(shí)體,采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,從目標(biāo)數(shù)據(jù)集(通常是網(wǎng)頁(yè)等文本數(shù)據(jù))中抽取出與之具有相似上下文特征的實(shí)體,從而實(shí)現(xiàn)實(shí)體的分類和聚類。
2)關(guān)系抽取
早期通過(guò)人工構(gòu)造語(yǔ)法和語(yǔ)義規(guī)則,采用模式匹配的方法來(lái)識(shí)別實(shí)體間的關(guān)系。但這種方法工作量大,可擴(kuò)展性差,因此采用面向開放域的關(guān)系抽取技術(shù),直接利用語(yǔ)義中的關(guān)鍵詞匯對(duì)實(shí)體關(guān)系進(jìn)行建模,不需要預(yù)先指定實(shí)體關(guān)系的分類,比如面向開放域的信息抽取方法框架(Open Information Extraction, OIE)?,F(xiàn)在OIE系統(tǒng)存在的主要問(wèn)題是抽取的準(zhǔn)確率以及系統(tǒng)對(duì)隱含實(shí)體關(guān)系的識(shí)別能力。
3)屬性抽取
基于規(guī)則和啟發(fā)式算法的屬性抽取算法(百科類網(wǎng)站提供的半結(jié)構(gòu)化數(shù)據(jù)是當(dāng)前實(shí)體屬性抽取研究的主要數(shù)據(jù)來(lái)源),如本體知識(shí)庫(kù)(YAGO),其抽取準(zhǔn)確率高達(dá)95%。
4)知識(shí)存儲(chǔ)
當(dāng)下的許多數(shù)據(jù)庫(kù)采用關(guān)系型數(shù)據(jù)庫(kù)對(duì)其進(jìn)行存儲(chǔ),而在實(shí)際數(shù)據(jù)處理時(shí)所使用的數(shù)據(jù)卻是圖結(jié)構(gòu)數(shù)據(jù),Neo4j采用圖結(jié)構(gòu)的存儲(chǔ)方式,在實(shí)際的數(shù)據(jù)處理過(guò)程中也是調(diào)用的圖結(jié)構(gòu)原始數(shù)據(jù)。且具有性能高、存儲(chǔ)讀寫速度快、穩(wěn)定性好等優(yōu)點(diǎn);在早期的文檔、技術(shù)博客等圖形數(shù)據(jù)庫(kù)中運(yùn)用較多,所以本文采用Neo4j來(lái)對(duì)圖譜數(shù)據(jù)進(jìn)行存儲(chǔ)。
4.人臉識(shí)別的實(shí)現(xiàn)
通過(guò)直接調(diào)用已有的人臉檢測(cè)/識(shí)別的免費(fèi)開源API,如EYEKEY、虹軟ArcFace、SeetaFace等。
參考文獻(xiàn)
[1]劉嶠,李楊,段宏,劉瑤,秦志光. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展,2016,53(03):582-600.
[2]肖明,邱小花,黃界,李國(guó)俊,馮召輝. 知識(shí)圖譜工具比較研究[J]. 圖書館雜志,2013,32(03):61-69.
[3]顧昭藝. 基于人臉識(shí)別的社交關(guān)系檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2013.