亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        徽派建筑知識圖譜的半自動化構(gòu)建

        2021-11-18 08:05:06張潤梅楊超尹蕾張媛
        安徽建筑大學學報 2021年5期
        關(guān)鍵詞:數(shù)據(jù)庫建筑模型

        張潤梅,楊超,尹蕾,張媛

        (1.安徽建筑大學 機械與電氣工程學院,安徽 合肥 30601;2.安徽建筑大學 電子與信息工程學院,安徽 合肥 230601)

        將傳統(tǒng)建筑的特征元素融入到現(xiàn)代建筑設計中是實現(xiàn)傳統(tǒng)建筑傳承的必要手段,也是弘揚傳統(tǒng)文化的有效途徑。傳統(tǒng)建筑及其構(gòu)件本身具備獨特的美感,且類型豐富,數(shù)量巨大,通過傳統(tǒng)的手段獲取所需的傳統(tǒng)建筑數(shù)據(jù)信息是一件費時費力的工作。2012年,谷歌正式提出知識圖譜的概念,旨在實現(xiàn)更加智能化的搜索引擎。隨著人工智能和大數(shù)據(jù)技術(shù)的不斷發(fā)展和應用,知識圖譜已在多個領域得到了廣泛應用,如智能搜索、智能問答、個性化推薦等。目前基于知識的智能問答和推薦系統(tǒng)有很多,如蘋果手機智能語音助手Siri、科大訊飛的訊飛開放平臺等,但基于傳統(tǒng)建筑知識庫構(gòu)建智能化推薦和搜索系統(tǒng)的研究尚不多見。因此,構(gòu)建傳統(tǒng)建筑知識圖譜是實現(xiàn)大規(guī)模知識管理和應用的基礎,具有重要的研究意義與應用價值。

        近年來,特定領域知識圖譜構(gòu)建的研究受到研究者的廣泛關(guān)注。祁志武將知識圖譜與地質(zhì)標本相結(jié)合,通過七步法構(gòu)建了地質(zhì)標本知識本體,實現(xiàn)了地質(zhì)標本知識圖譜的構(gòu)建。王良萸針對碳交易領域的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),分別采用自定義的Web數(shù)據(jù)包裝器,結(jié)合BiLSTM-CRF模型與依存句法分析實現(xiàn)了三元組抽取,構(gòu)建了碳交易領域知識圖譜。湯潔提出了一種基于啟發(fā)式規(guī)則的網(wǎng)頁正文內(nèi)容抽取算法,并提出基于最短路徑算法和深度優(yōu)先搜索算法來分析金融市場中各實體之間的關(guān)系。

        目前,很多專業(yè)領域已完成了知識圖譜構(gòu)建,且基于知識圖譜的各類應用開發(fā)也得到迅速發(fā)展。國內(nèi)外很多大公司通過知識圖譜來提高服務質(zhì)量,如金融知識圖譜、醫(yī)學知識圖譜、化學知識圖譜等。在建筑領域更多針對聚落基因圖譜開展相關(guān)研究,如秦為徑等人對涼山彝族地區(qū)的鄉(xiāng)土景觀基因要素進行提取、分類和編碼,完成了涼山彝族地區(qū)鄉(xiāng)土景觀基因圖譜信息鏈的構(gòu)建。聶聆通過對徽州古村落景觀特征進行研究識別,構(gòu)建了徽州古村落景觀基因圖譜。翟洲燕等人通過對陜西省35個傳統(tǒng)村落的分析,識別并提取了傳統(tǒng)村落文化遺產(chǎn)景觀基因,繪制了陜西傳統(tǒng)村落文化遺產(chǎn)景觀基因組圖譜。但以上均未形成完整的、專業(yè)的知識圖譜。

        徽派建筑形成于宋,成長于元,至明清達到鼎盛,是中國傳統(tǒng)建筑的重要組成部分?;张山ㄖN類繁多,建筑形式多樣,時間跨度大。要實現(xiàn)數(shù)據(jù)有效整合,自動構(gòu)建徽派建筑知識圖譜存在諸多困難。本文從分析徽派建筑現(xiàn)存資料入手定義了徽派建筑知識圖譜的概念層,通過對異構(gòu)數(shù)據(jù)過濾、清洗、解析、進行實體、屬性以及關(guān)系的抽取,并通過構(gòu)建徽派建筑領域詞典,結(jié)合先驗知識提升了BiLSTM-CRF模型的實體識別效果,通過Neo4j圖數(shù)據(jù)庫實現(xiàn)知識的表示、存儲并用Cypher實現(xiàn)知識查詢。

        1 知識圖譜構(gòu)建相關(guān)技術(shù)

        1.1 命名實體識別

        命名實體識別作為自然語言處理的一項基礎技術(shù),其主要任務是識別出文本數(shù)據(jù)中的專有名詞和有特殊含義的詞并將其歸類到已定義的類型中。命名實體識別有基于規(guī)則的方法、基于大規(guī)模語料庫的統(tǒng)計方法和基于機器學習的方法三種基本方法,本文采用的是基于機器學習的方法。

        1.2 條件隨機場模型

        其中:z為規(guī)范因子,f為特征函數(shù),

        λ

        是對應的權(quán)重。上式表示在輸入數(shù)據(jù)序列m的條件下,得到輸出序列n的概率。

        1.3 長短期記憶網(wǎng)絡模型

        長短期記憶網(wǎng)絡模型(Long Short-Term Memory,LSTM)是對循環(huán)神經(jīng)網(wǎng)絡模型(Recurrent Neural Network,RNN)改進后的特殊形式的模型,由Hochreiter等人于1997年提出,主要思想是通過改變RNN中的隱藏層機構(gòu),采用門結(jié)構(gòu)方式控制RNN中信息的傳播方式,通過不同門結(jié)構(gòu)來控制信息的輸入、遺忘、變換、輸出等過程。LSTM的缺點是無法完整獲取語句的上下文信息,因此,研究者們采用雙向長短記憶網(wǎng)絡(Bi-directional Long Short-Term Memory,BiLSTM)方法。

        1.4 BiLSTM-CRF模型結(jié)構(gòu)

        將CRF模塊作為BiLSTM模塊的輸出層,解決了字向量經(jīng)過BiLSTM層后可能得到無效標簽序列的問題。CRF層將BiLSTM層輸出的標簽數(shù)列進行集中解碼,獲得整個句子的序列標注,而不是僅對單一標簽進行單獨的解碼。BiLSTM模型加入CRF層后可以考慮到不同類型標簽之間的關(guān)聯(lián)性,使得輸入的數(shù)據(jù)序列經(jīng)過模型處理后可以得到一個最優(yōu)的標簽序列。BiLSTM-CRF模型結(jié)構(gòu)圖如圖1所示。

        圖1 BiLSTM-CRF模型結(jié)構(gòu)圖

        2 徽派建筑知識圖譜的半自動化構(gòu)建

        徽派建筑知識圖譜的構(gòu)建分為四個步驟,如圖2所示。

        圖2 徽派建筑知識圖譜構(gòu)建流程圖

        (1)概念層的構(gòu)建。本文采用傳統(tǒng)的自頂向下的方法構(gòu)建了徽派建筑知識圖譜的基本概念層。

        (2)利用結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),包括網(wǎng)頁數(shù)據(jù),現(xiàn)有數(shù)據(jù)庫等抽取實體、屬性以及關(guān)系,然后進行命名實體識別。

        (3)知識表示?;张山ㄖR圖譜使用屬性圖為基本的表示形式。

        (4)知識存儲。使用Neo4j圖數(shù)據(jù)庫存儲徽派建筑知識數(shù)據(jù)。

        2.1 概念層構(gòu)建

        概念層構(gòu)建是對徽派建筑知識圖譜主體框架的構(gòu)建,需要定義類及類之間的關(guān)系,即對知識圖譜中的概念及概念之間的語義關(guān)系進行定義。

        本文構(gòu)建的是徽派建筑知識圖譜,以民居、祠堂為主,設計并構(gòu)建了徽派建筑領域知識圖譜的概念層,主要從建筑基本信息、建筑平面信息、建筑立面、建筑空間分布、雕刻、文化特色六大類進行定義。

        概念類通過相關(guān)屬性進行詳細描述,傳統(tǒng)建筑基本信息屬性包括建筑名稱、類型、坐落位置、建造時期。建筑平面的屬性包括建筑開間、布局、外觀。立面屬性包括馬頭墻、門樓??臻g屬性有檐高、屋脊高度、院落進數(shù)和拼接方式。雕刻屬性包括石雕、磚雕、木雕?;张山ㄖR圖譜模式層如圖3所示。

        圖3 徽派建筑知識圖譜模式層

        2.2 基于BiLSTM-CRF模型的命名實體識別

        從獲取到的原始數(shù)據(jù)文本中獲取實體是構(gòu)建徽派建筑知識圖譜的關(guān)鍵步驟,基于神經(jīng)網(wǎng)絡的命名實體識別模型已在通用領域中廣泛使用。神經(jīng)網(wǎng)絡模型方法的優(yōu)勢在于可以對數(shù)據(jù)特征進行自動提取,而且訓練模型的過程是端到端的,生成的模型可以直接用于命名實體識別。因此,本文采用BiLSTM-CRF學習框架與徽派建筑詞典相結(jié)合的方法,對徽州傳統(tǒng)建筑的命名實體進行識別。圖4為徽派建筑命名實體識別關(guān)鍵技術(shù)框架圖。

        圖4 徽派建筑命名實體識別關(guān)鍵技術(shù)框架圖

        2.2.1 分詞

        本文選擇基于中文語料庫的CorpusWordParser進行分詞。CorpusWordParser基于現(xiàn)代漢語通用平衡語料庫開發(fā),具有中文分詞和詞性標注等功能,用戶可以自行添加詞表來增強分詞效果。分詞結(jié)果如圖5所示。

        圖5 分詞結(jié)果圖

        2.2.2 數(shù)據(jù)搜集與處理

        由于目前缺乏用于徽派建筑命名實體識別的公開數(shù)據(jù)集,本文通過實驗室已建成的數(shù)據(jù)庫及百科詞條構(gòu)造了徽派建筑語料庫,語料庫涵蓋了徽派建筑典型的建筑類型。另外,實驗室已建成的國內(nèi)唯一的徽州傳統(tǒng)建筑特征元素數(shù)據(jù)庫,收集了近百種建筑構(gòu)件相關(guān)數(shù)據(jù)近萬條,徽州地區(qū)100多個聚落、萬幢建筑的相關(guān)信息。本文的實驗數(shù)據(jù)來自經(jīng)過整理分析的數(shù)據(jù)庫數(shù)據(jù)和相關(guān)徽派建筑百度百科詞條信息。

        本文抽取了168個描述徽派建筑文本,將其中80%的樣本數(shù)據(jù)作為訓練集,20%作為測試集。當訓練出的準確率達到設定的標準后,用訓練好的模型從168條文本中抽取徽派建筑的實體,使用BRAT文本標注工具進行數(shù)據(jù)標注,對獲取的語料進行數(shù)據(jù)格式轉(zhuǎn)換。按照BIO格式對語料進行標記,標記為:B、I、O,分別表示實體的首字符、中間字符和非建筑名詞。

        2.2.3 BiLSTM-CRF與徽派建筑詞典相結(jié)合的命名實體識別

        通過對《中國古代建筑辭典》的參考分析,構(gòu)建本文所需要的徽派建筑詞典,通過詞典來獲取非結(jié)構(gòu)化文本中的語料類別信息,把獲取的信息作為特征值傳遞給BiLSTM-CRF模型去識別數(shù)據(jù)中的徽派建筑實體,類別信息如表1所示。本文將描述徽派建筑的數(shù)據(jù)分為兩類,一類是描述徽派建筑的術(shù)語,標記為“HA”。其他非建筑術(shù)語,標記為“HO”。

        表1 類別信息

        2.2.4 實驗與結(jié)果

        實驗抽取168條非結(jié)構(gòu)化文本數(shù)據(jù),任意選取其中的130條數(shù)據(jù)進行命名實體識別。將100條數(shù)據(jù)作為訓練樣本,30條數(shù)據(jù)作為測試樣本。為了緩解模型存在過擬合性,將BiLSTM模型網(wǎng)絡輸入與輸出端的Dropout rate值設為0.5,實驗結(jié)果如表2所示。

        表2 識別結(jié)果統(tǒng)計

        為了判別BiLSTM-CRF模型結(jié)合徽派建筑詞典特征的性能,分別進行了BiLSTM模型、BiLSTMCRF模型和BiLSTM-CRF模型結(jié)合徽派建筑詞典特征的對比實驗。根據(jù)表2的實驗結(jié)果可以看出,結(jié)合詞典特征的BiLSTM-CRF模型比其他兩組實驗,在準確率、召回率和F1值上都取得了最好的效果。BiLSTM-CRF模型比BiLSTM模型效果好,是因為BiLSTM-CRF模型能夠利用上下文的語義信息以及相鄰標簽間的關(guān)系,產(chǎn)生更優(yōu)的標簽序列。結(jié)合徽派建筑詞典特征的BiLSTM-CRF模型比單獨使用BiLSTM-CRF模型準確率提升了3.49%,召回率上升了1.34%,F(xiàn)1值提高了2.41%。分析實驗結(jié)果發(fā)現(xiàn),在徽派建筑訓練數(shù)據(jù)集中沒有明顯特征的建筑名詞被結(jié)合詞典的BiLSTM-CRF模型準確地識別了出來,體現(xiàn)了作為先驗知識的詞典對實體識別起到了重要的輔助作用。例如佛塔,在徽州區(qū),塔主要指的是村口的風水塔,如黟縣柯村鄉(xiāng)的旋溪塔。佛塔的相關(guān)數(shù)據(jù)不多,在本文的訓練樣本中沒有描述佛塔的術(shù)語,但是徽派建筑詞典能準確的識別出此類建筑術(shù)語,利用這些建筑術(shù)語的語料信息為BiLSTMCRF模型提供支持,使得識別效果更好。

        因為實驗在準確率、召回率和F值上都取得了比較好的效果,因此,本文利用結(jié)合徽派建筑詞典的BiLSTM-CRF模型,對168條非結(jié)構(gòu)化數(shù)據(jù)進行徽派建筑實體的抽取,共抽取出504個徽派建筑實體。

        2.3 知識表示

        知識圖譜是一種網(wǎng)絡結(jié)構(gòu)圖,實體就是圖里面的節(jié)點,實體之間的關(guān)系就是圖的邊。知識圖譜有兩種表示形式:三元組和屬性圖。本文采用Neo4j圖數(shù)據(jù)庫來存儲徽派建筑領域知識,用屬性圖模型表示知識。

        屬性圖模型就是頂點、邊、標簽、關(guān)系類型和屬性組成的有向圖。實體可以表示成一個或多個鍵值對形式的屬性:

        (1)頂點。每個頂點具有一個唯一的ID,每個頂點還有一個實體類,表示頂點所對應的概念類型,每個頂點屬性的集合通過鍵值對來表示。

        (2)邊。每一條邊都有一個唯一的ID,每一條邊都有一個頭結(jié)點和尾結(jié)點。同時,每一條邊有一個實體類type,表示頭節(jié)點和尾結(jié)點的關(guān)系,每條邊也由鍵值對來定義邊屬性集合。

        圖6為Neo4j的一個實體屬性圖模型,實體大菩薩廳和空間布局串聯(lián)之間的關(guān)系是拼接方式。其中,id是實體的位置符號,是其唯一的標識符;type表示實體類別;start表示頭結(jié)點id;end表示尾結(jié)點id;name表示對應節(jié)點屬性描述。

        圖6 實體的屬性圖模型

        2.4 知識存儲與可視化展示

        本文采用的是Neo4j圖數(shù)據(jù)庫來存儲數(shù)據(jù)。Neo4j是一個高性能的、基于Java語言開發(fā)并且開源的圖形數(shù)據(jù)庫,它將結(jié)構(gòu)化數(shù)據(jù)存儲在靈活的、面向?qū)ο蟮木W(wǎng)絡結(jié)構(gòu)中而不是表格中,它還具備了完整的數(shù)據(jù)庫特性。通過對知識圖譜進行可視化展示,使得用戶更加直觀、清晰地了解實體之間的關(guān)聯(lián)規(guī)則。

        將提取出的徽派建筑的建筑實體以及實體與實體之間的關(guān)系等數(shù)據(jù)信息全部整理成結(jié)構(gòu)化的數(shù)據(jù),并設置相應的概念類存儲在CSV格式的文件中,如表3、4所示。然后將所有的CSV文件通過Cypher導入到Neo4j圖數(shù)據(jù)庫中,即完成了徽派建筑知識圖譜的數(shù)據(jù)存儲。

        表3 徽派建筑實體在CSV文件中的錄入格式

        表4 徽派建筑實體、類型實體及兩者關(guān)系在CSV文件中的存儲格式

        將徽派建筑知識數(shù)據(jù)存儲到Neo4j圖數(shù)據(jù)庫后,圖7徽派建筑知識圖譜(節(jié)選)中紫色圓圈表示建筑類型實體,深藍色圓圈表示建筑實體,連接建筑類型實體與建筑實體之間的線段表示這些實體之間相對應的關(guān)系。圖中展示了包括民居、祠堂、牌坊等16種不同的建筑類型,每種建筑實體展示出了建筑位置,開間及門樓形式等信息,同時介紹了徽派建筑著名的三雕技術(shù),包括7種雕刻手法,形式多樣的雕刻內(nèi)容和裝飾位置等信息。Neo4j圖數(shù)據(jù)庫使用Cypher語言對數(shù)據(jù)庫進行增刪改查操作,實現(xiàn)了對每一座建筑的檢索、遍歷等功能。

        圖7 徽派建筑圖譜(節(jié)選)

        3 結(jié)論

        本文詳細描述了在傳統(tǒng)建筑領域通過數(shù)據(jù)抽取來構(gòu)建徽派建筑知識圖譜的方法,并介紹了徽派建筑知識圖譜的構(gòu)建流程。針對徽派建筑數(shù)據(jù)異構(gòu)多源和非結(jié)構(gòu)化的特點,提出了BiLSTM-CRF模型結(jié)合徽派建筑詞典的方法來對徽派建筑實體進行識別抽取。實驗結(jié)果表明,在先驗知識的輔助作用下,實體識別的效果更好。在獲取到徽派建筑的知識之后,利用Neo4j數(shù)據(jù)庫存儲知識,用屬性圖模型表示知識。最后利用Neo4j圖數(shù)據(jù)庫可視化地展示了構(gòu)建的徽派建筑知識圖譜。本文所構(gòu)建的徽派建筑知識圖譜,為研究徽派建筑知識的智能化推薦和搜索系統(tǒng)奠定了基礎。

        猜你喜歡
        數(shù)據(jù)庫建筑模型
        一半模型
        《北方建筑》征稿簡則
        北方建筑(2021年6期)2021-12-31 03:03:54
        重要模型『一線三等角』
        關(guān)于建筑的非專業(yè)遐思
        文苑(2020年10期)2020-11-07 03:15:36
        建筑的“芯”
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        3D打印中的模型分割與打包
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        少妇夜夜春夜夜爽试看视频| 久久精品国产亚洲av成人擦边 | 亚洲一区二区三区免费网站| 久久精品亚洲精品国产色婷| 亚洲av纯肉无码精品动漫| 日韩成人无码v清免费| 少妇人妻在线伊人春色| 日本不卡高字幕在线2019| 欧美极品jizzhd欧美| 伊人一道本| 丝袜美腿av免费在线观看| 国产91精品高潮白浆喷水 | 2022精品久久久久久中文字幕| 亚洲一区二区三区色偷偷| 国产精品videossex久久发布| 久久久久久人妻一区二区三区 | 久久久久亚洲av无码专区体验| 蜜桃一区二区三区在线看| 亚洲中文字幕精品久久久| 热99re久久精品这里都是精品免费| 午夜丰满少妇性开放视频| A阿V天堂免费无码专区| 日本中文字幕乱码中文乱码| 在线观看的网站| 欧美黑人乱大交| 久久国产精品男人的天堂av| 自由成熟女性性毛茸茸应用特色 | 日韩精品一区二区三区在线视频| 欧美成人片在线观看| 亚洲日韩国产一区二区三区| 亚洲av无码资源在线观看| 亚洲国产成人aⅴ毛片大全| 精品一区二区三区久久| 欧美人妻少妇精品久久黑人| 亚洲制服中文字幕第一区| 国产一精品一aⅴ一免费| 国产精品高湖呻呤久久av| 久久午夜无码鲁丝片午夜精品 | 亚洲综合性色一区| 免费av网址一区二区| 老熟女富婆激情刺激对白|