王彥忠(上海建科工程項(xiàng)目管理有限公司, 上海 200032)
建筑工程事故之間一般都具有一定的共通性,通過對(duì)大量建筑工程事故進(jìn)行研究和分析,可以更好地規(guī)避建筑施工風(fēng)險(xiǎn)。自20世紀(jì)60年代數(shù)字信息技術(shù)發(fā)展以來,許多建筑工程事故通過新聞得以報(bào)道且出具事故調(diào)查報(bào)告。通過這些新聞與事故調(diào)查報(bào)告總結(jié)和歸納處理事故的經(jīng)驗(yàn),可以對(duì)建筑施工進(jìn)行一定的指導(dǎo),從而規(guī)避一些風(fēng)險(xiǎn)[1]。通過數(shù)據(jù)庫單獨(dú)研究一個(gè)建筑工程事故可以獲得很多信息,但是無法直觀地了解多個(gè)建筑事故之間的共同點(diǎn)與潛在的規(guī)律,例如,要觀測兩個(gè)或多個(gè)建筑事故的異同點(diǎn),使用表格或數(shù)據(jù)庫對(duì)這些共同點(diǎn)進(jìn)行檢索可以達(dá)到目的,但是需要進(jìn)行多次復(fù)雜的檢索,而知識(shí)圖譜能形成知識(shí)發(fā)展與結(jié)構(gòu)關(guān)系的圖形,能夠顯示知識(shí)單元或知識(shí)群之間網(wǎng)絡(luò)、結(jié)構(gòu)、互動(dòng)、交叉、演化或衍生等諸多隱含的復(fù)雜關(guān)系[2],可以針對(duì)一個(gè)或多個(gè)事故進(jìn)行展開,并且清晰直觀地看到其異同點(diǎn)。因此,本文著眼于知識(shí)圖譜技術(shù)在建筑工程事故案例庫中的應(yīng)用,首先利用信息挖掘技術(shù)構(gòu)建案例數(shù)據(jù)庫,然后構(gòu)建了事故案例信息知識(shí)圖譜,最后將研究成果應(yīng)用到“建筑工程施工重大風(fēng)險(xiǎn)定量評(píng)估與預(yù)警平臺(tái)”的軟件功能中。
筆者查閱并收集近十年來的建筑工程事故信息的新聞文本與事故調(diào)查報(bào)告文本,通過人工清洗,共獲得數(shù)千條具有字段的數(shù)據(jù),如受傷情況、死亡情況、經(jīng)濟(jì)損失情況、地點(diǎn)信息、機(jī)構(gòu)信息和時(shí)間信息等,也包括一些特定領(lǐng)域的特定知識(shí),如建設(shè)單位、總承包單位、監(jiān)理單位、結(jié)構(gòu)類型、機(jī)械設(shè)備信息、建筑高度、建筑層數(shù)、溫度、風(fēng)力、降水、事故類型、季節(jié)和上下午等。采用人工手段對(duì)這些字段進(jìn)行規(guī)范,如表1所示。
表1 字段規(guī)范選項(xiàng)表
通過人工知識(shí)組成的知識(shí)庫,可以形成結(jié)構(gòu)化的圖表,如圖1所示。
圖1 經(jīng)結(jié)構(gòu)化處理的事故案例信息
表1、圖1這樣的圖表能夠較好地將文本數(shù)據(jù)的知識(shí)進(jìn)行總結(jié)和提煉,并且可以通過對(duì)比多個(gè)事故,總結(jié)出一定的規(guī)律,例如:坍塌和起重傷害事故比較多,分別占總建筑工程事故數(shù)量的38%和40%;事故更容易在夏季頻發(fā);等等。由于人工構(gòu)建的知識(shí)庫的成本較高,筆者采用雙向長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和隨機(jī)向量場(Conditional Random Field,CRF),得到一個(gè)命名實(shí)體識(shí)別模型[3-4],將知識(shí)庫收集的數(shù)據(jù)以“字-標(biāo)注類型”的形式進(jìn)行標(biāo)注。標(biāo)注的規(guī)則,如表2所示。其中,“B”表示標(biāo)注命名實(shí)體剛開始出現(xiàn);“I”表示該命名實(shí)體前面已經(jīng)出現(xiàn)過“B”標(biāo)注,當(dāng)前“字”還屬于該命名實(shí)體范圍內(nèi)容;“O”表示其他標(biāo)注。當(dāng)命名實(shí)體為“LOC”時(shí),標(biāo)注開頭為“B-LOC”,標(biāo)注中字符為“I-LOC”。
表2 標(biāo)注規(guī)則
本文以新聞中出現(xiàn)的一段話作為標(biāo)注樣例。人工標(biāo)注的結(jié)果,如表3所示。
表3 標(biāo)注樣例
通過對(duì)1 200條數(shù)據(jù)進(jìn)行標(biāo)注,筆者制作了一個(gè)提取文本中機(jī)構(gòu)和地點(diǎn)的安全事故信息提取模型,其訓(xùn)練效果,如表4所示。
由表4可知,當(dāng)?shù)螖?shù)為40時(shí),模型訓(xùn)練效果較好,機(jī)構(gòu)和地點(diǎn)識(shí)別的F1值分別達(dá)到了69.16%和69.12%,精準(zhǔn)率和召回率也較高。因此,筆者選用了該模型用于提取機(jī)構(gòu)和地點(diǎn)。通過該模型并結(jié)合正則提取方法,對(duì)事故信息文本中的受傷情況、死亡情況、經(jīng)濟(jì)損失情況、地點(diǎn)信息、機(jī)構(gòu)信息和時(shí)間信息等進(jìn)行提取。如對(duì)“廣州市海珠區(qū)中交集團(tuán)南方總部基地B區(qū)項(xiàng)目7·22塔吊坍塌較大事故調(diào)查報(bào)告”進(jìn)行提取,其提取效果如表5所示。
表5 提取效果示例
通過上述方法,筆者自動(dòng)化構(gòu)建了一個(gè)更簡潔的知識(shí)庫并進(jìn)行了人工篩查。篩查的結(jié)果,如圖2所示。
圖2 事故案例庫示例
將每一個(gè)字段設(shè)置為關(guān)系,將每一個(gè)字段對(duì)應(yīng)的值都設(shè)置為實(shí)體,從而可以將所有數(shù)據(jù)轉(zhuǎn)化為“實(shí)體-關(guān)系-實(shí)體”的三元組(如表6所示)。
表6 實(shí)體-關(guān)系-實(shí)體三元組樣例
這樣的三元組代表了知識(shí)。例如,表6中第一條數(shù)據(jù),非常容易讓人直觀理解為“欽州某建筑工地的項(xiàng)目地點(diǎn)是廣西省”,知識(shí)圖譜壓縮了這段文本,將其轉(zhuǎn)化成了簡練的三元組,而這些三元組通過相同的實(shí)體進(jìn)行關(guān)聯(lián),就可以形成一個(gè)多節(jié)點(diǎn)、多邊的知識(shí)圖譜(如圖3所示)。
圖3 知識(shí)圖譜可視化
從圖3可以清晰地看出,四個(gè)項(xiàng)目的事故類型都是“起重傷害”;“寶安2”項(xiàng)目和“塔嶺天際名城二期”項(xiàng)目都是在華南地區(qū),并且都是晚上發(fā)生的,事故等級(jí)都是“一般”;“玉屏縣玉屏舞陽欣城A區(qū)8號(hào)樓工程”項(xiàng)目和“七星關(guān)區(qū)環(huán)境整治‘19456’工程天河廣場”項(xiàng)目都發(fā)生在西南的貴州省,且事故等級(jí)都較大。
筆者將上述研究成果應(yīng)用到國家“十三五”科技支撐計(jì)劃“建筑工程施工風(fēng)險(xiǎn)監(jiān)控技術(shù)研究”中,開發(fā)了“建筑工程施工重大風(fēng)險(xiǎn)定量評(píng)估與預(yù)警平臺(tái)”。在該課題中課題組收集了近期發(fā)生的建筑工程事故超過1 000例,并構(gòu)建了事故案例庫。如何實(shí)現(xiàn)事故案例庫的自動(dòng)收集,如何充分利用挖掘事故案例庫的價(jià)值是課題組需重點(diǎn)解決的問題。筆者利用數(shù)據(jù)挖掘技術(shù),從安全管理網(wǎng)采集事故信息,并采用同樣的邏輯構(gòu)建了基于部分信息的知識(shí)圖譜。用戶可根據(jù)需要級(jí)聯(lián)搜索查找關(guān)注的事故的相關(guān)信息。
知識(shí)圖譜通過形象和直觀的方式,將案例數(shù)據(jù)庫中的案例以多個(gè)角度呈現(xiàn)在用戶面前,為用戶提供搜索、查詢等服務(wù)。通過展示不同案例之間的屬性及屬性連接的其他案例的關(guān)系,用戶可以清晰地看到不同案例之間的關(guān)系和聯(lián)系。知識(shí)圖譜的構(gòu)建,可以縮短用戶案例搜索和知識(shí)查詢所需要的時(shí)間,也有利于對(duì)案例數(shù)據(jù)庫進(jìn)行深入研究和拓展,充分挖掘案例數(shù)據(jù)庫中的隱性知識(shí)和潛在價(jià)值。