KADEN Kenzhekhan,GULIA Altynbek
(新疆大學,烏魯木齊830046)
隨著建設“新絲綢之路經(jīng)濟帶”和“21世紀海上絲綢之路”兩大戰(zhàn)略構想的不斷深入,中國與哈薩克斯坦大力發(fā)展了與兩國之間旅游領域的合作伙伴關系。由于旅游業(yè)的蓬勃發(fā)展,信息化技術在區(qū)域旅游規(guī)劃、旅游信息管理等領域中具有前所未有的潛能。
國外比較早實施旅游信息化的國家包括荷蘭(Hol?land)、丹麥(Denmark)、瑞士(Switzerland)等國家。國外比較早的系統(tǒng)包括奧地利(Austria)的羅爾旅游信息系統(tǒng)、瑞士的阿彭策爾(Appenzell)旅游信息[1]。這一時期的旅游信息管理系統(tǒng)共同的特征是:系統(tǒng)是由旅游設施、資源、地理環(huán)境等信息庫組成。各個系統(tǒng)在其數(shù)據(jù)組織結構、內容、編碼格式、實現(xiàn)技術以及來源等方面都采用了不同的方法。
國內的許碧霞[2]提出了基于GIS的旅游信息管理系統(tǒng)設計方法,并以北京為對研究對象介紹了與旅游信息相關的空間數(shù)據(jù)庫的設計方法。永壹等人[3]提出了基于Web的B/S結構的旅游信息管理系統(tǒng),楊程介、杜軍平[4]基于JDBC數(shù)據(jù)庫技術建立了旅游目的地營銷系統(tǒng)(DMS)。陳菁[5]、劉暢、鐘耳順[6]、劉帥[7]、趙躍、張丈君等人基于GIS分別實現(xiàn)了福建、北京、廣西、峨眉山等地點的旅游信息管理系統(tǒng)。
然而目前哈薩克斯坦旅游行業(yè)尚未實現(xiàn)為游客提供旅游信息的智能化服務。與哈薩克斯坦旅游景區(qū)相關信息分散在各大百科以及政府網(wǎng)站中,對游客帶來極大的不便,絕大部分旅游信息管理系統(tǒng)雖然實現(xiàn)基于互聯(lián)網(wǎng)的知識表征的手段然而無法進行信息共享、信息交換,數(shù)據(jù)的利用率極低。
維基百科(www.wikipedia.org)是一個網(wǎng)絡百科全書項目,提供了海量與旅游地名相關的數(shù)據(jù)。維基百科通過行政區(qū)域劃分的方式收集了哈薩克斯坦的地名信息,包括州名、人口、面積以及編碼等。在維基百科依據(jù)哈薩克斯坦行政區(qū)劃分的數(shù)據(jù),如表1所示。
從表1提供的數(shù)據(jù)可知,哈薩克斯坦劃分為14個州和3個直轄市。例如阿克莫拉州的首府為科克雪套,其面積為 146,219km2、人口為 737,495,編碼為 KZ-AKM。
本文通過Crawler+MySQL+d3知識圖譜框架實現(xiàn)了面向哈薩克斯坦旅游領域的知識圖譜。知識圖譜構建流程如圖1所示。
表1 維基百科哈薩克斯坦行政區(qū)劃分數(shù)據(jù)
圖1 知識圖譜構建流程
(1)數(shù)據(jù)的采集。本文采用Scrapy-Redis框架實現(xiàn)了互聯(lián)網(wǎng)數(shù)據(jù)的分布式爬取以及存儲。通過Scrapy工具實現(xiàn)了數(shù)據(jù)的爬取并將所得數(shù)據(jù)存入到了Redis數(shù)據(jù)庫中。
(2)結構化數(shù)據(jù)的構建。通過自動化清洗腳本的方法將Redis中的數(shù)據(jù)進一步進行清洗后保存到文本件中,再把該文本數(shù)據(jù)導入到Neo4j[8]和MySQL數(shù)據(jù)庫中。
(3)可視化系統(tǒng)的構建。本文通過Python 3.7實現(xiàn)了現(xiàn)爬蟲、數(shù)據(jù)清理以及可視化系統(tǒng)的設計與實現(xiàn)。
本文通過MySQL關系型數(shù)據(jù)庫實現(xiàn)了數(shù)據(jù)的存儲及其管理。數(shù)據(jù)庫包括四張表,其中State表和Dis?tricts兩張實體表分別存儲了哈薩克斯坦的州和區(qū)(縣)的信息。State_Districts關系表存州和區(qū)(縣)的對應關系,SPO表存儲了知識圖譜中的三元組。數(shù)據(jù)庫中Districts表和State表是多對多的關系,通過State_Dis?tricts表實現(xiàn)了將上述多對多轉化為兩個一對多的關系,(stat_id,district_id)就表示了這種映射。
圖2 數(shù)據(jù)庫結構
詳細地說,在數(shù)據(jù)庫中State_Districts和SPO表都表示了映射關系。State_Districts保存了原始的關系,而 SPO把關系映射成“直轄市”或“區(qū)(縣)”,即State_Districts可能需要通過映射才能得到SPO表。知識庫里的關系其實有兩種:一種是屬性(property),一種是關系(relation)。SPO只存實體間的關系,屬性由實體表檢索得到,在SPO表中多加一列type(類型),來區(qū)分這關系是實體間關系還是實體與屬性的關系,便于之后的可視化。
本文以Flask Server作為服務器,通過d3實現(xiàn)了知識圖譜的可視化實現(xiàn)。該平臺可以檢索州/區(qū)(縣)獲取相應的圖譜,并會更新有向圖版本。本文選取了哈薩克斯坦阿拉木圖17個州中的5行政區(qū)和阿拉木圖市的旅游景點基本情況演示了系統(tǒng)的結果如圖3所示。其中藍色的代表知識圖譜中的實體,紅色代表屬性,綠色的是實體和屬性之間的關系。此外,在此基礎上通過人口、面積、建立日、郵政編碼搜索方式查閱相關旅游景點的信息。
圖3 旅游景點基本情況圖譜結果
本文通過屬性值融合的方法研究并實現(xiàn)了異構多數(shù)據(jù)源哈薩克斯坦旅游景點信息的知識圖譜;此外,本文以Flask Server作為服務器,通過d3為技術設計和實現(xiàn)了一個基于中文的哈薩克斯坦旅游景點可視化系統(tǒng);該平臺可以檢索州/區(qū)(縣)獲取相應的圖譜,并會更新有向圖版本。哈薩克斯坦阿拉木圖州有17行政區(qū)(縣),本文選取了哈薩克斯坦阿拉木圖17個州中的5行政區(qū)和阿拉木圖市的旅游景點基本情況演示了系統(tǒng)功能。結果可說明本文所構建的面向哈薩克斯坦旅游領域的知識圖譜及其可視化系統(tǒng)在實現(xiàn)旅游信息的智能化管理與服務方面具有潛在的價值。
未來可以進行的工作主要包括知識圖譜屬性以及數(shù)據(jù)量的擴充,實現(xiàn)可視化系統(tǒng)的推理功能等方面。