亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        城市畫像視角下的熱點城市特征識別方法研究

        2020-04-01 15:15:46畢崇武葉光輝胡婧嵐李明倩
        現(xiàn)代情報 2020年4期
        關(guān)鍵詞:詞組熱點標(biāo)簽

        畢崇武 葉光輝 胡婧嵐 李明倩

        摘?要:[目的/意義]旨在識別某段時間內(nèi)公眾高度關(guān)注的熱點城市特征,便于分析公眾對城市的整體印象及其動態(tài)變化。[方法/過程]首先分析了熱點城市特征的評價指標(biāo)及其數(shù)據(jù)來源和計算方法;然后利用min-max標(biāo)準(zhǔn)化方法將評價指標(biāo)歸一化處理,進(jìn)而采用線性加權(quán)和法構(gòu)造綜合指標(biāo)評價模型;最后基于“知乎”平臺中的用戶問答數(shù)據(jù),識別出不同時期我國中部六省省會城市的熱點城市特征。[結(jié)果/結(jié)論]文中方法能夠從海量用戶問答數(shù)據(jù)中獲取不同城市在不同時間內(nèi)的熱點城市特征,具有實際的可操作性。

        關(guān)鍵詞:城市畫像;城市特征;輿情熱點;特征識別; 知乎;武漢;長沙;鄭州;南昌;太原;合肥

        DOI:10.3969/j.issn.1008-0821.2020.04.002

        〔中圖分類號〕G254.91?〔文獻(xiàn)標(biāo)識碼〕A?〔文章編號〕1008-0821(2020)04-0013-10

        Research on Discovery of the Focus of City Identity from the

        Perspective of City Profile

        Bi Chongwu?Ye Guanghui*?Hu Jinglan?Li Mingqian

        (School of Information Management,Central China Normal University,Wuhan 430079,China)

        Abstract:[Purpose/Significance]The research aimed to discover the focus of city identity in a period of time,and to analyze the publics overall impression of city and its dynamic changes.[Method/Process]Firstly,this paper proposed evaluation index,data source and calculation method for discovery of the focus of city identity.Secondly,it normalized the evaluation index by min-max normalization,and established evaluation model to calculate different cities identities by linear weighted sum method.Finally,it discovered the focus of city identity of the six central China provincial capitals in different periods,based on the Q&A data from“Zhihu”platform.[Result/Conclusion]It was operable to use the method in this paper to discover the focus of city identity in a period of time from the massive Q&A data.

        Key words:city profile;city identity;public opinion hotspots;feature recognition;Zhihu platform;Wuhan;Changsha;Zhengzhou;Nanchang;Taiyuan;Hefei

        智慧城市建設(shè)中的網(wǎng)絡(luò)輿情監(jiān)測一直受到社會各界關(guān)注。充分發(fā)揮現(xiàn)代信息技術(shù)的優(yōu)勢,感測、分析、整合城市的各項關(guān)鍵信息,真實、客觀、完整、及時地獲取城市網(wǎng)絡(luò)輿情是政府部門做出合理決策的基礎(chǔ)。城市畫像是公眾對城市特征的認(rèn)知、評價和情感的綜合體現(xiàn)。早在20世紀(jì)60年代,Lynch K就依據(jù)市民的心理形象衡量城市的視覺質(zhì)量,并由此引出了城市畫像的概念[1]。這種由公眾依據(jù)自我認(rèn)知形成的共同記憶,就像城市的一張名片,能夠在一定程度上反映城市的個性與特征,展現(xiàn)城市形象與內(nèi)涵,對城市規(guī)劃管理、城市特色塑造、城市文化傳承等方面具有重要意義。隨著數(shù)據(jù)科學(xué)的發(fā)展,學(xué)者們逐步意識到網(wǎng)絡(luò)數(shù)據(jù)為實現(xiàn)洞見城市運(yùn)行情況的目標(biāo)提供了可行途徑,并圍繞以數(shù)據(jù)為中心的城市畫像研究展開了多層次、多視角、多方位的理論與技術(shù)探索[2-4]。而社交網(wǎng)絡(luò)中的用戶問答數(shù)據(jù)作為新媒體時代孕育的載體,承載了公眾心中最直觀且感性的城市畫像,蘊(yùn)含了公眾視角下某段時期內(nèi)城市發(fā)展的主要特征,體現(xiàn)了公眾對城市特征的綜合印象。由此,本文從城市畫像視角出發(fā),借鑒突發(fā)主題識別技術(shù)中的爆發(fā)詞檢測方法,定義標(biāo)簽關(guān)注度、標(biāo)簽新穎度和標(biāo)簽創(chuàng)新度3個指標(biāo)構(gòu)建綜合指標(biāo)評價模型,以求從社交網(wǎng)絡(luò)中的用戶問答數(shù)據(jù)中識別某段時間內(nèi)被社會各界廣泛關(guān)注、具有較大影響力且近期未被重點關(guān)注的熱點城市特征。文中方法的實施有利于提高城市全面感知、分析和利用城市畫像的能力,診斷城市當(dāng)前面臨的突出問題和主要矛盾,輔助政府部門智能響應(yīng)公共安全、城市服務(wù)和商業(yè)活動等各方面的社會需求。

        1?研究現(xiàn)狀

        城市作為一個相對獨(dú)立的社會系統(tǒng),包含成千上萬個變量。城市的政治、經(jīng)濟(jì)、文化和生態(tài)等因素均會對城市特征產(chǎn)生影響。目前城市特征研究側(cè)重于關(guān)注城市空間特征,重視空間結(jié)構(gòu)對城市特征造成的影響,通常構(gòu)建研究體系探索熱點空間特征的內(nèi)在形成機(jī)理及其與居民活動間的互動關(guān)系;并在理論性闡述熱點空間特征起源和延續(xù)原因的同時,通過實證研究分析政治、經(jīng)濟(jì)和文化等非物質(zhì)因素對城市特征造成的影響[5]。在數(shù)據(jù)獲取方面,現(xiàn)有研究大多采用主觀性較強(qiáng)的問卷調(diào)查[6]、深度訪談[7]和意向草圖[8-9]等社會學(xué)調(diào)查方法;在數(shù)據(jù)分析方面,現(xiàn)有研究也多沿襲數(shù)理統(tǒng)計、認(rèn)知地圖[10-11]和空間分析[12]等旅游學(xué)研究方法。事實上在收集、處理和分析主觀性數(shù)據(jù)的過程中,傳統(tǒng)旅游學(xué)研究方法的不足和局限逐漸顯現(xiàn)。難以回收大量有效數(shù)據(jù)、收集數(shù)據(jù)包含大量噪聲(調(diào)查對象理解偏差或填寫虛假信息)、處理非線性數(shù)據(jù)困難等諸多問題均會給實證分析結(jié)果帶來偏差甚至錯誤,并最終影響實證研究所獲結(jié)論的可靠性[13]。

        社交網(wǎng)絡(luò)中描述城市特征的用戶問答數(shù)據(jù)蘊(yùn)含著公眾的態(tài)度和認(rèn)知。它們不僅相對客觀,能夠在一定程度上避免上述問題;而且可以利用突發(fā)主題識別技術(shù)直接獲取不同城市的熱點城市特征。事實上,突發(fā)主題識別在眾多基于文本挖掘的社交網(wǎng)絡(luò)研究中具有重要應(yīng)用。學(xué)術(shù)界對突發(fā)主題識別研究起源于熱點話題的檢測與追蹤(Topic Detection and Tracking,TDT)技術(shù)。該技術(shù)與數(shù)據(jù)挖掘、信息檢索等自然語言處理技術(shù)間有很多共性,最初應(yīng)用于監(jiān)控具有突發(fā)和延續(xù)性規(guī)律的新聞?wù)Z料,后來逐漸成為信息處理領(lǐng)域的研究熱點。目前主要研究方法包括:1)在語義相似度計算和聚類分析的基礎(chǔ)上,通過自動分類話題文本發(fā)現(xiàn)熱點話題的向量空間方法[14-15];2)在詞頻統(tǒng)計和權(quán)重計算的基礎(chǔ)上,挖掘熱點話題的統(tǒng)計語言模型[16-18];3)在構(gòu)建網(wǎng)絡(luò)鏈接及分析的基礎(chǔ)上,通過轉(zhuǎn)移概率和轉(zhuǎn)移矩陣探究話題演變的圖論方法[19-20];4)混合使用以上方法,通過歸納、總結(jié)熱點話題的主要特征,實現(xiàn)組織處理這些特征的突發(fā)檢測方法[21-23]。

        在眾多研究之中,正確識別并處理文本中的爆發(fā)詞是所有關(guān)于突發(fā)主題識別研究的基礎(chǔ)性工作,對突發(fā)主題探測及其趨勢監(jiān)測具有重大影響。目前關(guān)于爆發(fā)詞識別的相關(guān)研究主要是基于詞語的科技監(jiān)測方法,可將其總結(jié)、歸納為基于數(shù)理統(tǒng)計的詞頻分析方法、基于詞組網(wǎng)絡(luò)關(guān)系的共詞分析方法、基于詞頻變化率的突發(fā)監(jiān)測方法和基于語義相似度的內(nèi)容分析方法[24]。其中,在詞語集合中區(qū)分爆發(fā)詞與非爆發(fā)詞的研究重點并非僅僅停留在統(tǒng)計層面的詞語聚類和分類技術(shù)上,而是逐漸向詞語間的語義關(guān)系和上下文語境延伸。此外,隨著通用本體與領(lǐng)域本體的日漸成熟,文本語義相似度研究也日臻完善,由此產(chǎn)生了一系列比較有代表性的理論、技術(shù)和方法,其研究成果集中在概念、語句和文檔3種不同文本粒度的語義相似度計算上。與此同時,諸多學(xué)者將語義相似度研究應(yīng)用于信息提取、詞義消歧、語義計算、文本聚類和文本分類等自然語言處理領(lǐng)域,并進(jìn)一步將其引入到爆發(fā)詞的特征識別、時段識別、語義合并和關(guān)聯(lián)映射等方面研究,從而使關(guān)于爆發(fā)詞識別的相關(guān)研究更加成熟和完善[25]。

        2?熱點城市特征識別方法

        2.1?熱點城市特征特點分析

        本文經(jīng)過梳理現(xiàn)有爆發(fā)詞檢測方法后,對描述熱點城市特征的載體——標(biāo)簽的特點歸納、總結(jié)為:在標(biāo)注頻次上具有較高的關(guān)注度、在標(biāo)注時間上具有一定的新穎性、在標(biāo)注內(nèi)容上具有潛在的創(chuàng)新性。具體而言,本文認(rèn)為城市畫像視角下的熱點城市特征應(yīng)該同時滿足如下條件:

        1)描述某座城市熱點城市特征的標(biāo)簽是公眾廣泛認(rèn)可的,具有較高的標(biāo)注頻次,即公眾對標(biāo)簽描述的城市特征具有較高的社會關(guān)注度;

        2)描述某座城市熱點城市特征的標(biāo)簽出現(xiàn)時間較晚,在當(dāng)前或某段時間內(nèi)受到公眾廣泛關(guān)注,即標(biāo)簽描述的城市特征具有一定的時間新穎性;

        3)描述某座城市熱點城市特征的標(biāo)簽與描述該座城市已有標(biāo)簽在內(nèi)容層面上有所差異,現(xiàn)有標(biāo)簽和已有標(biāo)簽間的文本語義相似程度較小,即現(xiàn)有標(biāo)簽描述的城市特征具有潛在的語義創(chuàng)新性。

        基于以上分析,本文從標(biāo)簽的標(biāo)注熱度、標(biāo)注時間和標(biāo)注內(nèi)容3個維度刻畫城市畫像視角下的熱點城市特征。其中,標(biāo)注熱度和標(biāo)注時間分別對應(yīng)熱點評價指標(biāo)中的標(biāo)簽關(guān)注度和標(biāo)簽新穎度,可以看作是從數(shù)理統(tǒng)計層面刻畫的熱點城市特征;而標(biāo)注內(nèi)容對應(yīng)評價指標(biāo)中的標(biāo)簽創(chuàng)新度,可以看作是從文本語義層面刻畫的熱點城市特征。由此,本文依據(jù)熱點城市特征這3個主要特點定義熱點城市特征的評價指標(biāo),并采用線性加權(quán)和法構(gòu)造綜合指標(biāo)評價模型,以此獲取不同段時間內(nèi)不同城市的熱點城市特征。

        2.2?熱點城市特征評價指標(biāo)

        本文根據(jù)熱點城市特征評價指標(biāo)的數(shù)據(jù)來源范圍,將其劃分為外部屬性評價指標(biāo)和內(nèi)部屬性評價指標(biāo)。外部屬性評價指標(biāo)是指可以直接采用數(shù)理統(tǒng)計方法獲取實證數(shù)據(jù)的標(biāo)簽關(guān)注度和標(biāo)簽新穎度,其實證數(shù)據(jù)從標(biāo)簽的標(biāo)注頻次、標(biāo)注時間等數(shù)據(jù)中獲得。內(nèi)部屬性評價指標(biāo)是指需要通過挖掘標(biāo)簽文本內(nèi)容獲取實證數(shù)據(jù)的標(biāo)簽創(chuàng)新度,其實證數(shù)據(jù)從標(biāo)簽間文本語義相似度的計算結(jié)果中獲得。由此,本文在考慮城市畫像的刻畫方式其現(xiàn)實意義的基礎(chǔ)上,將熱點城市特征評價指標(biāo)的特征屬性、數(shù)據(jù)來源及其計算方法總結(jié)如表1所示。

        2.2.1?標(biāo)簽關(guān)注度

        標(biāo)簽的標(biāo)注頻次蘊(yùn)含了公眾對其描述城市特征的認(rèn)可程度。熱點城市特征具有較高公眾關(guān)注度這一特點可以通過描述該城市特征的標(biāo)簽的標(biāo)注頻次反映出來。由于不同標(biāo)簽解釋城市特征的能力有所差異,因此衡量某一城市特征是否具有較高公眾關(guān)注度時,若僅對描述該城市特征的標(biāo)簽進(jìn)行簡單的詞頻統(tǒng)計,會導(dǎo)致大量標(biāo)注頻次較高但解釋城市特征能力較弱的標(biāo)簽獲得較高的標(biāo)簽關(guān)注度。本文在依據(jù)標(biāo)簽標(biāo)注頻次的基礎(chǔ)上,融入TF-IDF算法衡量不同標(biāo)簽對城市特征的解釋能力,將TF理解為標(biāo)簽對某座城市的標(biāo)注次數(shù),將IDF理解為標(biāo)簽對不同城市的區(qū)別程度,其計算步驟如下:

        首先,采用中文分詞技術(shù)將每個標(biāo)簽Ta切分為n個相互獨(dú)立的詞組,并對這些詞組進(jìn)行數(shù)據(jù)預(yù)處理,以Ta=(t1,t2,…,tn)表示;

        然后,采用空間向量模型將Ta表示為:VTa=(t1·wt1,t2·wt2,…,tn·wtn),并依據(jù)TF-IDF算法計算詞組ti在不同向量空間VTa中的權(quán)重wti;

        最后,將權(quán)重wti作為衡量標(biāo)簽Ta在解釋城市特征能力方面的重要指標(biāo),并定義標(biāo)簽關(guān)注度TATa,Citya的計算方法為:

        TATa,Citya=1n∑ni=1wti=1n∑ni=1logfti·log(N/nti+1)(1)

        其中,fti表示詞組ti標(biāo)注城市Citya的頻率;N表示標(biāo)簽集合中所有詞組的總數(shù);n表示標(biāo)簽Ta中詞組ti的數(shù)量;nti表示詞組在標(biāo)簽集合中出現(xiàn)的次數(shù)。由此可見,城市Citya中某城市特征的關(guān)注程度既和標(biāo)簽Ta標(biāo)注城市Citya的次數(shù)成正比,又和標(biāo)簽Ta解釋城市Citya的能力成正比。若描述某城市特征的標(biāo)簽Ta具有較高的標(biāo)注頻次,并且能夠較好地區(qū)分不同城市間的城市特征,則說明這個城市特征具有較高的關(guān)注程度,即TATa,Citya值較高。

        2.2.2?標(biāo)簽新穎度

        熱點城市特征會隨著時間推移發(fā)生變化。公眾會逐漸遺忘城市過去的歷史特征,反復(fù)記憶城市持續(xù)的核心特征,不斷注入城市突發(fā)的實時特征。事實上,描述城市特征的標(biāo)簽既可將其看作是網(wǎng)絡(luò)信息資源的一種索引或元數(shù)據(jù),又可將其看作是一種特殊的網(wǎng)絡(luò)信息資源。從網(wǎng)絡(luò)信息資源老化的角度來說,公眾會逐漸減少對以往標(biāo)簽的標(biāo)注行為,并逐漸增加對新興標(biāo)簽的標(biāo)注行為。因此,標(biāo)簽的標(biāo)注時間應(yīng)作為判斷其描述的城市特征是否是熱點城市特征的一項重要依據(jù)。

        本文通過定義標(biāo)簽新穎度來揭示熱點城市特征在時間維度上的重要特性。由于標(biāo)簽由若干個相互獨(dú)立的詞組組成,因此標(biāo)簽的新穎程度可以依據(jù)它包含詞組的平均標(biāo)引時間來衡量。在某段時間內(nèi),平均標(biāo)引時間越晚的標(biāo)簽其新穎程度值越大,說明這些標(biāo)簽描述的城市特征出現(xiàn)時間較晚,比較可能成為其描述城市在這段時間內(nèi)的熱點城市特征。反之,說明這些標(biāo)簽描述的城市特征不太可能成為其描述城市在這段時間內(nèi)的熱點城市特征。由此,本文定義標(biāo)簽新穎度TNTa,Citya的計算方法為:

        TNTa,Citya=DTan=1n∑ni=1Dtinti(2)

        其中,DTa表示標(biāo)簽Ta中所有詞組的總標(biāo)引時間;Dti表示標(biāo)簽Ta中詞組ti在標(biāo)簽集合中的總標(biāo)引時間;n表示標(biāo)簽Ta中所有詞組的數(shù)量;nti表示詞組ti在標(biāo)簽集合中的出現(xiàn)次數(shù)。

        2.2.3?標(biāo)簽創(chuàng)新度

        從城市畫像視角看,熱點城市特征是公眾在某段時間內(nèi)對城市當(dāng)前擁有的某些特征標(biāo)注了大量標(biāo)簽的結(jié)果,即這段時間內(nèi)描述城市特征的社會化標(biāo)注系統(tǒng)中出現(xiàn)了一些新興的標(biāo)簽主題。本團(tuán)隊在以往的研究中發(fā)現(xiàn):社會化標(biāo)注系統(tǒng)中形成新主題的標(biāo)簽可能是新標(biāo)簽,也可能是舊標(biāo)簽[26]。因此,描述熱點城市特征的標(biāo)簽既可以是被公眾高頻次標(biāo)注的舊標(biāo)簽,即標(biāo)簽關(guān)注度較高;又可以是與舊標(biāo)簽相比在文本內(nèi)容和語義層面上有所差異的新標(biāo)簽,即標(biāo)簽創(chuàng)新度較高。舊標(biāo)簽揭示了以往出現(xiàn)過,但在過去一段時間內(nèi)未成為公眾關(guān)注熱點的城市特征;新標(biāo)簽揭示了僅在近期出現(xiàn),且短時間內(nèi)迅速被公眾廣泛關(guān)注的新興城市特征。由此可見,熱點城市特征識別不僅需要考慮標(biāo)簽標(biāo)注頻次,還需要依據(jù)文本語義相似度計算方法,測算當(dāng)前標(biāo)簽與已有城市特征間的語義相似度,以此補(bǔ)充并完善熱點城市特征測度方法。

        本文利用文本語義相似度計算方法計算標(biāo)簽的創(chuàng)新程度。首先,運(yùn)用分詞技術(shù)提取標(biāo)簽中包含的概念詞,并采用空間向量模型表示其描述的城市特征。若標(biāo)簽Ta中包含XTa個概念詞,則用Ta∈{Sa1,Sa2,…,Sax}表示;若城市Citya的城市特征Cb中包含YCb個概念詞,則用Cb∈{Sb1,Sb2,…,Sby}表示。然后,通過計算空間向量間的余弦相似度cos(Ta,Cb)獲得每個標(biāo)簽Ta和M個城市特征Cb間的文本語義相似度Sim(Ta,Cb),并定義標(biāo)簽創(chuàng)新度HITa,Citya的計算方法為:

        TITa,Citya=1M∑Mb=1Sim(Ta,Cb)=1M∑Mb=1cos(Ta,Cb)(3)

        由此,如果某座城市當(dāng)前被標(biāo)記的標(biāo)簽與以往城市特征間的文本語義相似度較小,則說明該城市當(dāng)前擁有的城市特征與先前擁有的城市特征在語義含義方面差距較大,從而揭示出當(dāng)前城市特征與以往城市特征相比在文本內(nèi)容和語義層面上具有創(chuàng)新性。

        2.3?熱點城市特征識別過程

        本文首先采用min-max標(biāo)準(zhǔn)化(Min-max Normalization)方法,將具有不同量級和不同方向的評價指標(biāo)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理;然后根據(jù)上文所述的熱點城市特征評價指標(biāo),采用線性加權(quán)和法(Linear Weighted Sum Method)構(gòu)造綜合指標(biāo)評價模型;最后依次計算各個城市特征的綜合評價指數(shù),以獲取不同城市在某段時間內(nèi)的熱點城市特征。

        2.3.1?指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化

        標(biāo)簽關(guān)注度和新穎度是正向指標(biāo),其計算值越大表示標(biāo)簽所描述的城市特征越有可能成為熱點特征;然而標(biāo)簽創(chuàng)新度是逆向指標(biāo),其計算值越小表示標(biāo)簽所描述的城市特征越有可能成為熱點特征。因此,本文需要采用不同的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法使這兩種指標(biāo)在因變量方向上保持一致。

        2.3.2?綜合指標(biāo)評價模型構(gòu)建

        本文通過對標(biāo)簽關(guān)注度、標(biāo)簽新穎度和標(biāo)簽創(chuàng)新度3個評價指標(biāo)進(jìn)行線性加權(quán)求和,構(gòu)造出識別熱點城市特征的綜合指標(biāo)評價模型,如式(4)所示,依據(jù)其計算結(jié)果可以判別各標(biāo)簽描述的城市特征是否是對應(yīng)城市的熱點城市特征。

        WTa,Citya=aTATa,Citya+bTNTa,Citya+cTITa,Citya(4)

        其中,TATa,Citya、TNTa,Citya和TITa,Citya分別表示描述城市Citya的標(biāo)簽Ta在標(biāo)簽關(guān)注度、標(biāo)簽新穎度和標(biāo)簽創(chuàng)新度的計算結(jié)果;WTa,Citya表示標(biāo)簽Ta描述的城市特征的綜合指標(biāo)評價數(shù)值;a、b和c均表示指標(biāo)權(quán)重,且a+b+c=1。

        2.3.3?評價指標(biāo)權(quán)重計算

        為確保綜合指標(biāo)評價模型的可推廣性,本文選取不同指標(biāo)權(quán)重對上述模型進(jìn)行多次計算,依據(jù)計算結(jié)果確定各評價指標(biāo)的最終權(quán)重,其具體步驟如下:

        首先,平均賦予標(biāo)簽關(guān)注度、標(biāo)簽新穎度和標(biāo)簽創(chuàng)新度這3個評價指標(biāo)初始權(quán)重,即將每個評價指標(biāo)的初始權(quán)重均設(shè)定為1/3;

        然后,不斷改變各評價指標(biāo)的計算權(quán)重,以人工遴選出的最優(yōu)計算結(jié)果為目標(biāo),通過對比實際計算結(jié)果進(jìn)行調(diào)整與驗證,以此確定各指標(biāo)最終權(quán)重,達(dá)到最優(yōu)的熱點城市特征識別效果。

        2.3.4?熱點城市特征獲取

        熱點城市特征識別過程實際上是從描述城市特征的標(biāo)簽中挖掘不同城市在某段時間內(nèi)的主要特征,并進(jìn)一步判斷這些城市特征是否是在該段時間內(nèi)被公眾廣泛關(guān)注。本文依據(jù)綜合指標(biāo)評價模型可以計算某段時間內(nèi)城市Citya擁有的所有標(biāo)簽Ta對應(yīng)的綜合指標(biāo)評價數(shù)值WTa,Citya,進(jìn)而采用降序排列和設(shè)置閾值區(qū)間等數(shù)據(jù)處理、分析步驟篩選出獲得較高數(shù)WTa,Citya值的標(biāo)簽。這些標(biāo)簽描述的城市Citya特征就是城市在這段時間內(nèi)擁有的熱點城市特征。

        3?實證研究

        本文利用網(wǎng)絡(luò)爬蟲技術(shù)抓取“知乎”平臺中關(guān)于我國中部六省省會城市(武漢、長沙、鄭州、南昌、太原、合肥)主要特征的用戶問答數(shù)據(jù),具體包括“××是一個怎樣的城市?”、“關(guān)于××,你印象最深的是什么?”、“××有什么好玩的地方?”等問題。原始數(shù)據(jù)中包括了用戶回答內(nèi)容、用戶昵稱、評論內(nèi)容、創(chuàng)立時間、點贊數(shù)、評論數(shù)、所屬問題等字段,共計21 247條記錄,時間范圍為2011年6月10日至2019年1月4日。本團(tuán)隊選取5名碩士研究生從原始數(shù)據(jù)中人工抽取用戶描述城市畫像的標(biāo)簽,為規(guī)范標(biāo)簽標(biāo)注格式及質(zhì)量,滿足熱點城市特征識別過程中的數(shù)據(jù)處理要求,將標(biāo)簽結(jié)構(gòu)定義為“屬性詞+特征詞”。在人工抽取標(biāo)簽前,本團(tuán)隊以“武漢”數(shù)據(jù)為例,對5名同學(xué)進(jìn)行培訓(xùn),確保其可以按照相關(guān)流程,以相對規(guī)范的操作流程從城市描述文本中抽取結(jié)構(gòu)化標(biāo)簽。此外,本團(tuán)隊為排除個人因素,將所有城市的用戶問答數(shù)據(jù)匯總并隨機(jī)分配給每位同學(xué),以此確保每座城市的城市畫像均被5名同學(xué)標(biāo)記。

        3.1?數(shù)據(jù)準(zhǔn)備

        3.1.1?數(shù)據(jù)預(yù)處理

        人工抽取標(biāo)簽依然具有模糊性(如同義詞、多義詞等)、多樣性(縮寫、簡寫、詞形多樣等)等問題。本文通過定義標(biāo)簽清洗規(guī)則清洗標(biāo)簽,獲得具有更高數(shù)據(jù)質(zhì)量的標(biāo)簽集合,具體包括:1)刪除與目標(biāo)城市特征無關(guān)的標(biāo)簽數(shù)據(jù);2)刪除重復(fù)評論產(chǎn)生的標(biāo)簽,只存取其中一條標(biāo)簽數(shù)據(jù);3)改正標(biāo)簽中的錯別字,將相同標(biāo)簽數(shù)據(jù)進(jìn)行匯總。

        此外,為滿足熱點城市特征識別過程中的數(shù)據(jù)處理要求,本文將數(shù)據(jù)清洗后的標(biāo)簽按時間先后順序排序,并設(shè)置“序號”字段作為主鍵,使之成為標(biāo)簽的唯一標(biāo)識字段;定義“時間軸”字段簡化時間方面的相關(guān)計算,以2011年6月10日作為起始時間,將其取值設(shè)置為0,并按時間天數(shù)遞增獲得所有標(biāo)簽在“時間軸”字段下的數(shù)值。為獲取不同城市在各時間段內(nèi)熱點城市特征的變化情況,本文最終將所有數(shù)據(jù)分割為8個時間段,詳見表2。

        3.1.2?分詞詞庫獲取

        在搜狗細(xì)胞詞庫(https://pinyin.sogou.com/dict/)——“××市城市信息精選”詞庫中獲取搜狗官方網(wǎng)站推薦的我國中部六省省會城市的細(xì)分化詞庫。這些詞庫包含了我國中部六省省會城市關(guān)于地名、公交、購物、餐飲等各種信息,有助于提升標(biāo)簽的自動分詞效果。

        3.1.3?停用詞表創(chuàng)建

        根據(jù)分詞詞庫對標(biāo)簽進(jìn)行分詞,并統(tǒng)計分詞結(jié)果中各詞組詞頻,通過對比標(biāo)簽記錄表與詞頻統(tǒng)計表更新常用停用詞表,以此獲得自建停用詞表。

        3.2?評價指標(biāo)計算

        3.2.1?標(biāo)簽關(guān)注度計算

        首先,利用分詞詞庫和自建停用詞表對標(biāo)簽進(jìn)行自動分詞,并刪除去停用詞后為空的記錄。然后,依據(jù)自動分詞結(jié)果統(tǒng)計各詞組詞頻,獲得詞頻表,詞頻合計為N。針對某時間段下的標(biāo)簽Ta,可按詞組ti查詢詞頻表獲得nti;nti除以該時間段下的標(biāo)簽總數(shù)可得該詞組的fti。最后,依據(jù)公式計算TATa,Citya,詳見表3。

        3.2.2?標(biāo)簽新穎度計算

        首先,依據(jù)“時間軸”字段和自動分詞結(jié)果抽取每個詞組的所有出現(xiàn)時間,并計算詞組平均標(biāo)記時間。然后,針對某時間段下的標(biāo)簽Ta,按詞組ti查詢平均標(biāo)記時間表計算標(biāo)簽Ta的平均標(biāo)記時間獲得Dti/nti;最后,從自動分詞后獲得的數(shù)據(jù)表中抽取標(biāo)簽Ta含有詞組ti的數(shù)量n,按公式計算TATa,Citya,詳見表4。

        3.2.3?標(biāo)簽創(chuàng)新度計算

        計算標(biāo)簽創(chuàng)新度時需要比較兩個相鄰時間段的標(biāo)簽,即某時間段下標(biāo)簽Ta與前一時間段下標(biāo)簽Cb間的文本語義相似度。因此,TIME1時間段下所有標(biāo)簽的創(chuàng)新度均無法計算(設(shè)置為0)。獲得標(biāo)簽Ta與前一時間段下所有標(biāo)簽的文本語義相似度后,通過求和并除以前一時間段下標(biāo)簽總數(shù)的方式,可求得各時間段下標(biāo)簽的標(biāo)簽創(chuàng)新度,詳見表5。

        3.3?熱點城市特征識別

        3.3.1?指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化

        本文采用min-max標(biāo)準(zhǔn)化方法將具有不同量級和不同方向的評價指標(biāo)歸一化處理。正向指標(biāo)的數(shù)據(jù)處理方法為Y=(X-X_min)/(X_max-X_min),逆向指標(biāo)的數(shù)據(jù)處理方法為Y=(X_max-X)/(X_max-X_min)。其中,Y表示指標(biāo)的標(biāo)準(zhǔn)化值,X表示指標(biāo)的原始值,X_max與X_min分別表示指標(biāo)原始值中的最大值和最小值,詳見表6。

        3.3.2?評價指標(biāo)權(quán)重確定

        本文以不同時間段內(nèi)網(wǎng)絡(luò)用戶對不同城市的整體評價為參照對象,通過對比分析確定綜合指標(biāo)評價模型是否獲得了符合實際情況的熱點城市特征。在實證研究過程中,標(biāo)簽關(guān)注度指標(biāo)和標(biāo)簽新穎度指標(biāo)對識別熱點城市特征的作用程度更為突出,因此在綜合指標(biāo)評價模型中可以設(shè)定較大權(quán)重。其中,標(biāo)簽新穎度指標(biāo)由于受標(biāo)簽集合所處的時間階段影響,其作用程度次于標(biāo)簽關(guān)注度指標(biāo)。標(biāo)簽創(chuàng)新度指標(biāo)雖然對識別熱點城市特征具有一定作用,但不是最重要的考慮因素,且實際操作過程中受標(biāo)簽的自然語言處理結(jié)果(人工標(biāo)記結(jié)果和自動分詞結(jié)果)影響較大,因此在綜合指標(biāo)評價模型中可以適當(dāng)調(diào)低權(quán)重。本文最終將評價指標(biāo)權(quán)重設(shè)定為標(biāo)簽關(guān)注度權(quán)重0.45,標(biāo)簽新穎度權(quán)重0.35,標(biāo)簽創(chuàng)新度權(quán)重0.2,并由此獲得完整的綜合指標(biāo)評價模型:

        WTa,Citya=0.45TATa,Citya+0.35TNTa,Citya+0.2TITa,Citya(5)

        3.3.3?結(jié)果分析與解讀

        本文依據(jù)式(5)計算武漢各時間段下所有標(biāo)簽的WTa,Citya,并按WTa,Citya值降序排列選出其在各時間段下的熱點城市特征Top5,詳見表7。重復(fù)上述流程,本文得到我國中部六省省會城市在各時間段下的熱點城市特征,詳見表8。

        以武漢熱點城市特征為例,在8個時間段內(nèi)主要分布著“城市文化”、“城市交通”、“城市發(fā)展”、“城市環(huán)境”4個方面的城市特征描述。其中,公眾對城市交通和城市環(huán)境的描述在所有時間段內(nèi)基本沒有太大變化,“司機(jī)脾氣急躁”、“交通擁堵”、“暈車”等描述反映了公眾對城市交通的整體印象;“九省通衢”、“便利”等描述也反映武漢重要的交通樞紐地位,以及城市內(nèi)多元化的交通工具給公眾出行帶來的便利。在TIME 6時間段內(nèi)(2015.07-2015.12)首次出現(xiàn)了“光谷特別擁堵”的城市交通描述,這可能與光谷地區(qū)開始大力修建地鐵線路引起的交通擁堵有關(guān);在2014-2015年間,公眾對城市環(huán)境的描述主要集中在“冬冷夏熱”,尤其是“熱”、“火爐”成為武漢氣候的代表性描述。自2016年起,武漢熱點城市特征中出現(xiàn)了“霧霾”、“暴雨”、“潮濕”等新描述,究其原因是霧霾導(dǎo)致空氣質(zhì)量變差,天空呈現(xiàn)灰蒙蒙現(xiàn)象,而潮濕環(huán)境和炎熱天氣組合成“濕熱”氣候使得整個城市環(huán)境變得更加復(fù)雜。

        此外,公眾對武漢城市文化和城市發(fā)展的描述也隨著時間推進(jìn)呈現(xiàn)出一定變化。例如在城市文化方面,2014-2015年間公眾對武漢城市文化的描述主要體現(xiàn)在“黃鶴樓”、“戶部巷”等歷史文化,“涂鴉”、“VOX LiveHouse”等朋克文化,“熱干面”、“小龍蝦”等美食文化;但2017-2018年間則更傾向于旅游文化,“東湖”、“櫻花”、“輪渡”、“夜景”、“長江大橋”等城市特征也均成為新晉熱點城市特征。在城市發(fā)展方面,“滿城挖”和“修路”一直是公眾對武漢城市發(fā)展的主要描述,但武漢也在教育和經(jīng)濟(jì)方面出現(xiàn)了較為嚴(yán)重的人才流失問題。自2016年起,“武漢每天不一樣”成為武漢新的城市宣傳語,并由此帶來了“經(jīng)濟(jì)改善”、“人口增多”、“商圈擴(kuò)大”、“大學(xué)生留漢”等積極的社會影響。通過以上分析可知,盡管一座城市在不同時期內(nèi)的熱點城市特征具有部分相似性,但會隨著時代背景變化而呈現(xiàn)出一定差異。這些差異會在文中方法的計算結(jié)果中展現(xiàn)出來,這也在一定程度上說明了本文爆發(fā)詞檢測方法的必要性。

        4?結(jié)?語

        本文在考慮城市畫像刻畫方式其現(xiàn)實意義的基礎(chǔ)上,首先詳細(xì)分析了熱點城市特征的主要特點,并依據(jù)這些特點設(shè)計了熱點城市特征的評價指標(biāo)及其數(shù)據(jù)來源和計算方法;然后對不同量級、不同方向的評價指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,并采用線性加權(quán)和法構(gòu)造綜合指標(biāo)評價模型,計算不同時間內(nèi)城市的熱點城市特征;最后利用爬蟲技術(shù)采集知乎平臺中描述中部六省省會城市特征的用戶問答數(shù)據(jù),并以此為原始數(shù)據(jù)展開實證研究。然而本文使用城市標(biāo)簽數(shù)據(jù)的并不是傳統(tǒng)意義上的標(biāo)簽,而是從用戶問答數(shù)據(jù)中人工抽取的。雖然該方法能夠從海量網(wǎng)絡(luò)數(shù)據(jù)中獲取城市在不同時間段內(nèi)的熱點城市特征,但標(biāo)簽標(biāo)注質(zhì)量和自動分詞結(jié)果將直接影響著熱點城市特征的識別效果。因此,如何結(jié)構(gòu)化處理用戶原始評論提高標(biāo)簽抽取質(zhì)量,以及如何選用最優(yōu)的分詞技術(shù)提升分詞效果將會是本項目團(tuán)隊今后的研究方向。

        參考文獻(xiàn)

        [1]Lynch K.The Image of the City[M].Cambridge,Massachusetts:The MIT Press,1960.

        [2]馬亞雪,李綱,謝輝,等.數(shù)字空間視角下的城市數(shù)據(jù)畫像理論思考[J].情報學(xué)報,2019,38(1):62-71.

        [3]馬超,李綱.基于城市大數(shù)據(jù)的城市數(shù)據(jù)畫像構(gòu)建[J].現(xiàn)代情報,2019,39(8):3-9.

        [4]杜智濤,李綱.面向精細(xì)化治理的城市畫像:構(gòu)成要素與應(yīng)用體系[J].圖書情報知識,2019,(4):43-51.

        [5]田逢軍,汪忠列.城市空間意象研究述評與展望[J].世界地理研究,2014,(1):84-92.

        [6]王德,張昀,崔昆侖.基于SD法的城市感知研究——以浙江臺州地區(qū)為例[J].地理研究,2009,28(6):1528-1536.

        [7]張夢琦.北京市城市意象調(diào)查及解析[D].保定:河北農(nóng)業(yè)大學(xué),2013.

        [8]田逢軍,沙潤.城市旅游地意象空間分析——以南昌市為例[J].旅游學(xué)刊,2008,23(7):67-71.

        [9]宋偉軒,呂陳,徐旳.城市社區(qū)微觀空間意象研究——基于南京居民250份手繪草圖的比較[J].地理研究,2011,30(4):709-722.

        [10]張新紅,蘇建寧,魏書威.蘭州城市居民意象空間及其結(jié)構(gòu)研究[J].人文地理,2010,(2):54-60.

        [11]宋偉軒,呂陳,徐旳.城市社區(qū)微觀空間意象研究——基于南京居民250份手繪草圖的比較[J].地理研究,2011,30(4):709-722.

        [12]蔣志杰,吳國清,白光潤.旅游地意象空間分析——以江南水鄉(xiāng)古鎮(zhèn)為例[J].旅游學(xué)刊,2004,19(2):32-36.

        [13]陳夢遠(yuǎn),徐建剛.城市意象熱點空間特征分析——以南京為例[J].地理研究,2014,33(12):2286-2298.

        [14]Kumaran G,Allan J.Text Classification and Named Entities for New Event Detection[J].2004,20(17):297-304.

        [15]Nallapati R,F(xiàn)eng A,Peng F,et al.Event Threading Within News Topics[C]//Thirteenth ACM International Conference on Information and Knowledge Management.ACM,2004:446-453.

        [16]Blei D M,Lafferty J D.Dynamic Topic Models[C]//Proc.International Conference on Machine Learning.2006:113-120.

        [17]Li Z,Wang B,Li M,et al.A Probabilistic Model for Retrospective News Event Detection[J].2005:106-113.

        [18]Mei Q,Liu C,Su H,et al.A Probabilistic Approach to Spatiotemporal Theme Pattern Mining on Weblogs[C]//International Conference on World Wide Web.ACM,2006:533-542.

        [19]Kumar R,Mahadevan U,Sivakumar D.A Graph-theoretic Approach to Extract Storylines from Search Results[C]//Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Seattle,Washington,Usa,August.DBLP,2004:216-225.

        [20]Zhao Q,Liu T Y,Bhowmick S S,et al.Event Detection from Evolution of Click-through Data[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2006:484-493.

        [21]Fung G P C,Yu J X,Yu P S,et al.Parameter Free Bursty Events Detection in Text Streams[C]//International Conference on Very Large Data Bases.2005:181-192.

        [22]He Q,Chang K,Lim E P.Analyzing Feature Trajectories for Event Detection[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2007:207-214.

        [23]Lappas T,Arai B,Platakis M,et al.On Burstiness-aware Search for Document Sequences[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Paris,F(xiàn)rance,June 28-July.DBLP,2009:477-486.

        [24]逯萬輝,馬建霞,趙迎光.爆發(fā)詞識別與主題探測技術(shù)研究綜述[J].情報理論與實踐,2012,35(6):125-128.

        [25]劉宏哲,須德.基于本體的語義相似度和相關(guān)度計算研究綜述[J].計算機(jī)科學(xué),2012,39(2):8-13.

        [26]葉光輝,胡婧嵐,徐健,等.社交博客標(biāo)簽增長態(tài)勢與連接模式分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(6):74-82.

        (責(zé)任編輯:郭沫含)

        猜你喜歡
        詞組熱點標(biāo)簽
        熱點
        熱點
        車迷(2019年10期)2019-06-24 05:43:28
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        結(jié)合熱點做演講
        快樂語文(2018年7期)2018-05-25 02:32:00
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        標(biāo)簽化傷害了誰
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        副詞和副詞詞組
        熱點
        中國記者(2014年6期)2014-03-01 01:39:53
        亚洲国产综合一区二区| 又粗又大又黄又爽的免费视频| 欧美日本国产三级在线| 国产又粗又猛又黄色呦呦| 日本高级黄色一区二区三区| 三年片在线观看免费观看大全中国| 久热综合在线亚洲精品| 中文不卡视频| 女同另类专区精品女同| 国产精品久久久天天影视 | 日韩成人大屁股内射喷水 | 国产精品国三级国产a| 天堂中文最新版在线中文| 色拍拍在线精品视频| 欧洲无码一级毛片无遮挡| av免费资源在线观看| 成人亚洲一区二区三区在线| 国产剧情av麻豆香蕉精品| 91综合久久婷婷久久| 91久久香蕉国产熟女线看| √天堂中文官网在线| 好大好硬好爽免费视频| 91久国产在线观看| 久久中文字幕一区二区| 亚洲成av人影院| 亚洲日韩专区在线视频| 国产精品av免费网站| 中文字幕一区二区三区视频 | 亚洲av人片在线观看调教| 91精品国产综合久久久密臀九色 | 一区二区三区免费观看日本| 国产在线精品一区二区中文| 男人扒开女人双腿猛进女人机机里| 亚洲精品美女久久久久网站| 中文字幕精品亚洲字幕| 中文字幕日韩一区二区不卡| 国产一级毛片AV不卡尤物| 国产三级精品三级在线| 综合亚洲伊人午夜网| 精品久久人人妻人人做精品| 娇妻粗大高潮白浆|