彭哲 郎香香 張婷婷
摘 要:圖形處理軟件CorelDRAW可以提取矢量圖形的坐標(biāo),得到的坐標(biāo)值經(jīng)簡(jiǎn)單變化后,可以還原為初始數(shù)據(jù)。本文通過(guò)一則實(shí)例介紹了具體的操作方法,對(duì)需要提取精確數(shù)據(jù)的研究提供了有益的參考。
關(guān)鍵詞:坐標(biāo)提??;時(shí)間序列;CorelDRAW
0 引言
在進(jìn)行宏觀經(jīng)濟(jì)學(xué)研究時(shí),通常需要參閱一些專業(yè)報(bào)告,摘取其中的時(shí)間序列數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。然而,不少專業(yè)報(bào)告只提供時(shí)間序列的走勢(shì)圖,并不報(bào)告全部的原始數(shù)據(jù)。這些圖形所對(duì)應(yīng)的數(shù)據(jù)無(wú)法通過(guò)其他公開渠道獲得,給研究工作造成了一定困難。
為了盡量利用圖片信息,提取出數(shù)據(jù)的數(shù)值,使用者可以借助一些專業(yè)軟件。這類數(shù)據(jù)提取軟件包括:engauge、g3data、imageJ、Plot Digitizer、windig和UN-SCAN-IT等。遺憾的是,這些軟件提取的數(shù)據(jù)精度較差。其原因有二:首先,這類軟件處理的是非矢量圖(如bmp、jpg、tiff等格式),提取的數(shù)據(jù)精度受限于原始圖像的分辨率。其次,在應(yīng)用這類軟件時(shí),使用者需要人為設(shè)定坐標(biāo)的起始點(diǎn),有些軟件甚至需要手工確定曲線上每個(gè)節(jié)點(diǎn)的位置(如g3data),從而造成了較大的誤差。
以UN-SCAN-IT為例,該軟件雖然支持自動(dòng)提取曲線坐標(biāo),但設(shè)定自動(dòng)提取時(shí),使用者需要指定目標(biāo)曲線的顏色。若曲線顏色深淺不一,則會(huì)造成提取失敗。此外,曲線的粗細(xì)也會(huì)影響到使用者對(duì)節(jié)點(diǎn)的判斷,進(jìn)而影響數(shù)據(jù)的精度。最后,這些軟件并不能保證數(shù)據(jù)的間隔(頻率)與原始時(shí)間序列的固有間隔一致。以一個(gè)年度時(shí)間序列圖為例,提取的數(shù)據(jù)本應(yīng)是每年一個(gè)觀察值。但是實(shí)際操作中,不僅兩個(gè)年份之間會(huì)出現(xiàn)新的節(jié)點(diǎn),原有的節(jié)點(diǎn)也可能因?yàn)榫惹芳讯x對(duì)應(yīng)的年份。
但是,如果報(bào)告文件中嵌入的圖片是矢量圖,且至少有2個(gè)節(jié)點(diǎn)的真實(shí)數(shù)值已知,那么從理論上講,可以用矢量圖形處理軟件得到所有節(jié)點(diǎn)的精確坐標(biāo),進(jìn)而還原出原始數(shù)據(jù)。這種數(shù)據(jù)提取方法的原理是:矢量圖能夠保持原始時(shí)間序列的拐折點(diǎn)(節(jié)點(diǎn)),放大或縮小圖形也不會(huì)使圖形失真。
由于經(jīng)濟(jì)類專業(yè)報(bào)告一般采用pdf格式,因此這里以一個(gè)pdf格式的報(bào)告為例,介紹Acrobat軟件下矢量圖形的提取。
1 矢量圖的數(shù)值提取方法
本文的范例時(shí)間序列圖取自戴德梁行(DTZ)2002年第三季度發(fā)布的報(bào)告[1]--《中國(guó)大陸房地產(chǎn)價(jià)格指數(shù)》(DTZ Index, Chinese Mainland)。它包含了北京市寫字樓租金與售價(jià)指數(shù)的時(shí)間序列圖。其中,寫字樓租金曲線包含了1991第一季度至2002年第三季度的走勢(shì),寫字樓售價(jià)曲線包含了1993年第三季度至2002年第三季度的走勢(shì),如圖1所示。
但是,這份報(bào)告只列出了時(shí)間序列圖所對(duì)應(yīng)的部分?jǐn)?shù)據(jù)——1997年之前的數(shù)據(jù)僅有各年份第四季度的記錄。
(一)提取曲線
要提取數(shù)據(jù),第一步需要將矢量曲線提取出來(lái)。這里選取的示例圖例為"寫字樓租金指數(shù)"(Office Rent Index)。
提取矢量圖的具體步驟是:首先用Acrobat軟件打開pdf文件,依次點(diǎn)擊工具→高級(jí)編輯→TouchUp對(duì)象工具。將鼠標(biāo)指向要提取的曲線。此時(shí),屏幕會(huì)出現(xiàn)一個(gè)淺色的圖框(如圖1所示),目標(biāo)曲線就包含在這個(gè)圖框中。點(diǎn)擊鼠標(biāo)右鍵,選擇"編輯對(duì)象",這樣,折線就會(huì)被單獨(dú)提取成一個(gè)pdf文件。接下來(lái),將文件另存?zhèn)溆谩?/p>
(二)記錄坐標(biāo)數(shù)值
為了提取曲線的坐標(biāo)值,用CorelDRAW軟件打開上一部提取的pdf文件。CoredDRAW軟件會(huì)自動(dòng)確定每個(gè)節(jié)點(diǎn)相對(duì)圖形的位置(如圖2所示)。
將鼠標(biāo)指向第一個(gè)節(jié)點(diǎn),以節(jié)點(diǎn)為中心,將圖片放大到最大比例。這時(shí),屏幕左下方就會(huì)出現(xiàn)該節(jié)點(diǎn)的坐標(biāo)值,然后將之記錄下來(lái)。這樣,使用者就得到了曲線節(jié)點(diǎn)的精確位置。需要注意的是,CorelDRAW軟件記錄的數(shù)值有三位小數(shù)。重復(fù)上述過(guò)程,直到整條曲線的坐標(biāo)都被記錄下來(lái)。表1的第2列給出了"寫字樓租金指數(shù)"的前12個(gè)記錄(1991第一季度至1993第四季度)的坐標(biāo)。
需要注意的是,本文的提取方法至少需要確定2個(gè)點(diǎn)的坐標(biāo):一個(gè)是起點(diǎn),它的作用是確定圖形其他節(jié)點(diǎn)的相對(duì)位置;另一個(gè)是參考點(diǎn),參考點(diǎn)與起點(diǎn)之間的縱坐標(biāo)距離,能夠定出提取曲線(提取的數(shù)據(jù))與原始曲線(原始數(shù)據(jù))的比例關(guān)系。本例所用的文件顯示:北京1991年第一季度的寫字樓租金指數(shù)為54.6;該指數(shù)以1993年第三季度為基準(zhǔn),數(shù)值取為100。這些額外的信息記錄在表1的第4列中。
(三) 簡(jiǎn)單變換
提取的各節(jié)點(diǎn)坐標(biāo)是矢量圖在CorelDRAW中的坐標(biāo),其數(shù)值與原始圖形不同。要將提取的坐標(biāo)值還原為原始數(shù)據(jù),需要對(duì)提取后的數(shù)值進(jìn)行再處理。因此,本文采用Excel進(jìn)行簡(jiǎn)單的處理。
記提取的數(shù)據(jù)為Y■ (表1第2列),提取數(shù)據(jù)的參考點(diǎn)記為Yrf,即1991年第四季度的數(shù)值。由上一步可知,Yrf=86.298。兩個(gè)已知的真實(shí)數(shù)據(jù)節(jié)點(diǎn)分別記為Y0rf和Y0b,其中, Y0rf=54.6是參考點(diǎn),即1991年第四季度的數(shù)值;Y0b=100是基準(zhǔn)點(diǎn),即1993年第三季度的數(shù)值。
將提取的數(shù)據(jù)和實(shí)際值減去各自的參考值后,得到Y(jié)■-Y■ (第3列)和Y■■-Y■■ (第5列)。用去掉參考值后的真實(shí)值Y■■-Y■■ (第4列)除以去參考值的提取值Y■■-Y■■ (第3列),就得到了縮放比例,記為M。本例中,M= 45.4/9.125 = 4.975,如第6列所示。這樣,就可以根據(jù)已知兩點(diǎn)的實(shí)際值求出曲線中所有節(jié)點(diǎn)的實(shí)際值,即為
Y■■=Y■■+M×Y■-Y■
如第7列所示。當(dāng)然,用這種方法提取的數(shù)據(jù)精度不可能高于原始數(shù)據(jù)。這是因?yàn)?,在還原原始值的過(guò)程中需要計(jì)算比例值M,而M的計(jì)算用到了原始數(shù)據(jù)的值。
2 非時(shí)間序列圖形的提取
需要說(shuō)明的是,圖1中時(shí)間序列的橫軸坐標(biāo)是季度,而需要的工作是按照時(shí)間順序提取縱軸坐標(biāo)的寫字樓租金指數(shù)和價(jià)格指數(shù)。因此,使用者只需提取出曲線的縱坐標(biāo)即可。
若圖形是非時(shí)間序列圖,使用者可能會(huì)關(guān)心橫軸的內(nèi)容。這時(shí),使用者需要記錄CorelDRAW軟件給出的橫、縱坐標(biāo)值,再對(duì)變換后的節(jié)點(diǎn)數(shù)值分別計(jì)算縮放比例即可。
3 結(jié)論
矢量圖可以精確地記錄曲線的拐折點(diǎn),因此在理論上,使用者可以從矢量圖中精確提取圖形的坐標(biāo),再通過(guò)簡(jiǎn)單變換將提取后的數(shù)據(jù)還原為原始數(shù)值。本文介紹了利用矢量作圖軟件CorelDRAW提取真實(shí)數(shù)據(jù)的操作步驟,為從半公開報(bào)告中提取數(shù)據(jù)提供了一種新的方法。有助于緩解研究者在搜集數(shù)據(jù)時(shí)所面臨的數(shù)據(jù)可得性難題。
參考文獻(xiàn):
[1] DTZ (2003). DTZ Index of Chinese Mainland. http://esd.nankai.edu.cn/bbs/attachment.aspx?attachmentid=5922.