王劉楊 曹洪 田雅
摘要:本文通過設計了一種高效的中間存儲格式,即帶索引的XML文件,能隨機存取指定行的單元格,并且壓縮存儲大量重復的單元格,解決了在線電子表格的數(shù)據(jù)存儲問題。
關鍵詞:在線電子表格;存儲;XML;JavaScript;單元格
中圖分類號:TP391.13 文獻標識碼:A 文章編號:1007-9599 (2013) 01-0187-02
1 引言
在線電子表格是將應用程序部署在服務器上,用戶通過瀏覽器訪問的網絡版電子表格軟件,其功能類似于桌面版電子表格。由于系統(tǒng)本身功能復雜,要處理的數(shù)據(jù)量大,而網頁所使用的JavaScript和HTML語言的性能遠遠低于桌面版的Java、C++等語言,使得網絡版的開發(fā)難度比桌面版更大。
在線電子表格的界面通過網頁來顯示,一個電子表格文檔包含的數(shù)據(jù)量可能非常大,例如一個512k的ods文檔,就有1000*256個單元格填滿數(shù)據(jù),由于JavaScript創(chuàng)建對象的效率低、占內存大,無法將這樣大量的數(shù)據(jù)裝載到客戶端內存,因此讓客戶端只加載當前顯示的那部分行數(shù)據(jù),由于客戶端數(shù)據(jù)不完整,所有編輯操作必須放在服須器端執(zhí)行。在服務器端執(zhí)行操作時文檔對象不能常駐內存,因為可能有很多文檔同時被在線編輯,內存占用將非常大。用關系數(shù)據(jù)庫存儲每篇文檔也是不合適的,因為電子表格文檔的內容是半結構化的,適合用XML文件存儲,這就意味著每個操作都要讀寫文件,對讀寫效率要求非常高。本文設計了索引文件+數(shù)據(jù)文件的存儲格式來實現(xiàn)隨機讀寫工作表的行數(shù)據(jù)。
2 文件存儲結構設計
一個電子表格文檔包含大量數(shù)據(jù),由于Web版電子表格每個編輯操作都要讀寫文件,為了提高讀寫效率,我們分成多個文件來存儲,這樣每次只需讀寫與當前操作相關的數(shù)據(jù)文件,而不需要為無關的數(shù)據(jù)耗費開銷。目錄結構如圖所示:
當從本地上傳或從服務器打開一個電子表格文檔
時,通過生成一個唯一的ID,在存儲服務器上創(chuàng)建一個名為book+ID的工作簿文件夾。
2.1 book.xml存儲工作簿的信息,包括:風格、默認行高列寬、所有區(qū)域命名等,還有若干工作表節(jié)點,記錄工作表的名稱和隱藏屬性等。此外,在每個工作表節(jié)點下還有公式和圖表所引用的單元格地址,之所以把它們放在book.xml中而不是在各自的工作表文件中,是因為它們都可以跨表引用,這意味著對一個工作表中的單元格區(qū)域做了修改,需要查找所有工作表中的公式、圖表看是否需要修改,為了提高查詢效率,把它們集中放在一個文件中。
2.2 charts文件夾下存放圖表的信息,每個圖表一個xml文件,包括圖表的尺寸、坐標、引用的圖片地址、標題、圖例以及x、y屬性。
2.3 sheet+ID文件夾下存放一個工作表的全部內容,ID在創(chuàng)建工作表時由系統(tǒng)生成。
該文件夾包括:
(1)table.xml存儲行列的高寬及隱藏屬性、合并單元格、篩選器和插入的圖片地址等信息。其中行、列節(jié)點依序排列,用屬性“repeat='n'”來記錄連續(xù)n行(列)有相同的屬性,例如:
表示第100列設置了列寬為0.3cm,其他都是默認列寬。
(2)content.txt存儲單元格的內容,其格式仍然是xml,但為了能隨機讀寫,不能帶最外層的根節(jié)點,因此存為.txt。數(shù)據(jù)按照工作表的行存儲,基本結構為"
表示第100行第3列單元格有字符串類型的數(shù)據(jù)"abc"。
一個工作表可能有很多行有數(shù)據(jù),如果每次修改一個單元格就要對整個文件全讀全寫是很費時的。Java可以隨機讀寫文件,但必須知道從第幾字節(jié)開始讀寫,本文設計了索引文件contentIndex.txt來記錄content.txt文件中每個
(3)styles.txt存儲單元格的樣式屬性,結構與content.txt相同,將內容和樣式分開存儲是因為多數(shù)操作不會同時修改樣式和內容,這樣避免了讀寫無關的數(shù)據(jù)。同樣為styles.txt中的
2.4 history文件夾存放每個操作的歷史記錄,用于撤銷和恢復詳細存儲格式。Pictures文件夾存放插入到工作表中的圖片。
3 服務器端數(shù)據(jù)模型
從文件中讀出的單元格數(shù)據(jù)要建立一定的數(shù)據(jù)模型才能進行邏輯操作,由于一次讀取的單元格可能很多,如果直接用DOM對象,會內存溢出。我們設計了一套與文件存儲結構對應的數(shù)據(jù)對象,采用SAX(Stream API for XML)解析方式, 它占用內存很小,每次讀入一段字符流解析,遇到節(jié)點的起始標簽、內容和結束標簽分別觸發(fā)相應的事件,調用相應的回調函數(shù),創(chuàng)建我們自定義的數(shù)據(jù)模型。如圖所示:
Cell和Style是基本元素,分別存儲單元格內容和樣式,它們都實現(xiàn)IRepeatItem接口,即都帶repeat屬性,表示同行的連續(xù)n個單元格。Row代表工作表中的行對象,也實現(xiàn)IRepeatItem,一個Row對象可以表示連續(xù)n個數(shù)據(jù)完全相同的行。Row對象含有Cell或Style對象的數(shù)組,該數(shù)組類型為RepeatList,它的元素必須實現(xiàn)IRepeatItem,RepeatList提供了一系列訪問數(shù)組元素的方法,包括按行號增加、刪除、獲取和拆分元素,當選中一片單元格區(qū)域進行修改時,可能需要把邊界的Row 或Cell/Style對象拆分為兩個。RowsList代表連續(xù)n行,含有Row對象的數(shù)組,它的start屬性記錄起始行號。
4 前后臺數(shù)據(jù)交互格式
4.1 操作指令
客戶端接收到用戶的操作后,發(fā)送操作指令給服務器進行處理。操作指令為xml格式的字符串,標簽名即操作名稱,屬性包括:工作簿ID,工作表ID,選中的單元格區(qū)域和要設置的屬性等等。例如:
表示設置第1行第5列到第2行第5列這個矩形區(qū)域的字體為"Georgia",rooSessionId是每個窗口的唯一ID,用于服務器端分別記錄不同窗口的操作歷史,以便撤銷和恢復。
4.2 返回數(shù)據(jù)
服務器端處理完操作后返回數(shù)據(jù)給客戶端,格式為JSON(JavaScript ObjectNotation),它是一種輕量級的數(shù)據(jù)交換格式,它與JavaScript定義對象的語法相同,可以直接轉化為JavaScript的對象,解析效率高。返回數(shù)據(jù)格式的設計必須涵蓋工作簿全部信息,且盡量簡短,以縮短網絡傳輸時間和解析時間。AJAX的回調函數(shù)接收到這個JSON對象后,遍歷每個工作表對象,取出各個子對象,包括工作表信息、單元格信息、圖表、媒體、合并單元格、篩選器等,交給相應的處理器更新內存數(shù)據(jù)以及界面元素。
參考文獻:
[1]David Hunter,Jeff Rafter,Joe Fawcett. XML入門經典[M].清華大學出版社.
[2]David Flanagan.JavaScript權威指南[M].機械工業(yè)出版社.
計算機光盤軟件與應用2013年1期