黃 鸝
(長江大學期刊社,湖北 荊州 434023)
Word/Excel 輔助快速提取方正書版.fbd文件中文摘數(shù)據(jù)的方法研究
黃 鸝
(長江大學期刊社,湖北 荊州 434023)
針對《中國石油文摘》稿件提交系統(tǒng)需要逐條輸入分類號、篇名、作者、作者單位、摘要、關鍵詞、起止頁碼等信息,操作起來比較機械、煩瑣的問題,提出了一種利用Word中的宏和Excel中的宏、自動篩選、分列、自動計算等功能來快速提取上述信息的方法。以《石油天然氣學報(江漢石油學院學報)》數(shù)據(jù)為例,通過宏按鈕可以直接提取出“分類號、摘要、關鍵詞”,其他數(shù)據(jù)通過分列、自動計算再經(jīng)過一定的加工均可快速提取出來。這種方法使文摘數(shù)據(jù)的提取效率大大提高。
文摘;數(shù)據(jù)提??;Word;Excel
石油類期刊很多都向《中國石油文摘》提供文摘數(shù)據(jù),采用《中國石油文摘》稿件提交系統(tǒng)(以下簡稱“提交系統(tǒng)”)需要逐個從正文中將篇名、作者、作者單位、摘要、關鍵詞、中圖分類號等復制并粘貼到提交系統(tǒng)中。操作雖然簡單,但比較機械、煩瑣。為了改變這種方式,筆者提出利用Word中的宏[1]和Excel中的宏、自動篩選、分列、自動計算等功能[2]來快速提取期刊論文中的這些數(shù)據(jù)項。下面以《石油天然氣學報(江漢石油學院學報)》為例,說明如何提取方正書版系統(tǒng)的.fbd文件中的文摘數(shù)據(jù)。
1.1目次頁文件中的數(shù)據(jù)——Word宏
在Word中打開欲提取文摘數(shù)據(jù)的《石油天然氣學報》目次頁文件(文件名為:石油天然氣學報目次.fbd)(見圖1),選擇“工具-宏-錄制新宏”,在打開的“錄制宏”的對話框中輸入宏的名稱,如輸入“目次頁分列”,將其指定到工具欄上并保存在所有文檔中,關閉對話框(見圖2)。以下的操作將被記錄在這個宏中:選擇“編輯-替換”,打開“查找和替換”對話框,選擇目次頁文件中的方正排版命令“漢體五號楷體居右排”將其換為“|”(見圖3);按同樣的方法,將“(”換成“|”,將“漢體五號書宋”刪除,然后全選數(shù)據(jù),點擊“表格-轉換-文本轉換成表格”,在打開的對話框中選擇“其他字符”,在其后的輸入框中輸入 “|”(見圖4), 按提示要求完成后,停止錄制宏。此時目次頁文件已被轉換為一個具有篇名、作者及頁碼這3列的一個表格了(見圖5)。
圖1 目次頁節(jié)選
圖2 Word中錄制宏對話框 圖3 查換和替換對話框 圖4 文本轉換成表格對話框
1.2正文文件中的數(shù)據(jù)——Excel宏
圖5 文本轉換結果
在Word中打開欲提取文摘數(shù)據(jù)的《石油天然氣學報》正文文件(文件名為:石油天然氣學報正文.fbd),全部選中后復制、粘貼到新建的Excel工作簿中的Sheet1中,先錄制一個提取數(shù)據(jù)的宏,以后只需執(zhí)行這個宏,就可以完成數(shù)據(jù)提取。Excel中宏的錄制過程如下:“工具-宏-錄制新宏”,在對話框中給新宏取名為“篩選文摘數(shù)據(jù)”,將其保存在“新工作簿”中,關閉對話框(見圖6),接下來的按鍵操作和快捷鍵操作的過程都將被記錄下來:
1)選擇“數(shù)據(jù)-篩選-自動篩選”,此時在單元格(如A1單元格)右下角出現(xiàn)一個向下的三角形篩選按鈕,點擊該按鈕,選擇“自定義…”,打開“自定義自動篩選方式”對話框,點擊左框的下拉箭頭,選擇“始于”,在右框中輸入“[摘要]”,按“確定”后(見圖7),即把始于“[摘要]”的數(shù)據(jù)篩選出來,選中該數(shù)據(jù)列,用快捷鍵Ctrl+C,將選中數(shù)據(jù)列復制到剪貼板中,再點擊“Sheet2”工作表標簽,光標定位在A1單元格,按“Ctrl+V”,將篩選出的“[摘要]”粘貼到A列。
圖6 Excel中的錄制新宏 圖7 定義自動篩選對話框
圖8 篩選結果
2)點擊“Sheet1”,點擊篩選按鈕,選擇“全部”之后,全部數(shù)據(jù)顯示出來,此時再點擊篩選按鈕,選擇“自定義”,打開“自定義自動篩選方式”對話框,點擊左框的下拉箭頭,選擇“始于”,在右邊的輸入框中輸入“[關鍵詞]”,按“確定”后,把始于“[關鍵詞]”的數(shù)據(jù)篩選出來,選中該數(shù)據(jù)列,用快捷鍵Ctrl+C,將選中數(shù)據(jù)列復制到剪貼板中,再點擊“Sheet2”工作表標簽,光標定位在B1單元格,按“Ctrl+V”,將篩選出的“[關鍵詞]”粘貼到B列。
3)重復步驟2),此時可將篩選內容換為“[中圖分類號]”“漢體小五號細圓”,就會分別將“中圖分類號”和“作者單位”篩選出來,將其分別粘貼到Sheet2中C列和D列(見圖8)。此時停止宏的錄制,“篩選文摘數(shù)據(jù)”的宏就錄制完成了。下次進行文摘數(shù)據(jù)提取時,只需執(zhí)行“篩選文摘數(shù)據(jù)”這個宏即可。
1.3提取數(shù)據(jù)的加工
提取出來的數(shù)據(jù)還帶有許多不需要的內容,仍然可以通過錄制宏的方式將這些詞刪除。圖8中D列數(shù)據(jù)為“作者單位”,其中還有單位所在城市及郵編,這2項內容是文摘數(shù)據(jù)庫中不需要的信息,需要刪除。因為《石油天然氣學報》作者單位與城市名稱和郵編是用“逗號”分開的,可以利用這一點,選擇Excel中的“數(shù)據(jù)-分列”,根據(jù)對話框的提示,選擇分隔符為“逗號”,按提示信息即可將作者單位與城市、郵編分為2列,此時直接選取作者單位數(shù)據(jù)即可。
圖9 加工完成的文摘數(shù)據(jù)
“文章起始頁碼”可手工輸入,之后的“止頁碼”是下一篇文章的“‘起始頁碼’-1”,可通過Excel中的公式快速生成。
按照《中國石油文摘》提交系統(tǒng)的要求,將前文經(jīng)過加工的提取數(shù)據(jù)逐一復制、粘貼到包含所有字段的Excel文件中相應的字段下,對其中的“圖、表、參”的具體數(shù)據(jù),需要逐個錄入,之后的“圖、表、參”可以利用Excel中的字符連接運算自動生成。加工好以后,將Excel文件導入Access數(shù)據(jù)庫中(見圖9),將數(shù)據(jù)庫文件壓縮后即可發(fā)送給《中國石油文摘》編輯部,完成數(shù)據(jù)的提交。
通過Word和Excel中的“目次頁分列”“篩選文摘數(shù)據(jù)”這2個宏按鈕,可輕松提取“篇名、作者、起始頁碼、摘要、關鍵詞、中圖分類號”,再配合使用Excel數(shù)據(jù)分行、自動計算等功能就可將“作者單位、起止頁碼”提取或計算出來。這種方法將機械、枯燥的數(shù)據(jù)提取過程變?yōu)榱溯p松、有趣的過程,同時還提高了數(shù)據(jù)提取的效率。
[1]人力資源和社會保障部人事考試中心.Word2003中文字處理[M].北京:中國人事出版社,中國勞動社會保障出版社,2010.
[2]人力資源和社會保障部人事考試中心.Excel2003中文電子表格[M].北京:中國人事出版社,中國勞動社會保障出版社,2010.
[編輯] 洪云飛
10.3969/j.issn.1673-1409(N).2012.12.032
TP391.13
A
1673-1409(2012)12-N099-03