PDF是Adobe公司開發(fā)的電子文件格式,也是互聯網上進行電子文檔發(fā)行和數字化信息傳播的理想文檔格式之一。現在互聯網上有相當大數量的電子圖書、產品說明、公司文告、網絡資料、電子郵件都使用PDF格式文件,然而有很多PDF文件用戶不能直接提取該文檔中的文字或圖片信息,給大家查找和使用資料帶來麻煩。
提取和編輯文本信息
提取PDF文件中的文本信息時,需要先將PDF文件轉換為文本文檔,PDF2Word讓你可以把文本、圖片以及其他內容從PDF文檔中輸出到Word文檔中,使你能夠重新編輯PDF內容。PDF2Word是一個獨立的軟件,你不需要安裝Microsoft Word,Adobe Acrobat,甚至Acrobat Reader便可以運行它。
在安裝完成之后,使用PDF2Word轉換PDF文件時,在程序主界面中單擊“文件/打開”按鈕,選擇需要打開的PDF文件(如圖1),隨后單擊“打開”按鈕,彈出Preference設置框。在這里你可以根據自己的需要設置文本轉換的質量、頁碼范圍以及語言等等(如圖2)。點擊確定之后,彈出文件保存對話框,在此選擇轉換后文件保存的文件名和路徑即可。當分析轉換完畢之后,我們就可以隨意提取和修改PDF文檔中的文本信息了。
一網打盡PDF中的圖片
如果想要從PDF文檔中導出一些圖片資源,一個笨而有效的方法就是通過屏幕截圖工具一張一張地間接“提取”;如果遇到帶水印的PDF,那截取好的圖片還需要靠別的圖像處理軟件修改一番;最頭疼的莫過于,有些PDF文檔的頁碼非常多,圖片與圖片之間的頁碼跨度也非常大,難道真的只能低效率地一頁一頁折騰嗎?
在這里推薦一款軟件“PDF Image Extraction Wizard”,它的批量處理功能非常強大,最顯著的特點是,除了能通過各種靈活地設置批量從PDF中導出圖片,還可以按照你的設置將PDF中的特定頁轉換成為高質量的圖片,而且最重要的是,這一切轉換的速度都相當快。
“PDF Image Extraction Wizard”在官網上分為普通版和專業(yè)版兩個版本。怎么說呢,兩版功能差異很大(如圖3),簡單說來,專業(yè)版和普通版都可以提取所有圖片,但是專業(yè)版還有更多強大的功能,比如說可以選擇提取圖片的頁碼范圍,可以提取有密碼保護的PDF的圖片,以及PDF批量提取等等。
“PDF Image Extraction Wizard”目前在Windows 95到 Windows 8的系統(tǒng)上都可以正常運行,并且32/64位兼容。“PDF Image Extraction Wizard”的安裝非常簡單,安裝結束后,我們就能直接打開軟件的試用版。有些朋友也許想知道試用版的限制吧,大家可以把試用版想成是閹割版本的“PDF Image Extraction Wizard”普通版,只提供批量導出圖片的功能,且每次操作只能隨機保存三張PDF所包含的圖片。也許在目前的網絡環(huán)境下,大家更傾向于使用免費的甚至是盜版的軟件,但是隨著時間的流逝,大家應該會理解到軟件開發(fā)者的不易從而重拾對正版軟件的尊重吧。
軟件的使用非常簡單,打開軟件(如圖4),在“PDF file”選擇想要提取圖片的PDF文檔,在“Output folder”選擇輸出圖片的路徑,點擊“Next(下一步)”即可。