作者:朱錚南 (發(fā)表在《軟件報》2009年33期)
一、怎樣從多頁的PDF文檔里抽取若干頁成為JPG格式圖片
最方便的要數(shù)使用Adobe Acrobat,點擊Adobe Acrobat里的“導(dǎo)出”工具按鈕,并選擇“JPG”,PDF文檔的所有頁面就自動轉(zhuǎn)換成一個個JPG格式文件。
如果你有Photoshop軟件,可以這樣操作,在Photoshop里打開PDF文檔,Photoshop會讓你選擇打開那個頁面,選定頁面后打開,再另存為JPG格式圖片文件。這個方法的缺點是一次只能抽取一頁,需要重復(fù)操作,效率比較低。
二、怎樣將PDF文檔轉(zhuǎn)換成Word文檔
在adobe acrobat里將要轉(zhuǎn)換的PDF文檔打開,操作菜單“文件”→“另存為”,將保存類型選為“Microsoft word”就能轉(zhuǎn)換成Word文檔。或者點擊Adobe Acrobat里的“導(dǎo)出”工具按鈕,導(dǎo)出文件類型選擇“Word”,結(jié)果是一樣的。
一款名字為e-PDF To Word Converter的軟件專門用來將PDF文檔轉(zhuǎn)換成Word文檔,網(wǎng)上有漢化特別版可供下載。
http://www.pdftoword.com/網(wǎng)站提供在線轉(zhuǎn)換服務(wù),只需要將待轉(zhuǎn)換的PDF文檔上傳到這個網(wǎng)站,網(wǎng)站就會將載轉(zhuǎn)換成的Word文檔發(fā)到你的電子信箱里。
特別要說明的是,如果是通過掃描紙質(zhì)文件生成的PDF文檔,轉(zhuǎn)換成Word文檔以后得到的每一頁都是插在Word文檔里的圖片,無法進行編輯。即便是由Word等其它可以編輯的電子文檔生成的PDF文檔,轉(zhuǎn)換成Word文檔以后,文字也是分布在一個個圖文框里,如果版面稍復(fù)雜一些,文字還有可能重疊在一起,重新編輯的工作量還很大。
三、怎樣從PDF文檔里導(dǎo)出文字
假如PDF文檔是由Word等其它可以編輯的電子文檔生成的,用adobe reader或adobe acrobat的“選擇工具”選中文字后按“Ctrl”+“C”鍵,就可以將文字復(fù)制到剪貼板里,隨便你粘貼到那里。adobe reader在安裝后的默認狀態(tài)下,“選擇工具”是看不見的,需要操作菜單“工具”→“自定義工具欄”,在“選擇工具”前打上鉤,將它顯現(xiàn)出來。
若要將整篇PDF文檔的文字都導(dǎo)出來,在adobe reader里只要操作菜單“文件”→“另存為文本”,導(dǎo)出的文字就存到了一個文本文件里了。在adobe acrobat里則是操作菜單“文件”→“另存為”,保存類型選擇“純文本”,或者點擊“導(dǎo)出”工具按鈕,導(dǎo)出文件類型選擇“更多格式”→“純文本”。
四、使用OCR文本識別技術(shù)導(dǎo)出文字
如果PDF文檔是通過掃描紙質(zhì)文件生成的,就不能夠用上述簡單的方法導(dǎo)出文字了,但也可以借助OCR文本識別技術(shù)來導(dǎo)出文字。
在adobe acrobat里可以操作菜單“文檔”→“OCR文本識別”→“使用OCR識別文本”,經(jīng)過識別以后,就可以用“選擇工具”選中文字進行復(fù)制了。
adobe reader沒有自帶OCR文本識別功能,但可以這樣操作,操作菜單“文件”→“打印”,打印機名稱選擇“Microsoft Office Document Image Writer”,這是一個隨Microsoft Office 2003一起安裝到計算機里的虛擬打印機,它將PDF文檔打印到后綴為“mdi”的文件里,并自動打開,在打開的“mdi”文件里依次操作菜單“工具”→“使用OCR識別文本”和“工具”→“將文本發(fā)送到word”就可以將文字導(dǎo)出到一個Word文檔里。
OCR文本識別技術(shù)的識別率取決于創(chuàng)建PDF文檔時的掃描精度,那些字跡模糊不清的文檔,能夠正確識別出的文字也不會太多。
五、怎樣復(fù)制出PDF文檔里的插圖
用adobe reader或adobe acrobat打開PDF以后用“選擇工具”選中插圖后按“Ctrl”+“C”鍵,就可以將插圖復(fù)制到剪貼板里。在adobe acrobat里操作菜單“高級”→“文檔處理”→“導(dǎo)出所有圖像”,就能夠一次將文檔里的所有圖片全部導(dǎo)出成一個個圖像文件。
六、怎樣復(fù)制PDF文擋里的表格
用adobe acrobat打開PDF以后用“選擇工具”選中PDF文擋里的表格,右擊鼠標(biāo),在彈出的菜單里點選“復(fù)制為表”,在Excel里操作菜單“選擇性粘貼”,在對話框里選擇“csv”后點擊“確定”,PDF文擋里的表格就復(fù)制到Excel里了。也可以選中PDF文擋里的表格,右擊鼠標(biāo),在彈出的菜單里點選“在Excel里打開”,表格就自動變成了Excel表。
如果需要將表格粘貼到Word文擋,應(yīng)當(dāng)采用“選擇性粘貼”以“無格式文本”進行粘貼,粘貼之后選中這些數(shù)據(jù),再操作菜單“表格”→“轉(zhuǎn)換”→“文本轉(zhuǎn)換表格”。
如果PDF文檔是通過掃描紙質(zhì)文件生成的,就不能復(fù)制成表格,只可以將表格復(fù)制成圖片。
以上將PDF文檔轉(zhuǎn)換成Word文檔以及從PDF文檔里導(dǎo)出文字或圖像的方法,取決于該文檔沒有加密對文檔進行限制,如果文檔已經(jīng)加密進行了限制,只有在解密了以后才有可能進行。
七、怎樣去除word等軟件里的Adobe Acrobat菜單欄
安裝了Adobe Acrobat以后,在Word、Excel、AutoCAD軟件的菜單里會多出幾個Adobe Acrobat的菜單欄,其實這是Adobe Acrobat和這些應(yīng)用軟件的無縫結(jié)合,利用這些菜單可以方便地將這些應(yīng)用軟件創(chuàng)建的文檔轉(zhuǎn)換成PDF格式的文檔,并能對轉(zhuǎn)換的有關(guān)參數(shù)進行控制和調(diào)整。但是由于這些菜單占據(jù)了位置,不少使用者希望將它們?nèi)コ?br> 去除的方法很簡單,在“控制面板”里進入“添加和刪除程序”,找到 Adobe Acrobat后點擊“更改”,在“程序維護”對話框里選“修改”,到下一步的“自定義安裝”里將Office、AutoCAD去掉即可。
安裝Adobe Acrobat的時候如果選擇“自定義安裝”,就可以在安裝過程里提前將Office、AutoCAD等剔除,就不會在Word、Excel、AutoCAD等軟件里添加Adobe Acrobat菜單欄了。