本方法適用于掃描所得的圖片型PDF文件的文字識別。
1.工具:microsoft office document imaging(見Office 2003 工具)、Windows程序附件中的“畫圖”板。
2.圖片文件格式:.tif(即Tag圖像文件格式,tiff)
3.步驟:
A.在PDF文件中使用快照工具,選中需要識別的區(qū)域。提示“選定的區(qū)域已復制到了剪貼板”,點擊“確定”。
B. 打開“畫圖”板,“開始--程序--附件--畫圖”,然后點“編輯--粘貼--文件--另存為”,在保存類型中選擇Tiff,然后“保存”。
C.用microsoft office document imaging打開保存的tif文件,“開始--程序--Microsoft office--microsoft office工具--microsoft office document imaging”,接下來有兩種方法:1)點“工具--使用OCR識別文本”,然后在運行過OCR的頁面上直接復制文字粘貼到Word中即可進行編輯。2)點“工具--將文本發(fā)送到Word”,去掉“在輸出時保持圖片版式不變”前面選擇框中的“√”,然后確定,在彈出的Word中選擇文字即可進行編輯,識別完成。
4.注意事項:
A.PDF原稿越清晰識別效果越好,建議放大到200%使用快照工具。
B.其他格式圖片應先轉換為tif格式,用“畫圖”板打開然后另存就可以。
C.使用快照工具時選區(qū)邊界盡量放寬,避免靠邊的字無法正確識別。
D.支持跨欄選擇的文字,識別后段落正常。
E.使用快照工具時,避免一次選擇太大范圍,造成死機。
F.如果識別后全為亂碼,注意microsoft office document imaging的OCR選項是否為相應語言,“工具--選項--OCR--OCR語言(中英文選擇)--確定”。
聯(lián)系客服