在我們?nèi)粘5膶W(xué)習(xí)中常遇到pdf,caj等文件需要提取其中的文字。當(dāng)然這兩種格式文件的閱覽器都具備識(shí)別功能,但是缺點(diǎn)是,不是所有的都能識(shí)別,或者排版格式很亂。當(dāng)遇到這種情況時(shí),不妨試試以下方法: 其實(shí)office是自帶文字識(shí)別系統(tǒng)的,只是我們都沒有留意到。首先說說他的優(yōu)點(diǎn):識(shí)別率高;基本不破壞原有排版格式;對(duì)所有的圖片格式都適用; 下面說說具體使用步驟: 第一步:安裝,在安裝office時(shí)必須選擇其中一個(gè)叫“Microsoft Office Document Imaging”的組件。如果是第一次安裝,直接跳到第二步。如果已經(jīng)安裝了office2003,那么只要再次運(yùn)行安裝程序,會(huì)出現(xiàn)如下界面(圖1),默認(rèn)選擇“添加或刪除功能”點(diǎn)擊下一步。 第二步:在出現(xiàn)的窗口中在“選擇應(yīng)用程序的高級(jí)自定義”前打勾,如圖2。點(diǎn)擊下一步。 第三步:找到Office工具下的“Microsoft Office Document Imaging”如圖3,鼠標(biāo)左鍵點(diǎn)擊圖中箭頭所指處。選擇“從本機(jī)運(yùn)行”然后點(diǎn)擊“更新”就安裝完畢了。 第四步:使用,首先對(duì)需要識(shí)別的文件打?。ㄊ翘摂M打?。?,如caj,pdf可在其閱覽器中選擇打印。而對(duì)于圖片,可以把它插入到word中再選擇打印。這里要注意,打印時(shí)選擇的打印機(jī)應(yīng)該是虛擬打印機(jī)。如圖4(以pdf文件打印為例),在箭頭所指的下拉菜單中選擇“Microsoft Office Document Imaging Writer”即可。然后打印很快就可以自動(dòng)生成一個(gè)MDI格式的文檔。 第五步:打印后會(huì)自動(dòng)打開這個(gè)mdi文件,如圖5。選擇圖中箭頭所指的按鈕(前面那個(gè)),進(jìn)行OCR文字識(shí)別。等待識(shí)別完成后(識(shí)別時(shí)間視文件大小而定),然后再選擇箭頭所指(后面那個(gè))即可將所識(shí)別的文本發(fā)送到word中去。 第六步:只需要經(jīng)過簡單的排版即可使用所需的文字了。 |
聯(lián)系客服