上一篇:python學(xué)習(xí)之路(七):牛刀小試,爬取網(wǎng)絡(luò)圖片下載到電腦
使用OCR技術(shù)識別圖片里面的文字,當(dāng)然我是沒這個技術(shù)了,不過好在python有豐富的第三方模塊,我門可以使用第三方模塊來進(jìn)行文字識別。在這篇文章中我采用百度提供的文字識別模塊來寫這個腳本。
使用百度的文字識別,需要百度提供的APP_ID 、API_KEY、SECRET_KEY 。這三個信息只需要登錄百度云創(chuàng)建一個應(yīng)用即可。
登錄百度云:https://cloud.baidu.com/進(jìn)入控制臺
在上面的產(chǎn)品服務(wù)下面找到文字識別,點(diǎn)進(jìn)去。
創(chuàng)建應(yīng)用
填好名稱和描述后點(diǎn)擊立即創(chuàng)建
創(chuàng)建完之后就可以看到剛剛說的3個信息了
現(xiàn)在開始安裝百度文字識別的PYTHON模塊。
如果已安裝pip,在命令行執(zhí)行pip install baidu-aip即可。
沒安裝的請閱讀:python學(xué)習(xí)之路(五):第三方模塊的安裝與調(diào)用
模塊的使用可以查看百度提供的說明文檔:https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html
事先準(zhǔn)備一張文字圖片
現(xiàn)在開始寫代碼,第一步當(dāng)然是要導(dǎo)入百度文字識別模塊
定義剛剛的三條信息
根據(jù)百度提供的文檔,需要在加這樣一句
百度提供的文檔里有一個函數(shù)例子,我們直接拿來用。閱讀官方提供的說明文檔是很重要的,能讓我們快速了解模塊的用法,里面也會提供很多例子,我們可以直接拿來使用。
輸出識別結(jié)果
對比原圖,識別一點(diǎn)都沒有錯,正確率100%。
從輸出的結(jié)果可以知道,百度返回的識別結(jié)果是一個字典。我們需要的文字在這個字典的words_result元素下面的每一個子元素里。我們可以用for循環(huán)來提取純文字。(字典。for循環(huán)請閱讀:python學(xué)習(xí)之路(六):列表、元組、字典、循環(huán)語句、條件語句)
輸出結(jié)果現(xiàn)在是純文字了
完整代碼:
不過對于上面那張文字圖片,太中規(guī)中矩了,識別率非常高,現(xiàn)在試一下用手機(jī)拍一張照片,看看能不能識別里面的文字。
來看看識別結(jié)果
其他都識別對了,最后一行的字母錯了幾個,百度的文字識別模塊正確率還是很高的。
聯(lián)系客服