谷歌開源深度學(xué)習(xí)街景文字識別模型:讓地圖隨世界實(shí)時(shí)更新
選自Google Blog
作者:Julian Ibarz
機(jī)器之心編譯
參與:李澤南、晏奇
谷歌地圖的街景功能擁有 800 億張高分辨率圖片,而且這個(gè)數(shù)字還在以每天百萬的速度不斷增加。街景圖片是獲取準(zhǔn)確地理信息的絕佳渠道,而利用深度學(xué)習(xí)從圖片中獲取信息,并實(shí)時(shí)更新地圖地址內(nèi)容正是谷歌研究團(tuán)隊(duì)努力的目標(biāo)。
每一天,谷歌地圖都會為數(shù)百萬人指路,并提供相應(yīng)的實(shí)時(shí)路況信息和商店推薦。為了向用戶提供最好的體驗(yàn),這些信息必須隨著不斷變化的世界實(shí)時(shí)更新。谷歌街景車每天都會收集數(shù)百萬張圖片,而人工分析這超過 800 億張高分辨率圖片中的信息,試圖找出其中的新變化是一個(gè)不可能完成的任務(wù)。谷歌 Ground Truth 團(tuán)隊(duì)正在研究如何讓計(jì)算機(jī)自動將圖片中的內(nèi)容轉(zhuǎn)變?yōu)楣雀璧貓D需要的信息。
在最近的一篇論文《Attention-based Extraction of Structured Information from Street View Imagery》中,谷歌的研究者討論了使用深度神經(jīng)網(wǎng)絡(luò)在多個(gè)國家收集到的街景圖中讀取街道名的任務(wù)。谷歌的算法在「French Street Name Signs(FSNS)」數(shù)據(jù)集中達(dá)到了 84.2% 的準(zhǔn)確率,表現(xiàn)大大超過了此前表現(xiàn)最好的系統(tǒng)。更重要的是,新系統(tǒng)除了可以讀取街道名稱,還可以自動讀取圖片中的商戶名,以及其他信息。谷歌近日已將這一模型開源。
Github 地址:https://github.com/tensorflow/models/tree/master/attention_ocr
在 FSNS 數(shù)據(jù)集中的街道名被谷歌的系統(tǒng)成功轉(zhuǎn)錄,這個(gè)路標(biāo)提供了四張不同圖片。
在自然環(huán)境中識別文字對于計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)而言是一個(gè)非常具有挑戰(zhàn)性的任務(wù)。傳統(tǒng)的光學(xué)字符識別(OCR)系統(tǒng)主要適用于從文件中掃描信息,而從自然視角中獲取文字則面臨更多麻煩,失真、遮蔽、方向模糊、復(fù)雜背景和不同視角都會對識別產(chǎn)生影響。谷歌應(yīng)對這一挑戰(zhàn)的研究從 2008 年就開始了,他們曾使用神經(jīng)網(wǎng)絡(luò)來模糊結(jié)晶圖片中的人臉與車牌以保護(hù)隱私。在先前階段的研究中,研究人員逐漸意識到經(jīng)過足夠已標(biāo)記數(shù)據(jù)的訓(xùn)練后,機(jī)器學(xué)習(xí)不僅可以用來保護(hù)用戶隱私,還可以自動為谷歌地圖進(jìn)行實(shí)時(shí)信息的更新。
在 2014 年,谷歌 Ground Truth 團(tuán)隊(duì)發(fā)布了當(dāng)時(shí)最好的讀取街景門牌(SVHN)數(shù)據(jù)集中門牌號的方法。這一應(yīng)用是由 Ian Goodfellow 等人提出的,它不僅引起了學(xué)界的關(guān)注,也切實(shí)改變了谷歌地圖的面貌。今天,全球大約 1/3 的地址都是由這一系統(tǒng)提供的。在一些國家如巴西,Goodfellow 等人的算法為谷歌地圖提供了超過 90% 的地址,極大地增強(qiáng)了地圖的可用性。
在門牌號之后,最合情理的下一步就是將這些技術(shù)延展到街道名稱上了。為了解決這一問題,谷歌團(tuán)隊(duì)首先發(fā)布了法國街道路標(biāo)數(shù)據(jù)集(French Street Name Signs,F(xiàn)SNS),一個(gè)擁有超過一百萬街道名稱的訓(xùn)練數(shù)據(jù)集。FSNS 數(shù)據(jù)集是多年努力的成果,旨在幫助所有開發(fā)者提升自己的 OCR 模型在實(shí)際應(yīng)用中的性能。FSNS 數(shù)據(jù)集比 SVHN 數(shù)據(jù)集更大,也更具挑戰(zhàn)性,準(zhǔn)確識別一張街道標(biāo)識可能需要對于同一個(gè)標(biāo)識不同角度的圖片進(jìn)行合并處理。
SVHN 數(shù)據(jù)集:http://ufldl.stanford.edu/housenumbers/
FSNS 數(shù)據(jù)集:https://github.com/tensorflow/models/blob/master/street/README.md
這是一些具有挑戰(zhàn)性的標(biāo)識,它們由谷歌的系統(tǒng)通過選擇或結(jié)合對圖像的理解而恰當(dāng)?shù)剡M(jìn)行了轉(zhuǎn)錄。第二個(gè)例子就更具挑戰(zhàn)性了,但是由于模型提前學(xué)習(xí)了一個(gè)語言模型,這使得它能夠去除模糊而正確的認(rèn)讀街道的名字。
2016 年,使用這個(gè)訓(xùn)練集,谷歌實(shí)習(xí)生 Zbigniew Wojna 用整個(gè)夏天開發(fā)出了一個(gè)深度學(xué)習(xí)模型架構(gòu),該架構(gòu)可以自動對街景圖像進(jìn)行標(biāo)記。新模型的其中一個(gè)有趣的功能是它可以將文本規(guī)范成與我們?nèi)粘C?xí)慣一致的方式。
例:從來自巴西的數(shù)據(jù)中習(xí)得的文本規(guī)范化。在這里,系統(tǒng)將「AV.」改成了「Avenida」,并且將「Pres.」改成了「Presidente」,這正是我們想要的。
在本例中,模型并沒有因?yàn)閳D中有兩個(gè)街道名而暈頭轉(zhuǎn)向,它很好的將「Av」轉(zhuǎn)換成了「Avenue」,同時(shí)它也正確地忽略了數(shù)字「1600」。
盡管該模型很精確,但是它也還是存在一系列達(dá) 15.8% 的錯誤率。然而,通過分析錯誤的例子,研究者發(fā)現(xiàn)其中 48% 是由于現(xiàn)實(shí)場景就是錯的。這突顯出新模型與標(biāo)記質(zhì)量平分秋色(對錯誤率完整的分析可參見論文)。
與提取街道數(shù)字的系統(tǒng)結(jié)合后,這個(gè)新系統(tǒng)讓我們可以從圖像中直接創(chuàng)造出新的地址,要知道這些街道名字或是地址的位置在事先是不知道的?,F(xiàn)在,只要一臺街景車開到任何一條新修的街道上,谷歌的深度學(xué)習(xí)系統(tǒng)就可以分析被捕獲的成千上萬張圖像,提取街道名字和數(shù)字,并且適當(dāng)?shù)脑诠雀璧貓D上自動創(chuàng)造和定位新的地址。
但是,自動創(chuàng)造地址對于谷歌地圖來說還不夠——研究人員在未來希望能夠依據(jù)名字來提供對商戶的導(dǎo)航。2015 年,谷歌發(fā)表了「從街景圖像中發(fā)現(xiàn)大規(guī)模商戶(論文地址:https://arxiv.org/abs/1512.05430)」的論文,它為人們提供了一個(gè)可以在街景圖像中精確探測商戶標(biāo)牌的方法。
通過使用不同的訓(xùn)練集,谷歌用于讀取街道名字的模型架構(gòu)也同樣可被用于從商戶外墻上精確提取商戶名字。在這個(gè)例子中,深度學(xué)習(xí)系統(tǒng)可以僅提取這樣的商戶名字:它們讓開發(fā)者可以驗(yàn)證自己是否已從谷歌地圖中知道了這家商戶。這種提取商戶名的功能讓開發(fā)者們可以更精確地持續(xù)更新商戶變化的情況。
盡管沒有從圖片名稱中獲取任何有關(guān)真實(shí)地址的信息,系統(tǒng)還是識別出了商戶名「Zelina Pneus」。模型也沒有被商戶名旁邊的輪胎品牌(普利司通)所迷惑。
將超過 800 億張街景圖使用這一模型處理是一個(gè)十分耗費(fèi)計(jì)算能力的任務(wù)。對此,谷歌 Ground Truth 團(tuán)隊(duì)使用了新研發(fā)的 TPU,極大地解決了計(jì)算機(jī)資源的耗費(fèi)。
人們依賴于谷歌地圖的協(xié)助,而讓地圖隨著城市、道路與商業(yè)區(qū)域的成長而同步更新仍然是一個(gè)非常有挑戰(zhàn)性的任務(wù)。谷歌 Ground Truth 團(tuán)隊(duì)將會繼續(xù)努力,將更多機(jī)器學(xué)習(xí)技術(shù)帶給谷歌地圖的用戶。
論文:Attention-based Extraction of Structured Information from Street View Imagery
論文鏈接:https://arxiv.org/abs/1704.03549
我們提供了一個(gè)神經(jīng)網(wǎng)絡(luò)模型——基于 CNN、RNN 和一種全新的注意機(jī)制,它在 FSNS 數(shù)據(jù)集挑戰(zhàn)中達(dá)到了 84.2% 的準(zhǔn)確率,大大超過了此前最好的模型(Smith, 2016;準(zhǔn)確率 72.46%)此外,新的模型比舊模型更加簡單,也更具通用性。為了展示新模型的能力,我們讓它在更具挑戰(zhàn)性的谷歌街景圖數(shù)據(jù)集中讀取商戶名。最后,我們研究了在不同 CNN 深度的情況下速度/準(zhǔn)確性的變化趨勢,我們發(fā)現(xiàn)更深并不一定意味著更好(在準(zhǔn)確性和速度上都是這樣)。我們的最終模型簡單、快速而且準(zhǔn)確,可以在具有挑戰(zhàn)性的真實(shí)世界環(huán)境中應(yīng)用于多種不同任務(wù)。
本文來自騰訊新聞客戶端自媒體,不代表騰訊新聞的觀點(diǎn)和立場
聯(lián)系客服