進入互聯(lián)網(wǎng)時代以后,許多人都喜歡使用網(wǎng)絡(luò)地圖為自己之路。為了提供最佳的用戶體驗,地圖信息需要不斷的根據(jù)現(xiàn)實世界的變化做出調(diào)整,為此,谷歌地面實況團隊計劃從地理位置圖像自動提取信息來升級谷歌地圖,用深度學(xué)習(xí)實時更新街景。
從谷歌發(fā)布的從街景圖像中提取基于注意機制的結(jié)構(gòu)化信息”一文中可以看出,谷歌在街景視圖中使用深度神經(jīng)網(wǎng)絡(luò)自動,而且能準(zhǔn)確無誤地讀出街道名稱,在挑戰(zhàn)“法國街道名稱識別數(shù)據(jù)集”中,谷歌的算法系統(tǒng)達(dá)到了84.2%的正確率,優(yōu)于之前的最優(yōu)系統(tǒng)。重要的是,谷歌的系統(tǒng)在提取其他類型信息也是很容易擴展的。比如現(xiàn)在幫助谷歌自動提取商店前面的商戶名稱。據(jù)悉,目前該模型已經(jīng)開源。
自然環(huán)境中的文本識別在計算機視覺和機器學(xué)習(xí)上是一個非常具有挑戰(zhàn)性的問題,傳統(tǒng)的光學(xué)字符識別(OCR)系統(tǒng)主要側(cè)重于從掃描的文檔中提取文本,在自然場景中由于視覺偽影,如失真、閉塞、定向模糊、雜亂的背景或不同的角度給提取文本提升了難度。
事實上,谷歌從2008年開始致力于解決這一問題,使用神經(jīng)網(wǎng)絡(luò)模糊了街景圖像中的臉和車牌,以保護谷歌用戶的隱私。從最初的研究中,團隊意識到經(jīng)過足夠的標(biāo)記數(shù)據(jù)訓(xùn)練后,機器學(xué)習(xí)不僅能保護用戶的隱私,而且還可以自動升級谷歌地圖相關(guān)的最新信息。
另外,谷歌還創(chuàng)建和發(fā)布了法國街道名稱標(biāo)志(French Street Name Signs,F(xiàn)SNS),有超過100萬的街道名稱訓(xùn)練數(shù)據(jù)集,旨在提高人們對OCR模型在實際使用情況下的認(rèn)識。FSNS是谷歌經(jīng)過多年的努力而構(gòu)建的,它比SVHN數(shù)據(jù)集更加龐大,也更具挑戰(zhàn)性,因為如果要準(zhǔn)確識別某個街道標(biāo)識,可能需要對各個角度所拍攝的圖片進行整合處理。
目前,谷歌是世界上唯一一個用深度學(xué)習(xí)實時更新街景的科技企業(yè),雖然谷歌這么牛,但是谷歌地圖暫時還未對中國開放使用,不過大家可以使用網(wǎng)頁版的谷歌地圖,感受一下和其他地圖的區(qū)別。
聯(lián)系客服