作者:Tassel
論如何看待計算機視覺的未來走向?
一、引言
我們在不知不覺中感受到計算機視覺給予的便利,如人臉識別。如果沒有深刻而持久的研究,在今天看起來習以為常的事情是無法實現(xiàn)的。因此,站在巨人的肩膀上談計算機視覺的未來走向,可以很明確地說,技術的產(chǎn)生本身就是為人民服務的,如果有更好的技術替代,新技術的產(chǎn)生必然會造成舊技術走向衰落。入行計算機視覺不久,看過不少技術大牛的博客,受益匪淺,今有大牛談及技術和產(chǎn)品的關系即是硬件之于軟件的關系,個人表示贊同。當兩者無法以相匹配的速度發(fā)展時,便是行業(yè)瓶頸的到來。
二、計算機視覺的基本任務
計算機視覺主要解決分類、分割、定位、檢測四大基本任務。
圖像分類:圖像分類就是就是已有固定的分類標簽集合,然后對于輸入的圖像,從分類標簽集合中找出一個分類標簽,最后把分類標簽分配給該輸入圖像。目前圖像分類中的難點有以下幾個方面:
1.大小變化(Scale variation):物體可視的大小通常會發(fā)生變化,比如形變等等,以及圖像中物體尺度的變化。
2.視角變化(viewpoint variation):在同一個物體中,攝像機可以從多個角度進行圖像獲取。
3.遮擋(Occlusion):目標物體可能被其他物體遮蓋。有時候只有物體邊緣部分是可見的。
4.類內差異(Intra-class variation):一類物體的個體之間的外形差異很大,比如椅子。這一類物體有許多不同的對象,每個都有自己的外形。
5.光照條件(Illumination conditions):在像素層面上,光照的影響非常大。
6.背景干擾(Background clutter):物體可能混入背景之中,使之難以被辨認。
圖像分割:圖像分割就是把圖像分成若干個特定的、具有獨特性質的區(qū)域并提出感興趣目標的技術和過程。它是由圖像處理到圖像分析的關鍵步驟?,F(xiàn)有的圖像分割方法主要分以下幾類:基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。
從數(shù)學角度來看,圖像分割是將數(shù)字圖像劃分成互不相交的區(qū)域的過程。圖像分割的過程也是一個標記過程,即把屬于同一區(qū)域的像素賦予相同的編號。
目標定位:如果說圖像識別解決的是what,那么,物體定位解決的則是where的問題。利用計算視覺技術找到圖像中某一目標物體在圖像中的位置,即定位。
目標檢測:在目標定位中,通常只有一個或固定數(shù)目的目標,而目標檢測更一般化,其圖像中出現(xiàn)的目標種類和數(shù)目都不定。因此,目標檢測是比目標定位更具挑戰(zhàn)性的任務。
三、計算機視覺中的創(chuàng)新點
1. 人臉識別中目標物被遮擋或部分遮擋問題(當前疫情常態(tài)化戴口罩的識別問題)
2. 燈光補償和過度曝光導致目標物識別困難的問題
3. 高動態(tài)環(huán)境下的目標計數(shù)、目標追蹤等問題
諸如此類的問題還有很多,從算法和性能層面還有待突破。
四、現(xiàn)狀分析
就目前計算機視覺的發(fā)展現(xiàn)狀分析,學術界對比工業(yè)界已是相形見絀。
從研究者的角度來說,學術研究過于依賴大數(shù)據(jù)的訓練,而訓練數(shù)據(jù)對算力要求很高,進而引出計算機硬件成本過高的問題,硬件和軟件是相輔相成的關系。從應用層面來說,目前技術落地環(huán)境較為單一,適用場景限制了產(chǎn)品的研發(fā)和推廣應用。人工智能的興起,使得多數(shù)人都在討論AI技術如何落地,我們可以預言的是,計算機視覺在未來與機器人結合,賦予機器人“眼睛”,這里所談及的機器人可以是服務機器人、特種機器人、無人駕駛、AR等等。
聯(lián)系客服