一文看懂計算機視覺-CV(基本原理+2大挑戰+8大任務+4個應用)

計算機視覺(Computer Vision)是人工智能領域的一個重要分支。它的目的是:看懂圖片里的內容。本文將介紹計算機視覺的基本概念、實現原理、8 個任務和 4 個生活中常見的應用場景。

一文看懂計算機視覺-Computer Vision

計算機視覺(Computer Vision)是人工智能領域的一個重要分支。它的目的是:看懂圖片里的內容。本文將介紹計算機視覺的基本概念、實現原理、8 個任務和 4 個生活中常見的應用場景。

計算機視覺為什么重要?

人的大腦皮層, 有差不多 70% 都是在處理視覺信息。 是人類獲取信息最主要的渠道,沒有之一。

在網絡世界,照片和視頻(圖像的集合)也正在發生爆炸式的增長!

下圖是網絡上新增數據的占比趨勢圖。灰色是結構化數據,藍色是非結構化數據(大部分都是圖像和視頻)。可以很明顯的發現,圖片和視頻正在以指數級的速度在增長。

圖片和視頻數據在飛速增長

而在計算機視覺出現之前,圖像對于計算機來說是黑盒的狀態。

一張圖片對于機器只是一個文件。機器并不知道圖片里的內容到底是什么,只知道這張圖片是什么尺寸,多少MB,什么格式的。

CV之前,機器智能看到文件屬性,看不懂圖片內容

如果計算機、人工智能想要在現實世界發揮重要作用,就必須看懂圖片!這就是計算機視覺要解決的問題。

什么是計算機視覺 – CV?

計算機視覺是人工智能的一個重要分支,它要解決的問題就是:看懂圖像里的內容。

比如:

  • 圖片里的寵物是貓還是狗?
  • 圖片里的人是老張還是老王?
  • 這張照片里,桌子上放了哪些物品?

CV讓機器可以看懂圖片里的內容

計算機視覺的原理是什么?

目前主流的基于深度學習的機器視覺方法,其原理跟人類大腦工作的原理比較相似。

人類的視覺原理如下:從原始信號攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細胞發現邊緣和方向),然后抽象(大腦判定,眼前的物體的形狀,是圓形的),然后進一步抽象(大腦進一步判定該物體是只氣球)。

人類大腦看圖的原理

easyai公眾號

機器的方法也是類似:構造多層的神經網絡,較低層的識別初級的圖像特征,若干底層特征組成更上一層特征,最終通過多個層級的組合,最終在頂層做出分類。

CV的原理和人類視覺的原理類似

計算機視覺的2大挑戰

對于人類來說看懂圖片是一件很簡單的事情,但是對于機器來說這是一個非常難的事情,說 2 個典型的難點:

特征難以提取

同一只貓在不同的角度,不同的光線,不同的動作下。像素差異是非常大的。就算是同一張照片,旋轉90度后,其像素差異也非常大!

所以圖片里的內容相似甚至相同,但是在像素層面,其變化會非常大。這對于特征提取是一大挑戰。

需要計算的數據量巨大

手機上隨便拍一張照片就是1000*2000像素的。每個像素 RGB 3個參數,一共有1000 X 2000 X 3=6,000,000。隨便一張照片就要處理 600萬 個參數,再算算現在越來越流行的 4K 視頻。就知道這個計算量級有多恐怖了。

計算機視覺的2大挑戰

CNN 解決了上面的兩大難題

CNN 屬于深度學習的范疇,它很好的解決了上面所說的2大難點:

  1. CNN 可以有效的提取圖像里的特征
  2. CNN 可以將海量的數據(不影響特征提取的前提下)進行有效的降維,大大減少了對算力的要求

CNN 的具體原理這里不做具體說明,感興趣的可以看看《一文看懂卷積神經網絡-CNN(基本原理+獨特價值+實際應用)

計算機視覺的 8 大任務

CV的8大任務

圖像分類

圖像分類是計算機視覺中重要的基礎問題。后面提到的其他任務也是以它為基礎的。

舉幾個典型的例子:人臉識別、圖片鑒黃、相冊根據人物自動分類等。

圖像分類

目標檢測

目標檢測任務的目標是給定一張圖像或是一個視頻幀,讓計算機找出其中所有目標的位置,并給出每個目標的具體類別。

目標檢測

語義分割

它將整個圖像分成像素組,然后對像素組進行標記和分類。語義分割試圖在語義上理解圖像中每個像素是什么(人、車、狗、樹…)。

如下圖,除了識別人、道路、汽車、樹木等之外,我們還必須確定每個物體的邊界。

語義分割

實例分割

除了語義分割之外,實例分割將不同類型的實例進行分類,比如用 5 種不同顏色來標記 5 輛汽車。我們會看到多個重疊物體和不同背景的復雜景象,我們不僅需要將這些不同的對象進行分類,而且還要確定對象的邊界、差異和彼此之間的關系!

實例分割

視頻分類

與圖像分類不同的是,分類的對象不再是靜止的圖像,而是一個由多幀圖像構成的、包含語音數據、包含運動信息等的視頻對象,因此理解視頻需要獲得更多的上下文信息,不僅要理解每幀圖像是什么、包含什么,還需要結合不同幀,知道上下文的關聯信息。

視頻分類

人體關鍵點檢測

體關鍵點檢測,通過人體關鍵節點的組合和追蹤來識別人的運動和行為,對于描述人體姿態,預測人體行為至關重要。

在 Xbox 中就有利用到這個技術。

人體關鍵點檢測

場景文字識別

很多照片中都有一些文字信息,這對理解圖像有重要的作用。

場景文字識別是在圖像背景復雜、分辨率低下、字體多樣、分布隨意等情況下,將圖像信息轉化為文字序列的過程。

停車場、收費站的車牌識別就是典型的應用場景。

場景文字識別

目標跟蹤

目標跟蹤,是指在特定場景跟蹤某一個或多個特定感興趣對象的過程。傳統的應用就是視頻和真實世界的交互,在檢測到初始對象之后進行觀察。

無人駕駛里就會用到這個技術。

目標跟蹤

CV 在日常生活中的應用場景

計算機視覺的應用場景非常廣泛,下面列舉幾個生活中常見的應用場景。

  1. 門禁、支付寶上的人臉識別
  2. 停車場、收費站的車牌識別
  3. 上傳圖片或視頻到網站時的風險識別
  4. 抖音上的各種道具(需要先識別出人臉的位置)

計算機視覺在日常生活中的應用場景

這里需要說明一下,條形碼和二維碼的掃描不算是計算機視覺。

這種對圖像的識別,還是基于固定規則的,并不需要處理復雜的圖像,完全用不到 AI 技術。

本文首發自easyAI,原文地址:《一文看懂計算機視覺-CV(基本原理+2大挑戰+8大任務+4個應用)

0條評論 添加新討論

登錄后參與討論
Ctrl+Enter 發表