MAGAZINE
刊物內容

回列表

整合RGB圖像與點雲圖之 YOLO深度學習模型與六維姿態估測應用

摘要"

物件六維姿態估測在機器人抓取的應用中已成為一項重要的任務,現行的方法主要為透過視覺獲取物件圖像,並根據物件的特徵進行影像處理與數學計算來找出其位置與方向性。隨著人工智慧的發展,已有許多研究以深度學習的方式來進行物件的六維姿態估測。雖然紅綠藍(Red、Green、Blue, RGB)圖像已經可以做到相當良好的估測,但仍缺少部分幾何資訊,尤其在某些情況如多物件堆疊、遮蔽或紋理相近時仍可能造成誤判。本研究整合YOLO(You Only Look Once)、PointNet與Gen6D等深度學習方法,並以深度相機擷取物件深度資訊,應用於水五金的六維姿態估測,整個六維姿態估測流程將分成兩個階段進行處理。第一階段透過YOLO來辨識物件取得邊界框,取代Gen6D的偵測器所預測的物件;接著根據此邊界框分割出目標物件,轉換為局部點雲資訊,再輸入至PointNet進行雜訊過濾與點雲特徵提取。第二階段則將PointNet提取出來的點雲特徵與Gen6D所估測出來的結果進行尺度校正,並透過姿態回歸方法得出物件姿態的歐拉角,最終得出物件的六維姿態。本研究以YOLO來調整Gen6D的偵測器,克服Gen6D在多物件、混料及無物件時偵測效果不佳的問題。另外本研究使用深度相機取得真實的物件深度,取代Gen6D以數學計算所得到的深度值,能提供更準確的物件位置,並且透過局部轉換的方法能有效減少PointNet在訓練時的負荷量及提高訓練效率。本研究以三種不同種類的水五金零件進行六維姿態估測,證明本研究可用於混料物件堆疊的場景。

關鍵詞:六維姿態估測、點雲圖、深度學習、YOLO、水五金零件

前言

傳統自動化產業中,以機器人進行取放料任務已相當普遍,透過夾治具、載台治具設計,令手臂於特定位置進行夾取。但其中仍存在許多問題與成本上的考量,如定點定位式的載台治具,其取放料區域所佔用的空間與硬體成本都相當龐大。為了節省硬體費用、空間及人力成本,許多研究開始透過視覺的方式來進行散堆物件辨識與機器手臂夾取[1-5]。近年來的自動化展中,相關廠商紛紛展示許多智慧機器手臂取放料應用。其物件姿態計算則為主要發展重點,現今六維姿態估測上主要有傳統特徵提取、RGB深度學習、RGB-D深度學習等方法。
對於傳統在六維姿態計算中,主要是以物件的特徵來建立其定位點與方向性,如[1]在車用金屬件上,以物體中心孔的進行機器人夾取任務。其透過深度資訊與以中心點投影在物件上X、Y軸方向共四個點,利用軸上兩個投影點之間的座標位置與深度值,便可計算其對應軸向的傾斜角度等。但此方法僅適用於中心圓孔與對稱物件,且只需要四維的自由度即可達到。此應用通常需透過人為預先設定物件特徵點與夾取方式,再將視覺座標轉換為機器人座標促使機械手臂夾取[4-5]。在多維姿態的計算上,往往需要根據物件的特徵來建立對應的計算式,但物件一經更換,就需要重新設計其特徵定位與夾取方式,對於不規則的物件又更難定義,並無法真正達到自我判斷與辨識的能力。如今少量多樣的客製化世代,對多樣化的物件要一一地找出其特徵並做出其演算法,屬實不易。
隨著深度學習的發展,六維姿態估測也透過深度學習方法進行研究,早期因為深度相機尚不普遍,且顯示卡記憶體與算力尚不足夠負擔深度資訊所帶來龐大的計算量,故多以容易取得也相對精準的RGB圖像作為深度學習的輸入資料[6-7]。儘管RGB影像在理想的場景中估測六維姿態的方法已相當準確,但對於物件被遮蔽或紋理不明顯時,並無法有效估測物件的姿態。其中PVNet[7]用於從單張RGB圖像估計物件的6D姿態,尤其適用於被遮擋或被切掉的物件。它是一種場向量表示方式,用於定位物件關鍵點,通過預測從每個像素到關鍵點的指向向量,而不是直接回歸關鍵點的圖像坐標。
RGB圖像在深度學習應用於六維姿態估測中,雖然在許多資料集已經能夠精準的估測,但在進行實際機器人抓取時,成功率卻仍有許多進步空間,故許多研究朝向給予更多真實的資訊來進行學習。其中Huang等[8]是以兩階段的網路來進行估測,首先透過第一階段模型進行概略估測,接著透過迭代修正網路來逐步使姿態校正。有別於其他類似的方法,在迭代修正網路中,加入了顏色資訊進行校正,可得到不錯的效果。進一步的方法如Wang等[9]提出一種網路從輸入的顏色和深度圖像中擷取外表與幾何特徵進行融合,利用每個點的融合特徵去估算在典型座標系統中的關鍵點偏移、邊緣向量與密集對稱對應,利用兩階段的姿態回歸模組來計算物件的六維姿態。相較基於單一的3D關鍵點策略,這種多幾何表示的組合提供了充分且多樣的資訊,特別是在遮蔽或切斷的場景。對於雜亂背景與遮蔽問題,Hoang等[10]提出以VoteNet[11]的霍夫投票架構作為基礎來建構他們的網路,投票機制使他們的模型在雜亂與遮擋下呈現可靠的偵測。並在VoteNet架構中引入了兩種高層級特徵學習模組(MO、MP),在場景中將物件實例與物件部分之間的姿態關係進行建模,進而提高物件姿態估測的表現。
對於六維姿態估測的準確度評估,Hoda等[12]提出一種透過RGB-D影像進行剛性物體6D姿態估計的基準方法。其中包括了一個與行業相關的任務設定以及一個處理姿態歧義性的姿態誤差函數,為評估和比較該領域中不同方法提供了一種標準化的方法。透過所提出的基準數據集和評估方法對15種不同的最新方法進行了全面評估,結果顯示,基於點對特徵(Point-pair Features)的方法目前優於基於模板匹配方法、基於學習的方法以及基於3D局部特徵的方法。
本研究欲探討在工廠生產線上多樣物件時,如何透過3D視覺取得的RGB-D圖像,整合深度學習方法用於物件六維姿態估測,以減輕傳統需透過人工針對單一物件的特徵處理,來計算六維姿態所需的人力成本。以深度學習方法應用在物件偵測,在無目標物件、物件堆疊、多物件混合的場景中進行六維姿態估測之探討。並以帶有深度資訊的點雲資料做為尺度校正,使其預測結果能確實應用在機器人夾取任務。為了避免大量的點雲資料導致預測效率下降,本研究將探討如何在龐大的點雲資料中,僅擷取需要的內容作為使用,以減少預測時間。

研究方法

物件偵測

物件偵測是電腦視覺中重要的一項應用,其目的是將圖像中的多種物件分辨出來,並且標記其大小與所在位置。在深度學習的物件偵測具有下列幾項
特色:
 多物件識別:物件偵測模型能夠同時識別圖像或視訊中的多個物件,並為每個物件提供標籤和邊界框。
 物件定位:物件偵測不僅能識別物件的類別,還能定位物件在圖像中的位置,通常使用邊界框表示。
 高準確率:現代物件偵測模型通常具有較高的準確率,能夠在各種複雜的場景中準確識別和定位物件。
 尺度不變性:物件偵測模型能夠處理不同尺度的物件,無論物件在圖像中的大小如何,都能有效地檢測和
識別。
 適應多種物件類別:物件偵測模型可應用於識別多種不同的物件類別,從常見的動物和交通工具到特定的物品或場景。
目前已有許多深度學習模型像是Faster R-CNN[13]、目標檢測算法(Feature Pyramid Networks, FPN)[14]、YOLO[15]等方法都廣泛的被使用在物件偵測上,且偵測速度基本上都可以達到每秒20幀以上。這些方法都是基於卷積神經網路(Convolutional Neural Network, CNN)架構建立,在影像處理領域CNN是表現出色的深度學習架構,它具有捕捉局部特徵和空間結構的能力,適合用於處理有序的影像數據。針對圖像在每一格像素內的資料,透過定義的卷積核得到特徵圖,其像素與像素間存在特定的關係與規則。此外其他幾個模型如VGG(Visual Grometry Group, VGG)[16]、ResNet[17]、Inception[18]等都在物件偵測上奠定了良好的基礎。其中YOLO以高速而聞名,能夠實現即時的物件偵測。相較於其他物件偵測方法,YOLO將物件偵測視為一個單一的回歸問題,直接在一次前向通過中進行預測,這使得它能夠在保持較高準確率的同時,實現快速的推理速度。

影像分割

影像分割是一種電腦視覺重要任務,目的在於將數位圖像中的像素分成不同的語義類別或物件區域。它在許多應用領域中都具有重要的作用,包括醫學影像分析、自動駕駛、圖像編輯和視頻處理等。影像分割主要可以分為語義分割和實例分割。語義分割的目的在為圖像中的每個像素分配一個語義類別標籤,也就是說將圖像中的每個像素都標記為屬於特定的類別,例如人、車輛、道路、樹等,語義分割的目標是將圖像分割成具有語義意義的區域,以便進一步的分析和理解。而實例分割不僅要對圖像中的每個像素進行分類,還要將相同類別的像素分為不同的實例,實例分割不僅提供了語義信息,還提供了每個物件的邊界框或輪廓,因此,它可以在圖像中準確地定位和分割出不同的物件實例。
對於點雲分割最著名的方法莫過於PointNet[19],是一個基於深度學習的無序點雲分類和分割模型,此模型的設計基於類神經網絡,能夠直接處理無序的點雲資料,而不需要任何事先的特徵提取或預處理。PointNet的主要思想是將點雲中的每個點視為獨立的輸入,並對每個點進行特徵提取和學習,其模型架構如圖1所示,包含兩個主要組件共享多層感知器(Shared Multi-Layer Perceptron,MLP)和對稱函數。共享MLP是一個用於提取點特徵的網絡結構,用於將每個點的座標和其他可選屬性作為輸入,並通過多個全連接層提取特徵。共享MLP使得模型對點的順序不敏感,能夠在無序的點雲中捕捉局部和全局特徵。對稱函數用於組合點級特徵以產生整個點雲的表示,透過將每個點的特徵經過結合和聚合操作,獲得對整個點雲的全局特徵表示。如此一來模型能夠理解整個點雲的結構和上下文訊息,在訓練的過程中,PointNet通過最大化點雲的分類或分割結果的概率來進行優化。此模型能夠學習到不同類別的點雲之間的共享特徵,從而實現對未見點雲的泛化能力。除了PointNet外,還有其他類似的模型,如PointNet++[20]、DGCNN(Dynamic Graph Convolutional Neural Network, DGCNN)[21]等,都進一步改進了對點雲的特徵提取和建模能力。

...更多內容,請見《機械新刊》雜誌

READ MORE BACK TO LIST