MAGAZINE
刊物內容

回列表

YOLO辨識與機器人採摘之整合系統

摘要"

本文探討機器人採摘番茄之整合系統,利用立體視覺拍攝棚架上的多顆蕃茄,以YOLOv3模型分析蕃茄的三維定位,篩選顏色成熟的蕃茄、大尺寸的蕃茄、被葉片遮擋的番茄,接續以歐幾里得距離計算機器人運動範圍內的番茄,一次拍照獲得三維深度圖,辨識多顆番茄位置和模擬退火法進行路徑規劃,完成連續採摘多顆蕃茄,縮短採摘時間,同時探討實驗的平均精確率與置信度。

關鍵詞:機器人、YOLO、模擬退火法

前言

全球氣候變遷造成農產品的採收不穩定,間接讓農業收入不穩定,農業就業人口日漸衰退,而農業勞動人口的短缺與高齡化形成產業痛點,根據行政院主計總處統計數據[1],2023年5月9日發布農林漁牧業普查總報告統計結果,農牧業工作計算約58.0萬人(1978年近160萬人[2]),在5年間減少5.9萬人(9.2%),其中65歲以上占54.0%(增加6.0%),以農為主業之人口老化程度嚴重,以農業自動化取代人力生產是產業面臨的挑戰,亟需填補產業勞動力短缺,因此,政府發展智慧農業,推動「全面推動農糧產業省工機械化及設備現代化計畫(111-114年)」[3],預期提高農業生產效率、降低風險、解決缺工問題,以結球葉菜(如高麗菜)為例,自走式採收機速度較人力提升1.5倍,採收人力從12人降至6人,每天採收1.5公頃且每公頃節省每日8人的工作量。
過去機器人替代人力,採摘農產品有賴於影像辨識技術,Lawal[4]描述農產品辨識是機器人採摘的重要關鍵,相關影像處理常受到複雜的農業環境、不穩定的環境光源、農產品的複雜特徵、農產品受遮擋等干擾因素,農產品物件辨識成了很大的挑戰,依照執行採摘農產品分為以下階段,(1)農業環境辨識,(2)農產品特徵檢測,(3)農產品定位,(4)機器人抓取位置就定位,(5)分離農產品,(6)收獲的農產品堆放或儲存,另外,機器人採收作業時,會遭遇許多因地制宜的農產品型態,相關因素如:(1)農產品物件、週邊植物、樹枝幹的複合影像待分離與辨識,(2)機器人在土地上移動有各植物位置、目標農產品的樹木、地面土壤種類等影響因素,因此,透過農業自動化探討結果與研究分析,可以發現人工智慧應用可以面對與解決此類問題,如YOLO演算法(You Only Look Once Algorithm)正確辨識農產品、機器人視覺與採摘路徑之系統整合。
本論文設定農產品為番茄,運用立體視覺相機擷取三維深度影像(3D depth image),接續以YOLOv3模型演算法正確辨識出目標物(番茄),採摘對象為顏色成熟、大尺寸的番茄,同時考慮辨識被樹葉遮擋的番茄,而針對機器人視覺產生番茄三維座標位置的結果,將多顆番茄位置以模擬退火法(Simulated annealing algorithm, SA)產生採摘的路徑規劃,一次拍照而連續採摘多顆番茄,預期達到縮短機器人行走路徑及減少採摘時間,同時探討實驗上的平均精確率(Average precision, AP)與置信度(Confidence, Nc)結果。

視覺辨識與YOLO模型分析

番茄採摘作業關係到複雜的農業環境,包含視覺深度影像擷取、番茄辨識與三維定位、番茄位置的採摘路徑規劃三方面,因為農業場域存在多種背景干擾,過去研究都以機器學習來辨識番茄,但大多受到環境影響而降低準確率,因此,近年研究多改用深度學習來突破此難題,Tsai[5]提出以YOLO演算法辨識3D視覺摘取番茄,如表1為辨識水果相關的研究報告,,Kounalakis[6]利用深度相機(Intel Realsense Depth Camera D435)擷取番茄影像,利用YOLOv3 + DarkNet-53演算方法計算獲得AP值80%的結果,Afonso[7]同樣運用深度相機影像結合Mask R-CNN +ResNet-101深度學習方法,辨識番茄獲得平衡精確度(Precision)和召回率(Recall)的衡量函數(F1 score)為93%。
以數位相機(Digital camera)擷取番茄影像,如Lawal[4]提出一種改進的YOLOv3框架進行番茄檢測,結合前置檢測層(Front Detection Layer, FDL)與空間金字塔池化(Spatial Pyramid Pooling, SPP)所構成的YOLOv3+DarkNet-53+FDL×2+SPP,獲得相當好的辨識結果F1 score與AP分別為97.9%和99.5%,Liu[8]採用Sony DSC-W170數位相機,提出一種基於YOLOv3的強健番茄演算法(YOLO-tomato),F1 score和AP結果分別為93.91%和96.4%,Mu[9]以Canon EOS 60D數位相機搭配Faster R-CNN+ResNet 101深度學習技術,對被遮蔽的未成熟番茄進行完整檢測,針對困難的遮蔽番茄辨識結果F1 score和AP的數值分別為83.67%和87.83%,結果顯示有效且具有可行性。
Wang[10]利用彩色相機(RGB Camera)擷取影像,基於YOLOv3-tiny-IRB深度學習辨識被葉片遮擋和重疊的番茄檢測,辨識結果為平均精確率值(Mean average precision, Map)達到90.2%,Wang[11]同樣提出彩色相機影像基於專注機制的改良Faster R-CNN,相近顏色背景下,結合多種演算方法,如特徵金字塔網路Feature Pyramid Networks (FPN)、卷積塊專注模組Convolutional Block Attention Module (CBAM)、非極大值抑制Soft Non-Maximum Suppression (Soft-NMS),構成Faster R-CNN + ResNet-50-FPN + CBAM + Soft-NMS演算方法來辨識番茄幼果,得到mAP為90.2%的結果,而本文以深度相機擷取番茄影像,結合YOLOv3+DarkNet-53-FPN+SA演算法,番茄辨識結果以AP進行分析討論。
YOLO圖像可預測存在的對象及其位置,依據搜集數據類別的比較結果,可做為即時檢測器,計算各種檢測方法的AP與mAP,過去YOLO演算法對於小物體的處理困難,直到Redmon[12]突破此問題,使用多尺度的預測方法,評價方式可以運用兩張圖形重疊範圍的參考分數IoU(Intersection over Union)、mAP檢測,當舊檢測指標IOU=0.5時,YOLOv3快速且準確,結果與RetinaNet幾乎差不多,更遠高於SSD((Single Shot MultiBox Detector),表示預測框與目標對象能完美對齊,表2整理出YOLO演算方法之v1~v7版本的特性比較,YOLO演算法被廣泛應用於各領域,如自動架駛、精準醫療、自動化機器視覺、生物辨識、軍事…等,YOLO已經歷多年演化體,改良方向大致針對目標物的預測框邊界、成功分類分數、成功識別的類別、改善網路層架構、加速收斂、融合特徵、分配策略、預測框邊界的迴歸分析,而準確性及速度是主要性能指標。

...更多內容,請見《機械新刊》雜誌

READ MORE BACK TO LIST