paint-brush
Lidar Açıklaması İhtiyacınız Olan Tek Şeyile@skprot
783 okumalar
783 okumalar

Lidar Açıklaması İhtiyacınız Olan Tek Şey

ile Sayan Protasov6m2024/04/27
Read on Terminal Reader

Çok uzun; Okumak

Kamera görüntülerinde doğru yol yüzeyi segmentasyonu için nokta bulutu ve görüntü verilerinin birleşimi.
featured image - Lidar Açıklaması İhtiyacınız Olan Tek Şey
Sayan Protasov HackerNoon profile picture
0-item
1-item


Görüntü segmentasyonu, bir görüntüdeki ilgilenilen nesnelerin doğru bir şekilde tanımlanmasında ve tanımlanmasında çok önemli bir rol oynar. Otonom sürüşte yol yüzeyi bölümlendirme görevini çözmek için bilgisayarlı görme algoritmaları uygulanır. Yalnızca tek bir görüntü türüne güvenemeyeceğiniz için bu görev zorludur; hem kameraların hem de LiDAR'ların güçlü ve zayıf yanları vardır. Örneğin, LiDAR'lar doğru derinlik bilgisi sağlar, ancak genellikle seyrek nokta bulutları oluştururlar, dolayısıyla sahnedeki nesneleri tam olarak bölümlere ayıramazlar. Şeffaf veya yansıtıcı yüzeylerle karşılaştıklarında ise çarpık bulutlar oluşturabilirler. Kameralar derinliği yakalamaz ancak nesnelerin şekli, dokusu ve rengi hakkında tam bilgi sağlar. Bu bizi, 2 boyutlu yol bölümleme eğitiminde nokta bulutları ve görüntülerin etkili bir şekilde birleştirilmesinin, her veri alanının avantajlarından yararlanabileceği basit bir fikre götürür. Sorun, bu tür bir birleştirmenin her iki veri kümesine de yoğun emek gerektiren açıklamalar gerektirmesidir. Peki, yol bölümlendirmeye yönelik çoklu sensör kurulumunun avantajlarından yararlanmak için veri açıklamalarını daha verimli hale getirebilir miyiz?


şu anda çalışıyorum Evokargo . Bu şirket kargo taşımacılığı hizmeti veriyor ve kendi otonom elektrikli araçlarını üretiyor. Derin öğrenme mühendisi olarak, otonom araçların otopilotuna yönelik 3 boyutlu algılama sistemlerinin geliştirilmesinde uzmanım. Bu nedenle Evocargo olarak, tahmin kalitesini yüksek tutacak ve açıklama maliyetlerini azaltacak şekilde yol yüzeyi bölümlendirmesinin verimliliğini artırmanın bir yolunu bulmaya karar verdik. Bir süre araştırma ve deney yaptıktan sonra meslektaşlarım ve ben , görüntü bölümleme modellerini doğrudan RGB görüntüler üzerinde eğitmek için lidar açıklamalarını etkili bir şekilde kullanan bir yaklaşım oluşturduk. Bu nedenle, görüntüye yansıtılan ve ileri eğitimde temel gerçek maskeleri olarak kullanılan Lidar noktaları, karşılaştırılabilir görüntü segmentasyonu kalitesi sağlar ve standart açıklamalı 2D maskeler olmadan modellerin eğitilmesine olanak tanır.



Bu yazıda yaklaşımımızı adım adım anlatacağım ve bazı test sonuçlarını göstereceğim. Çalışmamızı, diğer yöntem araştırmalarımızı ve test sonuçlarımızı daha derinlemesine incelemek istiyorsanız makalemize bakın. 'İhtiyacınız Olan Tek Şey Lidar Açıklaması' IEEE Erişim günlüğünde. Bu makale, yöntem uygulaması, işlenmiş veri kümeleri ve gelecekteki araştırmalar için kod tabanıyla birlikte yayınlanmış GitHub deposu tarafından desteklenmektedir. Çalışmamızı araştırmanız için faydalı buluyorsanız, lütfen ona bir yıldız ⭐ vermeyi ve makaleden alıntı yapmayı düşünün.


4 adımda segmentasyon modellerinin eğitimi

Yaklaşımımızın genel akışı dört ana bölümden oluşur: nokta bulutu yol açıklaması, veri hazırlama, maskelenmiş kayıp ve segmentasyon modelinin kendisi.


Yaklaşımımızın genel şeması


Öncelikle nokta bulutu alanında yol açıklamaları içeren verileri alıyoruz. Daha sonra homojen dönüşümler ve kamera parametrelerini kullanarak noktaları yansıtıyoruz. Daha sonra, öngörülen noktaları kullanarak, rastgele gürültü eklenmiş kayıp hesaplaması için yol zemin gerçeği maskesini elde ederiz. Kameradan alınan görüntüler segmentasyon modeliyle işlenir. Önceki adımdaki tahminler ve maskeler, maskelenmiş kayıp tarafından kullanılır; bu, modelin seyrek temel gerçeklik verilerini kullanarak eğitilmesine olanak tanır. Son olarak model eğitimi sonrasında bölümlenmiş yola sahip bir görüntü elde ediyoruz. Eğitim prosedürü ve Maskelenmiş kayıp, öngörülen temel gerçeğin geleneksel 2B maskelerle karıştırılmasına olanak tanır ve bu da yaklaşımı veri açısından esnek hale getirir.


Şimdi her bir parçaya yakından bakalım.


1 Nokta bulutu veri açıklaması


Eğitim sırasında Lidar verilerini kullanmak için nokta bulutlarına yönelik semantik segmentasyon açıklamalarına ihtiyacımız var. Bu, aşağıdaki gibi açık kaynaklı bir nokta bulutu açıklama aracı kullanılarak manuel olarak yapılabilir: Anlamsal Segmentasyon Düzenleyicisi veya bazı algoritmik yaklaşımlar kullanarak. Meslektaşım adım adım kılavuzunda yol yüzeyi tespitine yönelik böyle bir yaklaşımı anlattı1 saatte 100 lidar taramasına nasıl açıklama eklenir? . Özellikle yol açıklamasına yönelik algoritmik bir yaklaşım, manuel açıklama gerektirmeden elde edilmesine olanak sağlayabilir, ancak belirli veriler için ince ayar yapılması gerekir. Evocargo'da her iki yaklaşımı da kullanıyoruz. Basit alanlar için yola algoritmik olarak ve karmaşık bölümler için manuel olarak açıklama eklenir.


2 Veri hazırlama


Elde edilen bir nokta bulutu, ihtiyaç duyduğumuz sınıf etiketine sahip bir görüntü bölümleme maskesi elde etmek için homojen dönüşümler kullanılarak görüntü düzlemine yansıtılır; bizim durumumuzda bu bir yoldur. Bu tür bir projeksiyon için, kamera parametrelerinin eşlik ettiği senkronize kamera ve lidar çerçevelerini ve lidardan kamera çerçevesine bir dönüşüm matrisini kullanıyoruz. Lidar çerçeve koordinatlarındaki homojen x = (x, y, z, 1)ᵀ noktasını bir görüntü düzlemindeki y = (u, v, 1)ᵀ noktasına yansıtmak için aşağıdaki denklemi kullanırız:


Dönüşümden sonra hem yol sınıfı hem de Lidar taramasından elde edilen diğer tüm noktalar için görüntü üzerinde piksel maskesi olarak puanlar alıyoruz. Başka Lidar tarama noktalarına ihtiyacımız var çünkü Lidar noktaları çoğunlukla görüntünün alt kısmında bulunur ve görüntünün üst kısmında hiçbir nokta yoktur ve bu da o alanda hatalı tahminlere yol açma potansiyeli taşır. Bu etkiyi ortadan kaldırmak için maskenin üst yarısında (negatif sınıf) rastgele noktalar ekleyerek kaybı hesaplayacağımız noktaların dağılımını dengeliyoruz.


Öngörülen yol noktaları ve kayıp hesaplama maskesi


3 Maskelenmiş kayıp


Yöntemimizin önemli bir bileşeni, model eğitimi sırasında maskelenmiş kayıp fonksiyonunun uygulanmasıdır. Bu yaklaşım, Lidar'dan türetilen temel gerçek maskelerindeki doğal seyrekliği ortadan kaldırır. Hataları hesaplamak için tüm görüntü maskelerini dikkate alan geleneksel kayıp fonksiyonlarından farklı olarak, maskelenmiş kayıp yalnızca Lidar noktalarının mevcut olduğu bölgelere odaklanır. Bu hedeflenen kayıp hesaplaması, yol bölümleme doğruluğunu artırmak için lidar tarafından sağlanan bilgilerden yararlanarak modelin öğreniminin ilgili bölgelere odaklanmasını sağlar. Başka bir deyişle, tahminlerin hatasını bir nokta ızgarası üzerinde ölçerek modeli yol bölümlendirmesini öğrenmeye zorluyoruz. Bu, görüntüye deklanşör gözlükleri (deklanşör gölgeleri) kullanılarak bakmaya benzetilebilir.

Sokağın panjurlu camları görünümü


Her görüntü için maskelenmiş kayıp şu şekilde formüle edilebilir:

Maskelenmiş kayıp, eğitim görüntülerine ikili maske uygulanarak gerçekleştirilir. Bu maske, lidar noktalarının bulunduğu ve görüntü düzlemine yansıtıldığı alanların ana hatlarını çizer. Eğitim aşamasında, kayıp yalnızca maskenin altındaki pikseller için hesaplanır ve görüntünün büyük, açıklanmamış kısımları etkili bir şekilde göz ardı edilir. Bu yöntem yalnızca eğitim sürecinin verimliliğini arttırmakla kalmaz, aynı zamanda Lidar verilerinin seyrek doğasından kaynaklanan sorunları da azaltır.


4 Model eğitimi


Son adım, oluşturulan veri kümesi üzerinde segmentasyon modelinin eğitilmesini içerir. Eğitim süreci her türlü segmentasyon modeline uygun olabilir ve araştırmamızda PSPNet'i kullandık. Bu aşamada her şey verilerinizin kalitesine, miktarına ve mevcut bilgi işlem gücüne bağlıdır.


Umut verici test sonuçları

Yaklaşımımızı, Perception Waymo Açık Veri Kümesi ve KITTI-360 veri kümesi gibi açık kaynaklı olanlar da dahil olmak üzere çeşitli veri kümeleri üzerinde test ettik. Her seferinde üç deneyden oluşan bir dizi gerçekleştirdik: yalnızca 2 boyutlu yol temel gerçeğini, temel gerçek olarak yalnızca öngörülen noktaları ve bu tür temel gerçeklerin bir karışımını kullanarak. Ve yol segmentasyonu (IoU'nun yüzdesi) sonuçları umut verici görünüyor:


Deney

KITTI-360 veri seti üzerine eğitim verildi

Waymo veri kümesi üzerinde eğitim verildi

Yalnızca 2B (temel)

92.3

96.1

Yalnızca yansıtılan 3D

89.6

94.7

2D + yansıtılan 3D'yi karıştırın

92.7

96.3


Bu sayılar, yalnızca Lidar segmentasyonuna sahipseniz ve 2D görüntü açıklamalarına ek kaynak harcamak istemiyorsanız sorun olmadığı anlamına gelir. Yalnızca 2B görüntü maskeleri üzerinde eğitime kıyasla kalitedeki düşüş önemsiz olabilir. Her iki sensörden gelen verilere açıklama eklemek için kaynaklarınız varsa, eğitim süreci sırasında bu iki tür açıklamayı birleştirin ve metriklerde artış elde edin.


Araştırma sırasında gözlemlediğimiz yaklaşımın genel faydaları şunlardır:


  • Görüntü segmentasyon görevlerinde sinir ağlarının yüksek kaliteli performansı,
  • Çeşitli sensör türlerinden gelen verilere açıklama eklemek için daha az kaynak gerekir,
  • Farklı görüntü türlerine ve segmentasyon görevlerine uyum sağlama esnekliği.


Yolun farklı boyutlardaki engeller ve diğer araçlarla doğru şekilde bölümlenmesi. Bu sonuçlar kendi özel verilerimizle eğitilen modelden elde edilmiştir.


Yaklaşımın yazarları