Görüntü segmentasyonu, bir görüntüdeki ilgilenilen nesnelerin doğru bir şekilde tanımlanmasında ve tanımlanmasında çok önemli bir rol oynar. Otonom sürüşte yol yüzeyi bölümlendirme görevini çözmek için bilgisayarlı görme algoritmaları uygulanır. Yalnızca tek bir görüntü türüne güvenemeyeceğiniz için bu görev zorludur; hem kameraların hem de LiDAR'ların güçlü ve zayıf yanları vardır. Örneğin, LiDAR'lar doğru derinlik bilgisi sağlar, ancak genellikle seyrek nokta bulutları oluştururlar, dolayısıyla sahnedeki nesneleri tam olarak bölümlere ayıramazlar. Şeffaf veya yansıtıcı yüzeylerle karşılaştıklarında ise çarpık bulutlar oluşturabilirler. Kameralar derinliği yakalamaz ancak nesnelerin şekli, dokusu ve rengi hakkında tam bilgi sağlar. Bu bizi, 2 boyutlu yol bölümleme eğitiminde nokta bulutları ve görüntülerin etkili bir şekilde birleştirilmesinin, her veri alanının avantajlarından yararlanabileceği basit bir fikre götürür. Sorun, bu tür bir birleştirmenin her iki veri kümesine de yoğun emek gerektiren açıklamalar gerektirmesidir. Peki, yol bölümlendirmeye yönelik çoklu sensör kurulumunun avantajlarından yararlanmak için veri açıklamalarını daha verimli hale getirebilir miyiz?
şu anda çalışıyorum
Bu yazıda yaklaşımımızı adım adım anlatacağım ve bazı test sonuçlarını göstereceğim. Çalışmamızı, diğer yöntem araştırmalarımızı ve test sonuçlarımızı daha derinlemesine incelemek istiyorsanız makalemize bakın.
Yaklaşımımızın genel akışı dört ana bölümden oluşur: nokta bulutu yol açıklaması, veri hazırlama, maskelenmiş kayıp ve segmentasyon modelinin kendisi.
Öncelikle nokta bulutu alanında yol açıklamaları içeren verileri alıyoruz. Daha sonra homojen dönüşümler ve kamera parametrelerini kullanarak noktaları yansıtıyoruz. Daha sonra, öngörülen noktaları kullanarak, rastgele gürültü eklenmiş kayıp hesaplaması için yol zemin gerçeği maskesini elde ederiz. Kameradan alınan görüntüler segmentasyon modeliyle işlenir. Önceki adımdaki tahminler ve maskeler, maskelenmiş kayıp tarafından kullanılır; bu, modelin seyrek temel gerçeklik verilerini kullanarak eğitilmesine olanak tanır. Son olarak model eğitimi sonrasında bölümlenmiş yola sahip bir görüntü elde ediyoruz. Eğitim prosedürü ve Maskelenmiş kayıp, öngörülen temel gerçeğin geleneksel 2B maskelerle karıştırılmasına olanak tanır ve bu da yaklaşımı veri açısından esnek hale getirir.
Şimdi her bir parçaya yakından bakalım.
1 Nokta bulutu veri açıklaması
Eğitim sırasında Lidar verilerini kullanmak için nokta bulutlarına yönelik semantik segmentasyon açıklamalarına ihtiyacımız var. Bu, aşağıdaki gibi açık kaynaklı bir nokta bulutu açıklama aracı kullanılarak manuel olarak yapılabilir:
2 Veri hazırlama
Elde edilen bir nokta bulutu, ihtiyaç duyduğumuz sınıf etiketine sahip bir görüntü bölümleme maskesi elde etmek için homojen dönüşümler kullanılarak görüntü düzlemine yansıtılır; bizim durumumuzda bu bir yoldur. Bu tür bir projeksiyon için, kamera parametrelerinin eşlik ettiği senkronize kamera ve lidar çerçevelerini ve lidardan kamera çerçevesine bir dönüşüm matrisini kullanıyoruz. Lidar çerçeve koordinatlarındaki homojen x = (x, y, z, 1)ᵀ
noktasını bir görüntü düzlemindeki y = (u, v, 1)ᵀ
noktasına yansıtmak için aşağıdaki denklemi kullanırız:
Dönüşümden sonra hem yol sınıfı hem de Lidar taramasından elde edilen diğer tüm noktalar için görüntü üzerinde piksel maskesi olarak puanlar alıyoruz. Başka Lidar tarama noktalarına ihtiyacımız var çünkü Lidar noktaları çoğunlukla görüntünün alt kısmında bulunur ve görüntünün üst kısmında hiçbir nokta yoktur ve bu da o alanda hatalı tahminlere yol açma potansiyeli taşır. Bu etkiyi ortadan kaldırmak için maskenin üst yarısında (negatif sınıf) rastgele noktalar ekleyerek kaybı hesaplayacağımız noktaların dağılımını dengeliyoruz.
3 Maskelenmiş kayıp
Yöntemimizin önemli bir bileşeni, model eğitimi sırasında maskelenmiş kayıp fonksiyonunun uygulanmasıdır. Bu yaklaşım, Lidar'dan türetilen temel gerçek maskelerindeki doğal seyrekliği ortadan kaldırır. Hataları hesaplamak için tüm görüntü maskelerini dikkate alan geleneksel kayıp fonksiyonlarından farklı olarak, maskelenmiş kayıp yalnızca Lidar noktalarının mevcut olduğu bölgelere odaklanır. Bu hedeflenen kayıp hesaplaması, yol bölümleme doğruluğunu artırmak için lidar tarafından sağlanan bilgilerden yararlanarak modelin öğreniminin ilgili bölgelere odaklanmasını sağlar. Başka bir deyişle, tahminlerin hatasını bir nokta ızgarası üzerinde ölçerek modeli yol bölümlendirmesini öğrenmeye zorluyoruz. Bu, görüntüye deklanşör gözlükleri (deklanşör gölgeleri) kullanılarak bakmaya benzetilebilir.
Her görüntü için maskelenmiş kayıp şu şekilde formüle edilebilir:
Maskelenmiş kayıp, eğitim görüntülerine ikili maske uygulanarak gerçekleştirilir. Bu maske, lidar noktalarının bulunduğu ve görüntü düzlemine yansıtıldığı alanların ana hatlarını çizer. Eğitim aşamasında, kayıp yalnızca maskenin altındaki pikseller için hesaplanır ve görüntünün büyük, açıklanmamış kısımları etkili bir şekilde göz ardı edilir. Bu yöntem yalnızca eğitim sürecinin verimliliğini arttırmakla kalmaz, aynı zamanda Lidar verilerinin seyrek doğasından kaynaklanan sorunları da azaltır.
4 Model eğitimi
Son adım, oluşturulan veri kümesi üzerinde segmentasyon modelinin eğitilmesini içerir. Eğitim süreci her türlü segmentasyon modeline uygun olabilir ve araştırmamızda PSPNet'i kullandık. Bu aşamada her şey verilerinizin kalitesine, miktarına ve mevcut bilgi işlem gücüne bağlıdır.
Yaklaşımımızı, Perception Waymo Açık Veri Kümesi ve KITTI-360 veri kümesi gibi açık kaynaklı olanlar da dahil olmak üzere çeşitli veri kümeleri üzerinde test ettik. Her seferinde üç deneyden oluşan bir dizi gerçekleştirdik: yalnızca 2 boyutlu yol temel gerçeğini, temel gerçek olarak yalnızca öngörülen noktaları ve bu tür temel gerçeklerin bir karışımını kullanarak. Ve yol segmentasyonu (IoU'nun yüzdesi) sonuçları umut verici görünüyor:
Deney | KITTI-360 veri seti üzerine eğitim verildi | Waymo veri kümesi üzerinde eğitim verildi |
---|---|---|
Yalnızca 2B (temel) | 92.3 | 96.1 |
Yalnızca yansıtılan 3D | 89.6 | 94.7 |
2D + yansıtılan 3D'yi karıştırın | 92.7 | 96.3 |
Bu sayılar, yalnızca Lidar segmentasyonuna sahipseniz ve 2D görüntü açıklamalarına ek kaynak harcamak istemiyorsanız sorun olmadığı anlamına gelir. Yalnızca 2B görüntü maskeleri üzerinde eğitime kıyasla kalitedeki düşüş önemsiz olabilir. Her iki sensörden gelen verilere açıklama eklemek için kaynaklarınız varsa, eğitim süreci sırasında bu iki tür açıklamayı birleştirin ve metriklerde artış elde edin.
Araştırma sırasında gözlemlediğimiz yaklaşımın genel faydaları şunlardır: