paint-brush
Chú thích Lidar là tất cả những gì bạn cầnby@skprot
771
771

Chú thích Lidar là tất cả những gì bạn cần

Sayan Protasov6m2024/04/27
Read on Terminal Reader

Sự kết hợp giữa đám mây điểm và dữ liệu hình ảnh để phân đoạn mặt đường chính xác trong hình ảnh camera.
featured image - Chú thích Lidar là tất cả những gì bạn cần
Sayan Protasov HackerNoon profile picture
0-item
1-item


Phân đoạn hình ảnh đóng một vai trò quan trọng trong việc xác định và phân định chính xác các đối tượng quan tâm trong một hình ảnh. Trong lái xe tự động, thuật toán thị giác máy tính được áp dụng để giải quyết nhiệm vụ phân đoạn mặt đường. Nhiệm vụ này đầy thách thức vì bạn không thể chỉ dựa vào một loại hình ảnh - cả máy ảnh và LiDAR đều có điểm mạnh và điểm yếu. Ví dụ: LiDAR cung cấp thông tin độ sâu chính xác, nhưng chúng thường tạo ra các đám mây điểm thưa thớt, do đó chúng không thể phân chia chính xác các đối tượng trong cảnh. Và chúng có thể tạo ra những đám mây bị biến dạng khi chúng đối mặt với các bề mặt trong suốt hoặc phản chiếu. Máy ảnh không ghi lại được chiều sâu nhưng chúng cung cấp thông tin đầy đủ về hình dạng, kết cấu và màu sắc của vật thể. Điều này dẫn chúng ta đến một ý tưởng đơn giản rằng sự kết hợp hiệu quả giữa các đám mây điểm và hình ảnh trong quá trình huấn luyện phân đoạn đường 2D có thể khai thác các lợi thế của từng miền dữ liệu. Vấn đề là sự hợp nhất như vậy đòi hỏi phải chú thích nhiều lao động cho cả hai tập dữ liệu. Vì vậy, liệu chúng ta có thể làm cho chú thích dữ liệu hiệu quả hơn để tận hưởng những lợi ích của việc thiết lập nhiều cảm biến cho việc phân đoạn đường không?


Tôi hiện đang làm việc tại Evocargo . Công ty này cung cấp dịch vụ vận chuyển hàng hóa và sản xuất xe điện tự hành của riêng mình. Là một kỹ sư học sâu, tôi chuyên phát triển hệ thống phát hiện 3D cho hệ thống lái tự động của xe tự lái. Vì vậy, tại Evocargo, chúng tôi quyết định tìm cách cải thiện hiệu quả phân đoạn mặt đường để duy trì chất lượng dự đoán ở mức cao và giảm chi phí chú thích. Sau một thời gian nghiên cứu và thử nghiệm, tôi và các đồng nghiệp đã tạo ra một phương pháp tận dụng hiệu quả các chú thích lidar để huấn luyện các mô hình phân đoạn hình ảnh trực tiếp trên hình ảnh RGB . Do đó, các điểm lidar được chiếu lên hình ảnh và được sử dụng trong đào tạo thêm dưới dạng mặt nạ thực tế nền tảng cung cấp chất lượng phân đoạn hình ảnh tương đương và cho phép đào tạo mô hình mà không cần mặt nạ 2D có chú thích tiêu chuẩn.



Trong bài đăng này, tôi sẽ mô tả từng bước cách tiếp cận của chúng tôi và hiển thị một số kết quả thử nghiệm. Nếu bạn muốn tìm hiểu sâu hơn về công việc của chúng tôi, nghiên cứu các phương pháp khác và kết quả thử nghiệm của chúng tôi, hãy tham khảo bài viết của chúng tôi 'Chú thích Lidar là tất cả những gì bạn cần' trên tạp chí IEEE Access. Bài viết này được hỗ trợ bởi kho lưu trữ GitHub đã xuất bản với cách triển khai phương pháp, bộ dữ liệu đã xử lý và cơ sở mã cho nghiên cứu trong tương lai. Nếu bạn thấy công việc của chúng tôi hữu ích cho nghiên cứu của mình, vui lòng cân nhắc việc cho nó một ngôi sao ⭐ và trích dẫn bài báo.


Huấn luyện mô hình phân đoạn theo 4 bước

Quy trình tổng thể trong phương pháp tiếp cận của chúng tôi bao gồm bốn phần chính: chú thích đường trên đám mây điểm, chuẩn bị dữ liệu, mất mát được che giấu và chính mô hình phân đoạn.


Sơ đồ tổng thể của cách tiếp cận của chúng tôi


Đầu tiên, chúng tôi lấy dữ liệu có chú thích đường trong miền đám mây điểm. Sau đó, chúng tôi chiếu các điểm bằng cách sử dụng các phép biến đổi đồng nhất và thông số camera. Sau đó, bằng cách sử dụng các điểm dự kiến, chúng tôi có được mặt nạ thực tế trên mặt đường để tính toán tổn thất có bổ sung thêm tiếng ồn ngẫu nhiên. Hình ảnh từ camera được xử lý theo mô hình phân đoạn. Các dự đoán và mặt nạ từ bước trước được sử dụng bởi Masked loss, cho phép huấn luyện mô hình bằng cách sử dụng dữ liệu thực tế trên mặt đất thưa thớt. Cuối cùng, sau khi huấn luyện mô hình, chúng ta có được hình ảnh một con đường được phân đoạn. Quy trình đào tạo cũng như Masked loss cho phép kết hợp sự thật mặt đất được chiếu với mặt nạ 2D truyền thống, giúp cách tiếp cận trở nên linh hoạt về mặt dữ liệu.


Bây giờ chúng ta hãy xem xét kỹ hơn từng phần.


Chú thích dữ liệu đám mây 1 điểm


Để sử dụng dữ liệu lidar trong quá trình đào tạo, chúng ta cần chú thích phân đoạn ngữ nghĩa cho các đám mây điểm. Điều này có thể được thực hiện thủ công bằng cách sử dụng công cụ chú thích đám mây điểm nguồn mở, chẳng hạn như Trình chỉnh sửa phân đoạn ngữ nghĩa hoặc sử dụng một số phương pháp thuật toán. Đồng nghiệp của tôi đã mô tả một cách tiếp cận như vậy để phát hiện mặt đường trong hướng dẫn từng bước của anh ấyCách chú thích 100 lần quét lidar trong 1 giờ . Một cách tiếp cận thuật toán đặc biệt dành cho chú thích đường có thể cho phép thực hiện mà không cần chú thích thủ công, nhưng nó cần tinh chỉnh cho dữ liệu cụ thể. Tại Evocargo, chúng tôi sử dụng cả hai phương pháp. Đối với các khu vực đơn giản, đường được chú thích theo thuật toán và đối với các đoạn phức tạp - theo cách thủ công.


2 Chuẩn bị dữ liệu


Một đám mây điểm thu được được chiếu trên mặt phẳng hình ảnh bằng cách sử dụng các phép biến đổi đồng nhất để có được mặt nạ phân đoạn hình ảnh với nhãn lớp mà chúng tôi yêu cầu, trong trường hợp của chúng tôi, đó là một con đường. Để chiếu như vậy, chúng tôi sử dụng khung camera và lidar được đồng bộ hóa, kèm theo các thông số camera và ma trận chuyển đổi từ khung lidar sang khung camera. Để chiếu điểm đồng nhất x = (x, y, z, 1)ᵀ trong tọa độ khung lidar tới điểm y = (u, v, 1)ᵀ trên mặt phẳng ảnh, ta sử dụng phương trình:


Sau khi chuyển đổi, chúng tôi nhận được các điểm trên hình ảnh dưới dạng mặt nạ pixel, cho cả loại đường và cho tất cả các điểm khác từ quá trình quét lidar. Chúng ta cần các điểm quét lidar khác, vì các điểm lidar hầu hết nằm ở phần dưới cùng của hình ảnh và phần trên cùng của hình ảnh không có điểm nào có khả năng dẫn đến dự đoán không chính xác ở khu vực đó. Để loại bỏ hiệu ứng này, chúng tôi thêm các điểm ngẫu nhiên ở nửa trên của mặt nạ (lớp phủ định) để cân bằng sự phân bổ các điểm mà chúng tôi sẽ tính toán tổn thất.


Điểm đường dự kiến và mặt nạ tính toán tổn thất


3 Mất mát che giấu


Một thành phần quan trọng trong phương pháp của chúng tôi là ứng dụng hàm mất mát được che giấu trong quá trình đào tạo mô hình. Cách tiếp cận này giúp loại bỏ sự thưa thớt vốn có trong mặt nạ sự thật có nguồn gốc từ lidar. Không giống như các hàm mất mát thông thường, xem xét toàn bộ mặt nạ hình ảnh để tính toán lỗi, mất mát ẩn chỉ tập trung vào các vùng có điểm lidar. Tính toán tổn thất mục tiêu này đảm bảo rằng quá trình học tập của mô hình tập trung vào các khu vực có liên quan, tận dụng thông tin do lidar cung cấp để nâng cao độ chính xác của việc phân đoạn đường. Nói cách khác, chúng tôi buộc mô hình phải học cách phân đoạn đường bằng cách đo lường sai số dự đoán trên một lưới các điểm. Nó có thể được so sánh với việc nhìn vào hình ảnh bằng kính chụp (mắt cửa trập).

Kính cửa chớp nhìn ra đường phố


Mất mát mặt nạ cho mỗi hình ảnh có thể được tính toán theo cách này:

Mất mát bị che giấu được thực hiện bằng cách áp dụng mặt nạ nhị phân cho ảnh huấn luyện. Mặt nạ này phác thảo các khu vực đặt các điểm lidar và chiếu lên mặt phẳng hình ảnh. Trong giai đoạn huấn luyện, sự mất mát chỉ được tính cho những pixel nằm dưới mặt nạ, bỏ qua một cách hiệu quả những phần lớn không được chú thích của hình ảnh. Phương pháp này không chỉ cải thiện hiệu quả của quá trình đào tạo mà còn giảm thiểu các vấn đề do tính chất thưa thớt của dữ liệu lidar.


4 Đào tạo mô hình


Bước cuối cùng liên quan đến việc đào tạo mô hình phân đoạn trên tập dữ liệu đã tạo. Quá trình đào tạo có thể phù hợp với bất kỳ mô hình phân khúc nào và trong nghiên cứu của chúng tôi, chúng tôi đã sử dụng PSPNet. Ở giai đoạn này, mọi thứ phụ thuộc vào chất lượng dữ liệu của bạn, số lượng và sức mạnh tính toán sẵn có.


Kết quả thử nghiệm đầy hứa hẹn

Chúng tôi đã thử nghiệm phương pháp tiếp cận của mình trên nhiều tập dữ liệu khác nhau, bao gồm cả các tập dữ liệu nguồn mở, chẳng hạn như Tập dữ liệu mở Perception Waymo và tập dữ liệu KITTI-360. Mỗi lần chúng tôi tiến hành một bộ ba thử nghiệm: chỉ sử dụng thông tin thực tế về mặt đường 2D, chỉ các điểm được chiếu làm thông tin thực tế về mặt đất và kết hợp các loại thông tin thực tế về mặt đất này. Và kết quả phân đoạn đường (% IoU) có vẻ đầy hứa hẹn:


Cuộc thí nghiệm

Được đào tạo về bộ dữ liệu KITTI-360

Được đào tạo trên tập dữ liệu Waymo

Chỉ 2D (cơ bản)

92,3

96,1

Chỉ chiếu 3D

89,6

94,7

trộn 2D + chiếu 3D

92,7

96,3


Những con số này có nghĩa là nếu bạn chỉ có phân đoạn lidar và không muốn tốn thêm tài nguyên cho chú thích hình ảnh 2D thì không sao. Việc giảm chất lượng so với việc chỉ đào tạo trên mặt nạ hình ảnh 2D có thể không đáng kể. Nếu bạn có tài nguyên để chú thích dữ liệu từ cả hai cảm biến thì chỉ cần kết hợp hai loại chú thích này trong quá trình đào tạo và nhận được sự gia tăng về số liệu.


Nhìn chung, những lợi ích của phương pháp này mà chúng tôi quan sát được trong quá trình nghiên cứu là:


  • hiệu suất chất lượng cao của mạng lưới thần kinh trong các nhiệm vụ phân đoạn hình ảnh,
  • cần ít tài nguyên hơn để chú thích dữ liệu từ một số loại cảm biến,
  • linh hoạt để thích ứng với các loại hình ảnh và nhiệm vụ phân đoạn khác nhau.


Phân đoạn đường chính xác với các chướng ngại vật có kích thước khác nhau và các phương tiện khác. Những kết quả này thu được từ mô hình được đào tạo trên dữ liệu độc quyền của chúng tôi.


Các tác giả của cách tiếp cận