Phân đoạn hình ảnh đóng một vai trò quan trọng trong việc xác định và phân định chính xác các đối tượng quan tâm trong một hình ảnh. Trong lái xe tự động, thuật toán thị giác máy tính được áp dụng để giải quyết nhiệm vụ phân đoạn mặt đường. Nhiệm vụ này đầy thách thức vì bạn không thể chỉ dựa vào một loại hình ảnh - cả máy ảnh và LiDAR đều có điểm mạnh và điểm yếu. Ví dụ: LiDAR cung cấp thông tin độ sâu chính xác, nhưng chúng thường tạo ra các đám mây điểm thưa thớt, do đó chúng không thể phân chia chính xác các đối tượng trong cảnh. Và chúng có thể tạo ra những đám mây bị biến dạng khi chúng đối mặt với các bề mặt trong suốt hoặc phản chiếu. Máy ảnh không ghi lại được chiều sâu nhưng chúng cung cấp thông tin đầy đủ về hình dạng, kết cấu và màu sắc của vật thể. Điều này dẫn chúng ta đến một ý tưởng đơn giản rằng sự kết hợp hiệu quả giữa các đám mây điểm và hình ảnh trong quá trình huấn luyện phân đoạn đường 2D có thể khai thác các lợi thế của từng miền dữ liệu. Vấn đề là sự hợp nhất như vậy đòi hỏi phải chú thích nhiều lao động cho cả hai tập dữ liệu. Vì vậy, liệu chúng ta có thể làm cho chú thích dữ liệu hiệu quả hơn để tận hưởng những lợi ích của việc thiết lập nhiều cảm biến cho việc phân đoạn đường không?
Tôi hiện đang làm việc tại
Trong bài đăng này, tôi sẽ mô tả từng bước cách tiếp cận của chúng tôi và hiển thị một số kết quả thử nghiệm. Nếu bạn muốn tìm hiểu sâu hơn về công việc của chúng tôi, nghiên cứu các phương pháp khác và kết quả thử nghiệm của chúng tôi, hãy tham khảo bài viết của chúng tôi
Quy trình tổng thể trong phương pháp tiếp cận của chúng tôi bao gồm bốn phần chính: chú thích đường trên đám mây điểm, chuẩn bị dữ liệu, mất mát được che giấu và chính mô hình phân đoạn.
Đầu tiên, chúng tôi lấy dữ liệu có chú thích đường trong miền đám mây điểm. Sau đó, chúng tôi chiếu các điểm bằng cách sử dụng các phép biến đổi đồng nhất và thông số camera. Sau đó, bằng cách sử dụng các điểm dự kiến, chúng tôi có được mặt nạ thực tế trên mặt đường để tính toán tổn thất có bổ sung thêm tiếng ồn ngẫu nhiên. Hình ảnh từ camera được xử lý theo mô hình phân đoạn. Các dự đoán và mặt nạ từ bước trước được sử dụng bởi Masked loss, cho phép huấn luyện mô hình bằng cách sử dụng dữ liệu thực tế trên mặt đất thưa thớt. Cuối cùng, sau khi huấn luyện mô hình, chúng ta có được hình ảnh một con đường được phân đoạn. Quy trình đào tạo cũng như Masked loss cho phép kết hợp sự thật mặt đất được chiếu với mặt nạ 2D truyền thống, giúp cách tiếp cận trở nên linh hoạt về mặt dữ liệu.
Bây giờ chúng ta hãy xem xét kỹ hơn từng phần.
Chú thích dữ liệu đám mây 1 điểm
Để sử dụng dữ liệu lidar trong quá trình đào tạo, chúng ta cần chú thích phân đoạn ngữ nghĩa cho các đám mây điểm. Điều này có thể được thực hiện thủ công bằng cách sử dụng công cụ chú thích đám mây điểm nguồn mở, chẳng hạn như
2 Chuẩn bị dữ liệu
Một đám mây điểm thu được được chiếu trên mặt phẳng hình ảnh bằng cách sử dụng các phép biến đổi đồng nhất để có được mặt nạ phân đoạn hình ảnh với nhãn lớp mà chúng tôi yêu cầu, trong trường hợp của chúng tôi, đó là một con đường. Để chiếu như vậy, chúng tôi sử dụng khung camera và lidar được đồng bộ hóa, kèm theo các thông số camera và ma trận chuyển đổi từ khung lidar sang khung camera. Để chiếu điểm đồng nhất x = (x, y, z, 1)ᵀ
trong tọa độ khung lidar tới điểm y = (u, v, 1)ᵀ
trên mặt phẳng ảnh, ta sử dụng phương trình:
Sau khi chuyển đổi, chúng tôi nhận được các điểm trên hình ảnh dưới dạng mặt nạ pixel, cho cả loại đường và cho tất cả các điểm khác từ quá trình quét lidar. Chúng ta cần các điểm quét lidar khác, vì các điểm lidar hầu hết nằm ở phần dưới cùng của hình ảnh và phần trên cùng của hình ảnh không có điểm nào có khả năng dẫn đến dự đoán không chính xác ở khu vực đó. Để loại bỏ hiệu ứng này, chúng tôi thêm các điểm ngẫu nhiên ở nửa trên của mặt nạ (lớp phủ định) để cân bằng sự phân bổ các điểm mà chúng tôi sẽ tính toán tổn thất.
3 Mất mát che giấu
Một thành phần quan trọng trong phương pháp của chúng tôi là ứng dụng hàm mất mát được che giấu trong quá trình đào tạo mô hình. Cách tiếp cận này giúp loại bỏ sự thưa thớt vốn có trong mặt nạ sự thật có nguồn gốc từ lidar. Không giống như các hàm mất mát thông thường, xem xét toàn bộ mặt nạ hình ảnh để tính toán lỗi, mất mát ẩn chỉ tập trung vào các vùng có điểm lidar. Tính toán tổn thất mục tiêu này đảm bảo rằng quá trình học tập của mô hình tập trung vào các khu vực có liên quan, tận dụng thông tin do lidar cung cấp để nâng cao độ chính xác của việc phân đoạn đường. Nói cách khác, chúng tôi buộc mô hình phải học cách phân đoạn đường bằng cách đo lường sai số dự đoán trên một lưới các điểm. Nó có thể được so sánh với việc nhìn vào hình ảnh bằng kính chụp (mắt cửa trập).
Mất mát mặt nạ cho mỗi hình ảnh có thể được tính toán theo cách này:
Mất mát bị che giấu được thực hiện bằng cách áp dụng mặt nạ nhị phân cho ảnh huấn luyện. Mặt nạ này phác thảo các khu vực đặt các điểm lidar và chiếu lên mặt phẳng hình ảnh. Trong giai đoạn huấn luyện, sự mất mát chỉ được tính cho những pixel nằm dưới mặt nạ, bỏ qua một cách hiệu quả những phần lớn không được chú thích của hình ảnh. Phương pháp này không chỉ cải thiện hiệu quả của quá trình đào tạo mà còn giảm thiểu các vấn đề do tính chất thưa thớt của dữ liệu lidar.
4 Đào tạo mô hình
Bước cuối cùng liên quan đến việc đào tạo mô hình phân đoạn trên tập dữ liệu đã tạo. Quá trình đào tạo có thể phù hợp với bất kỳ mô hình phân khúc nào và trong nghiên cứu của chúng tôi, chúng tôi đã sử dụng PSPNet. Ở giai đoạn này, mọi thứ phụ thuộc vào chất lượng dữ liệu của bạn, số lượng và sức mạnh tính toán sẵn có.
Chúng tôi đã thử nghiệm phương pháp tiếp cận của mình trên nhiều tập dữ liệu khác nhau, bao gồm cả các tập dữ liệu nguồn mở, chẳng hạn như Tập dữ liệu mở Perception Waymo và tập dữ liệu KITTI-360. Mỗi lần chúng tôi tiến hành một bộ ba thử nghiệm: chỉ sử dụng thông tin thực tế về mặt đường 2D, chỉ các điểm được chiếu làm thông tin thực tế về mặt đất và kết hợp các loại thông tin thực tế về mặt đất này. Và kết quả phân đoạn đường (% IoU) có vẻ đầy hứa hẹn:
Cuộc thí nghiệm | Được đào tạo về bộ dữ liệu KITTI-360 | Được đào tạo trên tập dữ liệu Waymo |
---|---|---|
Chỉ 2D (cơ bản) | 92,3 | 96,1 |
Chỉ chiếu 3D | 89,6 | 94,7 |
trộn 2D + chiếu 3D | 92,7 | 96,3 |
Những con số này có nghĩa là nếu bạn chỉ có phân đoạn lidar và không muốn tốn thêm tài nguyên cho chú thích hình ảnh 2D thì không sao. Việc giảm chất lượng so với việc chỉ đào tạo trên mặt nạ hình ảnh 2D có thể không đáng kể. Nếu bạn có tài nguyên để chú thích dữ liệu từ cả hai cảm biến thì chỉ cần kết hợp hai loại chú thích này trong quá trình đào tạo và nhận được sự gia tăng về số liệu.
Nhìn chung, những lợi ích của phương pháp này mà chúng tôi quan sát được trong quá trình nghiên cứu là: