783 測定値

必要なのはLiDARアノテーションだけ

に Sayan Protasov6m2024/04/27

長すぎる; 読むには

カメラ画像内の路面を正確にセグメンテーションするための点群と画像データの融合。

画像セグメンテーションは、画像内の対象オブジェクトを正確に識別して描写する上で重要な役割を果たします。自動運転では、コンピュータービジョンアルゴリズムを適用して、路面セグメンテーションのタスクを解決します。このタスクは、1 種類の画像だけに頼ることはできないため困難です。カメラと LiDAR にはそれぞれ長所と短所があります。たとえば、LiDAR は正確な深度情報を提供しますが、通常はまばらなポイントクラウドを生成するため、シーン内のオブジェクトを正確にセグメント化することはできません。また、透明または反射面に面すると、歪んだクラウドが生成される場合があります。カメラは深度をキャプチャしませんが、オブジェクトの形状、テクスチャ、色に関する完全な情報を提供します。このことから、2D 道路セグメンテーションのトレーニングでポイントクラウドと画像を効果的に融合することで、各データドメインの利点を活用できるという単純なアイデアが生まれます。問題は、このような融合には両方のデータセットの手間のかかる注釈付けが必要になることです。では、道路セグメンテーション用のマルチセンサーセットアップの利点を享受するために、データ注釈付けをより効率的にすることはできるでしょうか。

私は現在、エボカーゴこの会社は貨物輸送サービスを提供しており、独自の自律電気自動車を製造しています。私はディープラーニングエンジニアとして、自動運転車の自動操縦用 3D 検出システムの開発を専門としています。そこで、Evocargo では、路面セグメンテーションの効率を改善して予測品質を高く保ち、注釈コストを削減する方法を見つけることにしました。しばらく研究と実験を行った後、同僚と私は、LIDAR 注釈を効果的に活用して RGB 画像上で直接画像セグメンテーションモデルをトレーニングするアプローチを作成しました。このように、画像上に投影され、グラウンドトゥルースマスクとしてさらなるトレーニングに使用される LIDAR ポイントは、同等の画像セグメンテーション品質を提供し、標準の注釈付き 2D マスクなしでモデルをトレーニングできます。

この記事では、私たちのアプローチを段階的に説明し、いくつかのテスト結果を紹介します。私たちの仕事、他の方法の研究、テスト結果についてさらに詳しく知りたい場合は、私たちの記事を参照してください。「必要なのは LiDAR アノテーションだけです」 IEEE Access ジャーナルに掲載されました。この記事は、メソッド実装、処理済みデータセット、および将来の研究のためのコードベースを含む公開済みのGitHub リポジトリによってサポートされています。私たちの研究があなたの研究に役立つと思われる場合は、星 ⭐ を付けて論文を引用することを検討してください。

4つのステップでセグメンテーションモデルをトレーニングする

私たちのアプローチの全体的なパイプラインは、ポイントクラウド道路注釈、データ準備、マスク損失、およびセグメンテーションモデル自体という 4 つの主要部分で構成されています。

まず、ポイントクラウドドメインで道路注釈付きのデータを取得します。その後、同次変換とカメラパラメーターを使用してポイントを投影します。次に、投影されたポイントを使用して、ランダムノイズを追加した損失計算用の道路グラウンドトゥルースマスクを取得します。カメラからの画像は、セグメンテーションモデルによって処理されます。前の手順からの予測とマスクは、スパースグラウンドトゥルースデータを使用してモデルをトレーニングできるマスク損失によって利用されます。最後に、モデルトレーニング後に、セグメント化された道路の画像を取得します。トレーニング手順とマスク損失により、投影されたグラウンドトゥルースと従来の 2D マスクを混在させることができるため、データの点でアプローチが柔軟になります。

それでは、それぞれの部分を詳しく見てみましょう。

1 点群データの注釈

トレーニング中にLIDARデータを使用するには、ポイントクラウドのセマンティックセグメンテーション注釈が必要です。これは、次のようなオープンソースのポイントクラウド注釈ツールを使用して手動で行うことができます。セマンティックセグメンテーションエディター、またはアルゴリズム的なアプローチを使用します。私の同僚は、路面検出へのそのようなアプローチの1つをステップバイステップガイドで説明しています。1 時間で 100 枚の LIDAR スキャンに注釈を付ける方法特に道路注釈用のアルゴリズムアプローチでは、手動注釈をまったく使用せずに取得できますが、特定のデータに対して微調整が必要です。Evocargo では、両方のアプローチを使用しています。単純なエリアでは、道路はアルゴリズムによって注釈が付けられ、複雑なセクションには手動で注釈が付けられます。

2 データの準備

取得したポイントクラウドは、同次変換を使用して画像平面に投影され、必要なクラスラベル (この場合は道路) を持つ画像セグメンテーションマスクを取得します。このような投影には、カメラパラメータと、LIDAR からカメラフレームへの変換行列を伴う、同期されたカメラと LIDAR フレームを使用します。LIDAR フレーム座標の同次ポイントx = (x, y, z, 1)ᵀ画像平面上のポイントy = (u, v, 1)ᵀに投影するには、次の式を使用します。

変換後、道路クラスとライダースキャンからの他のすべてのポイントの両方について、画像上のポイントをピクセルのマスクとして取得します。ライダーポイントは主に画像の下部にあり、画像の上部にはポイントがまったくないため、そのエリアの予測が不正確になる可能性があるため、他のライダースキャンポイントが必要です。この影響を排除するために、マスクの上半分 (負のクラス) にランダムなポイントを追加して、損失を計算するポイントの分布のバランスを取ります。

3 隠された損失

私たちの方法の重要な要素は、モデルトレーニング中にマスク損失関数を適用することです。このアプローチにより、ライダーから得られるグラウンドトゥルースマスクに固有のスパース性が排除されます。画像マスク全体を考慮してエラーを計算する従来の損失関数とは異なり、マスク損失はライダーポイントが存在する領域のみに焦点を当てます。このターゲット損失計算により、モデルの学習が関連領域に集中し、ライダーによって提供される情報を活用して道路セグメンテーションの精度が向上します。言い換えると、ポイントのグリッド上で予測のエラーを測定することで、モデルに道路セグメンテーションを学習させます。これは、シャッターグラス (シャッターシェード) を使用して画像を見ることに例えることができます。

各画像のマスクされた損失は次のように定式化できます。

マスク損失は、トレーニング画像にバイナリマスクを適用することで実行されます。このマスクは、LIDAR ポイントが配置され、画像平面に投影される領域の輪郭を描きます。トレーニングフェーズでは、マスクの下にあるピクセルに対してのみ損失が計算され、画像の注釈のない大きな部分は実質的に無視されます。この方法は、トレーニングプロセスの効率を向上させるだけでなく、LIDAR データのスパースな性質によって生じる問題も軽減します。

4 モデルのトレーニング

最後のステップでは、作成されたデータセットでセグメンテーションモデルをトレーニングします。トレーニングプロセスはどのセグメンテーションモデルにも適しており、私たちの研究では PSPNet を使用しました。この段階では、すべてはデータの品質、量、および利用可能なコンピューティング能力に依存します。

有望なテスト結果

私たちは、Perception Waymo Open Dataset や KITTI-360 データセットなどのオープンソースのデータセットを含むさまざまなデータセットでアプローチをテストしました。毎回、2D 道路の地上データのみ、投影されたポイントのみの地上データ、およびこれらのタイプの地上データを混合したデータの 3 つの実験を実施しました。道路セグメンテーション (IoU の %) の結果は有望です。

実験	KITTI-360データセットでトレーニング済み	Waymoデータセットでトレーニング済み
2Dのみ（ベースライン）	92.3	96.1
投影された3Dのみ	89.6	94.7
2Dと投影された3Dをミックス	92.7	96.3

これらの数字は、LIDAR セグメンテーションのみを使用していて、2D イメージ注釈に追加のリソースを費やしたくない場合は、問題ないことを意味します。2D イメージマスクのみでトレーニングする場合と比較した品質の低下は、重要ではない可能性があります。両方のセンサーからのデータに注釈を付けるリソースがある場合は、トレーニングプロセス中にこれら 2 種類の注釈を組み合わせるだけで、メトリックが向上します。

調査中に観察されたこのアプローチの全体的な利点は次のとおりです。