paint-brush
Yüksek Lisans Programlarını Kullanarak Otomatik Uydu Görüntüleri Altyazıları Oluşturmaya Doğru: Özet ve Girişile@fewshot
197 okumalar

Yüksek Lisans Programlarını Kullanarak Otomatik Uydu Görüntüleri Altyazıları Oluşturmaya Doğru: Özet ve Giriş

Çok uzun; Okumak

Araştırmacılar, LLM'leri ve API'leri kullanarak uzaktan algılamalı görüntü altyazısı oluşturma, doğruluğu artırma ve insan açıklama ihtiyaçlarını azaltma yöntemi olan ARSIC'i sunuyor.
featured image - Yüksek Lisans Programlarını Kullanarak Otomatik Uydu Görüntüleri Altyazıları Oluşturmaya Doğru: Özet ve Giriş
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Yazarlar:

(1) Yingxu He, Singapur Ulusal Üniversitesi Bilgisayar Bilimleri Bölümü {[email protected]};

(2) Qiqi Sun, Nankai Üniversitesi Yaşam Bilimleri Fakültesi {[email protected]}.

Bağlantı Tablosu

Soyut

Otomatik görüntü altyazısı, görsel bilgilerin doğal dil kullanılarak aktarılması için umut verici bir tekniktir. Uydu uzaktan algılamada çevresel izleme, kaynak yönetimi, afet yönetimi vb. gibi çeşitli görevlerde fayda sağlayabilir. Bununla birlikte, bu alandaki ana zorluklardan biri, çok fazla veri gerektirmesi nedeniyle büyük ölçekli resim yazısı veri kümelerinin eksikliğidir. insanın uzmanlığı ve yaratma çabası. Büyük dil modelleri (LLM) üzerine yapılan son araştırmalar, bunların doğal dil anlama ve oluşturma görevlerindeki etkileyici performansını ortaya koymuştur. Bununla birlikte, bunların çoğu görüntüleri işleyemez (GPT-3.5, Falcon, Claude, vb.), genel yer görünümü görüntüleri üzerinde önceden eğitilmiş geleneksel altyazı modelleri ise genellikle hava görüntüleri için ayrıntılı ve doğru altyazılar üretmekte başarısız olur (BLIP, GIT, vb.). CM3, CM3Leon, vb.). Bu sorunu çözmek için yeni bir yaklaşım öneriyoruz: LLM'leri nesne açıklamalarını tanımlamaya yönlendirerek uzaktan algılama görüntüleri için altyazıları otomatik olarak toplayan Otomatik Uzaktan Algılama Görüntüsü Altyazısı (ARSIC). Ayrıca, uzaktan algılama görüntüleri için yüksek kaliteli altyazılar oluşturmak üzere önceden eğitilmiş üretken image2text modelini (GIT) uyarlayan bir kıyaslama modeli de sunuyoruz. Değerlendirmemiz, uzaktan algılama görüntüleri için altyazı toplama yaklaşımımızın etkinliğini göstermektedir.


Daha önceki birçok çalışma, GPT-3.5 ve GPT-4 gibi Yüksek Lisans'ların anlambilimi anlamada iyi olduğunu, ancak sayısal veriler ve karmaşık akıl yürütmeyle uğraştıklarını göstermiştir. Bu sınırlamanın üstesinden gelmek için ARSIC, görüntüler üzerinde nesne ilişkileri ve kümeleme gibi basit coğrafi analizler gerçekleştirmek üzere harici API'lerden yararlanır. Nesneler üzerinde kümeleme yapıyoruz ve LLM'nin özetleme yapabilmesi için anlamlı geometrik ilişkileri sunuyoruz. LLM'nin son çıktısı, görseli tanımlayan birkaç başlıktır; bunlar, dilin akıcılığına ve orijinal görselle tutarlılığına göre daha fazla sıralanacak ve kısa listeye alınacaktır.


Araçlar, inşaatlar, gemiler gibi çeşitli nesneler için sınırlayıcı kutu açıklamaları içeren uydu görüntüleri içeren Xview ve DOTA veri kümelerinden 7 bin ve 2 bin resim yazısı çifti üzerinde önceden eğitilmiş bir üretken image2text (GIT) modeline ince ayar yapıyoruz. , vb. Yaklaşımımızı, insan uzmanlar tarafından açıklamalı 10.892 görüntü ve 31.783 altyazıdan oluşan, uydu görüntüsü altyazıları için bir referans veri kümesi olan RSICD veri kümesine ilişkin yaklaşımımızı değerlendiriyoruz. Görülmeyen nesne türlerine sahip altyazıları eğitim verilerinden kaldırıyoruz ve 5 binden fazla altyazılı 1746 görüntü elde ediyoruz; burada 85,93'lük bir CIDEr-D puanı elde ediyoruz, bu da uydu uzaktan algılamada otomatik görüntü altyazısı yaklaşımımızın etkinliğini ve potansiyelini gösteriyor. Genel olarak bu çalışma, coğrafi veri kümelerini yorumlamak ve uçtan uca görüntü altyazı modellerini eğitmek için doğru görüntü altyazıları oluşturmak için onlara rehberlik edecek uygun bir yol sunar. Yaklaşımımız, insan tarafından yapılan açıklamalara olan ihtiyacı azaltır ve veri kümelerine veya etki alanlarına kolaylıkla uygulanabilir.

1. Giriş

Uydu uzaktan algılama, afet yönetimi, çevresel izleme ve kaynak yönetimi gibi birçok alanda gereklidir. Yararlı mekansal bilgi üretmek için uzaydan çekilen görüntülerin analiz edilmesini, Dünya yüzeyindeki nesnelerin tespit edilmesine ve sınıflandırılmasına odaklanılmasını içerir. Bu görüntüler zengin miktarda veri içerebildiğinden, otomatik görüntü altyazısı, bu görüntülerdeki görsel bilgilerin doğal dil kullanılarak yorumlanması ve iletilmesi için etkili bir yöntem olarak ortaya çıkmıştır.


Önemli potansiyeline rağmen, uydu uzaktan algılama görüntülerinde otomatik görüntü altyazısı eklemedeki en büyük zorluk, büyük ölçekli görüntü altyazı veri kümelerinin azlığıdır. Bu tür veri kümelerinin oluşturulması yoğun emek gerektirir ve önemli düzeyde insan uzmanlığı gerektirir. Çoğu zaman, GPT3.5[7], Falcon ve Claude gibi önceden var olan modeller, sayısal verileri yorumlamak veya karmaşık muhakeme yürütmek için gerekli donanıma sahip olmadıkları için uygulanabilirlik açısından yetersiz kalmaktadır. Benzer şekilde, genel yer görünümü görüntüleri üzerinde önceden eğitilmiş BLIP[5], GIT[9], CM3[1] ve CM3Leon[12] gibi modeller, havadan görüntüler için hassas altyazılar oluşturmakta zorluk çekiyor. Bu sınırlamalar, uzaktan algılama görüntüleri için yüksek kaliteli otomatik altyazı oluşturmayı zorlaştırmaktadır.


Bu sorunla yüzleşmek için bu çalışmada yeni bir yaklaşım öneriyoruz: Uzaktan algılama görüntüleri için yüksek kaliteli altyazıları verimli bir şekilde oluşturmak amacıyla hem büyük dil modellerinden hem de uydu verilerinden yararlanan Otomatik Uzaktan Algılama Görüntü Altyazısı (ARSIC). Katkılarımız üç yönlüdür. İlk olarak, kümeleri tespit etmek, nesnelerin oluşturduğu şekilleri tanımlamak ve görüntünün daha iyi anlaşılmasını sağlamak amacıyla mesafeleri hesaplamak için çeşitli coğrafi analiz API'leri geliştiriyoruz. İkinci olarak, coğrafi API'lerden elde edilen sonuçları altyazılara özetlemek için büyük dil modellerine rehberlik ederek altyazı toplama sürecini otomatikleştiriyoruz. Bu, insan açıklamasına olan ihtiyacı önemli ölçüde azaltır. Son olarak, Xview[4] ve DOTA[2] veri kümelerinden ARSIC yaklaşımımızı takip ederek toplanan ve havadan görüntüler için yüksek kaliteli ve doğru altyazılar oluşturmak üzere uyarlanan görüntü altyazı çiftleri üzerinde üretken bir image2text (GIT) modeline ince ayar yaparak bir kıyaslama sağlıyoruz. .


Yaklaşımımızın etkinliği, RSICD[6] test veri kümesi üzerinde yapılan sıkı testlerle doğrulanmakta ve bu alanda yeni bir referans noktası olan CIDEr-D[8] puanı belirlenmektedir. Özetle, çalışmamız uzaktan algılama görüntülerinin yorumlanması ve altyazı eklenmesine yönelik yenilikçi bir yaklaşım sunmaktadır; bu yöntem yalnızca uçtan uca görüntü altyazı ekleme modellerinin optimize edilmesi için umut verici olmakla kalmayıp aynı zamanda veri kümeleri veya etki alanları arasında uygulanabilecek kadar esnektir.