paint-brush
Yüksek Lisans Kullanarak Otomatik Uydu Görüntüleri Altyazıları Oluşturmaya Doğru: Metodolojiile@fewshot
131 okumalar

Yüksek Lisans Kullanarak Otomatik Uydu Görüntüleri Altyazıları Oluşturmaya Doğru: Metodoloji

Çok uzun; Okumak

Araştırmacılar, LLM'leri ve API'leri kullanarak uzaktan algılamalı görüntü altyazısı oluşturma, doğruluğu artırma ve insan açıklama ihtiyaçlarını azaltma yöntemi olan ARSIC'i sunuyor.
featured image - Yüksek Lisans Kullanarak Otomatik Uydu Görüntüleri Altyazıları Oluşturmaya Doğru: Metodoloji
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Yazarlar:

(1) Yingxu He, Singapur Ulusal Üniversitesi Bilgisayar Bilimleri Bölümü {[email protected]};

(2) Qiqi Sun, Nankai Üniversitesi Yaşam Bilimleri Fakültesi {[email protected]}.

Bağlantı Tablosu

2. Metodoloji

Bu bölümde, LLM'leri nesne açıklamalarını tanımlamaya yönlendirerek uzaktan algılama görüntüleri için altyazıları otomatik olarak toplamak için önerdiğimiz yaklaşımı açıklıyoruz. Bu çalışmada, her görüntüdeki nesne sayısını 15'ten fazla olmayacak şekilde sınırlıyoruz, bu da LLM için nispeten basit bir mekansal düzen sağlıyor. Yaklaşımımız üç ana adımdan oluşuyor: (1) coğrafi analiz yapmak ve nesneler arasındaki mekansal ilişkileri tanımlamak için API'ler geliştirmek, (2) API'yi API'lerin yardımıyla altyazı oluşturmaya teşvik etmek ve (3) altyazı değerlendirmesi ve seçimi. Her adımı aşağıda ayrıntılı olarak açıklıyoruz.

2.1 Uzamsal İlişki API'leri

LLM, 2 boyutlu coğrafi bilgiyi işleme konusunda yetersiz olduğundan, nesneler arasındaki mekansal ilişkileri analiz etmek için çeşitli analitik yaklaşımlar uyguladık. RSICD belgesinin sağladığı başlıklardan ilham alarak yalnızca nesneler arasındaki mesafeleri, nesne konumlarının yoğunluğunu, nesne gruplarının oluşturduğu şekilleri ve nesneler arasındaki önemli ilişkileri analiz etmeye odaklandık.

2.1.1 Mesafe

Xview ve Dota veri kümelerinde nesnelerin boyutları çok değişkendir. Bu nedenle nesneler arasındaki mesafeler için merkezler arası mesafenin kullanılması uygun değildir. Örneğin, iki büyük binanın merkezleri birbirinden oldukça uzak olsa da, iç duvarları yalnızca birkaç adım uzakta olabilir. Bu nedenle sınırlayıcı kutular arasındaki en kısa mesafeleri mesafe olarak kabul ediyoruz. İki nesne grubu arasındaki mesafeyi, normalde kümeleme alanında Tek Bağlantı ölçüsü olarak adlandırılan, en yakın elemanları arasındaki mesafeyle temsil ederiz.

2.1.2 Kümeleme

İnsan gözünün yakaladığı en önemli özelliklerden biri nesnelerin konumlarına ve türlerine göre yoğunlaşmasıdır; örneğin otoyolda giden bir aracı, yol kenarında duran birçok binadan kolaylıkla ayırt etme eğilimi vardır. Öte yandan, insanlar aynı zamanda nesnelerin en yakın komşusuna da dikkat etme eğilimindedir; örneğin, bir kamyonun yanındaki bir binek otomobilin insanların dikkatini çekmesi, kamyondan nispeten uzaktaki bir binaya göre daha kolaydır. Geleneksel makine öğrenimi kümeleme algoritmaları, K-Means ve hiyerarşik kümeleme gibi mesafeye dayalı algoritmaları ve DBSCAN ve türevleri gibi yoğunluk tabanlı kümelemeyi içerir. Bununla birlikte, K-Means algoritması genellikle aykırı değerleri konsantre nesnelerden ayırmada başarısız olurken, yoğunluk tabanlı kümelemenin faydaları, her görüntünün yalnızca ondan az nesne içerdiği bu durumda gizlenebilir.


Bu çalışmada, görüntüdeki tüm nesneleri birbirine bağlamak ve grafikten önemli ölçüde uzun kenarları kaldırarak kümeler oluşturmak için Minimum Yayılan Ağaç (MST) algoritmasını kullandık. Kruskal'ın MST algoritması[3] nesnelerin en yakın komşularını dikkate alır ve aynı anda ihmal edilebilir bağlantıları atlayarak her ağaç kenarının insanların gözlem davranışına göre hizalanmasını sağlar. Eşiği tüm veri kümesindeki kenar ağırlıklarının yüzde 75'ine ayarladık. Bu eşiğin üzerindeki kenarlar, kümeler oluşturmak için grafikten kaldırıldı, böylece küme içi en aza indirildi ve kümeler arası mesafeler maksimuma çıkarıldı. Aynı türdeki nesnelerin aynı kümede gruplandırılmasını teşvik etmek için farklı türdeki nesneler arasındaki mesafelere ekstra uzunluk ekleriz. Şekil 1'de MST tabanlı kümeleme algoritmasının ayrıntılı bir gösterimi verilmektedir. Bu yaklaşım, nesneleri türe, konuma ve yakınlığa göre hassas bir şekilde bölebilir ve bu da sonraki coğrafi analize fayda sağlar.


Şekil 1: MST tabanlı kümeleme algoritmasının çizimi. Şekil (1) minimum yayılan ağacı temsil eden oluşturulan grafiği göstermektedir. Farklı türdeki nesneler arasındaki mesafeye ekstra uzunluk eklenir. Şekil (2) uzun kenarların kesilmesiyle oluşan kümeleri göstermektedir. Şekil (3) nesnelerin konumunu gerçek görüntüye yansıtır.

2.1.3 Geometrik Şekil

RSICD veri setinde sağlanan başlıklardan esinlenen çizgi şekli, bu çalışmada tespit edilecek temel şekil olarak kabul edilmektedir. İnsan gözüne en çekici gelen şey ve diğer birçok karmaşık şeklin temel unsuru gibi görünüyor. Örneğin kare ızgaralı sokak deseni, bina hatlarının en temel unsur olduğu şehirlerde kullanılan en popüler sokak desenlerinden biridir. Daire ve kare gibi diğer şekillerin de insanların dikkatini kolaylıkla çekebileceği inkar edilemez. Bununla birlikte, her görüntünün en fazla 15 nesne içerdiği bu çalışmanın ortamında, bunlar daha az belirgindir ve tespit edilmesi daha zordur. Bu nedenle sadece sınırlayıcı kutuların köşelerinin oluşturduğu çizgilerin paralel olup olmadığını inceleyerek nesne gruplarından çizgi şekillerini tespit etmeye yönelik bir yöntem uyguladık.

2.1.4 Geometrik İlişki

RSICD belgesinde[6] listelenen bazı ilişkileri gözden geçiriyoruz ve görsel başlıklarına dahil edilecek ilişkiler listemizi ortaya çıkarıyoruz: "tek başına duruyor", "yakın", "arka arkaya", "çevrelenmiş", "arasında" "ve "iki tarafında". Bölüm 2.1.2'de açıklandığı gibi farklı sıralardaki nesneler farklı gruplar halinde kümelenebildiğinden ve olası herhangi bir çizgi şekli, şekil tanımlamayla algılanabildiğinden, "satırlar halinde" ilişkisini RSICD kağıdından "arka arkaya" olarak değiştirdik. algoritma bölüm 2.1.3'te açıklanmıştır. Ek olarak, yalnızca diğerlerinin iki tarafında nesnelerin bulunduğu durumu, diğerlerini 360° çevreleyen nesnelerden ayırmak için "iki tarafında" ifadesinin ters tarafı olarak bir "arasında" ilişkisi öneriyoruz. Bu çalışmada yukarıda açıklanan yaklaşımlar "tek başına", "yakın" ve "arka arkaya" ilişkilerini ele alabilir. "Çevrelenmiş" ilişkisi yalnızca belirli nesneler başka bir nesne grubunun sınırları içinde yer aldığında dikkate alınır. Detaylı fonksiyon, ortadaki kutulardan dıştaki kutulara bağlantılar çizilerek ve aralarındaki açılar hesaplanarak gerçekleştirilir. "Arasında" ve "iki tarafta" ilişkilerin uygulanması gelecekteki çalışmalara bırakılmıştır.

2.2 Yüksek Lisans İstemi

Yaklaşımımızın ikinci adımı, LLM'nin benzer bir modeli takip eden bir başlık üretmesine rehberlik etmek için istemleri kullanmaktır. Bölüm 2.1'de uygulanan API'lerle, LLM'yi yönlendirmek ve onu ideal altyazıları oluşturmaya yönlendirmek için birçok seçenek vardır. Son zamanlarda popüler olan LLM'leri bir denetleyici veya eylem gönderici olarak ele alma fikrinin ardından[13], bir yaklaşım, dil modelinin eylemlerini planlamasına ve yararlı coğrafi analiz sonuçları elde etmek için işlevleri sırayla yürütmesine izin verebilir. Örneğin, yakın zamanda geliştirilen ReAct[10] yaklaşımı, LLM'nin karmaşık görevleri yerine getirme yeteneğini geliştirmek için akıl yürütme ve yürütme sürecini sinerjiyle birleştirir. Coğrafi analizde büyük esneklik ve oluşturulan altyazılarda daha fazla çeşitlilik sağlar. Bununla birlikte Yüksek Lisans, dikkat çekici coğrafi ilişkileri keşfetme konusunda zorluk yaşama eğilimindedir ve eylemin gerçekleştirilme süreci sırasında alınan daha az önemli bilgilerle kolayca boğulur.


Sorunu çözmek için, hem kümeler hem de bağımsız nesneler için en önemli komşuları ortaya çıkaran ve buradan önemli coğrafi ilişkileri kolayca çıkarabildiğimiz MST algoritmasının avantajını benimsedik. Daha spesifik olarak, her bir görüntüdeki her grubun varlığını, kombinasyonları ve tespit edilen şekilleriyle birlikte bağımsız nesnelerle birlikte listeliyoruz. Daha sonra kutular arasındaki önemli geometrik ilişkiler, LLM'ye onların mekansal ilişkileri hakkında bir fikir vermek için sağlanır. Bu durumda, yalnızca kümeleri ve bağımsız nesneleri birbirine bağlayan kümeleme adımı (bölüm 2.1.2) sırasında kaldırılan kenarları sunuyoruz. Yüksek Lisans tarafından sunulan mekansal ilişkilerin ve oluşturulan altyazıların bir örneği şekil 2'de verilmektedir.

2.2.1 Altyazı Çeşitlendirmesi

Her ne kadar komut istemi zaten gerekli kümeleme bilgilerini ve nesneler arasındaki mekansal ilişkileri sağlasa da, LLM'nin yalnızca kümeleme bilgisini mekansal ilişkilere getirmesi ve başlıklar oluşturması beklenmez; bu zaten şablon tabanlı veya kural tabanlı bir yöntemle yapılabilir. LLM'nin oynadığı en önemli rol, mevcut mekansal düzeni anlamak ve potansiyel olarak gereksiz veya önemsiz ilişkileri uygun başlıklara dönüştürmektir. Örneğin şekil 2(2)'de MST tabanlı algoritma bir binanın bazı binalara diğerlerinden daha yakın olduğunu tespit etmektedir. Bununla birlikte, görüntünün tamamı farklı binalarla dolu olduğundan, bu ilişkiyi tekrarlayan bir başlık, aşağı yöndeki derin öğrenme modellerinde ve hatta insan okuyucularda kafa karışıklığı ve belirsizlik yaratabilir. Bu durumda Yüksek Lisans, her mekansal ilişkinin öneminin değerlendirilmesinde ve gerekli açıklamaların yapılmasında hayati bir rol oynar.


Bu çalışmada, daha çok "Az Çekim" ipucu tekniği olarak adlandırılan ipucunda gerekli örneklerin sağlanmasıyla LLM'nin özetleme davranışı sağlanmaktadır. Yüksek Lisans'ın, kendi sözcükleriyle başlıklar oluşturmak için kümeleme sonuçlarını mekansal ilişkilerle sinerjileştirmesinin beklendiği birkaç örnek sunduk. Beklenen davranışlar için açıklamalar eklemek veya Düşünce Zinciri veya Düşünce Ağacı tekniklerini kullanarak akıl yürütme sürecini parçalamak gibi diğer yönlendirme teknikleri de potansiyel olarak aynı hedefe ulaşabilir. Bununla birlikte, girdi ve beklenen çıktı formatının zaten karmaşık olduğu göz önüne alındığında, bu yönlendirme stratejileri, istem yazma sürecine çok daha fazla karmaşıklık ve zorluk getirebilir. Üstelik deneysel sonuçlarımız, birkaç adımlık ipucunun yukarıda bahsedilen tekniklerden herhangi birinden daha istikrarlı performans gösterdiğini göstermektedir.

2.2.2 Yanıt Biçimlendirmesi

Ek olarak, yanıtı bilgisayar tarafından okunabilir bir formatla etkili bir şekilde sınırlamak için, LLM'ye, ayrıntılı bilgileri zaten LLM'nin ön eğitim külliyatına dahil edilmiş ve parametrik içine iyi bir şekilde yerleştirilmiş olan bir Python listesi formatında altyazıları yayınlaması talimatını veriyoruz. daha doğrusu hafıza


Şekil 2: LLM tarafından oluşturulan coğrafi analiz bilgileri ve başlıklara örnekler. Her örnek için nesne bilgileri ve coğrafi modeller, uygulanan API'lerimiz tarafından sağlanır ve LLM'ye girdi olarak verilir.


ekstra açıklama gerektiren diğer özelleştirilmiş formatlardan daha iyidir. Önceki bölümde anlatıldığı gibi yine istemde örnekler verilerek elde edilen LLM yanıtında nesne gruplarının herhangi bir kimliğinin bulunmaması istenmektedir. Son zamanlarda yapılan birçok araştırmada, birkaç adımlık ipucunun, uzun süreli yönergelerle yapılan sıfır gösterili ipucundan daha iyi çalıştığı belirtilmiştir[11]. Ayrıntılı prosedürler şekil 3'te gösterilebilir.

2.3 Başlık Değerlendirmesi ve Seçimi

Yaklaşımımızın üçüncü adımı, her görsel için en iyi başlığı değerlendirmek ve seçmektir. Altyazıların kalitesini değerlendirmek için iki kriter kullanırız: (a) altyazı kalitesi, altyazının temel gerçek notuyla ne kadar iyi eşleştiğini ölçen altyazı kalitesi ve (b) altyazının diğer görsellerden oluşturulan altyazılardan ne kadar farklı olduğunu ölçen altyazı çeşitliliği . Aşağıdaki prosedürü kullanıyoruz:


• "Grup 0" gibi grubun kimliği veya "birinci grup" gibi grubun sırası gibi karışıklığa yol açabilecek istenmeyen anahtar kelimeler içeren başlıkları filtreliyoruz.


• Her altyazı için giriş görüntüsüyle eşleşmesine dayalı bir puan hesaplamak amacıyla önceden eğitilmiş CLIP'i kullanırız. Değerlendirici, çeşitli alanları ve senaryoları kapsayan geniş ölçekli bir resim yazısı veri kümesi üzerinde eğitilmiştir.


• Altyazı çeşitliliğine dayalı olarak her altyazı için bir puan hesaplamak amacıyla bir benzerlik ölçüsü kullanırız. Benzerlik ölçüsü, çok belirsiz ve geniş açıklamalardan kaçınmak için her bir altyazıyı diğer görsellerden oluşturulan altyazılarla karşılaştırır.


• Her bir altyazı için nihai puanı elde etmek amacıyla, ağırlıklı ortalama formülünü kullanarak her iki puanı birleştiriyoruz.


• Her görsel için en yüksek final puanına sahip başlığı en iyi başlık olarak seçiyoruz.


Şekil 3: LLM'den istemimizin ve çıktımızın yapısının gösterimi. Bilgi isteminde LLM'ye daha fazla örnek verilirken, buraya yalnızca bir örnek gösterim amacıyla dahil edilmiştir.