paint-brush
Hướng tới tạo chú thích hình ảnh vệ tinh tự động bằng LLM: Phương pháptừ tác giả@fewshot
131 lượt đọc

Hướng tới tạo chú thích hình ảnh vệ tinh tự động bằng LLM: Phương pháp

từ tác giả The FewShot Prompting Publication 8m2024/06/16
Read on Terminal Reader

dài quá đọc không nổi

Các nhà nghiên cứu trình bày ARSIC, một phương pháp tạo chú thích cho ảnh viễn thám bằng cách sử dụng LLM và API, cải thiện độ chính xác và giảm nhu cầu chú thích của con người.
featured image - Hướng tới tạo chú thích hình ảnh vệ tinh tự động bằng LLM: Phương pháp
The FewShot Prompting Publication  HackerNoon profile picture
0-item

tác giả:

(1) Yingxu He, Khoa Khoa học Máy tính Đại học Quốc gia Singapore {[email protected]};

(2) Qiqi Sun, Trường Khoa học Đời sống Đại học Nankai {[email protected]}.

Bảng liên kết

2. Phương pháp luận

Trong phần này, chúng tôi mô tả phương pháp được đề xuất của mình để tự động thu thập chú thích cho ảnh viễn thám bằng cách hướng dẫn LLM mô tả chú thích đối tượng của chúng. Trong công việc này, chúng tôi giới hạn số lượng đối tượng trong mỗi hình ảnh không quá 15, điều này đảm bảo bố cục không gian tương đối đơn giản cho LLM. Cách tiếp cận của chúng tôi bao gồm ba bước chính: (1) phát triển API để tiến hành phân tích địa lý và mô tả mối quan hệ không gian giữa các đối tượng, (2) nhắc API tạo chú thích với sự trợ giúp từ API và (3) đánh giá và lựa chọn chú thích. Chúng tôi giải thích từng bước chi tiết dưới đây.

2.1 API mối quan hệ không gian

LLM không đủ khả năng xử lý thông tin địa lý 2 chiều, vì vậy chúng tôi đã triển khai một số phương pháp phân tích để phân tích mối quan hệ không gian giữa các đối tượng. Lấy cảm hứng từ chú thích do bài báo RSICD cung cấp, chúng tôi chỉ tập trung phân tích khoảng cách giữa các vật thể, sự tập trung vị trí của vật thể, hình dạng được hình thành bởi các nhóm vật thể và mối quan hệ quan trọng giữa các vật thể.

2.1.1 Khoảng cách

Trong bộ dữ liệu Xview và Dota, kích thước của các đối tượng thay đổi rất nhiều. Vì vậy, việc sử dụng khoảng cách giữa các tâm là không phù hợp với khoảng cách giữa các vật thể. Ví dụ, mặc dù trung tâm của hai tòa nhà lớn có thể cách nhau khá xa nhưng các bức tường phía trong của chúng có thể chỉ cách nhau vài bước chân. Vì vậy, chúng tôi coi khoảng cách ngắn nhất giữa các hộp giới hạn là khoảng cách của chúng. Đối với khoảng cách giữa hai nhóm đối tượng, chúng tôi biểu thị nó bằng khoảng cách giữa phần tử gần nhất của chúng, thường được gọi là thước đo Liên kết đơn trong lĩnh vực phân cụm.

2.1.2 Phân cụm

Một trong những đặc điểm quan trọng nhất được mắt người ghi lại là sự tập trung của các vật thể dựa trên vị trí và loại của chúng, ví dụ: người ta có xu hướng dễ dàng phân biệt một phương tiện đang chạy trên đường cao tốc với một số tòa nhà nằm bên đường. Mặt khác, mọi người cũng có xu hướng chú ý đến đồ vật lân cận nhất, ví dụ: một chiếc ô tô khách cạnh một chiếc xe tải sẽ dễ thu hút sự chú ý của mọi người hơn là một tòa nhà cách xa xe tải một cách tương đối. Các thuật toán phân cụm học máy truyền thống bao gồm các thuật toán dựa trên khoảng cách như K-Means và phân cụm theo cấp bậc cũng như phân cụm dựa trên mật độ như DBSCAN và các biến thể của nó. Tuy nhiên, thuật toán K-Means thường không thể tách các ngoại lệ khỏi các đối tượng tập trung, trong khi lợi ích của việc phân cụm dựa trên mật độ có thể bị che khuất trong trường hợp này, khi mỗi hình ảnh chỉ chứa ít hơn mười đối tượng.


Trong công việc này, Chúng tôi đã sử dụng thuật toán Cây kéo dài tối thiểu (MST) để kết nối tất cả các đối tượng trong hình ảnh và tạo thành các cụm bằng cách loại bỏ các cạnh dài đáng kể khỏi biểu đồ. Thuật toán MST của Kruskal[3] xem xét các vật thể lân cận gần nhất và đồng thời bỏ qua các kết nối không đáng kể, đảm bảo mọi cạnh của cây đều được căn chỉnh phù hợp với hành vi quan sát của con người. Chúng tôi đặt ngưỡng ở phần trăm 75 của trọng số cạnh từ toàn bộ tập dữ liệu. Các cạnh trên ngưỡng này đã bị xóa khỏi biểu đồ để tạo thành các cụm, giảm thiểu trong cụm và tối đa hóa khoảng cách giữa các cụm. Để khuyến khích việc nhóm các đối tượng cùng loại vào cùng một cụm, Chúng tôi bổ sung thêm độ dài cho khoảng cách giữa các đối tượng thuộc các loại khác nhau. Hình 1 minh họa chi tiết về thuật toán phân cụm dựa trên MST. Cách tiếp cận này có thể phân chia chính xác các đối tượng theo loại, vị trí và khoảng cách, mang lại lợi ích cho việc phân tích địa lý tiếp theo.


Hình 1: Minh họa thuật toán phân cụm dựa trên MST. Hình (1) biểu thị biểu đồ được tạo biểu thị cây bao trùm tối thiểu. Chiều dài bổ sung được thêm vào khoảng cách giữa các đối tượng thuộc các loại khác nhau. Hình (2) cho thấy các cụm được hình thành bằng cách cắt các cạnh dài. Hình (3) chiếu vị trí của các vật thể lên ảnh thật.

2.1.3 Hình dạng hình học

Lấy cảm hứng từ chú thích được cung cấp trong bộ dữ liệu RSICD, hình dạng đường được coi là hình dạng cơ bản cần được phát hiện trong tác phẩm này. Nó có vẻ hấp dẫn nhất đối với mắt người và là yếu tố cơ bản của nhiều hình dạng phức tạp khác. Ví dụ: mô hình đường phố dạng lưới hình vuông là một trong những mô hình đường phố phổ biến nhất được sử dụng ở các thành phố, nơi các đường nét của tòa nhà là yếu tố cơ bản nhất. Không thể phủ nhận, các hình dạng khác cũng có thể dễ dàng thu hút sự chú ý của mọi người, chẳng hạn như hình tròn và hình vuông. Tuy nhiên, trong bối cảnh của tác phẩm này, trong đó mỗi hình ảnh chứa tối đa 15 đối tượng, chúng ít rõ ràng hơn và khó phát hiện hơn. Do đó, chúng tôi chỉ triển khai phương pháp phát hiện hình dạng đường từ các nhóm đối tượng bằng cách kiểm tra xem các đường tạo thành bởi các góc của hộp giới hạn có song song hay không.

2.1.4 Quan hệ hình học

Chúng tôi xem xét một số mối quan hệ được liệt kê trong bài báo RSICD[6] và đưa ra danh sách các mối quan hệ của chúng tôi sẽ được đưa vào chú thích hình ảnh: "đứng một mình", "gần", "trong một hàng", "được bao quanh bởi", "giữa ", và "ở hai phía". Chúng tôi đã sửa đổi mối quan hệ "trong hàng" từ giấy RSICD thành "trong một hàng", vì các đối tượng trong các hàng khác nhau có thể được nhóm thành các nhóm khác nhau như được mô tả trong phần 2.1.2 và mọi hình dạng đường có thể có sẽ được phát hiện bằng nhận dạng hình dạng thuật toán mô tả ở phần 2.1.3. Ngoài ra, chúng tôi đề xuất mối quan hệ "giữa" làm mặt trái của "trong hai mặt của" để phân biệt tình huống chỉ có các vật thể ở hai phía của vật thể khác với các vật thể quay quanh các vật thể khác 360◦ . Trong công việc này, các cách tiếp cận được mô tả ở trên có thể giải quyết các mối quan hệ “đứng một mình”, “gần” và “trong một hàng”. Mối quan hệ “được bao quanh bởi” chỉ được xem xét khi một số đối tượng nhất định nằm trong đường viền của một nhóm đối tượng khác. Chức năng chi tiết đạt được bằng cách vẽ các liên kết từ các hộp ở giữa đến các hộp bên ngoài và tính toán các góc giữa chúng. Việc thực hiện các mối quan hệ “giữa” và “ở hai phía” được để lại cho công việc sau này.

2.2 Nhắc nhở LLM

Bước thứ hai trong phương pháp tiếp cận của chúng tôi là sử dụng lời nhắc để hướng dẫn LLM tạo chú thích theo mẫu tương tự. Với các API được triển khai trong phần 2.1, có nhiều tùy chọn để nhắc LLM và hướng dẫn LLM tạo phụ đề lý tưởng. Theo ý tưởng phổ biến gần đây về việc coi LLM như một bộ điều khiển hoặc bộ điều phối hành động [13], một cách tiếp cận có thể là cho phép mô hình ngôn ngữ lập kế hoạch cho các hành động của nó và thực hiện các chức năng theo trình tự để thu được kết quả phân tích địa lý hữu ích. Ví dụ, cách tiếp cận ReAct[10] được phát triển gần đây kết hợp quá trình lý luận và thực thi của LLM để nâng cao khả năng xử lý các tác vụ phức tạp của nó. Nó cho phép sự linh hoạt cao trong phân tích địa lý và sự đa dạng hơn trong các chú thích được tạo. Tuy nhiên, LLM có xu hướng gặp khó khăn trong việc khám phá các mối quan hệ địa lý bắt mắt và dễ bị ngập trong những thông tin ít quan trọng hơn nhận được trong quá trình thực hiện hành động.


Để giải quyết vấn đề, chúng tôi đã áp dụng lợi thế của thuật toán MST, thuật toán này tiết lộ những lân cận quan trọng nhất cho cả cụm và đối tượng độc lập, từ đó chúng tôi có thể dễ dàng trích xuất các mối quan hệ địa lý quan trọng. Cụ thể hơn, chúng tôi liệt kê sự hiện diện của từng nhóm trong mỗi hình ảnh cùng với sự kết hợp và hình dạng được phát hiện của chúng, cùng với các đối tượng độc lập. Sau đó, các mối quan hệ hình học quan trọng giữa các hộp được cung cấp để mang lại cho LLM cảm nhận về mối quan hệ không gian của chúng. Trong trường hợp này, chúng tôi chỉ trình bày các cạnh bị loại bỏ trong bước phân cụm (phần 2.1.2) để kết nối các cụm và các đối tượng độc lập. Hình minh họa về các mối quan hệ không gian được trình bày và chú thích do LLM tạo ra được cung cấp trong Hình 2.

2.2.1 Đa dạng hóa phụ đề

Mặc dù lời nhắc đã cung cấp thông tin phân cụm cần thiết và các mối quan hệ không gian giữa các đối tượng, nhưng LLM không chỉ có nhiệm vụ đưa thông tin phân cụm vào các mối quan hệ không gian và tạo chú thích, việc này có thể được thực hiện bằng phương pháp dựa trên mẫu hoặc dựa trên quy tắc. Vai trò quan trọng nhất của LLM là hiểu bố cục không gian hiện tại và diễn giải các mối quan hệ có thể dư thừa hoặc không đáng kể thành các chú thích thích hợp. Ví dụ, trong hình 2 (2), thuật toán dựa trên MST phát hiện một tòa nhà ở gần một số tòa nhà hơn các tòa nhà khác. Tuy nhiên, vì toàn bộ hình ảnh bao gồm các tòa nhà khác nhau nên chú thích lặp lại mối quan hệ đó có thể mang lại sự nhầm lẫn và mơ hồ cho các mô hình deep learning phía dưới và thậm chí cả độc giả con người. Trong trường hợp này, LLM đóng một vai trò quan trọng trong việc đánh giá tầm quan trọng của từng mối quan hệ không gian và thực hiện việc diễn giải cần thiết.


Trong công việc này, hành vi tóm tắt của LLM được đảm bảo bằng cách cung cấp các ví dụ cần thiết trong lời nhắc, thường được gọi là kỹ thuật nhắc "Ít phát". Chúng tôi đã cung cấp một số ví dụ trong đó LLM được cho là sẽ kết hợp các kết quả phân cụm với các mối quan hệ không gian để tạo chú thích theo cách riêng của nó. Các kỹ thuật nhắc nhở khác có khả năng đạt được mục tiêu tương tự, chẳng hạn như thêm mô tả cho các hành vi dự kiến hoặc chia nhỏ quy trình lý luận bằng kỹ thuật Chuỗi Tư duy hoặc Cây Tư duy. Tuy nhiên, do định dạng đầu vào và đầu ra dự kiến đã phức tạp nên những chiến lược nhắc nhở này có thể mang lại sự phức tạp và khó khăn hơn nhiều cho quá trình viết lời nhắc. Hơn nữa, kết quả thử nghiệm của chúng tôi cho thấy rằng nhắc nhở vài lần bắn hoạt động ổn định hơn bất kỳ kỹ thuật nào nêu trên.

2.2.2 Định dạng phản hồi

Ngoài ra, để hạn chế hiệu quả phản hồi ở định dạng có thể đọc được trên máy tính, chúng tôi hướng dẫn rõ ràng LLM xuất chú thích ở định dạng danh sách Python, có thông tin chi tiết đã được đưa vào kho dữ liệu đào tạo trước của LLM và được nhúng tốt trong tham số của nó. trí nhớ, đúng hơn


Hình 2: Ví dụ về thông tin phân tích địa lý và chú thích do LLM tạo ra. Đối với mỗi ví dụ, thông tin đối tượng và mô hình địa lý được cung cấp bởi các API đã triển khai của chúng tôi và được cung cấp cho LLM làm đầu vào.


hơn định dạng tùy chỉnh khác yêu cầu giải thích thêm. Điều mong muốn là không có bất kỳ id nào của các nhóm đối tượng trong phản hồi LLM, điều này đạt được một lần nữa bằng cách cung cấp các ví dụ trong lời nhắc, như đã giới thiệu trong phần trước. Trong nhiều công trình nghiên cứu gần đây đã tuyên bố rằng lời nhắc vài cảnh quay hoạt động tốt hơn lời nhắc không hiển thị với các hướng dẫn kéo dài[11]. Các quy trình chi tiết có thể được hiển thị trong hình 3.

2.3 Đánh giá và lựa chọn chú thích

Bước thứ ba trong phương pháp tiếp cận của chúng tôi là đánh giá và chọn chú thích phù hợp nhất cho mỗi hình ảnh. Chúng tôi sử dụng hai tiêu chí để đánh giá chất lượng của chú thích: (a) chất lượng chú thích, đo lường mức độ phù hợp của chú thích với chú thích thực tế và (b) tính đa dạng của chú thích, đo lường mức độ khác biệt của chú thích với các chú thích khác được tạo từ các hình ảnh khác . Chúng tôi sử dụng quy trình sau:


• Chúng tôi lọc ra các chú thích chứa các từ khóa không mong muốn như id của nhóm, như "nhóm 0" hoặc thứ tự của nhóm, như "nhóm đầu tiên", điều này có thể dẫn đến nhầm lẫn.


• Chúng tôi sử dụng CLIP đã được đào tạo trước để tính điểm cho mỗi chú thích dựa trên mức độ khớp với hình ảnh đầu vào. Người đánh giá được đào tạo về tập dữ liệu chú thích hình ảnh quy mô lớn bao gồm nhiều lĩnh vực và tình huống khác nhau.


• Chúng tôi sử dụng thước đo độ tương tự để tính điểm cho từng chú thích dựa trên tính đa dạng của chú thích. Thước đo độ tương tự so sánh từng chú thích với chú thích được tạo từ các hình ảnh khác để tránh các mô tả quá mơ hồ và rộng.


• Chúng tôi kết hợp cả hai điểm bằng cách sử dụng công thức trung bình có trọng số để có được điểm cuối cùng cho mỗi chú thích.


• Chúng tôi chọn chú thích có điểm chung cuộc cao nhất làm chú thích hay nhất cho mỗi hình ảnh.


Hình 3: Minh họa cấu trúc lời nhắc và đầu ra của chúng tôi từ LLM. Nhiều ví dụ khác được đưa ra cho LLM trong lời nhắc, trong khi chỉ có một ví dụ được đưa vào đây để trình diễn.



Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.