tác giả:
(1) Yingxu He, Khoa Khoa học Máy tính Đại học Quốc gia Singapore {[email protected]};
(2) Qiqi Sun, Trường Khoa học Đời sống Đại học Nankai {[email protected]}.
Chú thích hình ảnh tự động là một kỹ thuật đầy hứa hẹn để truyền tải thông tin hình ảnh bằng ngôn ngữ tự nhiên. Nó có thể mang lại lợi ích cho nhiều nhiệm vụ khác nhau trong viễn thám vệ tinh, chẳng hạn như giám sát môi trường, quản lý tài nguyên, quản lý thảm họa, v.v. Tuy nhiên, một trong những thách thức chính trong lĩnh vực này là thiếu bộ dữ liệu chú thích hình ảnh quy mô lớn vì chúng đòi hỏi rất nhiều chuyên môn và nỗ lực sáng tạo của con người. Nghiên cứu gần đây về các mô hình ngôn ngữ lớn (LLM) đã chứng minh hiệu suất ấn tượng của chúng trong các nhiệm vụ tạo và hiểu ngôn ngữ tự nhiên. Tuy nhiên, hầu hết chúng không thể xử lý hình ảnh (GPT-3.5, Falcon, Claude, v.v.), trong khi các mô hình phụ đề thông thường được đào tạo trước về hình ảnh nhìn từ mặt đất nói chung thường không tạo ra chú thích chi tiết và chính xác cho hình ảnh trên không (BLIP, GIT, CM3, CM3Leon, v.v.). Để giải quyết vấn đề này, chúng tôi đề xuất một phương pháp mới: Chú thích ảnh viễn thám tự động (ARSIC) để tự động thu thập chú thích cho ảnh viễn thám bằng cách hướng dẫn LLM mô tả chú thích đối tượng của chúng. Chúng tôi cũng trình bày một mô hình điểm chuẩn điều chỉnh mô hình image2text tổng quát (GIT) được đào tạo trước để tạo chú thích chất lượng cao cho hình ảnh viễn thám. Đánh giá của chúng tôi chứng minh tính hiệu quả của phương pháp thu thập chú thích cho ảnh viễn thám.
Nhiều nghiên cứu trước đây đã chỉ ra rằng các LLM như GPT-3.5 và GPT-4 rất giỏi hiểu ngữ nghĩa nhưng lại gặp khó khăn với dữ liệu số và lý luận phức tạp. Để khắc phục hạn chế này, ARSIC tận dụng các API bên ngoài để thực hiện phân tích địa lý đơn giản trên hình ảnh, chẳng hạn như quan hệ đối tượng và phân cụm. Chúng tôi thực hiện phân cụm trên các đối tượng và trình bày các mối quan hệ hình học quan trọng để LLM đưa ra tóm tắt. Đầu ra cuối cùng của LLM là một số chú thích mô tả hình ảnh, sẽ được xếp hạng thêm và đưa vào danh sách rút gọn dựa trên sự trôi chảy và nhất quán của ngôn ngữ với hình ảnh gốc.
Chúng tôi tinh chỉnh mô hình image2text (GIT) tổng quát được đào tạo trước trên 7 nghìn và 2 nghìn cặp chú thích hình ảnh từ bộ dữ liệu Xview và DOTA, chứa hình ảnh vệ tinh với chú thích hộp giới hạn cho các đối tượng khác nhau, chẳng hạn như xe cộ, công trình xây dựng, tàu thủy , v.v. Chúng tôi đánh giá cách tiếp cận của mình trên tập dữ liệu RSICD, một tập dữ liệu chuẩn cho chú thích ảnh vệ tinh với 10.892 hình ảnh và 31.783 chú thích được các chuyên gia con người chú thích. Chúng tôi xóa chú thích có các loại đối tượng không nhìn thấy khỏi dữ liệu huấn luyện và thu được 1746 hình ảnh với hơn 5 nghìn chú thích, trong đó chúng tôi đạt được điểm CIDEr-D là 85,93, chứng tỏ tính hiệu quả và tiềm năng của phương pháp tạo chú thích hình ảnh tự động trong viễn thám vệ tinh. Nhìn chung, công việc này trình bày một cách khả thi để hướng dẫn họ giải thích các tập dữ liệu không gian địa lý và tạo chú thích hình ảnh chính xác để đào tạo các mô hình chú thích hình ảnh từ đầu đến cuối. Cách tiếp cận của chúng tôi làm giảm nhu cầu chú thích của con người và có thể dễ dàng áp dụng cho bộ dữ liệu hoặc miền.
Viễn thám vệ tinh rất cần thiết trong nhiều lĩnh vực, như quản lý thảm họa, giám sát môi trường và quản lý tài nguyên. Nó liên quan đến việc phân tích các hình ảnh được chụp từ không gian, tập trung vào việc phát hiện và phân loại các vật thể trên bề mặt Trái đất để tạo ra thông tin không gian hữu ích. Vì những hình ảnh này có thể chứa lượng dữ liệu phong phú nên chú thích hình ảnh tự động đã nổi lên như một phương pháp hiệu quả để diễn giải và truyền tải thông tin hình ảnh trong những hình ảnh này bằng ngôn ngữ tự nhiên.
Mặc dù có tiềm năng đáng kể, nhưng thách thức lớn trong việc tạo chú thích cho ảnh tự động trong ảnh viễn thám qua vệ tinh là sự khan hiếm của bộ dữ liệu chú thích ảnh quy mô lớn. Việc tạo ra các bộ dữ liệu như vậy tốn nhiều công sức và đòi hỏi chuyên môn đáng kể của con người. Thông thường, các mô hình có sẵn, chẳng hạn như GPT3.5[7], Falcon và Claude, không có khả năng ứng dụng vì chúng không được trang bị để diễn giải dữ liệu số hoặc thực hiện lập luận phức tạp. Tương tự, các mô hình như BLIP[5], GIT[9], CM3[1] và CM3Leon[12] được đào tạo trước về hình ảnh nhìn từ mặt đất nói chung gặp khó khăn trong việc tạo chú thích chính xác cho hình ảnh trên không. Những hạn chế này khiến việc đạt được chú thích tự động chất lượng cao cho hình ảnh viễn thám trở nên khó khăn.
Để giải quyết vấn đề này, trong nghiên cứu này, chúng tôi đề xuất một phương pháp mới: Chú thích ảnh viễn thám tự động (ARSIC), tận dụng cả mô hình ngôn ngữ lớn và dữ liệu vệ tinh để tạo chú thích chất lượng cao cho ảnh viễn thám một cách hiệu quả. Đóng góp của chúng tôi gấp ba lần. Đầu tiên, chúng tôi phát triển một số API phân tích địa lý để phát hiện các cụm, xác định hình dạng do các đối tượng tạo thành và tính toán khoảng cách để mang lại hiểu biết nâng cao về hình ảnh. Thứ hai, chúng tôi tự động hóa quy trình thu thập phụ đề bằng cách hướng dẫn các mô hình ngôn ngữ lớn tóm tắt kết quả từ API địa lý thành phụ đề. Điều này làm giảm đáng kể nhu cầu chú thích của con người. Cuối cùng, chúng tôi cung cấp điểm chuẩn bằng cách tinh chỉnh mô hình image2text (GIT) tổng quát trên các cặp chú thích hình ảnh được thu thập theo phương pháp ARSIC của chúng tôi từ bộ dữ liệu Xview[4] và DOTA[2] và được điều chỉnh để tạo chú thích chính xác và chất lượng cao cho hình ảnh trên không .
Tính hiệu quả của phương pháp tiếp cận của chúng tôi được xác thực thông qua thử nghiệm nghiêm ngặt trên tập dữ liệu thử nghiệm RSICD[6], thiết lập điểm chuẩn CIDEr-D[8] mới trong hiện trường. Tóm lại, công việc của chúng tôi trình bày một cách tiếp cận sáng tạo trong việc diễn giải và chú thích các ảnh viễn thám - một phương pháp không chỉ hứa hẹn tối ưu hóa các mô hình chú thích ảnh toàn diện mà còn đủ linh hoạt để áp dụng trên các bộ dữ liệu hoặc miền.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.