Автоматична семантична сегментація зображень Sentinel-2: інтеграція методів кластеризації та великих мовних моделей для інтерпретації кластерів
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
UKR: Семантична сегментація супутникових зображень, зокрема даних Sentinel-2, є важливим інструментом екологічного моніторингу та управління земними ресурсами. У роботі запропоновано метод автоматичної класифікації земного покриву без використання маркованих даних. Підхід ґрунтується на поєднанні кластеризації (K-Means, DBSCAN, автоенкодери) та мультимодального маркування за допомогою великих мовно-візуальних моделей (GPT-4, Claude, Gemini 2.0 тощо). Інтерпретація кластерів здійснюється на основі візуалізацій, що автоматично аналізуються моделями. Методологія дозволяє досягти точності сегментації на рівні 85–90%, порівнянної з супервізованими підходами, та забезпечує інтерпретованість і масштабованість. Система також підтримує нормалізацію термінів і голосування кількох моделей для підвищення надійності. Результати валідуються з використанням карт ESA WorldCover. Підхід є перспективним для швидкого картографування в умовах обмежених ресурсів.
ENG: Semantic segmentation of satellite imagery, particularly Sentinel-2 data, is crucial for environmental monitoring and land cover mapping. This paper presents an unsupervised method for land cover classification that eliminates the need for pixel-level annotations. The approach combines clustering techniques (K-Means, DBSCAN, autoencoders) with automated cluster labeling using large vision-language models (e.g., GPT-4, Claude, Gemini 2.0). Clusters are visualized and interpreted by these models based on spatial context and color. The methodology achieves segmentation accuracy of 85–90%, comparable to supervised methods, while ensuring interpretability and scalability. A majority voting mechanism and terminology normalization improve consistency across model outputs. Validation is performed using ESA WorldCover maps. The proposed approach is promising for rapid land cover mapping in resource-constrained or emergency situations.