Jan 09, 2024
GTMNet : un transformateur de vision avec carte de transmission guidée pour le dévoilage d'une seule image de télédétection
Rapports scientifiques volume 13,
Rapports scientifiques volume 13, Numéro d'article : 9222 (2023) Citer cet article
72 accès
Détails des métriques
Les algorithmes de dévoilage existants ne sont pas efficaces pour les images de télédétection (RSI) avec un voile dense, et les résultats dévoilés sont sujets à une sur-amélioration, à une distorsion des couleurs et à des artefacts. Pour résoudre ces problèmes, nous proposons un modèle GTMNet basé sur des réseaux de neurones convolutifs (CNN) et des transformateurs de vision (ViT), combinés à un canal sombre à priori (DCP) pour obtenir de bonnes performances. Plus précisément, une couche de transformation de caractéristiques spatiales (SFT) est d'abord utilisée pour introduire en douceur la carte de transmission guidée (GTM) dans le modèle, améliorant ainsi la capacité du réseau à estimer l'épaisseur de la brume. Un module boosté de renforcement-exploitation-soustraction (SOS) est ensuite ajouté pour affiner les caractéristiques locales de l'image restaurée. Le cadre de GTMNet est déterminé en ajustant l'entrée du module boosté SOS et la position de la couche SFT. Sur le jeu de données SateHaze1k, nous comparons GTMNet avec plusieurs algorithmes de déhazing classiques. Les résultats montrent que sur les sous-ensembles de données de brouillard modéré et de brouillard épais, le PSNR et le SSIM de GTMNet-B sont comparables à ceux du modèle de pointe Dehazeformer-L, avec seulement 0,1 fois la quantité de paramètres. De plus, notre méthode est intuitivement efficace pour améliorer la clarté et les détails des images dévoilées, ce qui prouve l'utilité et l'importance de l'utilisation du GTM antérieur et du module boosté SOS dans un seul dévoilage RSI.
Les satellites de télédétection et les capteurs de véhicules aériens sans pilote (UAV) sont sensibles aux phénomènes atmosphériques qui peuvent altérer le contraste et la fidélité des couleurs des images collectées, entraînant des détails d'image affaiblis et rendant difficile la reconnaissance des informations dans l'image. La brume, le brouillard et la fumée sont des phénomènes atmosphériques très courants générés par l'absorption et la diffusion atmosphériques. Avec l'application de la technologie de télédétection dans les domaines de la sécurité policière, de la protection des plantes agricoles et forestières, de l'inspection des patrouilles électriques, de l'enquête sur les ressources terrestres et d'applications similaires, il est d'une grande importance d'éliminer avec précision la brume, le brouillard et la fumée des images de télédétection. (RSI) pour la détection de cible, le suivi de cible et la détection d'UAV. Pour plus de simplicité, le terme dévoilage est utilisé uniformément pour désigner l'élimination de la brume, du brouillard et de la fumée.
Dans la tâche de dévoilage d'image, l'expression suivante est largement utilisée pour décrire l'image floue en tant que1,2,3 :
où \(I(x)\), \(J(x)\), A et t désignent respectivement l'image floue, l'image sans brume, la lumière atmosphérique globale et la carte de transmission. Le dévoilage d'une seule image est un problème difficile, qui est sous-contraint en raison des informations de profondeur inconnues. A l'heure actuelle, de nombreux algorithmes de dévoilage de plusieurs directions ont été proposés.
Les premières approches fondées sur les a priori se sont avérées efficaces. En utilisant l'éq. (1), \(A\) et \(t\) doivent être estimés avec précision pour restaurer des images claires. L'une des plus représentatives est la méthode dark channel prior (DCP)4 pour déterminer la relation de cartographie entre les images claires et les modèles physiques atmosphériques, qui est un algorithme de dévoilage relativement stable. Cependant, l'effet de dévoilage dans les grandes zones blanches a tendance à produire de grandes déviations. Par conséquent, plusieurs chercheurs utilisent des approches d'apprentissage en profondeur basées sur les données5,6 pour estimer les paramètres intermédiaires du modèle de diffusion atmosphérique et construire une relation de cartographie de l'image floue aux paramètres intermédiaires. Ces algorithmes d'apprentissage profond sont basés sur le modèle de diffusion atmosphérique. Bien qu'ils se soient considérablement améliorés dans la région du ciel et soient visuellement plus efficaces que les méthodes traditionnelles, les modèles sont très complexes et vulnérables aux limitations de l'éclairage atmosphérique et des changements de scène, ce qui entraîne de mauvaises performances en temps réel et une luminosité assombrie de l'image restaurée. Pour résoudre ces problèmes, plusieurs algorithmes prédisent directement les images latentes sans voile de bout en bout. Huang et al.7 ont proposé un réseau contradictoire génératif conditionnel qui utilise des images RVB et SAR pour le dévoilage. Mehta et al.8 ont développé SkyGAN spécifiquement pour éliminer la brume dans les images aériennes, relevant le défi des ensembles de données d'images aériennes hyperspectrales brumeuses limitées.
Ces dernières années, Vision Transformer (ViT)9 a excellé dans les tâches de vision de haut niveau, en se concentrant sur la modélisation des dépendances à long terme dans les données. Cependant, les anciens ViT et Pyramid Vision Transformer (PVT)10 étaient sur-paramétrés et coûteux en calculs. Ainsi, Liang et al.11 se sont inspirés de Swin-Transformer12 et ont proposé SwinIR composé de plusieurs Residual Swin Transformer Blocks (RSTB), chacun avec plusieurs couches Swin Transformer et une connexion résiduelle. Uformer13 a introduit un nouveau bloc de transformateur de fenêtre améliorée localement (LeWin) et un modulateur de restauration multi-échelle apprenable sous la forme d'un biais spatial multi-échelle pour ajuster les caractéristiques dans plusieurs couches du décodeur Uformer. Dong et al.14 ont proposé TransRA, un réseau neuronal à deux branches fusionné avec un transformateur et une attention résiduelle, pour récupérer les détails fins des RSI dévoilants. Song et al.15 ont proposé Dehazeformer basé sur Swin-Transformer12 et U-Net16, modifiant la couche de normalisation, la fonction d'activation et le schéma d'agrégation d'informations spatiales, et introduisant des contraintes souples à l'aide d'un a priori faible. Le Dehazeformer a montré des performances supérieures par rapport aux méthodes précédentes sur les ensembles de données d'intérieur SOTS, tout en étant plus efficace avec moins de paramètres et des coûts de calcul inférieurs. Cependant, il est difficile d'obtenir suffisamment d'ensembles de données RSI flous appariés en raison des conditions naturelles et des limitations de l'équipement. Lorsque les échantillons d'apprentissage sont petits et contiennent des images de brume denses, le Dehazeformer fonctionne mal dans le dévoilage des RSI.
En résumé, dans les tâches de dévoilage des RSI, les caractéristiques locales et globales sont importantes, et les méthodes traditionnelles de dévoilage d'image reposent sur des bases théoriques solides qui peuvent guider l'apprentissage du réseau. Ainsi, nous avons conçu un nouveau modèle de dévoilage d'images de télédétection RVB (GTMNet) basé sur Dehazeformer en reconstruisant l'architecture du modèle et en combinant DCP dans le réseau proposé. En raison des opérations de sous-échantillonnage dans l'encodeur du Dehazeformer, les informations spatiales compressées peuvent ne pas être récupérées efficacement par le décodeur du Dehazeformer. Par conséquent, nous utilisons la stratégie de renforcement-exploitation-soustraction (SOS) dans le décodeur pour récupérer des informations plus compressées et restaurer progressivement des images latentes sans voile dans ce travail. Nous comparons également plusieurs modèles de dévoilage avancés avec GTMNet et vérifions l'applicabilité du modèle proposé. Pour cet article, les principales contributions sont les suivantes : (1) Une nouvelle architecture hybride est proposée, qui est basée sur CNN et ViT, et combine le DCP. Comparé à d'autres modèles référencés, il fournit de meilleurs PSNR et SSIM; (2) La carte de transmission optimisée par un filtrage guidé et une transformation linéaire est introduite en douceur dans le modèle via la couche de transformation de caractéristiques spatiales (SFT), permettant une meilleure estimation de l'épaisseur du voile dans l'image et améliorant ainsi les performances ; (3) Pour affiner progressivement l'image restaurée dans le module de récupération de fonctionnalités, le module SOS boosté est combiné dans la tâche de dévoilage d'image via une connexion de saut.
Cette section présente les détails de GTMNet. Tout d'abord, nous présentons le DCP. Ensuite, nous estimons la carte de transmission. Enfin, nous décrivons les détails de la couche SFT, du module boosté SOS et du module de fusion SK.
He et al.4 ont effectué une analyse statistique sur des régions autres que le ciel de plus de 5 000 images extérieures sans voile et ont constaté qu'il y a souvent des pixels avec des valeurs très faibles dans au moins un canal de couleur. Formellement, la couleur primaire sombre de l'image sans voile \(J(x)\) est définie comme :
où c représente un canal parmi les canaux R, G et B ; Ω(x) est un carré local centré en x ; \({J}^{c}\) représente un certain canal de couleur de \(J\). L'observation montre que, si \(J\) est une image extérieure sans brume, à l'exception de la région du ciel, la valeur de pixel de \({J}^{sombre}\) tend à être 0. L'observation statistique ci-dessus est appelé le DCP ou la couleur primaire sombre avant.
Pour obtenir une image claire sans voile \(J\) dans l'Eq. (1), il faut résoudre A et t. L'équation (1) peut être réécrite comme suit :
Selon le DCP, le canal sombre d'une image de brume se rapproche bien de la densité de la brume. Par conséquent, He et al.4 ont sélectionné les 0,1 % de pixels les plus brillants dans le canal sombre de l'image floue. Parmi ces pixels, le pixel avec l'intensité la plus élevée dans l'image d'entrée I est sélectionné comme lumière atmosphérique.
En supposant que la transmission dans un patch local Ω(x) est constante, la transmission du patch \(\widehat{t}\left(x\right)\) peut être définie comme :
Comme mentionné dans la littérature4, même si le temps est clair, les objets distants sont plus ou moins affectés par la brume, les auteurs contrôlent donc le degré de brume en introduisant un facteur ω de [0,1] pour donner une idée de la profondeur de champ . L'expression spécifique est :
où ω est généralement pris égal à 0,95.
En raison des hypothèses locales, la carte de transmission estimée \(\widehat{t}\left(x\right)\) présentera des effets de bloc. Dans les méthodes traditionnelles de dévoilage d'image, \(\widehat{t}\left(x\right)\) est généralement affiné à l'aide de la méthode de matage doux, du filtrage guidé ou du filtrage guidé rapide. Bien que la méthode de matage doux puisse donner de bons résultats, les informations sur les bords de l'objet sont faibles et prennent du temps. Par conséquent, nous utilisons un filtre à guidage rapide pour l'optimisation17, dans lequel le rayon de la fenêtre de filtre est défini sur 60 et le paramètre de régularisation e est de 0,0001.
La figure 1 montre les résultats pertinents des cartes de transmission sur l'ensemble de données SateHaze1k. Nous constatons que la carte de transmission optimisée par le filtre à guidage rapide de la figure 1c peut objectivement estimer la distribution floue de l'image d'entrée. Cependant, l'introduction du DCP dans cet article vise à estimer la concentration de trouble. Comme le montre la figure 1d, pour mettre en évidence l'épaisseur du voile dans l'image, nous avons utilisé une transformation linéaire pour améliorer la carte de transmission optimisée t et l'avons définie comme la carte de transmission guidée (GTM) t1, qui peut être formulée comme :
Résultats des cartes de transmission sur l'ensemble de données SateHaze1k : (a) Images d'entrée ; (b) cartes de canal sombre ; (c) Les cartes de transmission optimisées par filtre à guidage rapide ; (d) Les cartes de transmission guidée.
Comme le montrent la Fig. 2 et le Tableau 1, le réseau proposé GTMNet est basé sur Dehazeformer, mais intègre des couches SFT18 et des modules SOS boostés. Les couches SFT intègrent le GTM dans GTMNet, qui peut fusionner efficacement les caractéristiques du GTM et de l'image d'entrée pour estimer plus précisément l'épaisseur du voile dans l'image d'entrée. Les modules boostés par SOS peuvent restaurer des images claires de manière itérative. A la fin du décodeur, une couche de reconstruction douce est utilisée pour estimer l'image sans voile \(\widehat{J}\).
L'architecture globale du GTMNet proposé.
La couche SFT est d'abord appliquée dans les tâches de super-résolution18. Il est efficace en termes de paramètres et peut être facilement introduit dans les structures de réseau de dévoilage existantes avec une forte extensibilité. Comme le montre la figure 3, nous utilisons le GTM t1 comme entrée supplémentaire de la couche SFT, qui applique d'abord trois couches convolutives pour extraire les cartes conditionnelles φ du GTM ; puis les cartes conditionnelles φ sont entrées dans les deux autres couches convolutionnelles pour prédire les paramètres de modulation γ et β, respectivement ; enfin, la transformation est effectuée en mettant à l'échelle et en décalant les cartes d'entités d'une couche spécifique, et nous pouvons obtenir les entités décalées en sortie en :
où F est les cartes de caractéristiques avec les mêmes dimensions que γ et β, ⊙ fait référence à la multiplication élément par élément, c'est-à-dire le produit Hadamard, et ⊕ est l'addition élément par élément. Étant donné que les dimensions spatiales sont préservées, la couche SFT effectue une manipulation par fonctionnalité et une transformation spatiale. Étant donné que la taille de chaque objet est généralement minuscule dans les RSI, l'obtention de caractéristiques locales devient cruciale. Dans cet article, nous avons utilisé des couches SFT avec des paramètres partagés pour compenser la capacité limitée du transformateur à acquérir des fonctionnalités locales.
La structure de la couche SFT.
La méthode de renforcement SOS19 s'est avérée mathématiquement efficace pour le débruitage d'image, qui restaure de manière itérative des images claires. Dong et al.20 ont vérifié une variété de modules boostés SOS optionnels, et les résultats montrent que le schéma boosté suivant a le meilleur effet, comme le montre l'Eq. (8):
où \(Up(.)\) désigne l'opérateur de suréchantillonnage utilisant une méthode de mélange de pixels21, \({S}^{n+1}\) représente la fonctionnalité de niveau précédent, \({I}^{n}\) désigne la caractéristique latente de l'encodeur, \(({I}^{n}+Up{(S}^{n+1}))\) représente la caractéristique renforcée, et \({\mathcal{G}}_{ {\theta }_{n}}^{n}\) désigne l'unité de raffinement entraînable au (n)-ième niveau paramétré par \({\theta }_{n}\). Selon l'architecture proposée, Eq. (8) s'écrit Eq. (9):
où \({J}^{n+1}\) désigne la caractéristique du bloc Dehazeformer du décodeur. Le module SOS boosté se compose de trois blocs résiduels, comme illustré à la Fig. 4.
La structure du module boosté SOS.
Song et al.22 ont conçu un module de fusion sélective du noyau (SK), inspiré de SKNet23, pour fusionner plusieurs branches en utilisant l'attention du canal. Nous utilisons le module SK Fusion22 pour fusionner les branches SOS et décodeur. Plus précisément, supposons que deux cartes d'entités \(x1\) et \(x2\), une couche linéaire \(f\left(.\right)\) est d'abord utilisée pour projeter \(x1\) sur \(\widehat{x }1\). Ensuite, un regroupement moyen global \(GAP\left(.\right)\), un Perceptron multicouche \(MLP\left(.\right)\), une fonction softmax et une opération de division sont utilisés pour obtenir des poids de fusion, comme indiqué dans l'éq. (dix):
Enfin, les poids \(\left\{a1,a2\right\}\) sont utilisés pour fusionner \(\widehat{x}1\), \(x2\) avec un résidu court supplémentaire via \(y=a1\ chapeau large{x}1+a2x2+x2\).
Dans cette partie, nous présentons d'abord les jeux de données et les détails de mise en œuvre de GTMNet. Ensuite, nous évaluons notre méthode sur les jeux de données RS-Haze et SateHaze1k. Enfin, des études d'ablation et d'autres expériences comparatives sont menées pour analyser l'approche proposée.
RS-Haze22 est un jeu de données RSI brumeux synthétique synthétisé à partir de 76 RSI contenant une topographie diversifiée avec de bonnes conditions météorologiques et 108 RSI nuageux. Toutes les images sont téléchargées à partir du produit de données Landsat-8 niveau 1 sur EarthExplorer. L'ensemble d'apprentissage final contient 51 300 paires RSI et l'ensemble de test contient 2 700 paires RSI avec une résolution d'image de 512 × 512. Étant donné que la méthode proposée est optimisée sur le modèle Dehazeformer, la configuration expérimentale est cohérente avec le Dehazeformer22. Nous formons le modèle en utilisant la perte L1 pour 150 époques, chacune étant validée une fois. Les images du jeu de test sont les mêmes que celles du jeu de vérification.
SateHaze1k7 est également un ensemble de données de télédétection par satellite de brume synthétique, qui utilise le logiciel Photoshop comme outil auxiliaire pour générer des images floues riches, réelles et diverses. Cet ensemble de données contient 1 200 paires RSI, et chaque paire d'images comprend une image floue et une image réelle sans flou. Ces images sont divisées en trois sous-ensembles d'images de brume : brouillard fin, brouillard modéré et brouillard épais, avec une résolution d'image de 512 × 512. Nous sélectionnons 320 paires d'images de chaque type de sous-ensemble d'images floues comme ensemble d'apprentissage et 45 paires d'images. comme jeu de test. Chaque type de sous-ensemble d'images floues est formé et testé séparément. Étant donné que l'ensemble de données SateHaze1k est petit, nous formons GTMNet pour 1000 époques et le vérifions toutes les dix époques. Les autres configurations expérimentales sont les mêmes que celles du jeu de données RS-Haze.
Nous fournissons quatre variantes de GTMNet (-T, -S, -B et -L pour minuscule, petit, basique et grand, respectivement), implémentons la structure de réseau proposée à l'aide du framework PyTorch et entraînons le modèle sur une NVIDIA GeForce RTX3090 . Pendant la formation, les images sont recadrées au hasard à 256 × 256 patchs. Nous définissons différentes tailles de mini-lots pour différentes variantes, c'est-à-dire {32, 16, 8, 4} pour {-T, -S, -B, -L}. Le taux d'apprentissage initial est fixé à {4, 2, 2, 1} × 10–4 pour la variante {-T, -S, -B, -L}. Nous utilisons l'optimiseur AdamW24 avec une stratégie de recuit cosinus25 pour former le modèle, où le taux d'apprentissage diminue progressivement du taux d'apprentissage initial à {4, 2, 2, 1} × 10–6.
Le mécanisme proposé pour la formation GTMNet est illustré dans l'algorithme 1. Tous les paramètres apprenables dans GTMNet sont initialisés à l'aide de la stratégie de distribution normale tronquée26.
Nous utilisons le rapport signal/bruit maximal (PSNR) et la mesure de l'indice de similarité de structure (SSIM) comme indicateurs d'évaluation objectifs, et comparons le nombre de paramètres entre GTMNet et d'autres méthodes, comme indiqué dans les tableaux 2 et 3, où le gras indique la valeur optimale et le soulignement indique la valeur sous-optimale.
En raison des limitations de l'équipement, seuls les tests et la formation sont effectués sur -T. Nous comparons la méthode proposée avec quatre autres algorithmes de dévoilage classiques. Comme le montre le tableau 2, le PSNR de notre méthode est légèrement inférieur à celui de Dehazeformer-T, tandis que le SSIM des deux est le même. Étant donné que l'architecture proposée a plus de paramètres, il est plus facile de sur-ajuster, ce qui entraîne de mauvaises performances de généralisation.
Nous comparons la méthode proposée avec DCP4, DehazeNet5, Huang (SAR)7, SkyGAN8, TransRA14 et Dehazeformer22, et les résultats sont présentés dans le tableau 3. Le PSNR et le SSIM de GTMNet-T sur les trois sous-ensembles de données sont meilleurs que celui de Dehazeformer-T22, en particulier, le PSNR sur Thin Fog est amélioré de près de 2,6%, et le SSIM est augmenté de 0,968 à 0,970. Sur Moderate Fog, le PSNR et le SSIM de GTMNet-B atteignent respectivement 27,22 dB et 0,973, soit une augmentation de 7,2% et 7,6% par rapport à SkyGAN8. Sur Thick Fog, bien que le PSNR de GTMNet-B soit inférieur à celui de Huang (SAR)7 et SkyGAN8, la métrique SSIM s'améliore de 8,7% et 5,2%, respectivement, par rapport aux deux algorithmes. Sur les trois sous-ensembles de données, GTMNet-T obtient de meilleurs scores PSNR et SSIM que TransRA14, avec une amélioration significative des performances PSNR.
Comme le montre le tableau 3, combiné aux résultats de comparaison quantitative ci-dessus, le modèle proposé est encore léger, bien que les paramètres aient légèrement augmenté. Sur les sous-ensembles de données Moderate Fog et Thick Fog, GTMNet-B fonctionne de manière comparable à Dehazeformer-L, mais avec seulement 0,1 fois le nombre de paramètres. Cependant, les performances de GTMNet-L sont inférieures à celles de Dehazeformer-L, ce qui peut être dû à deux aspects : premièrement, la quantité accrue de paramètres de GTMNet-L le rend plus sujet au surajustement ; Deuxièmement, la capacité de généralisation de GTMNet-L est réduite en raison du petit ensemble de données.
Une comparaison qualitative des méthodes associées a été effectuée sur les ensembles de données RS-Haze et SateHaze1k. Étant donné que Song et al.22 ont comparé les méthodes d'image de dévoilage avancées existantes sur l'ensemble de données RS-Haze, nous ne présentons ici que les images dévoilées de GTMNet-T et Dehazeformer-T. Comme le montre la Fig. 5, il y a peu de différence visuelle entre GTMNet-T et Dehazeformer-T sur les images RS-Haze, les deux montrant de la clarté, des informations riches sur les caractéristiques, des couleurs réalistes et un sens de la hiérarchie.
Comparaison qualitative des méthodes de dévoilage d'image sur l'ensemble de données RS-Haze.
Sur l'ensemble de données SateHaze1k, nous présentons les résultats de comparaison qualitative du GTMNet et des méthodes de pointe. Les images d'entrée floues incluent les terres agricoles, les routes, les bâtiments et la végétation, comme le montre la Fig. 6. Nous avons constaté que la méthode DCP4 a échoué, probablement en raison de la similitude entre les couleurs de la lumière atmosphérique et l'objet. Bien que la méthode de Huang (SAR)7 puisse supprimer la brume, les informations sur les caractéristiques du sol de l'image restaurée dans la zone de brume dense ne sont pas assez riches et les détails du bâtiment sont gravement affaiblis. En général, DehazeNet5 et SkyGAN8 n'ont pas réussi à éliminer complètement le voile (comme le montre le résultat du traitement de la première image floue de la Fig. 6), ce qui entraîne une couleur non naturelle de l'image et une faible capacité de récupération des informations détaillées. Dehazeformer-T22 et GTMNet-T résolvent le problème du dévoilage incomplet des images. Cependant, pour les zones avec une brume épaisse ou une brume nuageuse, l'algorithme Dehazeformer souffre d'une grave distorsion des couleurs. GTMNet améliore non seulement le problème de déviation des couleurs de l'image, mais également la netteté.
Comparaison qualitative des méthodes de dévoilage d'images sur l'ensemble de données SateHaze1k.
Dans cette partie, nous réalisons des études d'ablation sur la structure du modèle proposé pour analyser les facteurs qui peuvent influencer les résultats. Dans ces études, sauf pour des sujets différents, les autres stratégies sont les mêmes dans chaque groupe d'expériences.
Pour étudier l'influence de différents composants sur l'effet de dévoilage de l'image, nous prenons Dehazeformer-T22 comme modèle de base et menons des expériences d'ablation sur différents composants sur l'ensemble de données SateHaze1k7.
Comme indiqué dans le tableau 4, D-SOS-T fait référence à l'ajout du module SOS au Dehazeformer-T. Selon le tableau 5, nous avons constaté que les indicateurs PSNR et SSIM des trois sous-ensembles de données ont été considérablement améliorés, vérifiant l'efficacité du module SOS dans la tâche de dévoilage d'image. D-GTM-T indique l'introduction du GTM comme préalable dans Dehazeformer-T à travers deux couches SFT. L'emplacement de la couche SFT est illustré sur la figure 9b. Selon le tableau 5, les performances de l'ajout d'un seul GTM antérieur au Dehazeformer-T sans utiliser la stratégie SOS boostée sont meilleures que celles du Dehazeformer-T sur le brouillard modéré, mais l'effet est médiocre sur le brouillard fin et le brouillard épais. Nous pensons que cela est dû au fait que la méthode d'obtention de GTM est basée sur des statistiques pour des images ordinaires, qui présentent un grand écart entre les RSI et les images ordinaires. Les méthodes antérieures traditionnelles sont plus efficaces dans les images de brume uniformes.
Comme le montre la figure 7, les images sans voile générées par Dehazeformer-T, D-SOS-T et D-GTM-T montrent toutes une distorsion du bâtiment. Parmi toutes les méthodes, l'effet de dévoilage de GTMNet est le meilleur, ce qui peut assurer la clarté de l'image restaurée et mieux restaurer la couleur de l'image. Sur les sous-ensembles de données Thin Fog et Thick Fog, les indicateurs PSNR et SSIM augmentent davantage lorsque les deux composants sont utilisés ensemble que lorsqu'ils sont utilisés séparément.
Comparaison qualitative de différents modèles d'ablation de composants sur l'ensemble de données SateHaze1k.
Selon l'éq. (8–9), nous avons conçu deux modèles d'ablation différents D-SOS-T et D-SOS1-T sur l'ensemble de données SateHaze1k. La configuration spécifique est indiquée dans le tableau 6. Selon le tableau 7, si \({S}^{2}\) est directement suréchantillonné et entré dans SOS1 (Fig. 2), par rapport à D-SOS-T, le PSNR diminue de 27,09 à 26,77 dB, et la valeur de SSIM reste inchangée en brouillard modéré. De plus, par rapport au Dehazeformer-T, le PSNR et le SSIM augmentent de 26,38 dB et 0,969 à 26,77 dB et 0,971, respectivement.
Comme on le voit sur la figure 8, il y a très peu de différence visuelle entre les images dévoilées de D-SOS-T et D-SOS1-T. Dans la zone de brume dense, la distorsion des couleurs est sévère et le détail des bords est perdu, comme le montrent les résultats de la troisième image floue de la Fig. 8. Pour résumer, \(Up({J}^{2})\ ) est défini comme entrée du module SOS1.
Comparaison qualitative des modèles d'ablation avec différentes entrées du module SOS1 sur l'ensemble de données SateHaze1k.
Selon la structure du modèle, la position des couches SFT peut être classée en quatre situations (comme illustré à la Fig. 9): (a) en utilisant une seule couche SFT devant le bloc Dehazeformer1, (b) en utilisant une seule couche SFT derrière le bloc Dehazeformer5, (c) en utilisant une couche SFT devant le bloc Dehazeformer1 et derrière le bloc Dehazeformer5, respectivement (c'est-à-dire, GTMNet), et (d) en utilisant une couche SFT devant le bloc Dehazeformer2 et derrière le bloc Dehazeformer4, respectivement. Comme le montre le tableau 8, (d)-T a le PSNR et le SSIM les plus élevés sur un brouillard modéré, mais le tableau 9 indique que GTMNet-B a une plus grande augmentation du PSNR et du SSIM que (d)-B. De plus, comme le montrent les résultats de comparaison de la Fig. 10, le meilleur résultat dévoilé est obtenu en utilisant GTMNet-T, avec une clarté d'image considérablement améliorée et une distorsion de couleur d'image moins sévère, en particulier dans la troisième image floue de la Fig. 10.
Position des couches SFT : (a) devant le bloc Dehazeformer 1 ; (b) Derrière le bloc Dehazeformer5 ; (c) Devant le bloc Dehazeformer1 et derrière le bloc Dehazeformer5 ; (d) Devant le bloc Dehazeformer2 et derrière le bloc Dehazeformer4.
Comparaison qualitative des modèles d'ablation de la couche SFT et GTM sur l'ensemble de données SateHaze1k.
Sur la base des résultats présentés dans le tableau 8, nous concluons que l'ajout de GTM à la fois à l'encodeur et au décodeur a un effet supérieur sur la suppression de la brume des RSI Thin Fog, et que l'ajout de GTM uniquement au décodeur a un meilleur effet sur la suppression de la brume du Moderate Brouillard et brouillard épais RSI. Nous pensons que l'efficacité du GTM n'est pas seulement liée à l'épaisseur de la brume, mais dépend également de la présence ou de l'absence de modules SOS boostés.
Différentes cartes de transmission peuvent avoir un impact sur les performances de dévoilage d'un modèle. Dans notre expérience, nous avons utilisé deux types de cartes de transmission : la carte de transmission optimisée uniquement par filtrage guidé, nommée (c)-tT, et le GTM obtenu en optimisant la carte de transmission estimée par filtrage guidé et en lui appliquant ensuite une transformation linéaire, qui a été utilisé dans GTMNet. Comme le montre le tableau 8, le GTM conduit à des indicateurs PSNR et SSIM plus élevés à la fois sur le brouillard mince et le brouillard épais par rapport à la carte de transmission optimisée uniquement par le filtrage guidé. De plus, l'évaluation visuelle subjective et les résultats des mesures quantitatives objectives démontrent que GTM convient également aux images de brume dense locale et produit un effet de dévoilage remarquable.
Selon la méthode d'apprentissage dans Dehazeformer22, le taux d'apprentissage initial du modèle diminue à mesure que la taille du lot diminue. Selon la règle d'échelle linéaire, le taux d'apprentissage initial de GTMNet-B devrait être de 1 × 10–4. Nous avons effectué des expériences d'ablation sur trois sous-ensembles de données et avons constaté que si nous réduisions le taux d'apprentissage initial sur GTMNet-B, comme le montre le tableau 10, les valeurs de PSNR et SSIM diminuaient généralement de manière significative, nous avons donc maintenu le taux d'apprentissage initial constant, c'est-à-dire , 2 × 10–4, même si nous avons réduit la taille du lot d'une itération sur -B.
Afin d'évaluer la capacité de généralisation du GTMNet, nous sélectionnons deux RSI brumeux aériens sans pilote du monde réel pour les tests. Dans l'ensemble, la méthode Dehazeformer est sous-optimale ; par conséquent, nous comparons uniquement les résultats de GTMNet-T et Dehazeformer-T dans cette partie et utilisons le modèle -T formé sur Moderate Fog pour tester les deux images de brume du monde réel. La figure 11 montre peu de différence visuelle entre les résultats de traitement obtenus par l'algorithme proposé et Dehazeformer-T. Les deux méthodes produisent des informations de terrain claires et riches et des couleurs réalistes, ce qui suggère que les deux algorithmes conviennent aux images de télédétection floues dans le monde réel. Nous avons inclus des comparaisons visuelles supplémentaires dans le matériel supplémentaire pour montrer les performances de notre méthode sur des images du monde réel (matériel supplémentaire).
Comparaison quantitative de Dehazeformer et GTMNet pour les images du monde réel. Les entrées brumeuses sont acquises par un DJI-Phantom 4 Pro.
Les images floues souffrent de problèmes tels que le faible contraste, la faible saturation, la perte de détails et la déviation des couleurs, qui affectent sérieusement les tâches d'analyse d'image, telles que la classification, le positionnement, la détection et la segmentation. Par conséquent, dans de tels cas, le dévoilage est crucial pour générer des images avec une bonne qualité perceptuelle et améliorer les performances des tâches de vision par ordinateur ultérieures.
Dans cette section, nous analysons l'impact des résultats de dévoilage sur la segmentation des masses d'eau RSI. Tout d'abord, nous avons formé un réseau de segmentation d'eau RSI inspiré du U-Net pour la segmentation d'images biomédicales28 à l'aide de 1500 RSI et l'avons testé à l'aide de 300 RSI. Deuxièmement, nous avons sélectionné deux images de l'ensemble de test, ajouté une concentration modérée de brume à l'aide du logiciel Photoshop et testé les deux images à l'aide du modèle -T formé sur le brouillard modéré. Enfin, nous comparons qualitativement les résultats de la segmentation des masses d'eau pour les entrées brumeuses, les résultats de dévoilage de GTMNet-T et Dehazeformer-T, et les images sans voile. Comme le montre la figure 12, il y a très peu de différence visuelle entre les images dévoilées de GTMNet-T et les images sans voile. Cependant, les images dévoilées de Dehazeformer-T ont augmenté les erreurs dans le processus de segmentation de la masse d'eau par rapport aux images sans voile.
Comparaison qualitative de différents résultats de dévoilage dans la tâche de segmentation des masses d'eau RSI. Les vérités terrain sont acquises par un DJI-Phantom 3 Pro.
Combinant les avantages de ViT et de CNN, nous proposons un nouveau modèle hybride de désembuage RSI GTMNet. Le GTM est d'abord introduit dans le modèle à l'aide de deux couches SFT pour améliorer la capacité du modèle à estimer l'épaisseur de la brume. Le module SOS boosté est ensuite introduit pour affiner progressivement les fonctionnalités locales de l'image restaurée. Les résultats expérimentaux montrent que le modèle proposé a un excellent effet de dévoilage même pour les ensembles de données RSI flous à petite échelle, compensant efficacement le manque de données d'entraînement pour les tâches visuelles de bas niveau actuelles et améliorant l'applicabilité du modèle. Par rapport aux méthodes de pointe, GTMNet atténue, dans une certaine mesure, la distorsion des couleurs sur le toit des bâtiments à forte luminosité et dans les zones de brume dense.
Nous avons constaté que l'efficacité du GTM précédent dépend de la présence du module SOS boosté. Par conséquent, la stratégie d'introduction de connaissances antérieures externes est cruciale. Dans des travaux futurs, inspirés par un réseau de mémoire dynamique (DMN+)29 pour fusionner des connaissances externes liées à la cible et des caractéristiques d'image, et un réseau de fusion de caractéristiques à plusieurs niveaux (MFFN)30 pour traiter la redondance du réseau, nous explorerons l'auto- stratégie de fusion pondérée des données auxiliaires (par exemple, image radar à synthèse d'ouverture, GTM) et caractéristiques RSI. En outre, nous étudierons plus avant les stratégies de combinaison des méthodes traditionnelles et des méthodes basées sur l'apprentissage en profondeur, et concevrons des modèles plus appropriés pour éviter le surajustement.
Toutes les données générées ou analysées au cours de cette étude sont incluses dans cet article publié. La version du logiciel Photoshop pour créer des RSI flous est 24.3, qui est disponible sur https://www.adobe.com/products/photoshop.html.
McCartney, EJ Optics of the Atmosphere: Scattering by Molecules and Particles (Springer, 1976).
Google Scholar
Nayar, SK & Narasimhan, SG Vision par mauvais temps. Dans Actes de la septième conférence internationale de l'IEEE sur la vision par ordinateur, vol. 2, 820–827 (IEEE, 1999).
Narasimhan, SG & Nayar, SK Vision et l'ambiance. Int. J. Comput. Vis. 48, 233-254 (2002).
Article MATH Google Scholar
He, K., Sun, J. & Tang, X. Élimination du voile d'image unique à l'aide d'un canal sombre avant. IEEE Trans. Modèle Anal. Mach. Renseignement. 33, 2341-2353 (2010).
Google Scholar PubMed
Cai, B., Xu, X., Jia, K., Qing, C. & Tao, D. Dehazenet : Un système de bout en bout pour l'élimination du voile d'une seule image. IEEE Trans. Processus d'image. 25, 5187–5198 (2016).
Article ADS MathSciNet MATH Google Scholar
Chavez, PS Jr. Une technique améliorée de soustraction d'objets sombres pour la correction de diffusion atmosphérique de données multispectrales. Télédétection Environ. 24, 459-479 (1988).
Annonces d'article Google Scholar
Huang, B., Zhi, L., Yang, C., Sun, F. et Song, Y. Dévoilage d'images optiques par satellite unique à l'aide d'une image SAR préalable basée sur des réseaux contradictoires génératifs conditionnels. Dans Actes de la conférence d'hiver IEEE/CVF sur les applications de la vision par ordinateur, 1806-1813 (2020).
Mehta, A., Sinha, H., Mandal, M. & Narang, P. Reconstruction hyperspectrale non supervisée sensible au domaine pour le dévoilage d'images aériennes. Dans Actes de la conférence d'hiver IEEE/CVF sur les applications de la vision par ordinateur, 413–422 (2021).
Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Adv. Information neuronale. Processus. Syst. 30, 1–10 (2017).
Google Scholar
Wang, W. et al. Transformateur de vision pyramidale : une colonne vertébrale polyvalente pour une prédiction dense sans convolutions. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur, 568-578 (2021).
Liang, J. et al. Swinir : Restauration d'image à l'aide du transformateur swin. Dans Actes de la Conférence internationale IEEE/CVF sur la vision par ordinateur, 1833–1844 (2021).
Liu, Z. et al. Transformateur Swin : Transformateur de vision hiérarchique utilisant des fenêtres décalées. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur, 10012–10022 (2021).
Wang, Z. et al. Uformer : Un transformateur général en forme de U pour la restauration d'images. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 17683–17693 (2022).
Dong, P. & Wang, B. TransRA : Fusion de transformateur et d'attention résiduelle pour le dévoilage d'une image de télédétection unique. Multidimensionnel. Syst. Processus de signalisation. 33, 1119-1138 (2022).
Article Google Scholar
Song, Y., He, Z., Qian, H. & Du, X. Transformateurs de vision pour le dévoilage d'une seule image. IEEE Trans. Processus d'image. 32, 1927-1941 (2023).
Annonces d'article Google Scholar
Ronneberger, O., Fischer, P. & Brox, T. U-net : réseaux convolutifs pour la segmentation d'images biomédicales. Dans Conférence internationale sur l'informatique médicale et l'intervention assistée par ordinateur, 234-241 (Springer, 2015).
He, K., Sun, J. & Tang, X. Filtrage d'image guidé. Dans Conférence européenne sur la vision par ordinateur, 1–14 (Springer, 2010).
Wang, X., Yu, K., Dong, C. & Loy, CC Récupération d'une texture réaliste en super-résolution d'image par transformation de caractéristiques spatiales profondes. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 606–615 (2018).
Romano , Y. & Elad , M. Boosting des algorithmes de débruitage d' images . SIAM J. Imag. Sci. 8, 1187-1219 (2015).
Article MathSciNet MATH Google Scholar
Dong, H. et al. Réseau de dévoilage boosté à plusieurs échelles avec fusion dense de caractéristiques. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 2157-2167 (2020).
Shi, W. et al. Super-résolution d'image unique et de vidéo en temps réel à l'aide d'un réseau neuronal convolutif sous-pixel efficace. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 1874–1883 (2016).
Song, Y., He, Z., Qian, H. & Du, X. Vision Transformers for Single Image Dehazing. http://arxiv.org/abs/2204.03883 (2022).
Li, X., Wang, W., Hu, X. & Yang, J. Réseaux de noyaux sélectifs. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 510–519 (2019).
Loshchilov, I. & Hutter, F. Régularisation de la décroissance pondérale découplée. http://arxiv.org/abs/1711.05101 (2017).
Loshchilov, I. & Hutter, F. Sgdr : descente de gradient stochastique avec redémarrages à chaud. http://arxiv.org/abs/1608.03983 (2016).
Burkardt, J. La distribution normale tronquée. Site Web du Département de calcul scientifique 1, 35 (2014).
Chen, D. et al. Réseau d'agrégation de contexte fermé pour le dévoilage et le dévidage d'images. En 2019, Conférence d'hiver IEEE sur les applications de la vision par ordinateur (WACV) 1375–1383 (IEEE, 2019).
Ronneberger, O., Fischer, P. & Brox, T. U-net : réseaux convolutifs pour la segmentation d'images biomédicales. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015 : 18th International Conference, Munich, Allemagne, 5-9 octobre 2015, Actes, Partie III 18 234–241 (Springer, 2015).
Chen , Y. , Xia , R. , Zou , K. & Yang , K. FFTI : Algorithme de peinture d'images via la fusion de caractéristiques et la peinture en deux étapes . J.Vis. Commun. Représentation d'image. Rév. 91, 103776 (2023).
Article Google Scholar
Chen, Y., Xia, R., Yang, K. & Zou, K. MFFN : Super-résolution d'image via un réseau de fusion de caractéristiques à plusieurs niveaux. Vis. Calcul. 1, 1–16 (2023).
Google Scholar
Télécharger les références
Yaping Zhang a été financé par le projet spécial conjoint de recherche fondamentale agricole de la province du Yunnan (subvention n° 202101BD070001-042) et le programme des dix mille talents du Yunnan. Les auteurs ne déclarent aucun intérêt concurrent.
École des sciences et technologies de l'information, Université normale du Yunnan, Kunming, 650500, Yunnan, Chine
Haiqin Li, Yaping Zhang, Jiatao Liu et Yuanjie Ma
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
HL : conceptualisation, logiciel, investigation, visualisation, validation, rédaction, révision. YZ : conceptualisation, méthodologie, rédaction, révision, supervision, soutien financier. JL : conceptualisation, rédaction, révision. YM : validation, ressources.
Correspondance à Yaping Zhang.
Les auteurs ne déclarent aucun intérêt concurrent.
Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.
Réimpressions et autorisations
Li, H., Zhang, Y., Liu, J. et al. GTMNet : un transformateur de vision avec carte de transmission guidée pour le dévoilage d'une image de télédétection unique. Sci Rep 13, 9222 (2023). https://doi.org/10.1038/s41598-023-36149-6
Télécharger la citation
Reçu : 14 février 2023
Accepté : 30 mai 2023
Publié: 07 juin 2023
DOI : https://doi.org/10.1038/s41598-023-36149-6
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.