Los algoritmos de esteganografía de imágenes basados en aprendizaje profundo suelen entrenarse utilizando características de dominio espacial o frecuencial. Sin embargo, las características individuales del dominio son incapaces de expresar completamente el contenido total de la imagen, y la esteganografía suele ser multitarea, lo que normalmente resulta en un rendimiento deficiente en la esteganografía. Por esta razón, este artículo propone un algoritmo de esteganografía de imágenes robusto basado en un mapa de puntuación de características, llamado Red de esteganografía de imágenes segura y robusta (SRIS-Net). En primer lugar, el algoritmo propuesto no depende de la esteganografía en el dominio espacial, sino que utiliza redes neuronales convolucionales para obtener características espaciales superficiales. Estas características desaparecen a través de la descomposición de la pirámide laplaciana en el dominio frecuencial, utilizando una estrategia de ocultación progresiva en diferentes subbandas de frecuencia, lo que reduce significativamente el impacto de la información secreta en la imagen procesada, asegurando de manera efectiva una invisibilidad notable y un rendimiento robusto. Además, se propone un módulo de inserción global-local (GLEM), este módulo logra la inserción considerando la estructura global de la imagen y los detalles locales, y se propone una subred de agregación de doble escala (DMSubNet) para una reconstrucción multiescala con el fin de mejorar la calidad de la imagen portadora. Para garantizar la seguridad, se propone una estructura de discriminador de doble tarea, evaluando simultáneamente la imagen como real o falsa, y generando un mapa de puntuación de características de la región de interés de la imagen portadora (ROI) para guiar al módulo de inserción en la creación de una imagen portadora más invisible e indistinguible. Los resultados de los experimentos en BOSSBase muestran que el SRIS-Net propuesto supera a otros métodos principales en términos de invisibilidad y robustez en más de 9,2 dB y 3,4 dB respectivamente, pudiendo aumentarse el nivel de capacidad a aproximadamente 72-96 bpp.
Keywords
Esteganografía de imágenes ; robustez ; invisibilidad ; estructura de discriminador de doble tarea