La era de los grandes modelos de conocimiento visual: revisión y perspectivas

Wenguan WANG ,  

Yi YANG ,  

Yunhe PAN ,  

Abstract

El conocimiento visual es una nueva forma de expresión del conocimiento, cuyas raíces teóricas se encuentran profundamente arraigadas en la ciencia cognitiva; el conocimiento visual tiene como objetivo proporcionar un marco teórico y métodos de modelado unificados, completos e interpretables para los elementos clave de la inteligencia visual, como los conceptos visuales, las relaciones visuales, las operaciones visuales y el razonamiento visual. Las investigaciones en ciencias cognitivas han demostrado que el conocimiento visual desempeña un papel indispensable en los procesos cognitivos humanos y el comportamiento inteligente, lo que permite suponer que la expresión y el aprendizaje del conocimiento visual tendrán un impacto importante en el desarrollo de la inteligencia visual y la inteligencia artificial. En los últimos años, la inteligencia artificial continúa progresando, en particular los grandes modelos de inteligencia artificial superan a los modelos tradicionales en términos de nivel de inteligencia, los grandes modelos pueden descubrir automáticamente reglas generales a partir de datos masivos y codificar estas reglas en los parámetros de redes neuronales a gran escala, lo que permite alcanzar la extracción automática de conocimiento a gran escala y el almacenamiento de conocimiento implícito. Esta nueva revolución tecnológica, liderada por grandes modelos de inteligencia artificial, ofrecerá nuevas oportunidades y desafíos para la construcción y desarrollo de sistemas inteligentes avanzados con conocimiento visual. A tal efecto, este artículo analiza en profundidad las bases teóricas del conocimiento visual y revisa exhaustivamente el estado actual del campo del conocimiento visual en los últimos años. Al mismo tiempo, frente al desarrollo de grandes modelos, plantea puntos de vista prospectivos y previsiones sobre el desarrollo del conocimiento visual y su papel clave potencial.

Keywords

Conocimiento visual; Inteligencia artificial; Modelo base; Aprendizaje profundo

READ MORE