Visual knowledge in the big model era: retrospect and prospect

Wenguan WANG ,  

Yi YANG ,  

Yunhe PAN ,  

Abstract

Визуальное знание - новая форма представления знаний, теоретические корни которой уходят глубоко в когнитивную науку; визуальное знание направлено на обеспечение единой, всесторонней и интерпретируемой теоретической основы и методов моделирования для основных элементов визуального интеллекта - таких как визуальные концепции, визуальные отношения, визуальные операции и визуальное рассуждение. Исследования в области когнитивной науки подтверждают важную роль визуальных знаний в процессах когнитивного мышления и интеллектуального поведения человека; отсюда можно сделать вывод, что представление и изучение визуальных знаний сыграют важную роль в развитии визуального интеллекта и машинного интеллекта. В последние годы искусственный интеллект постоянно продвигается вперед, особенно большие модели искусственного интеллекта выходят за пределы интеллектуального уровня традиционных моделей; большие модели могут автоматически обнаруживать общие закономерности из огромных данных и кодировать эти закономерности в параметры огромных нейронных сетей, что позволяет автоматически извлекать знания на большом масштабе и хранить неявные знания параметризованными. Эта новая волна технологической революции искусственного интеллекта, на которой работают большие модели, принесет новые возможности и вызовы для создания передовых интеллектуальных агентов с визуальными знаниями. В этой связи эта статья глубоко анализирует теоретические основы визуальных знаний, всесторонне рассматривает недавние разработки в области визуальных знаний. В то же время статья предлагает перспективы визуального развития знаний в эпоху больших моделей и их возможную ключевую роль, а также взгляд в будущее.

Keywords

Visual knowledge;Artificial intelligence;Foundation model;Deep learning

READ MORE