Большинство современных исследований интерпретируемости глубокого обучения являются эмпирическими, и вопрос о том, существуют ли первоначальные принципы, объясняющие внутренние механизмы глубоких нейронных сетей под различными углами зрения, стал одной из основных научных проблем, требующих решения в области интерпретируемого искусственного интеллекта. В данной статье рассматривается, может ли быть использована теория эквивалентных взаимодействий для анализа первоначальной интерпретации глубоких нейронных сетей. Мы считаем, что сила интерпретации данной теории проявляется в четырех аспектах: (1) создание новой осевой системы, преобразующей логику принятия решений глубокой нейронной сети в ряд символических взаимодействий; (2) способность одновременно интерпретировать несколько типичных особенностей глубокого обучения, включая обобщающую способность сети, устойчивость к чувствительному возбуждению, бутылочное горлышко и динамику обучения; (3) предоставление универсальных инструментов для интерпретации алгоритмов глубокого обучения, что позволяет системно интерпретировать различные методы атрибуции опыта и механизмы противодействия миграции; (4) анализ двухступенчатой динамической переменности сложности взаимодействий в процессе моделирования глубокой нейронной сети, объяснение сложности моделирования глубоких нейронных сетей в процессе обучения и связь между обобщающей способностью и устойчивостью к чувствительному возбуждению, что глубоко раскрывает внутренние механизмы обобщения и устойчивость к чувствительному возбуждению глубоких нейронных сетей на стадии обучения.
Keywords
Первоначальная интерпретация; теория эквивалентных взаимодействий; двухступенчатая динамическая интеракция; динамика обучения