Дмитрий Ветров: Что не так с современным машинным обучением

В очередном выпуске подкаста «Неопознанный искусственный интеллект» от издания «Системный блокъ» обсуждается: что называют искусственным интеллектом сегодня, не зря ли там присутствует слово интеллект, и в какую сторону будет развиваться эта область завтра.

Почему современное машинное обучение стоит «примерно на уровне естественных наук XVIII века»?
Могут ли нейросети начать закреплять внутри себя выученные знания?
Почему опасно игнорировать необъяснимые «странности» нейросетей?

Дмитрий Ветров — профессор-исследователь факультета компьютерных наук Высшей школы экономики. Руководит исследовательской группой байесовских методов, сокращенно байес-группой, которой уже 14 лет; сейчас в ней примерно 30-40 человек. Основная сфера деятельности — научные исследования в сфере технологий искусственного интеллекта.

Оглавление выпуска:

01:32 — Что такое байесовские методы и зачем они в машинном обучении
07:45 — Машинное обучение как «недонаука»: современное состояние ИИ
10:18 — Вредят ли корпорации поиску новых методов машинного обучения
12:29 — GPT-3, мультидоменный ИИ, «сильный» ИИ
18:29 — Когда можно доверить ИИ судьбоносные решения
20:57 — Смена технологической парадигмы в разработке ИИ
22:28 — Стоит ли помнить про онтологии и возможны ли гибриды нейросетей и символьного ИИ
25:19 — Как открыть «черный ящик»: проблема интерпретируемости нейросетей
28:06 — Пересадка из Яндекс.Такси в Яндекс.Толоку: разметка данных для машинного обучения
31:08 — Должен ли ИИ быть похож на мозг, а его разработчики — следовать за открытиями нейрофизиологов?
33:33 — Чем заменить тест Тьюринга.
40:42 — Блиц: самые крутые книжки и самые эпичные провалы в области ИИ

Публикуем далее отрывки из расшифровки выпуска.

Что такое байесовские методы и зачем они в машинном обучении

…те классические статистические методы обоснованы теоретически в ситуации, когда объем наблюдаемых данных много больше, чем количество параметров, которые мы пытаемся оценить по наблюдаемым данным. Байесовский подход является обобщением статистики и применим, статистически обоснован в ситуации, когда у нас эти условия не выполнены, то есть, когда объем, количество оцениваемых параметров сопоставим или даже больше, чем объем наблюдаемых данных.

Все современные нейросетевые модели, глубинного обучения содержат в себе сотни тысяч, миллионы параметров, а при этом обучаются они по обучающим выборкам размером в десятки или сотни тысяч объектов. То есть размер обучающей выборки существенно меньше, чем число весов нейронной сети, которые мы пытаемся отследить.

Но если оцениваемых параметров больше, чем объем наблюдаемых данных, то методы классической статистики, они не то что бы не применимы, они теоретически не обоснованы, то есть, на них не распространяются теоретические гарантии, из-за чего мы на практике часто наблюдаем эффекты, то, что в машинном обучении называют переобучением. Это как раз прямое следствие того, что мы применяем классические методы в ситуациях, где они теоретически не обоснованы. Так вот, байесовский подход как раз обобщает классическую статистику на ситуацию, когда у нас объем данных сопоставим либо меньше, чем количество оцениваемых параметров. и это собственно все современные нейросетевые модели, они как раз, как говорят, перепараметризованы, или overpаrametrized, то есть параметров у них больше, чем объем данных, по которым они обучаются…

Машинное обучение как «недонаука»: современное состояние ИИ

…мы в нейросетях наблюдаем кучу удивительных эффектов, загадочных эффектов, непонятных, контринтуитивных. Но основная масс специалистов говорит: «А, не важно». Главное, что работают, задачи решить можно. Мне кажется, это плохой путь.

Пока …научные группы работали в университете, они могли себе позволить заниматься фундаментальными исследованиями. Потом, как только их какая-нибудь корпорация прямо всем коллективом взяла и перекупила, а эти ситуации сплошь и рядом, не понаслышке знаю. Получилось, что все, нам теперь надо прикладные задачи решать и некогда о фундаментальных категориях думать. Вопрос: тогда все? у нас на этом прогресс остановится? Будем только вот текущими инструментами решать прикладные задачи?

…современное машинное обучение, глубинное обучение находится примерно на уровне естественных наук века 18. То есть, когда никаких теорий не было, а вот были загадки природы. Значит их нужно было во-первых намерить, то есть, их просто обнаружить, констатировать факты. Потом задуматься, но в итоге, применяя научный метод или дизайн эксперимента, почти все загадки того века удалось понять. У нас сейчас похожая ситуация. То есть, у нас тоже масса загадок природы, если под природой имеются в данном случае нейронные сети. Но вопрос в том, будем ли мы задумываться, будем ли мы пытаться дать им объяснение?

Путь к «сильному» ИИ

…Сейчас мы пытаемся применять технологии искусственного интеллекта для решения конкретных узких задач, поэтому и методы использования и инструменты соответствующие для решения таких задач. Условно говоря, корпораций нужно котиков от собачек отличать, или спам фильтровать, то есть, конкретные задачи, ей не нужно вот все сразу. Кажется, что вот универсальные модели обучения, которые как бы cross-доменные, способные одновременно работать в разных доменах, способные дообучаться на новые задачи, не забывая при этом как решать старые задачи. Это вот, как мне кажется, и будет признаком, ну, одним из признаков сильного искусственного интеллекта.

Мне кажется, что у нас ограничен в первую очередь не набор задач. Мы ограничены в первую очередь инструментами. Кажется, что первое, что нужно сделать, это если мы хотим двигаться в сторону, ну, обучения первых моделей сильного искусственного интеллекта — это построить такие технологии, которые способны обучаться на новую задачу, не теряя при этом старые. То есть, способны к накоплению постоянному. И тогда они будут способны, действительно, работать в разных доменах. Проблема в том, что сейчас вот нет таких технологий. То есть сейчас, каждый раз когда мы обучаем на новую задачу, мы старую забываем.

Источник: Системный Блокъ, 25.01.2021, Что не так с современным машинным обучением. Расшифровка подкаста с Дмитрием Ветровым