Сдерживание сверхинтеллекта — невычислимая задача

Команда исследователей из разных стран и университетов, при участии исследователей из лаборатории Data61 подразделения Австралийского национального научного агентства и инженеров Google поставила задачу математически рассчитать, насколько возможно сохранить контроль над сверхинтеллектом. Об этом пишет Анатолий Ализар на Хабре.

Учёные начали с известной проблемы остановки:

Даны описание процедуры и её начальные входные данные. Требуется определить: завершится ли когда-либо выполнение процедуры с этими данными; либо, что процедура всё время будет работать без остановки.

Алан Тьюринг доказал в 1936 году, что проблема остановки неразрешима на машине Тьюринга. Другими словами, не существует общего алгоритма решения этой проблемы.

Факт наличия проблемы остановки побудил учёных искать другие классы нерешаемых проблем в математике. Типичный подход к доказательству того, что новая проблема неразрешима, состоит в том, чтобы показать, что все случаи проблемы, известные как неразрешимые, могут быть сведены к случаям новой проблемы. Если бы решение новой проблемы было найдено, то оно могло бы быть использовано для решения известной неразрешимой проблемы, что является противоречием, доказывая тем самым, что новая проблема также должна быть неразрешимой. Этот подход оказался мощным аналитическим инструментом, во многом благодаря тезису Чёрча—Тьюринга. Тезис Чёрча—Тьюринга заключается в предположении, что проблема разрешима, если существует машина Тьюринга, которая её вычисляет. Что может сказать неразрешимость проблемы остановки в задаче об управлении сверхразумным ИИ?

Исследователи доказали, что эта первая проблема неразрешима — следовательно, нерешаемой является и вторая (проблема контроля). Для очень простого доказательства учёные элегантно использовали метод от обратного и проблему остановки.

Невозможность контроля

Учёные предполагают, что сверхинтеллект содержит программу, включающую в себя все программы, которые могут быть выполнены универсальной машиной Тьюринга на входе, потенциально столь же сложном, как состояние мира. Поэтому строгое сдерживание требует моделирования такой программы, что теоретически (и практически) невозможно.

Ещё один полезный вывод из неразрешимости предыдущей задачи заключается в том, что мы даже не узнаем, когда сверхразумные машины появились в нашей реальности. Решение вопроса о том, проявляет ли машина интеллект, находится в той же области проблем, что и проблема сдерживания.

Это следствие теоремы Райса, которая утверждает, что любое нетривиальное свойство (например «вредить людям» или «проявлять сверхразум») машины Тьюринга неразрешимо.

Нетривиальность означает, что некоторые программы обладают этим свойством, а некоторые — нет. Согласно теореме Райса, очевидно, простые задачи неразрешимы.

Научная статья опубликована в январе 2021 года в Journal of Artificial Intelligence Research 70 (2021) 65-76 (doi: 10.1613/jair.1.12202), препринт на arXiv.org опубликован 4 июля 2016 года.

Источник: Хабр, 22 марта 2021, Учёные доказали, что сдерживание сверхинтеллекта — невычислимая задача
Ссылки:
https://jair.org/index.php/jair/article/view/12202
https://arxiv.org/abs/1607.00913