Нет размеченных данных? Решаем проблему с помощью активного обучения

Запись научного семинара Института искусственного интеллекта AIRI от 1 марта 2023 года. Докладчик — Артем Шелманов, AIRI, MBZUAI, оппонент — Евгений Цымбалов, Amazon.

Несмотря на значительный успех в создании методов обучения без учителя, экспертная разметка данных остается очень ценным источником знаний для систем ИИ. Циклическая разметка (HiL), в которой процесс ручной разметки и обучение модели чередуются, недавно стали широко распространены. Например, HiL является одним из важнейших компонентов недавно появившихся языковых моделей с дообучением на инструкции пользователей.

Во многих областях, таких как обработка медицинских или юридических документов, экспертная разметка весьма дорогая. Одним из подходов HiL, который решает эту проблему, является активное обучение (AL). В AL предсказания модели используются для выбора примеров, которые будут показываться пользователям. Выбираются только те примеры, которые являются информативными для обучения последующих версий модели. AL может сократить объем ручного труда в ходе разметки, необходимый для достижения определенного уровня производительности модели, в несколько раз. Это особенно важно в таких областях, где краудсорсинг проблематичен. AL как концепция была предложена довольно давно. Тем не менее, из-за ряда препятствий, на практике AL используется мало.

В этом докладе исследователи представляют результаты нескольких работ, опубликованных в EACL, ACL, NAACL и других конференциях, которые обходят некоторые серьезные препятствия на пути к созданию надежных технологий разметки с помощью AL.

Таймкоды:
00:00 Введение
01:53 Активное обучение
08:34 Проблемы — часть 1
19:25 Дистилированная модель для выбора примеров
23:16 Алгоритм: Pseudo-Labeling for Acquisition Successor Mismatch (PLASM)
29:51 Применение для ускорения процесса инференса
32:51 Алгоритм: Unlabeled Pool Subsampling (UPS)
37:00 Проблемы — часть 2
37:21 Активное обучение на основе неопределённостей
42:52 Использование генеративных моделей для абстрактивной суммаризации
45:33 Алгоритм: In Domain Diversity Sampling (IDDS)
54:52 Фреймворк – ALToolbox
59:56 Нерешённые проблемы
1:07:57 Заключение
1:24:14 Вопросы и обсуждение

Источник: записи научных семинаров Института искусственного интеллекта AIRI, AIRI Seminars, 20 марта 2023