«DataStartConference». 5-я конференция по Data Science, 30 ноября 2019, Москва

30 ноября 2019 в Москве состоится 5-я конференция по Data Science, машинному обучению, большим данным «DataStartConference».

Сайт конференции: https://datastart.ru/msk-autumn-2019/

Программа мероприятия

Александр Фонарев Chief Data Scientist, Rubbles, преподаватель ШАД Яндекс
Введение в AI технологии
В докладе мы погрузимся в тематику технологий искусственного интеллекта, разберём решения реальных прикладных задач из различных индустрий и ответим на основные вопросы, важные для понимания области:
* Чем отличается data science от искусственного интеллекта, машинного обучения и других схожих терминов?
* В чём причины хайпа вокруг искусственного интеллекта в последние годы?
* Как устроены популярные методы машинного обучения и какие у них есть ограничения на практике?
* Как работают нейронные сети и в каких задачах они применимы и не применимы?
* Куда сейчас развиваются технологии и что нас ждёт в ближайшем будущем?

Александр Гущин Senior DS в Mechanica.ai
Автоматизация пайплайнов машинного обучения с помощью workflow-менеджеров
В рамках доклада мы рассмотрим несколько open-source инструментов, которые используются для создания воспроизводимых и поддерживаемых ML-решений. Эта проблема особенно актуальна в случаях, когда решаемая задача содержит большое количество отдельных этапов: например, сбор свежих данных из разных источников, переобучение моделей, проверку их качества и обновление продового сервиса. Мы обсудим основные сценарии применения этих инструментов, а также отличительные особенности их использования.

Виктор Кантор Эксперт по машинному обучению
Как учиться анализу данных
Поговорим о том, какие профессии есть среди тех, кто занимается анализом данных, как им учиться, какие будут стадии в вашем образовательном процессе и карьере, и как переходить между ними.

Артем Ерохин Data Scientist в YouDo
ML без ML. Как не делать звездолет там, где хватит самоката
Часто, при возникновении задачи в области data science, специалисты сразу хотят делать долго и сложное в реализации решение. В докладе поговорим о том, как не переусложнять решения, особенно на начальных этапах работы над задачей.

Алексей Новиков Менеджер проектов Управления краудсорсинга и платформизации в Яндекс.Толока
Краудсорсинг. Советы для новичков и не только
Основа машинного обучения и измерения качества обученных моделей — большое количество ручной разметки. Делать самим долго и, на самом деле, ненадёжно. Строить внутренний отдел разметки данных — дорого. Расскажу, как решали эту проблему в Яндексе и к чему пришли спустя много лет развития собственного отдела разметки данных. Как разметить данные быстро и дёшево.
Рассмотрим вопросы контроля качества, мотивации исполнителей и модели агрегации результатов разметки — всё это на живом опыте создания и использования Толоки, краудсорсинговой платформы Яндекса.

Максим Кореневский Старший научный сотрудник Центра Речевых Технологий
Введение в современное распознавание речи с использованием нейронных сетей
Речь является наиболее естественным способом общения между людьми, поэтому способы речевого взаимодействия человека с техникой привлекают большое внимание. Разработка систем распознавания речи ведется уже более полувека, однако лишь в последнее десятилетие системам автоматического распознавания удалось приблизиться к точности, демонстрируемой живыми людьми. Это связано как со сложностью самой задачи, так и с недостаточным развитием вычислительных мощностей в предшествующие годы. Одним из основных факторов, обеспечивших значительный рост точности систем распознавания, стало повсеместное использование глубокого обучения и нейронных сетей. Мы рассмотрим задачу распознавания речи и подходы к ее решению, обсудим основные компоненты современных систем распознавания и заострим внимание на том, как использовать при их построении нейронные сети.

Елена Герасимова Руководитель направления Data Science онлайн-университета «Нетология»
Выбор образовательной траектории и роадмэп трансформации карьеры в data science
Сегодня рынок аналитики устроен так, что если ты не будешь постоянно развиваться и узнавать новые инструменты, ты не сможешь двигаться по карьере. Но даже если ты принял решение расти в новом направлении, чаще всего ты не знаешь, какую образовательную траекторию выбрать. За что взяться? Как найти нужную информацию? И насколько долго затянется это образование?
Чтобы не выгореть в процессе поиска нового пути и построить свою образовательную стратегию в нужном направлении, необходимо потратить огромное количество ресурсов и времени, понять какие навыки требуются для выполнения новых поставленных целей. Другое дело, что выбору правильного роадмэпа трансформации карьеры можно научиться

Александр Гущин Senior DS в Mechanica.ai
Exploratory Data Analysis как первый этап решения соревнований по анализу данных
На этой практике мы рассмотрим основные моменты выполнения разведочного анализа данных, на которых имеет смысл сосредотачиваться при решении соревновательных задач. Мы посмотрим на различные примеры из соревнований и индустрии, и научимся находить не только потенциально полезные закономерности, но и определять некоторые виды некорректного составления тестовых выборок, способов предобработки и анонимизации данных.

Александр Фонарев Chief Data Scientist, Rubbles, преподаватель ШАД Яндекс
Data science проекты на практике
В докладе мы разберём в особенности применения Data Science в реальной жизни как с организационной, так и с технической точки зрения, развеем популярные мифы и ответим на основные вопросы, важные для работы на индустриальных data science проектах как для менеджеров, так и технических специалистов:
* Как выглядит работа data scientist’а в реальной жизни и какие мифы вокруг неё существуют
* Как организационно устроены data science проекты и в чём их отличие от других IT проектов?
* Как есть роли в таких проектах и какими компетенциями они должны обладать?
* Какие подводные камни возникают при формализации и решении бизнес задач методами data science?
* Какими должны быть модели машинного обучения для применения их на практике?

Никита Дмитриев Разработчик систем машинного обучения в Яндекс
Использование текстовых признаков в CatBoost
При решении ML задачи может возникнуть ситуация, что данные содержат, как числовые, так и текстовые признаки. Как мы знаем, с числовыми признаках лучше всего работает градиентный бустинг, а с текстовыми — нейронные сети. Теперь в CatBoost есть поддержка текстовых признаков! И в этом туториале я покажу, как «из-коробки» начать их использовать.

Павел Мягких / Василий Захаров Head of DS @ Commercial Lab + Head of DS @ Tele2 / Business Development @ Commercial Lab
Как перенести DS-проект из powerpoint’а в продакшн
Практические истории о том, как пройти путь от customer development до продуктивного решения
1. Data Science проекты опыт, кейс-стади. Пример — МедиаМаркт (Павел Мягких)
2. Специфика предложения и коммуникации с бизнесом (Василий Захаров)
3. Переходим к конкретике: replenishment и supply chain в рознице — откуда начинать и как сделать работающее решение (Павел Мягких)

Никита Малыхин Senior Data Scientist в Publicis Groupe
Data-driven подход к оценке эффективности медиа-инвестиций в банковской сфере
Реклама – это старая, даже старомодная, индустрия. Во всех каналах размещения, кроме Digital, существуют проблемы с оценкой эффективности инвестиций. В рамках данного доклада слушатели смогут узнать, как успешно бороться с этой проблемой с помощью эконометрики и ML. В частности, будут освещены следующие нюансы:
Как научиться оценивать традиционные медиа-каналы почти так же детально, как цифровые
Какие проблемы Вас ждут в банковской инфраструктуре, особенно если Вы хотите сделать проект быстро и качественно
Какие особенности и проблемы есть у моделирования медиа-активности
Как задеплоить готовые модели в контуре банка
В целом, будет рассказано об удачах и проблемах таких проектов, а также об успешно завершенном проекте по данной методологии

Роман Тезиков Head of AI в Helios
Разработка воспроизводимых пайплайнов в CV
Далеко не в каждом стартапе или компании с research-отделом датасаентисты заботятся о том, чтобы сделать их пайплайны воспроизводимыми. Работа по принципу «обучить модель кое-как и выкатываем» хороша до тех пор, пока ваш продакшен жив, и если что-то случилось с моделью, а заказчик ждёт сеть с определенной точностью у вас могут быть проблемы.
В своем докладе я расскажу с какими трудностями можно столкнуться конкретно в CV и мы посмотрим на преимущество делать ваши пайплайны обучения моделей воспроизводимыми.

Евгений Лимаренко Руководитель направления развития аналитических систем, компания первый БИТ
Реальный DS в бизнесе — как разговор подростков о сексе
Все те, кто профессионально занимается DS/ML давно считают, что во всех крупных и средних уважающих себя компаниях или уже давно существуют собственные команды дата аналитиков и инженеров или уже реализовано большое количество проектов, закрывающих простые и очевидные задачи. Но это не так. К сожалению, все гораздо хуже, чем мы себе представляем:
1. Бизнес не знает, что такое DS/ML и что он дает
2. Деградация управленческих кадров
3. Низкая культура ведения проектов
4. Отсутствие выделенных людей, отвечающих за развитие
5. DS инженеры не хотят делать «скучные» проекты
На основании личного опыта создания и развития DS подразделения в ИТ компании, я расскажу вам, что на самом деле происходит в реальном бизнесе, как там относятся к DS проектам, что со всем этим делать и почему нам всем нужно начать смотреть трезвыми глазами на реальность.

Артем Просветов & Анастасия Семенова Senior Data Scientist и Data Scientist в CleverDATA
Как оптимизировать справочные формализмы с помощью машинного обучения и NLP
В нашей компании часто встречается задача сопоставления таксономий, то есть поиск пар фраз, одинаковых по смыслу, однако, возможно, написанных по-разному. Чтобы избежать ручного труда, мы решили найти способ применить для нашей задачи машинное обучение. Тексты, которые нам необходимо сопоставлять, имеют определенную особенность, поэтому языковые модели, обученные на стандартных корпусах, не решают нашей задачи. Основной трудностью является отсутствие разметки. Какие пути решения мы нашли, расскажем в нашем докладе.

Артур Кузин Руководитель направления нейронных сетей X5 Retail Group
Видеоаналитика X5 Retail Group
В декабре прошлого года в X5 Retail Group был сформирован центр компетенций в области видеоаналитики и компьютерного зрения. За это время командой были разработаны решения по мониторингу доступности товаров на полках, анализу действий персонала, фейс рекогнишену. А также запущен пилот в торговых сетях «Пятерочка» и «Перекресток». В докладе будет рассказано про процесс разработки решений на базе компьютерного зрения.

Петр Ермаков Основатель DataGym
Организация работы Data Science Команды (техническая сторона)
Особенности и лайфхаки настройки ПО (JupyterHub, Docker, Airflow и др) для большой Data Science команды. Как правильно организовать работу на общих серверах. Рассмотрим рецепты и подводные камни. Даже если команда состоит из одного человек, вы вынесете новые хитрости.

Михаил Степнов & Лилия Мусина Head of Advanced Analytics в Publicis Groupe
LOVE, SOCIAL MEDIA + ROBOTS: как прокачать аналитику соцмедиа с помощью машинного обучения
Расскажем о том, что случается, когда в тихий мир аналитики соцмедиа влезают Data Scientist’ы. Как ускорить работу по поиску инсайтов в соцсетях? Какие методы ML релевантны для данной, крайне актуальной в современном мире, сферы деятельности? И самое главное, почему не стоит перекладывать эту работу полностью на плечи роботов? Говорим о текстовом анализе, распознавании объектов на фото и видео, а также о том, какое отношение имеет вера в Бога к теме болезней ЖКТ (веселые кейсы – только для Вас!)

Владимир Бугай CTO в Knoema.com
Векторные представления данных, языковые модели и их применение в машинном обучении
Векторные представления данных (embeddings) являются краеугольным камнем многих современных моделей машинного обучения. Предобученные языковые модели на их основе в буквальном смысле взрывают сферу обработки текстов на естественных языках (Natural Language Processing) и открывают новые, порой самые неожиданные возможности для дата-сайентистов и разработчиков.
В своем докладе я расскажу о том, как векторные представления и модели естественного языка используются у нас в Knoema для решения разнообразных задач поиска по огромной коллекции данных. Также я продемонстрирую как соответствующие подходы могут быть обобщены на самые широкие классы задач и применяться вами для их решения, позволяя встраивать элементы искусственного интеллекта в свои разработки не будучи докторами наук.

Виталий Чесноков Генеральный директор QSOFT
Цифровая трансформация клиентского сервиса: будущее уже пришло. Как мы заменили 15 операторов на робота на базе ML и AI.
Уже сегодня передовые компании в сегменте B2C вовсю используют омниканальность и внедряют роботов на основе AI, которые «помнят» все диалоги с пользователями, умеют прогнозировать их обращения и позволяют экономить значительные бюджеты за счет оптимизации колл-центров.
В докладе я расскажу, зачем нужна цифровая трансформация клиентского сервиса, в чем заключается ее суть, как успешно интегрировать разработки на базе AI и ML в бизнес-процессы. Запуская робота на базе ML и AI, мы решали важную прикладную задачу, которая сводилась к оптимизации расходов на колл-центр. Слушатели узнают о том, как мы заменили 15 операторов одним роботом, насколько эффективно работает робот на базе ML и AI. Честно и «без воды» расскажу обо всех плюсах и минусах роботизации процессов.

Сергей Абдуракипов Руководитель команды Data Science в SAP
Система детектирования аномалий на АЗС/АЗК на основе машинного обучения
Беспокоясь о качестве и объемах своей продукции, клиент обратился к команде SAP с задачей разработать систему, позволяющую найти и разметить аномальные смены работы АЗС по телеметрическим показаниям с заправок, которые потенциально могут быть связаны с мошенническими операциями. При построении модели команда детектирования аномалий SAP воспользовалась методами машинного обучения с применением нейронных сетей. Система реализована на основе инструментов SAP HANA, SAP DataHub и SAP Business Objects. Система, во-первых, позволяет определять, какие АЗС и АЗК по интегральным статистическим показателям «аномальности» схожи, а какие отличаются от остальных. Например, на каких АЗС больше всего зафиксировано потенциальных дефектов счетчиков, а на каких наибольшее расхождение по выручке и объемам топлива. Во-вторых, позволяет детализировать выявленные аномалии по конкретной АЗС/АЗК в разные временные периоды. Выбрав отдельную АЗС/АЗК на дашборде, можно увидеть ее статистические показатели по выбранному параметру, а также сигналы о выявленных отклонениях

Эмели Драль Директор по анализу данных Mechanica AI
AI + AL: оптимизация производства алюминия с помощью прогнозирования снижения производительности электролизеров
Производство алюминия делится на три основных этапа: добыча бокситов, их переработка в глинозем и получение чистого алюминия в электролитических ванных с использованием процесса электролиза – распада оксида алюминия на составные части под воздействием электрического тока. Завод по производству алюминия может насчитывать несколько сотен электролитический ванн, которые регулярно обслуживают технические специалисты для поддержания стабильного уровня производительности. Тем не менее, периодически электролизеры флуктуируют в производительности.
Используя накопленные на предприятии исторические данные мы разработали сервис на основе машинного обучения, позволяющий предсказать снижение производительности электролизеров в ближайшем будущем. Таким образом, своевременное оповещение о технических проблемах призвано помочь специалистам завода их устранить, чтобы избежать связанных с этим потерь. Экспериментальные результаты показали, что с помощью машинного обучения возможно правильно спрогнозировать существенно больше электролизеров со сниженной производительность, чем с текущим подходом, основанным на экспертных оценках.
Я расскажу о разработке решения, достигнутых результатах и важных уроках, которые мы извлекли в процессе разработки решения.

Сергей Колесников Creator of Catalyst, Research Engineer @RLLab, Research Scientist @MIPT
Catalyst.DL–fast & reproducible DL
При работе в области DL требуется проводить множество различных экспериментов, пробовать разные модели и тестировать кучу гипотез. Кроме этого, под каждый новый проект приходится писать новый пайплайн по обучению, валидации и инференса модели. При всем таком разнообразии очень сложно не запутаться и не забыть, где и что лежало.
В этом докладе я расскажу вам про Catalyst.DL – библиотеку для упрощения разработки DL решений. Фреймворк содержит ряд best practices, так и уже готовые пайплайны под задачи классификации, сегментации, детекции и видеоаналитики – весь стек Computer Vision.
Получилось ли ускорить этап from research to production? Воспроизводятся ли результаты? Какой seed самый лучший? Давайте выясним!

Сергей Николенко Head of AI @ Synthesis AI, Лаборатория ИИ ПОМИ РАН
Синтетические данные в глубоком обучении
Многие проблемы современного AI сводятся к недостатку данных и/или их разметки. Зачастую их можно решить синтетическими данными, или полностью искусственно созданными, или порождёнными с участием настоящих (smart augmentation). Однако решение одной проблемы порождает другие: как обучить модель на синтетических данных так, чтобы она обобщалась на настоящие? В докладе мы начнём с введения в синтетические данные, а затем поговорим о разных подходах к domain adaptation: и о том, как сделать синтетические данные более реалистичными порождающими моделями, и о том, как обучать хорошо обобщающиеся модели непосредственно на синтетических данных.

Федор Лаврентьев Head of Data Management Platform at Yandex.Taxi
Переиспользуем «фичи» между несколькими проектами
Одиночные проекты по внедрению машинного обучения — это дорого. Стоимость можно сильно снизить, если выстроить конвейер из проектов. На первом проекте придется собрать все шишки, второй-третий-пятый пройдут через боль цифровой трансформации, зато последующие проекты пойдут слаженно по уже отработанной схеме.
Важная составляющая конвейера ML проектов — возможность переиспользовать ранее придуманные признаки для обучения моделей, легко добавлять новые и автоматизировать их отбор. Я расскажу о feature vector’ах — витринах данных для машинного обучения, а также о том, в чем особенности Data Lake для их расчета, и как выстроить бизнес-процессы вокруг feature engineering’а

Федор Лаврентьев Head of Data Management Platform at Yandex.Taxi
Выбор инструментов для хранения данных на разных стадиях жизни компании
Машинное обучение «питается» данными. Качество данных влияет на точность ML модели сильнее, чем выбор и тюнинг алгоритма. Таким образом, прежде чем бросаться на обучение ML моделей, нужно навести порядок в данных. Я расскажу, как организовать сбор, хранение и структуризацию данных для машинного обучения в зависимости от индустрии компании, ее размера и возраста. Объясню, нужны ли вам Data Warehouse или Data Lake, дам идеи по выбору конкретных баз данных и решений.
Доклад актуален для компаний среднего и крупного размера.

Геннадий Штех Руководитель R&D отдела
Machine Learning доставляет неприятности [всем]
Зарабатывать или экономить с помощью данных хотят все. Монетизацию считать приятно: даже при небольшой применимости ML к бизнес-процессам, выручка получается существенной. Но как посчитать риски внедрения ML в бизнес на короткой и длинной дистанциях? В чем основные технические сложности? Что должна уметь команда инженеров, чтобы их преодолеть? Изучим на примерах, в цифрах, с кейсами.
Будет полезно инженерам, тимлидам, и их руководителям.

Татьяна Зобнина Старший аналитик-разработчик систем машинного обучения в компании «Naumen»
Музыка нейронных сетей: подражание или творчество
Расскажу об истории «генерации» музыкальных композиций при помощи алгоритмов и ЭВМ. Кратко расскажу про основные принципы машинного обучения и о том, что такое нейронные сети. Расскажу, какие архитектуры нейронных сетей наиболее успешно применяются в задачах генерации музыки и как происходит процесс обучения, зачем необходимо привлекать к процессу генерации музыки музыкантов и над какими задачами работаю в сотрудничестве с профессиональными музыкантам на данный момент. В ходе лекции предполагается прослушивание музыкальных отрывков разных лет, сочиненных при помощи ЭВМ (и не только), а также композиций, созданных в рамках проекта по генерации музыки барокко.