Онлайн-конференция по Data Engineering SmartData 2020, 9-12 декабря

Онлайн-конференция по Data Engineering SmartData 2020, 9-12 декабря

9-12 декабря 2020 года в онлайне состоится SmartData 2020 — конференция по Data Engineering. Она рассчитана на дата-инженеров и не только: разработчики и data scientists, которые сталкиваются с задачами дата-инженерии или хотят перейти в эту сферу, тоже извлекут пользу.

Сайт конференции: https://smartdataconf.ru

Смотреть трансляцию: https://live.jugru.org

Темы конфереренции:

Стриминг

Flink;
Spark;
Kafka.

СУБД и хранилища для больших данных

Использование классических реляционных, колоночных, NoSQL, SMP/MPP хранилищ для построения DWH:

Hive, Impala, Presto, Vertica, ClickHouse, Cassandra;
Teradata, Redshift, GreenPlum, Exadata;
MSSQL, PostgreSQL;
MongoDB, DynamoDB;
S3, ADLS, GCS, HDFS.

Архитектура DWH

Моделирование данных;
Примеры построения корпоративных хранилищ данных;
Оперативная аналитика;
Ad-hoc reporting;
Hadoop.

Data governance

Безопасность данных;
Качество данных;
Метаданные и управление каталогом;
Управление основными данными;
Миграция данных.

Технологии построения ETL

Spark;
Hadoop MapReduce;
Sqoop;
Анализ производительности и оптимизация.

Оркестрация и MLOps

Airflow, NiFi, Luigi, Azkaban, Oozie;
MLflow.

Другое

Box Cloud solutions;
Дата инженерия не для дата инженеров;
CI/CD для пайплайнов данных;
Тестирование.

Доклады конференции SmartData 2020

Jacek Laskowski
День 3 / 19:00 / Зал 1 / EN / Введение в технологию
The latest and greatest of Delta Lake
This talk is a gentle introduction to the latest and greatest of Delta Lake. You will learn what Delta Lake is and what challenges it aims to solve.

Надежда Веснина
JetBrains
День 3 / 20:15 / Зал 4 / RU /
Закрытие
Присоединяйтесь к закрытию конференции, на котором мы обсудим наиболее интересные находки дня, а также то, что будет ждать нас завтра!

Владислав Шишков
Lamoda
День 1 / 19:00 / Зал 4 / RU / Для практикующих инженеров
Версионирование структуры баз данных на примере хранилища
Владислав расскажет про версионирование структуры баз данных на примере хранилища в Lamoda.

Роман Коробейников
VirtualHealth
День 1 / 19:00 / Зал 3 / RU / Для практикующих инженеров
По пути из Kafka в NiFi: Как не сломать и не потерять
В докладе рассказывается о построении отказоустойчивой схемы работы кластера Apache NiFi при использовании Apache Kafka в качестве источника входных данных.

Moon soo Lee
Staroid, Inc.
День 1 / 19:00 / Зал 2 / EN / Введение в технологию
How we built Serverless Spark experience on Kubernetes
During this session, we’ll talk about architecture, why Staroid used Kubernetes, what were the challenges, and how the company solved them. You will also see a working demo so you can get an idea of what the Serverless Spark experience looks like and how it benefits in your work.

Евгений Рыжик
Microsoft
День 1 / 19:00 / Зал 1 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.
Kusto (Azure Data Explorer): Architecture and internals
Доклад о принципах построения с нуля новой базы данных для работы с логами и телеметрией.

Олег Чирухин
JetBrains
День 1 / 18:30 / Зал 1 / RU / От партнера
Демо: Big Data tools
Мы представим новый продукт компании JetBrains — Big Data Tools и расскажем, какие задачи он решает, покажем демо, разберем примеры использования. На все ваши вопросы ответят разработчики, непосредственно участвующие в создании BDT.

Ольга Макарова
ivi
Мария Носарева
ivi
День 2 / 10:45 / Зал 4 / RU / Для практикующих инженеров
Сегментация: Единое окно для знаний о пользователе
Мария и Ольга расскажут, как на JVM стеке и open source-технологиях построить аналитическую систему, многократно расширяющую возможности бизнеса.

Станислав Богатырев
NEO Saint Petersburg Competence Center
День 2 / 10:45 / Зал 3 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.
NeoFS: Хранение объектных данных по своим правилам
Станислав хочет поделиться примером того, как можно заменить централизованный S3 для хранения сырых данных более доступным для решением, организовать политики так, чтобы обработка данных стала более эффективной. А также рассказать зачем там мультиграфы, гомоморфная криптография, многоходовые игры, доказательства с нулевым разглашением и прочий матан.

Александр Ермаков
Arenadata
День 2 / 10:45 / Зал 2 / RU / Введение в технологию
Подходы к построению современной платформы данных. Проблематика и концепция реализации
Александр расскажет об основных характеристиках современной платформы данных, о различиях в архитектуре DWH, об используемых компонентах и open source дистрибутиве Hadoop.

Андрей Кузнецов
Одноклассники
День 2 / 10:45 / Зал 1 / RU / Введение в технологию
Пишем гибкие пайплайны для дата-платформ с Dagster
Зачем дружить Spark + Scala-джобы и Python-приложения? В докладе Андрей расскажет, зачем это нужно и как писать на Dagster пайплайны с переиспользуемыми блоками и гибкой архитектурой.

Phil Laszkowicz
Futurice
День 3 / 18:30 / Зал 1 / EN / От партнера
How to master time and space
Applying MLOps to a high-performance geospatial data platform for the edge and cloud.

Евгений Ермаков
Яндекс.Такси
Николай Гребенщиков
Яндекс.Такси
День 1 / 17:15 / Зал 4 / RU / Для практикующих инженеров
Highly Normalized Hybrid Model, Или как мы внедрили свою модель хранения данных
Структура DWH не очень гибкая и исправить это помогают современные подходы к проектированию: Data Vault и Anchorn modeling. Подробнее о том, что выбрать, в своем докладе расскажут Николай и Евгений.

Бронислав Житников
Тинькофф
День 1 / 17:15 / Зал 3 / RU /
Инициирующая загрузка в NiFi
Поговорим о NiFi инициирующей загрузке и о том, как упростить себе жизнь в использовании NiFi.

Jeff Zhang
Alibaba Group
День 1 / 17:15 / Зал 2 / EN / Введение в технологию
Flink + Zeppelin: Streaming data analytics platform
In this talk, Jeff would talk about how to use Flink on Zeppelin to build your own streaming data analytics platform.

Александр Слуцкий
Microsoft
Глеб Лесников
Dodo Engineering
День 1 / 17:15 / Зал 1 / RU / Введение в технологию
Kusto (Azure Data Explorer): Интерактивная платформа Big Data Майкрософта
В докладе Александр расскажет, что отличает Kusto (Azure Data Explorer) от других решений, покажет, как сложная обработка лайв-стримов телеметрии размером в миллиарды строк (терабайты данных) может занимать секунды, и приоткроет занавес архитектуры на которой построен Kusto.

Максим Стаценко
Яндекс
День 4 / 10:45 / Зал 2 / RU / Введение в технологию
Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет
Доклад Максима будет про плюсы и минусы различных решений для хранения данных: облака или bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata и др.

Дмитрий Бугайченко
Сбербанк
День 4 / 10:45 / Зал 1 / RU / Для практикующих инженеров
Stateful streaming: Кейсы, паттерны, реализации
В докладе мы поговорим о популярном сейчас подходе к обработке данных — обработке потоков, уделив особое внимание работе с состоянием.

Андрей Жуков
S7 Техлаб
День 4 / 12:30 / Зал 2 / RU / Введение в технологию
Enterprise data platform: Инфраструктура данных как полигон для проверки бизнес-гипотез
Доклад об опыте S7 в построении платформы данных.

Виталий Брагилевский
JetBrains
Паша Финкельштейн
JetBrains
Виталий Худобахшов
JetBrains
День 2 / 12:00 / Зал 1 / RU / От партнера
Круглый стол: Языки программирования в Data Engineering
Обсуждаем зоопарк языков и технологий, с которыми имеют дело дата-инженеры.

Паша Финкельштейн
JetBrains
Виталий Худобахшов
JetBrains
День 3 / 19:00 / Зал 3 / RU / Введение в технологию
Kotlin API for Apache Spark: Зачем мы сделали ещё один API для работы со Spark
Паша с Виталиком поговорят о том, из чего выбирают дата-инженеры и почему решили сделать API для одного из самых популярных фреймворков для построения пайплайнов.

Neville Li
Spotify
День 3 / 19:00 / Зал 2 / EN / Для практикующих инженеров
Scio — data processing at Spotify
We’ll talk about the evolution of big data at Spotify, from Python, Hadoop, Hive, Storm, Scalding to today’s world of cloud, and serverless computing.

Алексей Федоров
JUG Ru Group
Виталий Худобахшов
JetBrains
День 4 / 13:45 / Зал 1 / RU /
Закрытие
Присоединяйтесь к подведению итогов SmartData вместе с Программным Комитетом: рассмотрим наиболее интересные доклады и обсуждения, а также доклады, к которым стоит вернуться после конференции.

Таня Денисюк
JUG Ru Group
День 4 / 14:00 / Зал 1 / RU /
SmartData 2020 Virtual Afterparty
Zoom-сессия, на которой постараемся собрать всех участников, спикеров, членов ПК и экспертов конференции, чтобы в неформальной обстановке шумной толпы подвести итоги конференции и пообщаться друг с другом, как в старые добрые доковидные времена. Только в Zoom, так как сейчас, к сожалению, ковидные времена.

Phil Laszkowicz
Futurice
День 4 / 12:00 / Зал 1 / EN / От партнера
How to master time and space
Applying MLOps to a high-performance geospatial data platform for the edge and cloud.

Ксения Томак
Dodo Engineering
День 3 / 20:15 / Зал 3 / RU /
Закрытие
Присоединяйтесь к закрытию конференции, на котором мы обсудим наиболее интересные находки дня, а также то, что будет ждать нас завтра!

Олег Чирухин
JetBrains
День 3 / 20:15 / Зал 2 / RU /
Закрытие
Присоединяйтесь, чтобы узнать о самых интересных событиях прошлого дня и прогнозе на сегодня от ведущих каждого из треков.

Сергей Бойцов
JetBrains
День 3 / 20:15 / Зал 1 / RU /
Закрытие
Присоединяйтесь к закрытию конференции, на котором мы обсудим наиболее интересные находки дня, а также то, что будет ждать нас завтра!

Владимир Верстов
Яндекс.Go
День 3 / 17:15 / Зал 3 / RU / Для практикующих инженеров
Как мы разрабатываем DMP для Такси, Еды и Лавки
Владимир расскажет про мотивацию, которая нужна для разработки собственного ETL-инструмента, про превращение ETL и DWH в DMP. Спикер поделится тем, какие проблемы возникают в процессе разработки DMP и расскажет про опыт их решения.

Николай Аверин
Miro
День 3 / 17:15 / Зал 2 / RU / Введение в технологию
SQL-миграции в Postgres под нагрузкой
Сделать миграцию таблицы при остановленной БД не проблема. Но что делать, если нужно сделать миграцию «на горячую»? Николай расскажет вам об этом в виде практических советов для PostgreSQL.

Евгений Легкий
Retable
День 3 / 17:15 / Зал 1 / RU / Введение в технологию
Retable DSL: Строим technology-agnostic data pipelines для современных стеков данных
Евгений расскажет о современных тенденциях Modern Data Stack, о преимуществах и недостатках старого (ETL) и нового (ELT) подходов и причинах, которые привели к созданию своего независимого DSL.

Алексей Федоров
JUG Ru Group
Виталий Худобахшов
JetBrains
День 1 / 17:00 / Зал 1 / RU /
Открытие
Узнайте, что вас ждет в ближайшие 4 дня. Члены Программного комитета расскажут о расписании, интересных докладах и о том, в каком формате они пройдут. А команда организаторов конференции в свою очередь расскажет, как работает наша платформа, где будут проходить дискуссионные зоны, как подключаться к чатам и где задавать вопросы спикерам.

Павел Якунин
ТехЦентр Дойче Банка
День 2 / 12:30 / Зал 4 / RU / Для практикующих инженеров
Безопасные интерактивные большие данные в банке: Business intelligence на Clickhouse
В докладе Павел расскажет чем вызвана фрагментация данных в его организации, и какие типичные сценарии аналитики из-за этого страдают. Также он объяснит, почему для Дойче Банка не сработал классический подход, и что они научились делать иначе.

Михаил Марюфич
Mail.Ru Group
День 2 / 12:30 / Зал 3 / RU / Для практикующих инженеров
CI/CD для Ml-моделей и датасетов
Существует не очень качественная модель DS в продакшене и теперь нет возможности ее переобучить или обновить. Чтобы избежать такого, приходите послушать доклад Михаила на эту тему.

Николай Марков
Aligned Research Group
День 2 / 12:30 / Зал 1 / RU / Хардкор. Сложный низкоуровневый доклад, требующий от слушателя знаний технологии.
Низкий уровень работы с данными
Поговорим о нескольких технологиях, которые помогут вам выжать из машины больше — JIT, BLAS и параллельность.

Алексей Коняев
КРОК
День 2 / 12:30 / Зал 2 / RU / Введение в технологию
Оцифровка рабочего в режиме реального времени
Какой путь проделывают данные с носимых устройств до пользовательского интерфейса системы Цифровой рабочий.

Артур Хачуян
Tazeros
День 4 / 12:30 / Зал 1 / RU / Для практикующих инженеров
Наше хранилище для веб-аналитики
На примере истории построения хранилища для сервиса расширенной веб-аналитики, Артур расскажет, как за последние 5 лет эволюционировала система хранения и генерации отчетов в его проекте.