Ресурсы на английском для дата-сайентистов (октябрь 2020, DAGsHub)

Израильский ит-специалист, сооснователь DAGsHub — веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению, — составил список источников информации по Data Science, искусственному интеллекту и связанных с ним технологиям.

Автор оригинала — Guy Smoilovsky. На русский язык список перевели в компании SkillFactory.

Two Minute Papers

YouTube-канал, который хорошо подходит, для того чтобы быть в курсе последних событий. Канал часто обновляется, а ведущий обладает заразительным энтузиазмом и позитивом во всех освещаемых темах. Ожидайте освещения интересных работ не только об ИИ, но и о компьютерной графике и других визуально привлекательных темах.

Янник Килчер (Yannic Kilcher)

На своем YouTube-канале, Янник технически подробно объясняет значимые исследования в глубоком обучении. Вместо того, чтобы читать исследование самостоятельно, часто бывает быстрее и проще посмотреть одно из его видео, чтобы глубже понять важные статьи. Объяснения передают суть статей, не пренебрегая математикой и не теряясь в трех соснах. Янник также делится своими взглядами — о том, как исследования соотносятся друг с другом, мнением о том, насколько серьезно нужно относиться к результатам, более широкими интерпретациями и т.д. Новичкам (или неакадемическим практикам) труднее прийти к этим открытиям самостоятельно.

Distill.pub

Исследования в области машинного обучения должны быть ясными, динамичными и яркими. А Distill создан, чтобы помогать в исследованиях. Distill — уникальное издание с исследованиями в области машинного обучения. Продвигаются статьи с потрясающими визуализациями, чтобы дать читателю более интуитивное понимание тем. Пространственное мышление и воображение, как правило, работают очень хорошо, помогая в понимании тем машинного обучения и Data Science. Традиционные же форматы публикаций, напротив, имеют тенденцию быть жесткими в своей структуре, статичными и сухими, а иногда и «математическими».

Себастьян Рудер (Sebastian Ruder)

Себастьян Рудер пишет очень содержательный блог и информационный бюллетень, в первую очередь о пересечении нейронных сетей и анализа текстов на естественных языках. Он также дает много советов исследователям и докладчикам на научных конференциях, они могут быть очень полезны, если вы находитесь в академических кругах. Статьи Себастьяна, как правило, имеют форму обзоров, подводя итоги и объясняя состояние современных исследований и методов в той или иной области.

Андрей Карпати (Andrej Karpathy)

Андрей Карпати не нуждается в представлении. Помимо того, что он является одним из самых известных исследователей глубокого обучения, он создает широко используемые инструменты, например, arxiv sanity preserver в качестве сторонних проектов. Бесчисленное множество людей вошли в эту сферу через его Стэнфордский курс cs231n. Помимо статей об ML непосредственно, Андрей Карпати дает хорошие жизненные советы для амбициозных ученых.

Uber Engineering

Инженерный блог Uber действительно впечатляет масштабом и широтой охвата, освящая массу тем, в частности, искусственный интеллект.

OpenAI Blog

Если отбросить разногласия, блог OpenAI, несомненно, прекрасен. Время от времени в блоге публикуется контент и идеи о глубоком обучении, которые могут прийти только в масштабах OpenAI. Команда OpenAI, как правило, публикует посты нечасто, но это важные материалы.

Taboola Blog

Блог Taboola не так хорошо известен, как некоторые другие источники в этом посте, но я считаю его уникальным — авторы пишут об очень приземленных, реальных проблемах при попытке применять ML в производстве для «нормального» бизнеса: меньше о самоуправляемых автомобилях и агентах RL, побеждающих чемпионов мира, больше о том, «как мне узнать, что моя модель теперь предсказывает вещи с фальшивой уверенностью?». Эти проблемы актуальны почти для всех, кто работает в этой области, и они меньше освещаются в прессе, чем более расхожие темы ИИ, но для правильного решения этих проблем все еще требуется талант мирового класса.

Reddit

Наряду с Twitter, нет ничего лучше в Reddit, чем зацепиться за исследования, инструменты или «мудрость толпы».

reddit.com/r/machinelearning
reddit.com/r/datascience

State of AI

Посты публикуются только ежегодно, но наполнены информацией очень плотно. По сравнению с другими источниками из этого списка, этот доступнее для не связанных с технологиями деловых людей. Что мне нравится в докладах, так это то, что он пытается дать более целостное представление о том, куда движется отрасль и исследования, с высоты птичьего полета связывая воедино достижения в области аппаратного обеспечения, исследований, бизнеса и даже геополитики.

Подкасты

Откровенно говоря, я считаю, что подкасты плохо приспособлены для изучения технических тем. Ведь для объяснения тем они используют только звук, а наука о данных — это очень визуальная область. Подкасты, как правило, дают вам повод для более глубокого исследования позже или в для увлекательных философских дискуссий. Тем не менее, вот некоторые рекомендации:

подкаст Лекса Фридмана (Lex Fridman), когда он разговаривает с видными исследователями из области искусственного интеллекта. Особенно хороши эпизоды с Франсуа Шолле!

Data Engineering подкаст. Хорош, чтобы услышать о новых инструментах инфраструктуры данных.

Списки

Здесь меньше того, за чем нужно следить, но больше ресурсов, которые полезны, когда вы знаете, что ищете:

github.com/josephmisiti/awesome-machine-learning

awesomedataengineering.com

Twitter

Мэтти Мариански(Matty Mariansky)
Мэтти находит красивые, творческие способы использования нейронных сетей, и это просто забавно — видеть его результаты в вашей ленте Twitter. Взглянуть бы хотя бы на этот пост.

Ори Коэн (Ori Cohen)
Ори много пишет о проблемах и решениях для дата-сайентистов. Обязательно подпишитесь, чтобы получить уведомление, когда публикуется статья. Его сборник, в частности, действительно впечатляет.

Джереми Говард (Jeremy Howard)
Соучредитель компании fast.ai, всесторонний источник творчества и продуктивности.

Хамель Хусейн (Hamel Husain)
Штатный инженер ML в Github, Хамель Хусейн занят на работе созданием и отчетностью по многим инструментам для кодеров в области данных.

Франсуа Шолле (Francois Chollet)
Создатель Keras, сейчас пытается обновить наши представления о том, что такое интеллект и как его проверить.

Gwern
Наверное, самая яркая персона в этом списке. Она уж точно не скучная!

Хардмару (Hardmaru)
Ученый-исследователь в Google Brain.

Оригинал:
DAGsHub Blog, Oct 19, 2020, Recommended Data Science Content Sources
Перевод:
Блог компании SkillFactory, 23 октября 2020, Что читать специалисту по Data Science в 2020 году