Школа яндекс машинное обучение
Программы, курсы и соревнования, посвященные анализу данных и машинному обучению.
Офлайн
Школа анализа данных
Двухлетняя программа для студентов старших курсов и выпускников, которые хотят стать продвинутыми датасаентистами или архитекторами систем хранения и обработки больших данных.
Специализация Яндекса на мехмате МГУ
Специализация «Теория и практика Data Science» подготовит специалистов для работы в индустрии и науке
Онлайн-магистратура по наукам о данных ВШЭ
Первая в России англоязычная магистерская программа, реализуемая полностью онлайн созданная совместно Яндексом и ВШЭ. Цель программы — подготовить специалистов по современному анализу данных, разработчиков машинного обучения и будущих исследователей.
Совместная магистратура ННГУ и Школы анализа данных
Программа «Когнитивные системы» готовит специалистов, умеющих строить системы искусственного интеллекта.
«Сделать невозможно, а я всё равно сделаю»
Антон Осокин о конференциях, работе учёного и о том, что двигает науку вперёд
Премия им. Ильи Сегаловича
Поддержка талантливых студентов, аспирантов и научных руководителей. Студенты и аспиранты могут сами подавать заявки на соискание премии, а также номинировать научных руководителей.
Совместная специальность Яндекса и БГУ
Магистерская программа «Алгоритмы и системы обработки больших объемов информации»
Бесплатное обучение от Яндекса, о котором вы могли не знать
Меня зовут Артём Сайгин, я веду телеграм канал Growth lab, в котором рассказываю о маркетинге и росте IT-продуктов.
Шесть школ со множеством направлений, курсы, видео с лекций на сотни часов. Решил собрать все бесплатные материалы по обучению от Яндекса в одну статью, т. к. многие не знают о существовании таких возможностей.
Статья будет полезна тем, кто только начинает путь в IT и тем, кто хочет научиться чему-то новому.
Академия имеет несколько школ, набор в которые открывается один (или несколько) раз в год. Обучение бесплатное, но есть условия приёма в школу: нужно подать заявку, выполнить тестовое задание и дождаться результатов отбора. Подробнее об поступлении почитайте на сайте школы.
Школа мобильной разработки — имеет два направления: разработка по IOS и разработка под Android.
Школа дизайна — также представлено два направления: продуктовый
дизайн и коммуникаций.
Школа менеджеров Яндекса — представляет аж три направления: управление проектами и продуктами, маркетинг, продуктовая аналитика.
Школа анализа данных — это бесплатная программа и длиться она два года. Рассчитана на тех, кто хочет стать продвинутым датасаентистом или архитектором систем хранения и обработки больших данных.
Так что, если интересно изучить новую профессию, или вы только начинаете свой путь в IT-индустрии — вэлкам. Очень хороший старт и возможность поработать с реальными продуктами Яндекса.
Второе — курсы на coursera.
Курс по машинному обучению на Coursera от Яндекса и ВШЭ
Когда-то мы публиковали на Хабре курс по машинному обучению от Константина Воронцова из Школы анализа данных. Нам тогда предлагали сделать из этого полноценный курс с домашними заданиями и разместить его на Курсере.
И сегодня мы хотим сказать, что наконец можем выполнить все эти пожелания. В январе на Курсере пройдёт курс, организованный совместно Яндексом (Школой анализа данных) и ВШЭ. Записаться на него можно уже сейчас: www.coursera.org/learn/introduction-machine-learning.

Сооснователь Coursera Дафна Коллер в офисе Яндекса
Курс продлится семь недель. Это означает, что по сравнению с ШАДовским двухсеместровым курсом он будет заметно упрощен. Однако в эти семь недель мы попытались вместить только то, что точно пригодится на практике, и какие-то базовые вещи, которые нельзя не знать. В итоге получился идеальный русскоязычный курс для первого знакомства с машинным обучением.
Кроме того, мы верим, что после прохождения курса у человека должна остаться не только теория в голове, но и скилл «в пальцах». Поэтому все практические задания построены вокруг использования библиотеки scikit-learn (Python). Получается, что после прохождения нашего курса человек сможет сам решать задачи анализа данных, и ему будет проще развиваться дальше.
Под катом можно прочитать подробнее обо всех авторах курса и узнать его примерное содержание.
О преподавателях
Лектор курса – Константин Воронцов. Константин Вячеславович много лет преподает основы машинного обучения студентам ШАД, Вышки, МФТИ и МГУ.
Практическую часть курса подготовили Петр Ромов, Анна Козлова и Евгений Соколов, который также читает несколько лекций. Все трое работают в Яндексе (Женя и Петя в Yandex Data Factory, Аня — в отделе машинного перевода) и применяют машинное обучение в своей ежедневной деятельности. Ребята в курсе происходящего в области анализа данных и постарались подготовить задания так, чтобы их выполнение принесло максимальную пользу слушателям курса.
Программа
Это описание модулей курса в том виде, в котором оно откроется на «Курсере» одновременно со стартом курса.
1. Знакомство с анализом данных и машинным обучением.
В этом модуле мы расскажем о задачах, которые решает машинное обучение, определим базовый набор понятий и введем необходимые обозначения. Также мы расскажем про основные библиотеки языка Python для работы с данными (NumPy, Pandas, Scikit-Learn), которые понадобятся для выполнения практических заданий на протяжении всего курса.
2. Логические методы классификации.
Логические методы делают классификацию объектов на основе простых правил, благодаря чему являются интерпретируемыми и легкими в реализации. При объединении в композицию логические модели позволяют решать многие задачи с высоким качеством. В этом модуле мы изучим основной класс логических алгоритмов — решающие деревья. Также мы поговорим про объединение деревьев в композицию, называемую случайным лесом.
3. Метрические методы классификации.
Метрические методы проводят классификацию на основе сходства, благодаря чему могут работать на данных со сложной структурой — главное, чтобы между объектами можно было измерить расстояние. Мы изучим метод k ближайших соседей, а также способ его обобщения на задачи регрессии с помощью ядерного сглаживания.
4. Линейные методы классификации.
Линейные модели — один из наиболее изученных классов алгоритмов в машинном обучении. Они легко масштабируются и широко применяются для работы с большими данными. В этом модуле мы изучим метод стохастического градиента для настойки линейных классификаторов, познакомимся с регуляризацией и обсудим некоторые тонкости работы с линейными методами.
5. Метод опорных векторов и логистическая регрессия.
Линейные методы имеют несколько очень важных подвидов, о которых пойдет речь в этом модуле. Метод опорных векторов максимизирует отступы объектов, что тесно связано с минимизацией вероятности переобучения. При этом он позволяет очень легко перейти к построению нелинейной разделяющей поверхности благодаря ядровому переходу. Логистическая регрессия позволяет оценивать вероятности принадлежности классам, что оказывается полезным во многих прикладных задачах.
6. Метрики качества классификации.
В машинном обучении существует большое количество метрик качества, каждая из которых имеет свою прикладную интерпретацию и направлена на измерение конкретного свойства решения. В этом модуле мы обсудим, какие бывают метрики качества бинарной и многоклассовой классификации, а также рассмотрим способы сведения многоклассовых задач к двухклассовым.
7. Линейная регрессия.
В этом модуле мы изучим линейные модели для регрессии и обсудим их связь с сингулярным разложением матрицы «объекты-признаки».
8. Понижение размерности и метод главных компонент.
В прикладных задачах часто возникает потребность в уменьшении количества признаков — например, для ускорения работы моделей. В этом модуле мы обсудим подходы к отбору признаков, а также изучим метод главных компонент, один из самых популярных методов понижения размерности.
9. Композиции алгоритмов.
Объединение большого числа моделей в композицию может значительно улучшить итоговое качество за счет того, что отдельные модели будут исправлять ошибки друг друга. В этом модуле мы обсудим основные понятия и постановки задач, связанные с композициями, и обсудим один из наиболее распространенных способов их построения — градиентный бустинг.
10. Нейронные сети.
Нейронные сети позволяют находить сложные нелинейные разделяющие поверхности, благодаря чему широко используются в таких трудных задачах, как распознавание изображений и речи. В этом модуле мы изучим многослойные нейронные сети и их настройку с помощью метода обратного распространения ошибки. Также мы поговорим о глубоких нейросетях, их архитектурах и особенностях.
11. Кластеризация и визуализация.
Этот модуль посвящен новому классу задач в машинном обучении — обучению без учителя. Под этим понимаются ситуации, в которых нужно найти структуру в данных или произвести их «разведку». В этом модуле мы обсудим две таких задачи: кластеризацию (поиск групп схожих объектов) и визуализацию (отображение объектов в двух- или трехмерное пространство).
12. Частичное обучение.
Под частичным обучение понимается задача, находящаяся между обучением с учителем и кластеризацией: дана выборка, в которой значение целевой переменной известно лишь для части объектов. Такие ситуации встречаются, когда разметка объектов является дорогой операцией, но при этом достаточно дешево можно подсчитать признаки для объектов. В этом модуле мы обсудим отличия частичного обучения от рассмотренных ранее постановок, и разберем несколько подходов к решению.
13. Машинное обучение в прикладных задачах
В этом модуле мы подведем итоги курса, вспомним основные этапы решения задачи анализа данных. Также мы разберем несколько задач из прикладных областей, чтобы подготовиться к выполнению финального проекта.
Как стать
специалистом по Data Science
Зарплата
специалиста по Data Science
Чему вы научитесь в Практикуме
За 8 месяцев обучения по 15 часов в неделю вы освоите востребованные навыки и соберёте портфолио. Вот какие проекты в него войдут:
Как выглядит процесс обучения
Обучение поделено на двухнедельные отрезки — спринты. Каждый спринт вы изучаете одну тему, закрепляете её на практике, сдаёте самостоятельную работу, а затем переходите к следующей теме.
Онлайн-тренажёр
С первого дня вы учитесь на практике. Мы даём знания небольшими частями, которые нужно сразу применить, написав собственный код в онлайн-тренажёре.
Самостоятельная работа
Тренажёр — это только часть обучения. Основные навыки вы приобретете по мере решения задач инструментами профессиональных разработчиков, а код-ревьюер даст вам обратную связь.
Поддержка
Команда наставников проверяет и комментирует ваши работы, помогает разобраться в сложностях и обучает собственным профессиональным приёмам. Поддержка в чате доступна 24/7.
Специалисты по Data Science учат Data Science
Наставники — аналитики из Яндекса и других IT-компаний. Некоторые из них, как и вы, не сразу выбрали свою профессию и тоже осваивали её с нуля.
71,1% выпускников трудоустраиваются
Мы делаем всё, чтобы студенты нашли новую работу после обучения: выдаём официальный диплом, учим собирать портфолио проектов, помогаем с поиском работы.
71,1% выпускников находят работу, большинство из них — за 4 месяца после выпуска. Институт образования НИУ ВШЭ подтвердил данные через исследование трудоустройства выпускников.
Сколько стоит обучение
Вводная часть —
бесплатно
Платное продолжение
13 000 ₽ помесячный платёж.
Итоговая сумма составит 104 000 ₽
95 000 ₽ при оплате сразу за
8 месяцев обучения.
Программа обучения
Основы Python и анализа данных: бесплатный вводный курс
Вводный курс, из которого вы узнаете, что такое анализ данных и чем занимаются специалисты по data science. Решая кейсы из разных областей, вы изучите азы Python и библиотеки pandas, научитесь строить некоторые графики и верно их трактовать. Но главное — оцените свои силы, мотивацию и запас времени, чтобы решить, идти ли дальше.
Базовый Python
Глубже погружаемся в язык программирования Python, работу с библиотекой pandas и средой программирования Jupyte.
+ 1 проект в портфолио
Предобработка данных
Исследовательский анализ данных
Изучите основы теории вероятностей и статистики. Примените их для исследования основных свойств данных, поиска закономерностей, распределений и аномалий. Познакомитесь с библиотеками SciPy и Matplotlib. Отрисуете диаграммы, поупражняетесь в анализе графиков.
+ 1 проект в портфолио
Статистический анализ данных
Научитесь анализировать взаимосвязи в данных методами статистики. Узнаете, что такое статистическая значимость, гипотезы и доверительные интервалы.
+ 1 проект в портфолио
Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы.
+ 1 проект в портфолио
Введение в машинное обучение
Освоите основные концепции машинного обучения. Познакомитесь с библиотекой Scikit-Learn и примените её для создания первого проекта с машинным обучением.
+ 1 проект в портфолио
Обучение с учителем (классификация и регрессия)
Углубитесь в самую востребованную область машинного обучения — обучение с учителем. Узнаете, как обращаться с несбалансированными данными.
+ 1 проект в портфолио
Машинное обучение в бизнесе
Примените свои знания о машинном обучении к задачам бизнеса. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование.
+ 1 проект в портфолио
Подготовите данные для машинного обучения. С помощью модели оцените её качество.
+ 1 проект в портфолио
Линейная алгебра
Заглянете внутрь нескольких изученных ранее алгоритмов и лучше поймёте, как их применять. На практике освоите с нуля главные концепции линейной алгебры: линейные пространства, линейные операторы, евклидовы пространства.
+ 1 проект в портфолио
Численные методы
Разберёте ряд алгоритмов и приспособите их к решению практических задач с использованием численных методов. Разберётесь, как обучаются нейронные сети. Для этого вы освоите приближённые вычисления, оценку сложности алгоритма, градиентный спуск и бустинг.
+ 1 проект в портфолио
Временные ряды
Проанализируете временные ряды. Создадите из них табличные данные и решите задачу регрессии.
+ 1 проект в портфолио
Машинное обучение для текстов
Представите тексты на естественном языке в качестве таблиц с данными. Примените к ним методы классификации и регрессии. Познакомитесь с алгоритмом TF-IDF, языковыми представлениями word2vec и BERT.
+ 1 проект в портфолио
Извлечение данных
Познакомитесь с основными системами хранения данных — реляционными базами и распределёнными хранилищами. Научитесь извлекать эти данные запросами на языке SQL и методами библиотеки PySpark.
+ 1 проект в портфолио
Компьютерное зрение
Немного Deep Learning. Решите базовые задачи на компьютерное зрение с помощью готовых нейронных сетей и библиотеки Keras.
+ 1 проект в портфолио
Обучение без учителя
Познакомитесь с задачами кластеризации и поиска аномалий.
Выпускной проект
В последнем проекте подтвердите, что освоили новую профессию. Уточните задачу заказчика, пройдёте все стадии анализа данных и машинного обучения. Теперь без уроков домашних заданий — всё как на настоящей работе.
Подборка каналов по машинному обучению на YouTube
Интервью с предпринимателями и исследователями, лекции из ведущих университетов и видеоподкасты о перспективах искусственного интеллекта
Академия Яндекса составила подборку каналов про машинное обучение и анализ данных, на них можно посмотреть практические видеоуроки и больше узнать про индустрию и применение data science в разных областях.
Deeplearning.ai
На этом канале собраны видео по глубинному обучению — как лекции, так и интервью со специалистами в этой области. Их записывает Эндрю Ын, профессор Стэнфордского университета, автор самого популярного курса по машинному обучению на Coursera.
DeepMind
Это официальный канал компании DeepMind, которая занимается исследованиями в сфере искусственного интеллекта. Она приобрела известность после разработки системы, которая обыграла чемпиона по игре в го Фаня Хуэя, а сейчас DeepMind принадлежит холдингу Alphabet. На этом канале выходит видеоподкаст про перспективы ИИ в разных областях, от нейронаук до робототехники.
Jeremy Howard
Джереми Говард — австралийский дата-сайентист и предприниматель, который руководил машинным обучением в Kaggle. На своем канале он публикует видеоуроки и рассказывает о новых инструментах.
Artificial Intelligence — All in One
На этом канале собраны лекции по машинному обучению, которые предлагают американские университеты, такие как Стэнфорд и Мичиганский университет. У части университетов есть и отдельные каналы, на которые они выкладывают видео занятий: например, лекции MIT по state of the art машинному обучению можно посмотреть здесь.
PyData
Канал сообщества разработчиков, которые программируют на Python. На нём можно посмотреть лекции про новые технологии для обработки, анализа и визуализации данных.
Two Minute Papers
На канале публикуются двухминутные разборы научных статей, например, про устройство чат-бота Google или про то, как нейросети достраивают изображения.
Академия Яндекса (разделы «Компьютерные науки» и «Разработка»)
На канале Академии можно найти записи выступлений на митапах, лекториях и школах Яндекса. Есть как видео для тех, кто недавно занимается машинным обучением (например, в плейлисте ML Junior Meetup), так и для тех, кто уже освоился и хочет узнать больше про приложения для анализа данных в разных отраслях.