Как самостоятельно выучиться на дата-саентиста, не бросая на ветер деньги. Бесплатные курсы для аналитика данных.
Недавно собрал ответ на этот вопрос достаточно развернуто, на мой взгляд, чтобы поделиться им с широкой аудиторией. Не все платные курсы плохие (хотя большинство — да — из-за механизмов отбора, продаж и слабой программы), но о них напишу отдельно. Мне кажется, нужно учитывать больше персонализированных параметров для того, чтобы грамотно выбирать хороший курс за деньги.
— Во-первых, в список вошли бесплатные онлайн-курсы и ресурсы для самостоятельного обучения, которые проходила сама или советует профессиональное сообщество аналитиков и дата-саентистов (часто упоминающиеся в ODS.ai), где не нужно проходить какой-то отбор или быть ограниченным офлайн-посещением.
— Во-вторых, конечно, это далеко не полный список онлайн-курсов, который вы можете встретить, зато в него попали лучшие курсы от сильных математических и Computer Science-школ мир и другие распространенные ресурсы среди профи из того, что я смогла отфильтровать на свой вкус.
— В-третьих, начну с рекордно короткого списка, с которого, как мне кажется, стоит начинать обучение предмету, и он идет сразу же следующим абзацем:
С чего советую начать, чтобы тратить время эффективно?
Предполагая, что начинающий дата-саентист уже прошел подготовительные курсы а-ля гарвардский CS50 по основам программирования, pythontutor.ru или курс на Stepik от Института Биоинформатики, посоветую несколько шагов, которые должны стать твердой базой. Далее ссылки все полные, чтобы было легче копировать:
- Зарегистрироваться в самом популярном в СНГ профессиональном slack-сообществе Open Data Science ODS.ai, вступить в как можно больше чатов, в том числе про менторство, обучение и карьеру и общаться с местными, чтобы расширить свой кругозор относительно работодателей, требований к прохождению интервью, к позиции и их различиях в разных компаниях и др, найти хороших наставников, тк. такие в сообществе есть!
- Пройти вводный курс «Математика и Python для анализа данных» на Coursera — платный, недорогой и хороший. www.coursera.org/learn/mathematics-and-python
- По программированию — пройти в leetcode.com все релевантные упражнения: это бесплатные или недорогие в премиальной версии в соотношении цена/качество тренажеры (в нем есть в том числе упражнения на интервью в FAANG).
- Пройти mlcourse.ai — это открытый курс машинного обучения от ODS. Авторы смогли разработать курс машинного обучения с балансом между теорией и практикой, когда в лекции вы разбираете достаточно подробно математику, а затем упражняетесь сначала в блокноте, затем на Kaggle.
- Для обучения решению разнообразных задач и оптимизации кода — участвовать в соревнованиях по анализу данных и машинному обучению на платформе kaggle.com.
Математика для DS/ML
- Приятный курс Стэнфорда по DS “Introduction to Statistics” www.coursera.org/learn/stanford-statistics
- Коротенький интерактивный курс по теории вероятностей и математической статистике “Seeing Theory” seeing-theory.brown.edu/
- Хороший вводный курс по математике для анализа данных, более объёмный “Специализация Математика для анализа данных:. Можно послушать только интересную тему: дискретная математика / линейная алгебра / математический анализ / теория вероятностей. www.coursera.org/specializations/maths-for-data-analysis
- Довольно подробная и читаемая книга по теорверу и матстату “Dekking, A Modern Introduction to Probability and Statistics” cis.temple.edu/~latecki/Courses/CIS2033-Spring13/Modern_intro_probability_statistics_Dekking05.pdf
Python&SQL для DS/ML
- Упомянутый выше бесплатный тренажер по Python с нуля: pythontutor.ru/
- Отличный курс по инструментам по DS от IBM “Специализация Data Science Fundamentals with Python and SQL” www.coursera.org/specializations/data-science-fundamentals-python-sql
- Упомянутый выше русский курс по питону и математике (платный, недорогой и хороший) “Математика и Python для анализа данных (Coursera)” www.coursera.org/learn/mathematics-and-python
- Упомянутый выше https://leetcode.com/: пройти все релевантные упражнения, это бесплатные или недорогие в премиальной версии в соотношении цена/качество тренажеры (в нем есть в том числе упражнения на интервью в FAANG).
Начальные курсы по ML
- Как бы этот курс не ругали из-за устаревшего языка программирования Octave (на котором пишут на Matlab), на мой вкус — это пока что самый простой и понятный курс по ML. Машинное обучение (Coursera) https://www.coursera.org/learn/machine-learning — стэнфордский курс по машинному обучению от Andrew Ng
- mlcourse.ai — это открытый курс машинного обучения от ODS. Авторы смогли разработать курс машинного обучения с балансом между теорией и практикой, когда в лекции вы разбираете достаточно подробно математику, а затем упражняетесь сначала в блокноте, затем на Kaggle.
Более продвинутые курсы по ML
- Если хочется погрузиться в математические доказательства методов машинного обучения, то есть прекрасные ШАДовские лекции К.В. Воронцова: плейлист “Курс «Машинное обучение» 2019” на YouTube-канале “Компьютерные науки», www.youtube.com/watc? v=SZkrxWhI5qM&list=PLJOzdkh8T5krxc4HsHbB8g8f0hu7973fK&index=2
- Также хорош ежегодный гарвардский курс «Advanced Topics in Data Science CS109B». harvard-iacs.github.io/2020-CS109B/
- Или курс по углубленным алгоритмам Advanced ML от ВШЭ: «Специализация Продвинутое машинное обучение» www.coursera.org/specializations/aml
Deep learning
(Мне кажется, можно пройти один курс из списка, а остальные смотреть на предмет дополнений)
- Рекомендованный Стэнфордовский курс по DL «CS231n: Convolutional Neural Networks for Visual Recognition» cs231n.github.io/
- Хороший курс от Университета Карнеги—Меллон “11-785 Introduction to Deep Learning” deeplearning.cs.cmu.edu/F21/index.html
- Курс от MIT: «Practical Deep Learning for Coders» https://course.fast.ai/
- ШАДовский курс по глубокому обучению доступен в github: «Practical_DL» github.com/yandexdataschool/Practical_DL
- Бесплатные классные курсы от МФТИ: dlschool.org/
- Также есть курс по DL у ODS.ai, который тоже советуют проходить в самом сообществе: «Deep Learning на пальцах» dlcourse.ai/
- А еще есть курс у Samsung AI Research Center на Stepik.org stepik.org/course/50352/info
Телеграм каналы и паблики для изучения науки о данных.
- https://t.me/ai_machinelearning_big_data – канал о машинном обучении с огромным количеством датасетов, проектов, курсов и статей о науке о данных и машинном обучении.
- https://t.me/data_analysis_ml – все о анализе данных.
- https://t.me/machinelearning_ru – машинное обучении на русским от новичка до профессионала.
- https://t.me/machinelearning_interview – подготовка к собеседования Data Science
- https://t.me/datascienceiot – бесплатные книги Machine learning
- https://t.me/ArtificialIntelligencedl – канал о искусственном интеллекте
- https://t.me/neural – все о нейронных сетях
- https://t.me/machinee_learning – чат о машинном обучении
- https://t.me/pythonl – python для датасаентиста
- https://t.me/pro_python_code – python на русском
- https://t.me/python_job_interview – подготовка к Python собесеедованию
- https://vk.com/mashinnoe_obuchenie_ai_big_data – vk машинное обучение
- https://vk.com/python_django_programirovanie – python vk
Natural Language Processing
- Стэнфордовский «CS224n: Natural Language Processing with Deep Learning » web.stanford.edu/class/cs224n/
- ШАДовский «NLP Course (Lena Voita, Github)» lena-voita.github.io/nlp_course.html
- Оксфордовский «DL for NLP», правда 2016-2017 г www.cs.ox.ac.uk/teaching/courses/2016-2017/dl/
- Второй курс у Samsung AI Research Center на Stepik.org https://stepik.org/course/54098/promo
Reinforcement Learning & Self-driving cars
- ШАДовский «Practical RL»: github.com/yandexdataschool/Practical_RL
- От Deepmind “RL Course by David Silver” www.youtube.com/watc? v=2pWv7GOvuf0
- Курс от ETH & Toyota: «Self-Driving Cars with Duckietown» www.edx.org/course/self-driving-cars-with-duckietown
- Выгруженные лекции курса Udacity courseclub.me/1-udacity-intro-to-self-driving-cars-v1-0-0/
- Австралийский курс StarAi «Deep Reinforcement Learning Course » www.starai.io/course/
Data Engineering & MLOps
- Cookbook на Github.com github.com/andkret/Cookbook
- Бесплатный курс по DE от Дмитрия Аношина, дата-инженера из Microsoft, ex-Amazon: Getting start with Data Engineering and Analytics https://datalearn.ru/ (курс готовится in progress)
Соревнования
Ну, и для обучения решению разнообразных задач и оптимизации кода — участвуйте в Kaggle. https://kaggle.com/
Кроме Kaggle, есть еще несколько соревнований:
- По RL от AWS: AWS DeepRacer https://aws.amazon.com/deepracer/
- Crowdsourcing AI (Alcrowd) https://www.aicrowd.com/
- По RL от MIT: Battlecode https://battlecode.org/
- По RL от open.ai: Gym https://gym.openai.com/
- От Mail.Ru Group: AI Cup https://russianaicup.ru/
- От Yandex: Yandex Cup ML Challenge https://yandex.com/cup/ml/
- CodeCup https://www.codecup.nl/intro.php