Математика для Data Scientist. Книги, курсы, лекции и рекомендации.
Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.
Для специалиста Data Science важны следующие направления математики:
- статистика;
- теория вероятностей;
- математический анализ;
- линейная алгебра.
Статистика и теория вероятностей
Сложно переоценить важность знания статистики для Data Scientist любого уровня. Все классическое machine learning основано на statistical learning. Более того, на нем же основываются стандартные A/B-тесты.
Источники для вдохновения:
All of Statistics
Larry Wasserman
Как пишет сам автор: «This book is for people who want to learn probability and statistics quickly».
В книге даются все основные положения теории вероятностей и статистики.
Топовые бесплатные курсы по статистике
- Khan Academy Statistics and probability series (beginner-friendly).
- Seeing Theory: A visual introduction to probability and statistics.
- Intro to Descriptive Statistics from Udacity.
- Intro to Inferential Statistics from Udacity.
- Statistics with R Specialization from Coursera.
- Stanford CS229 Probability Theory review.
Основы статистики (3 части)
Образовательная платформа Stepik
Курс по статистике для новичков. Охватывает все элементарные понятия.
Statistics Fundamentals Succinctly Katharine
Alexis Kormanik
В предыдущей статье уже была рекомендована эта книга, но повторить будет не лишним. 🙂
В первых разделах приведены основные определения с иллюстрациями и комментариями, в последних раскрывается значимость T- и Z-тестов. Материалы изложены доступным языком, с минимально необходимым математическим аппаратом. Это руководство — отличное введение в статистику с точки зрения практики.
Теория вероятностей и математическая статистика
Н. Ш. Кремер
Учебник ориентирован на экономистов, поэтому сложность и глубина понятий не шокирует новичка в Data Science. Подходит для изучения основ перед погружением в профильную литературу.
Теория вероятностей и математическая статистика
А. И. Кибзун, Е. Р. Горяинова, А. В. Наумов, А. Н. Сиротин
Этот базовый курс дает более глубокие представления, чем предыдущий. Кроме
теории включает практические задания и справочные материалы.
Основные понятия теории вероятностей и математической статистики
М. Я. Кельберт, Ю. М. Сухов
Прекрасный вариант для тех, кто уже хорошо знаком с темой и хочет получить более глубокие знания.
Бонус
Математический анализ
На первый взгляд это направление необходимо больше в стенах университетов, однако без него не удастся разобраться с backpropagation или качественно освоить курс по deep learning.
Восполнив пробелы в статистике, самое время приступить к изучению материалов по этому разделу. А их превеликое множество.
Calculus
edX
Курс от Массачусетского технологического института, состоящий из 3 частей:
- Calculus 1A: Differentiation — курс о нахождении производной, ее геометрической интерпретации и физическом смысле.
- Calculus 1B: Integration — курс о нахождении интеграла, его связи с производной и применении в инженерном проектировании, научном анализе, теории вероятностей и статистике.
- Calculus 1C: Coordinate Systems & Infinite Series — курс об исчислении кривых, системах координат, приближении функций к полиномам и бесконечных рядах. Все это необходимо для построения математических моделей реального мира.
Calculus One
Образовательная платформа Coursera
Курс ориентирован на новичков, но удобная подача материала поможет освежить память и бывалым Data Scientist.
Khan Academy
Образовательная платформа
Разнообразные материалы, представленные на ресурсе, отлично подойдут для старта изучения математики, программирования и информатики.
Calculus
James Stewart
Книга славится тщательно проработанным содержанием и довольно простым языком.
Курс математического анализа
Л. Д. Кудрявцев
Для тех, кто хочет получить более фундаментальные знания о дифференциальных и интегральных исчислениях, теории рядов, функциональном и гармоническом анализе.
Также можно обратить внимание на два курса от MIT:
- Single Variable Calculus — курс для самостоятельного изучения дифференцирования, интегральных исчислений и бесконечных рядов.
- Multivariable Calculus — еще один курс для самостоятельного изучения дифференцирования, а также интегрального и векторного исчислений функций нескольких переменных.
Линейная алгебра
Без этого раздела математики не получится разработать методы machine learning, смоделировать поведение различных объектов или оптимизировать процесс кластеризации и уменьшения размерности описания данных.
Linear Algebra
Georgi E. Shilov
В учебнике изложен прекрасно проработанный материал. Книга подойдет для изучения вводного курса в линейную алгебру.
Линейная алгебра
В. А. Ильин, Э. Г. Позняк
Этот учебник был написан на базе лекций преподавателей физического факультета МГУ. Все материалы изложены доступным языком и подойдут для глубокого изучения основных теорий линейной алгебры.
Линейная алгебра нужна в машинном обучении, чтобы понять, как алгоритмы работают под капотом. Все дело в векторных/матричных/тензорных операциях; никакой черной магии!
Вот список крутых бесплатных курсов от ведущих вузов мира:
- @machinelearning_interview( разбор вопросов с собеседований и практические мл задачи).
- Coding the Matrix course (курс и книги).
- 3Blue1Brown Linear Algebra series.
- fast.ai Linear Algebra for coders course, очень актуальный ML курс от FastaAI.
- The first course in Coursera Mathematics for Machine Learning specialization.
- “Introduction to Applied Linear Algebra — Vectors, Matrices, and Least Squares” книга.
- MIT Linear Algebra course,учебный курс Linear Algebra от MIT. Он раскрывает теорию матриц и положения линейной алгебры.
- Stanford CS229 Linear Algebra review. линейная Алгбра от Стенфорда