38 лучших библиотек для Data Science, Визуализации данных и Машинного Обучения.

Прошло некоторое время с тех пор, как мы в последний раз проводили обзор на библиотеки по машинному обучению. В связи с этим мы воспользовались возможностью закончить декабрь именно с такого свежего списка.

Как мы составляли список из 38-и лучших Python-библиотек для Data Science

Мы решили, что будем группировать все библиотеки по общим признакам, будь то библиотеки для машинного обучения или библиотеки для математики. Тем не менее, все 38 из них будут полезны для разработки в Data Science.

Если быть точнее, то разделение произошло на 6 категорий:

  • Данные. Библиотеки для различных манипуляций данными
  • Математика. Библиотеки для решения сложных математических выражений
  • Машинное обучение. Не требует пояснений; Библиотеки, предназначенных в первую очередь для построения нейронных сетей или для автоматизации процессов машинного обучения
  • Автоматизация машинного обучения. Библиотеки, которые в первую очередь предназначены для автоматизации процессов, связанных с машинным обучением
  • Визуализация данных. Библиотеки, которые выполняют функцию, связанную с визуализацией данных, в отличие от моделирования, предварительной обработки и т.д.
  • Объяснение и исследование. Библиотеки для изучения и объяснения моделей или данных.

Наш список составлен из библиотек, которые, по общему мнению нашей команды, являются очень полезными для Data Science. Кроме того, для включения в список, библиотека должна иметь репозиторий Github. Библиотеки не составляют общий топ, все они расположены в произвольном порядке.

38 лучших библиотек для Data Science, Визуализации данных и Машинного Обучения.
Рисунок 1: Лучшие библиотеки Python для Data Science, визуализации данных и машинного обучения
Расположены по количеству звезд и количеству участников.

Лучшие библиотеки Python для взаимодействия с данными

1. Apache Spark

Звёзд: 27600, Сохранений: 28197, Активность: 1638

Apache Spark – уникальный аналитический движок для крупномасштабной обработки данных.

2. Pandas

Звёзд: 26800, Сохранений: 24300, Активность: 2126

Pandas – это библиотека Python, которая предоставляет быстрые, гибкие и выразительные структуры данных, предназначенные для того, чтобы сделать работу простой и интуитивно понятной.

3. Dask

Звёзд: 7300, Сохранений: 6149, Активность: 393

Параллельные вычисления с планированием задач

Лучшие библиотеки Python для работы с математикой

4. Scipy

Звёзд: 7500, Сохранений: 24247, Активность: 914

SciPy – это программное обеспечение с открытым исходным кодом для математики, естественных наук и инженерии. Библиотека включает в себя модули для статистики, оптимизации, интеграции, линейной алгебры, преобразований Фурье, обработки сигналов и изображений, решателей ODE и многого другого.

5. Numpy

Звёзд: 1500, Сохранений: 24266, Активность: 1010

Фундаментальный пакет для научных вычислений с использованием Python.

Лучшие библиотеки Python для работы с машинным обучением

6. Scikit-Learn

Звёзд: 42500, Сохранений: 26162, Активность: 1881

Scikit-learn – это модуль Python для машинного обучения, построенный поверх SciPy.

7. XGBoost

Звёзд: 19900, Сохранений: 5015, Активность: 461

Масштабируемая, портативная библиотека для Python, R, Java, Scala, C++ и других языков. Работает на одной механизме с Hadoop, Spark, Flink и DataFlow.

8. LightGBM

Звёзд: 11600, Сохранений: 2066, Активность: 172

Быстрая, высокопроизводительная платформа, основанная на древовидных структурах данных, используемая для ранжирования, классификации и многих других задач машинного обучения.

9. Catboost

Звёзд: 5400, Сохранений: 12936, Активность: 188

Быстрая, масштабируемая, высокопроизводительная библиотека, используемая для ранжирования, классификации, регрессии и других задач машинного обучения для Python, R, Java, C++. Поддерживает вычисления на CPU и GPU.

10. Dlib

Звёзд: 9500, Сохранений: 7868, Активность: 146

Dlib – это современный инструментарий C++, содержащий алгоритмы машинного обучения и инструменты для создания сложного программного обеспечения на C++ для решения реальных задач. Может интегрироваться в Python через библиотеку dlib.

11. Annoy

Звёзд: 7700, Сохранений: 778, Активность: 53

Библиотека выполняет функционал использования памяти и загрузки / сохранения на диск.

12. H20ai

Звёзд: 500, Сохранений: 27894, Активность: 137

Быстрая масштабируемая платформа машинного обучения с открытым исходным кодом.

13. StatsModels

Звёзд: 5600, Сохранений: 13446, Активность: 247

Статистическое моделирование и эконометрика на Python.

14. mlpack

Звёзд: 3400, Сохранений: 24576, Активность: 190

понятная, быстрая и гибкая библиотека машинного обучения C++ с привязками к другим языкам

15. Pattern

Звёзд: 7600, Сохранений: 1434, Активность: 20

Модуль веб-майнинга для Python с инструментами для очистки, обработки естественного языка, машинного обучения, сетевого анализа и визуализации.

16. Prophet

Звёзд: 11500, Сохранений: 595, Активность: 106

Инструмент для создания высококачественных прогнозов для данных временных рядов.

Лучшие библиотеки Python для автоматизации машинного обучения

17. TPOT

Звёзд: 7500, Сохранений: 2282, Активность: 66

Автоматизированный инструмент для машинного обучения на Python.

18. auto-sklearn

Звёзд: 4100, Сохранений: 2343, Активность: 52

auto-sklearn – это автоматизированный инструментарий машинного обучения, который заменяет scikit-learn.

19. Hyperopt-sklearn

Звёзд: 1100, Сохранений: 188, Активность: 18

Данная библиотека основана на Hyperopt. Её целью является выбор среди алгоритмов машинного обучения.

20. SMAC-3

Звёзд: 529, Сохранений: 1882, Активность: 29

Библиотека для последовательного выстраивания автоматизации машинного обучения.

21. scikit-optimize

Звёзд: 1900, Сохранений: 1540, Активность: 59

Scikit-Optimize или skopt – это простая и эффективная библиотека для минимизации (очень) дорогих и шумных функций. Она реализует несколько методов последовательной оптимизации на основе моделей.

22. Nevergrad

Звёзд: 2700, Сохранений: 663, Активность: 38

Набор инструментов Python для выполнения оптимизации без использования градиентов.

23. Optuna

Звёзд: 3500, Сохранений: 7749, Активность: 97

Optuna – это программный фреймворк, разработанный для автоматизации машинного обучения.

Лучшие библиотеки Python для визуализации данных

24. Apache Superset

Звёзд: 30300, Сохранений: 5833, Активность: 492

Apache Superset – это библиотека для визуализации и исследования данных.

25. Matplotlib

Звёзд: 12300, Сохранений: 36716, Активность: 1002

Matplotlib – это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python.

26. Plotly

Звёзд: 7900, Сохранений: 4604, Активность: 137

Plotly – это интерактивная библиотека построения графиков с открытым исходным кодом на основе браузера для Python

27. Seaborn

Звёзд: 7700, Сохранений: 2702, Активность: 126

Seaborn – это библиотека визуализации на Python, основанная на matplotlib. Она предоставляет из себя высокоуровневый интерфейс для рисования привлекательных графиков.

28. folium

Звёзд: 4900, Сохранений: 1443, Активность: 109

Управляйте своими данными на Python, затем визуализируйте их в виде карты-листовки с помощью библиотеки folium.

29. Bqplot

Звёзд: 2900, Сохранений: 3178, Активность: 45

Bqplot – это система 2D визуализации для Jupyter, основанная на конструкциях графиков.

30. VisPy

Звёзд: 2500, Сохранений: 6352, Активность: 117

VisPy – это высокопроизводительная интерактивная библиотека визуализации 2D /3D данных. VisPy использует вычислительную мощность современных графических процессоров (GPU) через библиотеку OpenGL для отображения очень больших наборов данных.

31. PyQtgraph

Звёзд: 2200, Сохранений: 2200, Активность: 142

Быстрая визуализация данных и инструменты графического интерфейса для научных / инженерных приложений.

32. Bokeh

Звёзд: 1400, Сохранений: 18726, Активность: 467

Bokeh – это интерактивная библиотека визуализации для современных веб-браузеров. Она обеспечивает элегантное, лаконичное построение универсальной графики и обеспечивает высокопроизводительную интерактивность при работе с большими или потоковыми наборами данных.

33. Altair

Звёзд: 600, Сохранений: 3031, Активность: 106

Altair – это библиотека статистической визуализации для Python.

Лучшие библиотеки Python для объяснения и исследования

34. eli5

Звёзд: 2200, Сохранений: 1198, Активность: 15

Библиотека для отладки /проверки классификаторов машинного обучения и объяснения их предсказаний.

35. LIME

Звёзд: 800, Сохранений: 501, Активность: 41

Объяснение прогнозов любого классификатора машинного обучения.

36. SHAP

Звёзд: 10400, Сохранений: 1376, Активность: 96

Теоретико-игровой подход для объяснения результатов любой модели машинного обучения.

37. YellowBrick

Звёзд: 300, Сохранений: 825, Активность: 92

Визуальный анализ и диагностические инструменты для облегчения выбора модели машинного обучения.

38. pandas-profiling

Звёзд: 6200, Сохранений: 704, Активность: 47

Создаёт форму подробного HTML-отчёта, содержащего большую часть тех сведений об анализируемых данных, которые может понадобиться знать перед тем, как приступать к более плотной работе с ними.

Пишите в комментариях библиотеки, которые вы используете в своей работе.

+1
0
+1
4
+1
1
+1
0
+1
1