38 лучших библиотек для Data Science, Визуализации данных и Машинного Обучения.
Прошло некоторое время с тех пор, как мы в последний раз проводили обзор на библиотеки по машинному обучению. В связи с этим мы воспользовались возможностью закончить декабрь именно с такого свежего списка.
Как мы составляли список из 38-и лучших Python-библиотек для Data Science
Мы решили, что будем группировать все библиотеки по общим признакам, будь то библиотеки для машинного обучения или библиотеки для математики. Тем не менее, все 38 из них будут полезны для разработки в Data Science.
Если быть точнее, то разделение произошло на 6 категорий:
- Данные. Библиотеки для различных манипуляций данными
- Математика. Библиотеки для решения сложных математических выражений
- Машинное обучение. Не требует пояснений; Библиотеки, предназначенных в первую очередь для построения нейронных сетей или для автоматизации процессов машинного обучения
- Автоматизация машинного обучения. Библиотеки, которые в первую очередь предназначены для автоматизации процессов, связанных с машинным обучением
- Визуализация данных. Библиотеки, которые выполняют функцию, связанную с визуализацией данных, в отличие от моделирования, предварительной обработки и т.д.
- Объяснение и исследование. Библиотеки для изучения и объяснения моделей или данных.
Наш список составлен из библиотек, которые, по общему мнению нашей команды, являются очень полезными для Data Science. Кроме того, для включения в список, библиотека должна иметь репозиторий Github. Библиотеки не составляют общий топ, все они расположены в произвольном порядке.
Лучшие библиотеки Python для взаимодействия с данными
1. Apache Spark
Звёзд: 27600, Сохранений: 28197, Активность: 1638
Apache Spark – уникальный аналитический движок для крупномасштабной обработки данных.
2. Pandas
Звёзд: 26800, Сохранений: 24300, Активность: 2126
Pandas – это библиотека Python, которая предоставляет быстрые, гибкие и выразительные структуры данных, предназначенные для того, чтобы сделать работу простой и интуитивно понятной.
3. Dask
Звёзд: 7300, Сохранений: 6149, Активность: 393
Параллельные вычисления с планированием задач
Лучшие библиотеки Python для работы с математикой
4. Scipy
Звёзд: 7500, Сохранений: 24247, Активность: 914
SciPy – это программное обеспечение с открытым исходным кодом для математики, естественных наук и инженерии. Библиотека включает в себя модули для статистики, оптимизации, интеграции, линейной алгебры, преобразований Фурье, обработки сигналов и изображений, решателей ODE и многого другого.
5. Numpy
Звёзд: 1500, Сохранений: 24266, Активность: 1010
Фундаментальный пакет для научных вычислений с использованием Python.
Лучшие библиотеки Python для работы с машинным обучением
6. Scikit-Learn
Звёзд: 42500, Сохранений: 26162, Активность: 1881
Scikit-learn – это модуль Python для машинного обучения, построенный поверх SciPy.
7. XGBoost
Звёзд: 19900, Сохранений: 5015, Активность: 461
Масштабируемая, портативная библиотека для Python, R, Java, Scala, C++ и других языков. Работает на одной механизме с Hadoop, Spark, Flink и DataFlow.
8. LightGBM
Звёзд: 11600, Сохранений: 2066, Активность: 172
Быстрая, высокопроизводительная платформа, основанная на древовидных структурах данных, используемая для ранжирования, классификации и многих других задач машинного обучения.
9. Catboost
Звёзд: 5400, Сохранений: 12936, Активность: 188
Быстрая, масштабируемая, высокопроизводительная библиотека, используемая для ранжирования, классификации, регрессии и других задач машинного обучения для Python, R, Java, C++. Поддерживает вычисления на CPU и GPU.
10. Dlib
Звёзд: 9500, Сохранений: 7868, Активность: 146
Dlib – это современный инструментарий C++, содержащий алгоритмы машинного обучения и инструменты для создания сложного программного обеспечения на C++ для решения реальных задач. Может интегрироваться в Python через библиотеку dlib.
11. Annoy
Звёзд: 7700, Сохранений: 778, Активность: 53
Библиотека выполняет функционал использования памяти и загрузки / сохранения на диск.
12. H20ai
Звёзд: 500, Сохранений: 27894, Активность: 137
Быстрая масштабируемая платформа машинного обучения с открытым исходным кодом.
13. StatsModels
Звёзд: 5600, Сохранений: 13446, Активность: 247
Статистическое моделирование и эконометрика на Python.
14. mlpack
Звёзд: 3400, Сохранений: 24576, Активность: 190
понятная, быстрая и гибкая библиотека машинного обучения C++ с привязками к другим языкам
15. Pattern
Звёзд: 7600, Сохранений: 1434, Активность: 20
Модуль веб-майнинга для Python с инструментами для очистки, обработки естественного языка, машинного обучения, сетевого анализа и визуализации.
16. Prophet
Звёзд: 11500, Сохранений: 595, Активность: 106
Инструмент для создания высококачественных прогнозов для данных временных рядов.
Лучшие библиотеки Python для автоматизации машинного обучения
17. TPOT
Звёзд: 7500, Сохранений: 2282, Активность: 66
Автоматизированный инструмент для машинного обучения на Python.
18. auto-sklearn
Звёзд: 4100, Сохранений: 2343, Активность: 52
auto-sklearn – это автоматизированный инструментарий машинного обучения, который заменяет scikit-learn.
19. Hyperopt-sklearn
Звёзд: 1100, Сохранений: 188, Активность: 18
Данная библиотека основана на Hyperopt. Её целью является выбор среди алгоритмов машинного обучения.
20. SMAC-3
Звёзд: 529, Сохранений: 1882, Активность: 29
Библиотека для последовательного выстраивания автоматизации машинного обучения.
21. scikit-optimize
Звёзд: 1900, Сохранений: 1540, Активность: 59
Scikit-Optimize или skopt – это простая и эффективная библиотека для минимизации (очень) дорогих и шумных функций. Она реализует несколько методов последовательной оптимизации на основе моделей.
22. Nevergrad
Звёзд: 2700, Сохранений: 663, Активность: 38
Набор инструментов Python для выполнения оптимизации без использования градиентов.
23. Optuna
Звёзд: 3500, Сохранений: 7749, Активность: 97
Optuna – это программный фреймворк, разработанный для автоматизации машинного обучения.
Лучшие библиотеки Python для визуализации данных
24. Apache Superset
Звёзд: 30300, Сохранений: 5833, Активность: 492
Apache Superset – это библиотека для визуализации и исследования данных.
25. Matplotlib
Звёзд: 12300, Сохранений: 36716, Активность: 1002
Matplotlib – это комплексная библиотека для создания статических, анимированных и интерактивных визуализаций на Python.
26. Plotly
Звёзд: 7900, Сохранений: 4604, Активность: 137
Plotly – это интерактивная библиотека построения графиков с открытым исходным кодом на основе браузера для Python
27. Seaborn
Звёзд: 7700, Сохранений: 2702, Активность: 126
Seaborn – это библиотека визуализации на Python, основанная на matplotlib. Она предоставляет из себя высокоуровневый интерфейс для рисования привлекательных графиков.
28. folium
Звёзд: 4900, Сохранений: 1443, Активность: 109
Управляйте своими данными на Python, затем визуализируйте их в виде карты-листовки с помощью библиотеки folium.
29. Bqplot
Звёзд: 2900, Сохранений: 3178, Активность: 45
Bqplot – это система 2D визуализации для Jupyter, основанная на конструкциях графиков.
30. VisPy
Звёзд: 2500, Сохранений: 6352, Активность: 117
VisPy – это высокопроизводительная интерактивная библиотека визуализации 2D /3D данных. VisPy использует вычислительную мощность современных графических процессоров (GPU) через библиотеку OpenGL для отображения очень больших наборов данных.
31. PyQtgraph
Звёзд: 2200, Сохранений: 2200, Активность: 142
Быстрая визуализация данных и инструменты графического интерфейса для научных / инженерных приложений.
32. Bokeh
Звёзд: 1400, Сохранений: 18726, Активность: 467
Bokeh – это интерактивная библиотека визуализации для современных веб-браузеров. Она обеспечивает элегантное, лаконичное построение универсальной графики и обеспечивает высокопроизводительную интерактивность при работе с большими или потоковыми наборами данных.
33. Altair
Звёзд: 600, Сохранений: 3031, Активность: 106
Altair – это библиотека статистической визуализации для Python.
Лучшие библиотеки Python для объяснения и исследования
34. eli5
Звёзд: 2200, Сохранений: 1198, Активность: 15
Библиотека для отладки /проверки классификаторов машинного обучения и объяснения их предсказаний.
35. LIME
Звёзд: 800, Сохранений: 501, Активность: 41
Объяснение прогнозов любого классификатора машинного обучения.
36. SHAP
Звёзд: 10400, Сохранений: 1376, Активность: 96
Теоретико-игровой подход для объяснения результатов любой модели машинного обучения.
37. YellowBrick
Звёзд: 300, Сохранений: 825, Активность: 92
Визуальный анализ и диагностические инструменты для облегчения выбора модели машинного обучения.
38. pandas-profiling
Звёзд: 6200, Сохранений: 704, Активность: 47
Создаёт форму подробного HTML-отчёта, содержащего большую часть тех сведений об анализируемых данных, которые может понадобиться знать перед тем, как приступать к более плотной работе с ними.
Пишите в комментариях библиотеки, которые вы используете в своей работе.