Решение крупномасштабных задач машинного обучения на Python

Решение крупномасштабных задач машинного обучения на Python

Итак, начнем! Прежде всего, установим библиотеку xLearn с помощью команды pip: Для импорта библиотеки xlearn используем следующую команду: Если у вас возникнут проблемы при импорте xLearn, попробуйте проделать шаги, приведенные в…

Как предсказывать загрязнение воздуха с помощью нейросетей

Как предсказывать загрязнение воздуха с помощью нейросетей

Кратко о данных. Специальное оборудование производило замеры содержания в воздухе различных газов и взвешенных частиц, температуры воздуха, скорости ветра, атмосферного давления, даты и времени. Измерения производились каждые 20 минут в…

Pandas и Python: Полезные советы и рекомендации по науке о данных и анализу данных

Pandas и Python: Полезные советы и рекомендации по науке о данных и анализу данных

Здесь мы приведем все приемы и советы Pandas и Python, которые вы можете использовать в дальнейшем в своих проектах. Содержание разделено на два основных раздела: Также предоставляются видео с канала YouTube. Каждое видео…

Нейросеть превращает фото людей в персонажей аниме

Нейросеть превращает фото людей в персонажей аниме

За последние две недели в интернете будто бы не происходит ничего интереснее, чем тестирование разных нейросетей. Пока в рунете пытаются нарисовать Карлсона на Midjourney, в западном сегменте пользователи вовсю играют с нейронкой, которая способна сделать из вас аниме-персонажей по фотографии. Нейросеть получила…

Кто точно победит на чемпионате мира? Математическая модель предсказала лидера ЧМ по футболу в 2022 году

Кто точно победит на чемпионате мира? Математическая модель предсказала лидера ЧМ по футболу в 2022 году

Пользователь Piero Paialunga провёл математический эксперимент: он построил модель, которая предсказала победителя Чемпионата мира по футболу в 2022 году. Математическая модель учитывает данные прошлых лет и показатели сборных. Дисклеймер: не используйте модель…

Почему точные модели не всегда полезны в машинном обучении.

Почему точные модели не всегда полезны в машинном обучении.

Для начала позволю себе заметить, что в интернете есть много качественного технического контента, посвященного оцениванию моделей. Такие метрики, как F1-score (гармоническое среднее), MSE (средняя квадратическая ошибка), MAE (среднее абсолютное отклонение),…

CRISP-DM: проверенная методология для Data Scientist-ов

CRISP-DM: проверенная методология для Data Scientist-ов

Постановка задач машинного обучения математически очень проста. Любая задача  классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов…

Ускорение Python на графических процессорах с помощью nvc++ и Cython 

Ускорение Python на графических процессорах с помощью nvc++ и Cython 

Стандартная библиотека C++ содержит богатую коллекцию контейнеров, итераторов и алгоритмов, которые можно составить для получения элегантных решений сложных проблем. Что наиболее важно, они быстрые, что делает C++ привлекательным выбором для написания…

Numpy для машинного обучения 1 часть.Как рассчитать мощность матрицы.

Numpy для машинного обучения 1 часть.Как рассчитать мощность матрицы.

Numpy linalg.matrix_rank() используется для вычисления степени n квадратной матрицы. Что это означает, что  если у нас есть квадратная матрица M и целое число n, и эта функция используется для вычисления Mn? Numpy linalg matrix_power() Чтобы вычислить степень матрицы m, используйте…

Ансамбли моделей для распознавания рукописных цифр

Ансамбли моделей для распознавания рукописных цифр

Применение нескольких моделей машинного обучения для решения задачи является частой практикой и данная технология преимущественно выигрывает по качеству по сравнению с одной моделью. Однако, для успешного результата такой технологии необходимо…

Как получить данные в нужном формате с помощью Pandas

Как получить данные в нужном формате с помощью Pandas

Всем дата-сайентистам хорошо известно: данные никогда не будут такими, какими вы хотите их видеть. Вы можете получить сколько-нибудь упорядоченный спредшит или более-менее точные табличные данные, но в любом случае вам…

100+ шпаргалок для аналитиков данных и data scientists

100+ шпаргалок для аналитиков данных и data scientists

Шпаргалки помогут: – огромный набор шпаргалок и наборов данных для датасаеннтистов Шпаргалки по SQL На английском: Шпаргалки по Python Шпаргалки по статистике Шпаргалки по Machine Learning Шпаргалки по Big…

24 Важные функции Pandas, которые необходимо знать для анализа данных

24 Важные функции Pandas, которые необходимо знать для анализа данных

Python — один из самых популярных и быстрорастущих языков программирования в мире. Он имеет сильную поддержку сообщества, и вы можете найти пакет практически для любой области, такой как разработка программного…

23 сайта с дата сетами: для усиления портфолио аналитика

23 сайта с дата сетами: для усиления портфолио аналитика

Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время. Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике. t.me/bigdatai –…

Понятие о визуализации данных в Pandas, если вы пришли из Excel

Понятие о визуализации данных в Pandas, если вы пришли из Excel

Прочитав много уроков по визуализации данных Pandas, я до сих пор не могу понять их механику. Создание даже простого сюжета всегда требует от меня изучения документации. И даже после запуска кода…

8 паттернов проектирования, которые должен знать каждый ML-разработчик

8 паттернов проектирования, которые должен знать каждый ML-разработчик

Паттерны проектирования предлагают комплексные решения проблем, с которыми разработчики сталкиваются каждый день. В этой статье мы рассмотрим 8 паттернов проектирования с примерами кода на Python. Паттерны проектирования в библиотеках…

Сегментация изображений с использованием сети обратного внимания

Сегментация изображений с использованием сети обратного внимания

Проблемы Большинство методов семантической сегментации на основе СNN (convolutional neural network, сверточной нейронной сети) сосредоточены на простом получении правильных предсказаний без обучения модели различать классы. По этой причине характеристики менее распространенных классов…

Как увеличить скорость Pandas и обрабатывать 10 млн необработанных наборов данных за миллисекунды

Как увеличить скорость Pandas и обрабатывать 10 млн необработанных наборов данных за миллисекунды

За последние годы использование Pandas выросло в бесчисленное количество раз. Покажу вам, как использовать Pandas максимально быстрым способом. Потому что вы не можете ускорить то, что и так быстро работает.…

AWS Personalize для рекомендации новых фильмов пользователям на основе их оценок по сравнению с другими похожими фильмами.

AWS Personalize для рекомендации новых фильмов пользователям на основе их оценок по сравнению с другими похожими фильмами.

Amazon Personalize позволяет разработчикам, не имеющим опыта машинного обучения, легко встраивать сложные возможности персонализации в свои приложения. С помощью Personalize вы предоставляете поток действий из своего приложения, а также список элементов,…

Наука о данных: структура проекта

Наука о данных: структура проекта

Почему необходимо использовать структуру проекта? Когда-то предпочтение было отдано структуре, но, в конце концов, все, что имеет значение, это то, что вам должно быть удобно перемещаться и писать код. Когда…