12 бесплатных материалов по статистике – разберется каждый

Многие из ошибок, совершаемые аналитиками, да и не только аналитиками, но и продактами, предпринимателями, маркетологами вызваны непониманием концепций статистики, что приводит к запуску неправильного теста или неправильной интерпретации результатов. Поэтому тут…

Решение крупномасштабных задач машинного обучения на Python

Итак, начнем! Прежде всего, установим библиотеку xLearn с помощью команды pip: Для импорта библиотеки xlearn используем следующую команду: Если у вас возникнут проблемы при импорте xLearn, попробуйте проделать шаги, приведенные в…

Как предсказывать загрязнение воздуха с помощью нейросетей

Кратко о данных. Специальное оборудование производило замеры содержания в воздухе различных газов и взвешенных частиц, температуры воздуха, скорости ветра, атмосферного давления, даты и времени. Измерения производились каждые 20 минут в…

Pandas и Python: Полезные советы и рекомендации по науке о данных и анализу данных

Здесь мы приведем все приемы и советы Pandas и Python, которые вы можете использовать в дальнейшем в своих проектах. Содержание разделено на два основных раздела: Также предоставляются видео с канала YouTube. Каждое видео…

Нейросеть превращает фото людей в персонажей аниме

За последние две недели в интернете будто бы не происходит ничего интереснее, чем тестирование разных нейросетей. Пока в рунете пытаются нарисовать Карлсона на Midjourney, в западном сегменте пользователи вовсю играют с нейронкой, которая способна сделать из вас аниме-персонажей по фотографии. Нейросеть получила…

Кто точно победит на чемпионате мира? Математическая модель предсказала лидера ЧМ по футболу в 2022 году

Пользователь Piero Paialunga провёл математический эксперимент: он построил модель, которая предсказала победителя Чемпионата мира по футболу в 2022 году. Математическая модель учитывает данные прошлых лет и показатели сборных. Дисклеймер: не используйте модель…

Почему точные модели не всегда полезны в машинном обучении.

Для начала позволю себе заметить, что в интернете есть много качественного технического контента, посвященного оцениванию моделей. Такие метрики, как F1-score (гармоническое среднее), MSE (средняя квадратическая ошибка), MAE (среднее абсолютное отклонение),…

CRISP-DM: проверенная методология для Data Scientist-ов

Постановка задач машинного обучения математически очень проста. Любая задача  классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов…

Ускорение Python на графических процессорах с помощью nvc++ и Cython 

Стандартная библиотека C++ содержит богатую коллекцию контейнеров, итераторов и алгоритмов, которые можно составить для получения элегантных решений сложных проблем. Что наиболее важно, они быстрые, что делает C++ привлекательным выбором для написания…

Numpy для машинного обучения 1 часть.Как рассчитать мощность матрицы.

Numpy linalg.matrix_rank() используется для вычисления степени n квадратной матрицы. Что это означает, что  если у нас есть квадратная матрица M и целое число n, и эта функция используется для вычисления Mn? Numpy linalg matrix_power() Чтобы вычислить степень матрицы m, используйте…

Ансамбли моделей для распознавания рукописных цифр

Применение нескольких моделей машинного обучения для решения задачи является частой практикой и данная технология преимущественно выигрывает по качеству по сравнению с одной моделью. Однако, для успешного результата такой технологии необходимо…

Как получить данные в нужном формате с помощью Pandas

Всем дата-сайентистам хорошо известно: данные никогда не будут такими, какими вы хотите их видеть. Вы можете получить сколько-нибудь упорядоченный спредшит или более-менее точные табличные данные, но в любом случае вам…

24 Важные функции Pandas, которые необходимо знать для каждого анализа данных

Python — один из самых популярных и быстрорастущих языков программирования в мире. Он имеет сильную поддержку сообщества, и вы можете найти пакет практически для любой области, такой как разработка программного…

23 сайта с дата сетами: для усиления портфолио аналитика

Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время. Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике. t.me/bigdatai –…

Понятие о визуализации данных в Pandas, если вы пришли из Excel

Прочитав много уроков по визуализации данных Pandas, я до сих пор не могу понять их механику. Создание даже простого сюжета всегда требует от меня изучения документации. И даже после запуска кода…

8 паттернов проектирования, которые должен знать каждый ML-разработчик

Паттерны проектирования предлагают комплексные решения проблем, с которыми разработчики сталкиваются каждый день. В этой статье мы рассмотрим 8 паттернов проектирования с примерами кода на Python. Паттерны проектирования в библиотеках…

Сегментация изображений с использованием сети обратного внимания

Проблемы Большинство методов семантической сегментации на основе СNN (convolutional neural network, сверточной нейронной сети) сосредоточены на простом получении правильных предсказаний без обучения модели различать классы. По этой причине характеристики менее распространенных классов…

Как увеличить скорость Pandas и обрабатывать 10 млн необработанных наборов данных за миллисекунды

За последние годы использование Pandas выросло в бесчисленное количество раз. Покажу вам, как использовать Pandas максимально быстрым способом. Потому что вы не можете ускорить то, что и так быстро работает.…

AWS Personalize для рекомендации новых фильмов пользователям на основе их оценок по сравнению с другими похожими фильмами.

Amazon Personalize позволяет разработчикам, не имеющим опыта машинного обучения, легко встраивать сложные возможности персонализации в свои приложения. С помощью Personalize вы предоставляете поток действий из своего приложения, а также список элементов,…