Коллаборативная фильтрация и ее реализация на Python.

Коллаборативная фильтрация и ее реализация на Python.

Последние несколько лет в интернет-магазинах, онлайн-кинотеатрах и других сервисах активно развиваются алгоритмы отслеживания интересов пользователей, на основе которых составляется индивидуальный список интересных товаров. Рекомендательные системы — win-win инструмент как для владельцев…

 Различные варианты визуализации данных с примерами кода.

 Различные варианты визуализации данных с примерами кода.

Визуализация данных — это большая часть работы специалистов в области data science. На ранних стадиях развития проекта часто необходимо выполнять разведочный анализ данных (РАД, Exploratory data analysis (EDA)), чтобы выявить закономерности, которые…

Градиентый бустинг — подробный разбор алгоритма машинного обучения.

Градиентый бустинг — подробный разбор алгоритма машинного обучения.

Хотя большинство победителей соревнований на Kaggle используют композицию разных моделей, одна из них заслуживает особого внимания, так как является почти обязательной частью. Речь, конечно, про Градиентный бустинг (GBM) и его вариации. Возьмем, например.…

Алгоритмы машинного обучения. Наивный байесовский алгоритм классификации: преимущества и недостатки

Алгоритмы машинного обучения. Наивный байесовский алгоритм классификации: преимущества и недостатки

Наивный байесовский классификатор (Naive Bayes classifier) – это очень популярный в машинном обучении алгоритм, который в основном используется для получения базовой точности набора данных. Изучим его преимущества и недостатки, а…

Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

Бывает, что компания ищет дата-сайентиста, а на самом деле ей нужен Python-разработчик. Поэтому при подготовке к собеседованию есть смысл освежить в памяти информацию по Python, а не только штудировать алгоритмы.…

50 новых инструментов для анализа и визуализации данных

50 новых инструментов для анализа и визуализации данных

50 новых инструментов, демократизирующих процесс анализа и визуализации данных от Леонардо Мерфи. Подобно тому как ранее мы стали свидетелями перехода на платформы сбора данных, работающие по принципу «сделай сам»,…

5 самых сложных примеров в SQL при аналитике данных.

5 самых сложных примеров в SQL при аналитике данных.

Многие из нас сталкивались в работе себе мощь скорости и эффективности, обеспечиваемую централизацией вычислений в облачном хранилище данных. Хотя это правда, многие из нас также осознали, что, как и…

10 скриптов автоматизации Python для решения ваших повседневных задач.

10 скриптов автоматизации Python для решения ваших повседневных задач.

Несколько скриптов для автоматизации ваших повседневных задач. Нижу будет приведен полный код Python программ. Почему в эпоху программирования мы все еще делаем то, что можем автоматизировать. Подумайте о задачах, которые…

Магия таблиц стилей Matplotlib. Пошаговая инструкция Визуализации данных на Python

Магия таблиц стилей Matplotlib. Пошаговая инструкция Визуализации данных на Python

Визуализация данных — важная компетенция любого специалиста по данным. К сожалению, создание готовых к публикации визуализаций данных занимает очень много времени и хорошего вкуса. В мире Python + Matplotlib специалисты…

Визуализация данных GeoJSON и GeoPandas

Визуализация данных GeoJSON и GeoPandas

Визуализация данных GeoJSON GeoJSON — это формат для кодирования различных структур географических данных. Делимся статьей, где автор демонстрирует визуализацию данных GeoJSON с помощью библиотеки GeoPandas. Построим карту данных регионы нью-йоркка.…

Использование GPT-3 для объяснения работы кода

<strong>Использование GPT-3 для объяснения работы кода</strong>

Языковая модель ИИ GPT-3 способна генерировать объяснение того, как работает код. Она поразительно эффективна в этом: ее обучающий набор включает огромное количество исходного кода. Делимся статьей, где автор демонстрирует работу…

Git для Аналитика данных: контроль версий моделей и датасетов с помощью DVC

Git для Аналитика данных: контроль версий моделей и датасетов с помощью DVC

Публикация представляет собой незначительно сокращенный перевод статьи Кристиана Иванчича Data Version Control With Python and DVC. *** Машинное обучение и наука о данных сопряжены с рядом задач, отличающихся от традиционной разработки…

Генерируем персонажей Властелина Колец с помощью Dall-E2

Генерируем персонажей Властелина Колец с помощью Dall-E2

Прежде чем мы углубимся в результаты, давайте поговорим о том, что такое искусственный интеллект Dall-E2. DALL·E 2 — это новая система искусственного интеллекта, которая может создавать реалистичные изображения и рисунки из…

В Сан-Франциско началось расследование аварии с беспилотным такси Cruise

В Сан-Франциско началось расследование аварии с беспилотным такси Cruise

Национальная администрация безопасности дорожного движения (НАБДД) расследует аварию с участием беспилотного такси Cruise. Агентство начало расследование аварии, произошедшей 3 июня в Сан-Франциско, в результате которой пассажиры обоих автомобилей получили легкие…

Двухэтапный кластерный анализ анализ данных.

Двухэтапный кластерный анализ анализ данных.

Процедура Двухэтапный кластерный анализ представляет собой средство разведочного анализа для выявления естественного разбиения набора данных на группы (или кластеры), которое без ее применения трудно обнаружить. Алгоритм, используемый этой процедурой, имеет…

Gato модель с миллиардами параметров от Deepmind

Gato модель с миллиардами параметров от Deepmind

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами. DeepMind обучила Gato…

Создание модели машинного обучения с помощью Google Colab без дополнительных настроек

Создание модели машинного обучения с помощью Google Colab без дополнительных настроек

Машинное обучение (МО) сейчас в тренде, поэтому неудивительно, что все компании хотят использовать его для улучшения своих продуктов или услуг. Мы наблюдаем растущий спрос на инженеров в сфере машинного обучения,…

Нейросетевой подход к моделированию транзакций расчетного счета

Нейросетевой подход к моделированию транзакций расчетного счета

Естественным источником информации в банке о покупках клиента являются карточные транзакции – любые операции, проводимые по дебетовым или кредитным картам. При этом денежные операции клиента не ограничиваются транзакциями, проводимыми с…