Как масштабировать многопроцессорность Python до кластера с помощью одной строчки кода

Как масштабировать многопроцессорность Python до кластера с помощью одной строчки кода

Программы начинаются с малого. Будь то исследовательский анализ данных или построение модели машинного обучения, важно как можно быстрее заставить что-то простое работать. Однако со временем требования меняются, и некогда небольшие…

Как создавать дашборды, которыми будут пользоваться

Как создавать дашборды, которыми будут пользоваться

Дашборд — это инструмент визуализации важных показателей бизнеса. Недавно, во время работы над очередным макетом, я понял, что далеко не все мои коллеги задумываются – будут ли люди пользоваться дашбордами,…

Основы биоинформатики. Работаем с биологическими данными.

Основы биоинформатики. Работаем с биологическими данными.

Каждый, кто слышит словосочетание “язык программирования”, наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки…

9 концепций Python, которые вы не должны пропустить для эффективной обработки данных

9 концепций Python, которые вы не должны пропустить для эффективной обработки данных

9 концепций, которые вы должны изучить для своих интервью по науке о данных С появлением Интернета бесконечные ресурсы доступны всего одним щелчком мыши, и в результате мы можем получить доступ…

6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

Алгоритмы машинного обучения делятся на контролируемые и неконтролируемые. Алгоритмы контролируемого обучения моделируют отношения между помеченными входными и выходными данными (также известными как целевые данные). Впоследствии такая модель используется для предсказания…

Как использовать MSE в науке о данных

Как использовать MSE в науке о данных

В большинстве описаний среднеквадратичной ошибки (mean square errore, MSE) упускается один важнейший нюанс: метрики и функции потерь  —  это не совсем одно и то же. Для оценки и оптимизации производительности модели в машинном обучении нужны две отдельные функции…

FILL-MASK моделирование!

FILL-MASK моделирование!

Fill-mask моделирование – это задача маскирования некоторых слов в предложении и дальнейшее предсказание, какие слова должны заменить данные маски. Подобный тип задач используется для обучения больших моделей, направленных на решение…

Продвинутая работа с данными. 7 фишек pandas для науки о данных

Продвинутая работа с данными. 7 фишек pandas для науки о данных

1. Анализ образцов датафреймов с помощью df.groupby().__iter__() Обычно исследовать набор данных строка за строкой или группа за группой в блокнотах Jupyter сложнее, чем в Excel. Один из полезных трюков заключается…

Как за месяц создать систему учета посещаемости на базе распознавания лиц

Как за месяц создать систему учета посещаемости на базе распознавания лиц

В этом месяце наша система управления посещаемостью достигла отметки в 900 000 событий всего через год после запуска. Однако радость от сегодняшних достижений не может стереть из памяти то, как…

Сжатие текстовых данных методом арифметического кодирования

Сжатие текстовых данных методом арифметического кодирования

АРИФМЕТИЧЕСКОЕ КОДИРОВАНИЕ Арифметическое кодирование (АК) — это статистический метод сжатия данных, работающий по принципу кодирования одного символа за один раз. Длина закодированного выходного кода каждого символа может варьироваться в зависимости от…

20 эффективных статистических методов в анализе данных

20 эффективных статистических методов в анализе данных

Статистические методы, представленные в этой статье, довольно удобны и могут быть использованы для лёгкого изучения любого сложного датасета. Статистический анализ – это одна из самых мощных техник, используемых для поиска…

Статистический анализ данных с помощью SKLEARN

Статистический анализ данных с помощью SKLEARN

Основная цель работы – это проведение регрессионного и корреляционного анализа на основе 10000 входных данных, которые являются файлами в формате json многоуровневой вложенности. Для начала проведения работы понадобятся следующие импортируемые…

Визуализация в Python: сравнительный анализ Matplotlib и Plotly. Шпаргалка по визуализации данных.

Визуализация в Python: сравнительный анализ Matplotlib и Plotly. Шпаргалка по визуализации данных.

Data Scientist работает с огромным объемом данных, который необходимо проанализировать и обработать. Одним из подходов к анализу данных является их визуализация с использованием графического представления. Сегодня существует множество библиотек для…

Метод SHAP для категориальных признаков

Метод SHAP для категориальных признаков

Категориальные признаки необходимо преобразовывать, прежде чем использовать их в модели. Зачастую это делается с помощью прямого кодирования  —  в итоге получаем бинарную переменную для каждой категории. Проблемы не возникают до…

Анализ данных для выявления признаков неструктурированном тексте  с помощью pandas и json.

Анализ данных для выявления признаков неструктурированном тексте  с помощью pandas и json.

При анализе данных есть необходимость выявлять объекты контроля по атрибутам, размещенным в неструктурированном текстовом поле. На первый взгляд, задача может показаться легкой, если анализируемый объем незначительный, но когда объем обрабатываемой…

Машинное обучение при маржинальной торговле

Машинное обучение при маржинальной торговле

Ошибочное определение уровня риска клиента может привести к низкой доходности банка и повышенному риску для банка, в т.ч. репутационному, так как недостаточная квалификация клиента может привести к неграмотным инвестициям, что…

Инструкция для быстрого овладения наукой о данных.

Инструкция для быстрого овладения наукой о данных.

Я ЗАКАНЧИВАЮ ФАКУЛЬТЕТ КОМПЬЮТЕРНЫХ НАУК. ПРЕДЛОЖЕНИЙ ПО ТРУДОУСТРОЙСТВУ НЕ ПОЛУЧИЛ. ХОТЕЛ БЫ В ТЕЧЕНИЕ МЕСЯЦА СТАТЬ СПЕЦИАЛИСТОМ ПО ОБРАБОТКЕ ДАННЫХ, НЕ ТРАТЯ ДЕНЬГИ НА ДОРОГОСТОЯЩИЕ КУРСЫ. НЕ МОГЛИ БЫ ВЫ…

Как самостоятельно выучиться на дата-саентиста, не бросая на ветер деньги. Бесплатные курсы для аналитика данных.

Как самостоятельно выучиться на дата-саентиста, не бросая на ветер деньги. Бесплатные курсы для аналитика данных.

Недавно собрал ответ на этот вопрос достаточно развернуто, на мой взгляд, чтобы поделиться им с широкой аудиторией. Не все платные курсы плохие (хотя большинство — да — из-за механизмов отбора,…

🐍📊 Графики в Python: 9 видов визуализации, привлекающих внимание лучше, чем гистограмма. Инструкция по визуализации данных.

🐍📊 Графики в Python: 9 видов визуализации, привлекающих внимание лучше, чем гистограмма. Инструкция по визуализации данных.

Гистограмму нетрудно создать и просто понять. Однако есть и другие виды графиков, способных донести идею в некоторых случаях гораздо лучше привычной гистограммы. Ловите девять идей (с кодом), которые можно использовать…

Инструкция по Работе с Библиотекой PyTorch-Ignite

Инструкция по Работе с Библиотекой PyTorch-Ignite

PyTorch — среда глубокого обучения, которая была принята такими технологическими гигантами, как Tesla, OpenAI и Microsoft для ключевых исследовательских и производственных рабочих нагрузок. PyTorch-Ignite — это библиотека высокого уровня, помогающая гибко и…