Сорок семь передовых методов рефакторинга для улучшения кода Python

Сорок семь передовых методов рефакторинга для улучшения кода Python

Мы рассмотрим методы и фрагменты кода для документации Python, кодирования, тестирования, проверки и непрерывной интеграции. Есть примеры кода Python до и после, в которых применяется каждый метод. Техники делятся на…

Модель Orbit для прогнозирования временных рядов

Модель Orbit для прогнозирования временных рядов

Временные ряды и бизнес Большое количество современных данных имеют временную структуру. Такой структурой, например, обладают экономические и финансовые переменные (ВВП, инфляция, цены акций), продажи и другие. Многим компаниям необходимо планирование,…

UDF-функции Spark для обработки данных

UDF-функции Spark для обработки данных

Что такое пользовательские функции в Spark: особенности создания и применения Пользовательские функции (User Defined Functions, UDF) – это функции, которые не являются встроенными (уже имеющимися) и создаются самим пользователем во…

Учим Pandas Python. Топ-10 вопросов о Pandas на StackOverflow

Учим Pandas Python. Топ-10 вопросов о Pandas на StackOverflow

Объем структурированных табличных данных увеличивается с каждым днем. Именно поэтому дата-сайентисту так важно уметь анализировать табличные данные с помощью Pandas. Хотя самообучение  —  отличный способ повысить квалификацию, иногда может пригодиться…

Чем отличаются модели МО в науке и производстве

Чем отличаются модели МО в науке и производстве

Сейчас типичная исследовательская статья по МО выглядит примерно так: ПРЕДЛАГАЕМ НОВУЮ АРХИТЕКТУРУ МОДЕЛИ X. КАК ВЫЯСНИЛОСЬ, X ПРЕВОСХОДИТ SOTA (SELF-ORGANISING TREE ALGORITHM, САМООРГАНИЗУЮЩИЙСЯ ДРЕВОВИДНЫЙ АЛГОРИТМ) НА Y%. ТАКИМ ОБРАЗОМ, X…

Подробный Гайд по визуализации данных. Часть I

Подробный Гайд по визуализации данных. Часть I

Первая часть главы из моего электронного руководства Google Analytics 2019: Tutorial Book (скачать можно на главной странице), которая посвящена визуализации данных – тренду последних нескольких лет. Часть материалов в этой главе взята из…

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data. Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и…

Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Предлагаем рассмотреть несколько алгоритмов поиска выбросов, проведём первичное сравнение на различных датасетах и определим несколько наиболее оптимальных из них. Выбросы (или аномалии) в статистике — результаты измерения, выделяющиеся из общей…

Ищем выбросы. Критерий Шовене

Ищем выбросы. Критерий Шовене

Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект.…

Как масштабировать многопроцессорность Python до кластера с помощью одной строчки кода

Как масштабировать многопроцессорность Python до кластера с помощью одной строчки кода

Программы начинаются с малого. Будь то исследовательский анализ данных или построение модели машинного обучения, важно как можно быстрее заставить что-то простое работать. Однако со временем требования меняются, и некогда небольшие…

Как создавать дашборды, которыми будут пользоваться

Как создавать дашборды, которыми будут пользоваться

Дашборд — это инструмент визуализации важных показателей бизнеса. Недавно, во время работы над очередным макетом, я понял, что далеко не все мои коллеги задумываются – будут ли люди пользоваться дашбордами,…

Основы биоинформатики. Работаем с биологическими данными.

Основы биоинформатики. Работаем с биологическими данными.

Каждый, кто слышит словосочетание “язык программирования”, наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки…

9 концепций Python, которые вы не должны пропустить для эффективной обработки данных

9 концепций Python, которые вы не должны пропустить для эффективной обработки данных

9 концепций, которые вы должны изучить для своих интервью по науке о данных С появлением Интернета бесконечные ресурсы доступны всего одним щелчком мыши, и в результате мы можем получить доступ…

6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

Алгоритмы машинного обучения делятся на контролируемые и неконтролируемые. Алгоритмы контролируемого обучения моделируют отношения между помеченными входными и выходными данными (также известными как целевые данные). Впоследствии такая модель используется для предсказания…

Как использовать MSE в науке о данных

Как использовать MSE в науке о данных

В большинстве описаний среднеквадратичной ошибки (mean square errore, MSE) упускается один важнейший нюанс: метрики и функции потерь  —  это не совсем одно и то же. Для оценки и оптимизации производительности модели в машинном обучении нужны две отдельные функции…

FILL-MASK моделирование!

FILL-MASK моделирование!

Fill-mask моделирование – это задача маскирования некоторых слов в предложении и дальнейшее предсказание, какие слова должны заменить данные маски. Подобный тип задач используется для обучения больших моделей, направленных на решение…

Продвинутая работа с данными. 7 фишек pandas для науки о данных

Продвинутая работа с данными. 7 фишек pandas для науки о данных

1. Анализ образцов датафреймов с помощью df.groupby().__iter__() Обычно исследовать набор данных строка за строкой или группа за группой в блокнотах Jupyter сложнее, чем в Excel. Один из полезных трюков заключается…

Как за месяц создать систему учета посещаемости на базе распознавания лиц

Как за месяц создать систему учета посещаемости на базе распознавания лиц

В этом месяце наша система управления посещаемостью достигла отметки в 900 000 событий всего через год после запуска. Однако радость от сегодняшних достижений не может стереть из памяти то, как…

Сжатие текстовых данных методом арифметического кодирования

Сжатие текстовых данных методом арифметического кодирования

АРИФМЕТИЧЕСКОЕ КОДИРОВАНИЕ Арифметическое кодирование (АК) — это статистический метод сжатия данных, работающий по принципу кодирования одного символа за один раз. Длина закодированного выходного кода каждого символа может варьироваться в зависимости от…