Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Предлагаем рассмотреть несколько алгоритмов поиска выбросов, проведём первичное сравнение на различных датасетах и определим несколько наиболее оптимальных из них. Выбросы (или аномалии) в статистике — результаты измерения, выделяющиеся из общей…

Ищем выбросы. Критерий Шовене

Ищем выбросы. Критерий Шовене

Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект.…

Гайд по декораторам. Как создать собственные Python-декораторы и правильно их использовать

Гайд по декораторам. Как создать собственные Python-декораторы и правильно их использовать

Статья рассчитана на тех, кто владеет основами Python, знаком с декораторами и хочет научиться создавать собственные декораторы для повышения качества кода. Если вы забыли, что такое декораторы, — повторите тему по первым разделам статьи. Что такое…

Быстро и просто разворачиваем приложение на Selenium Python в Docker

Быстро и просто разворачиваем приложение на Selenium Python в Docker

Selenium — это инструмент, созданный для автоматизации работы браузера. Он имеет довольно длинную историю, но несмотря на это на данный момент он является главным инструментом, если нужно прибегнуть к автоматизации браузера. Важно отметить, что здесь я расскажу только…

Как масштабировать многопроцессорность Python до кластера с помощью одной строчки кода

Как масштабировать многопроцессорность Python до кластера с помощью одной строчки кода

Программы начинаются с малого. Будь то исследовательский анализ данных или построение модели машинного обучения, важно как можно быстрее заставить что-то простое работать. Однако со временем требования меняются, и некогда небольшие…

Основы биоинформатики. Работаем с биологическими данными.

Основы биоинформатики. Работаем с биологическими данными.

Каждый, кто слышит словосочетание “язык программирования”, наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки…

9 концепций Python, которые вы не должны пропустить для эффективной обработки данных

9 концепций Python, которые вы не должны пропустить для эффективной обработки данных

9 концепций, которые вы должны изучить для своих интервью по науке о данных С появлением Интернета бесконечные ресурсы доступны всего одним щелчком мыши, и в результате мы можем получить доступ…

Работа с нечитаемыми символами в текстовых файлах

Работа с нечитаемыми символами в текстовых файлах

В файлах встречаются символы, нечитаемые ни в одной кодировке. Например, есть csv файл с табличными данными и со столбцом, содержащим текстовую информацию, например, чат. В чате могут встретится символы (например,…

6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

Алгоритмы машинного обучения делятся на контролируемые и неконтролируемые. Алгоритмы контролируемого обучения моделируют отношения между помеченными входными и выходными данными (также известными как целевые данные). Впоследствии такая модель используется для предсказания…

PANDAS VS SQL для работы с данными.

PANDAS VS SQL для работы с данными.

Еще порядка 10 лет назад для работы по исследованию данных было достаточно SQL как инструмента для выборки данных и формирования отчетов по ним. Но время не стоит на месте, и…

Как использовать MSE в науке о данных

Как использовать MSE в науке о данных

В большинстве описаний среднеквадратичной ошибки (mean square errore, MSE) упускается один важнейший нюанс: метрики и функции потерь  —  это не совсем одно и то же. Для оценки и оптимизации производительности модели в машинном обучении нужны две отдельные функции…

FILL-MASK моделирование!

FILL-MASK моделирование!

Fill-mask моделирование – это задача маскирования некоторых слов в предложении и дальнейшее предсказание, какие слова должны заменить данные маски. Подобный тип задач используется для обучения больших моделей, направленных на решение…

Парсиг на Python. Web-Scraping с применением библиотек BeautifulSoup4 + Asyncio

Парсиг на Python. Web-Scraping с применением библиотек BeautifulSoup4 + Asyncio

Для начала, что такое «Web-Scraping»? Это автоматизированный процесс извлечения данных с какой-либо веб-страницы. Когда не было возможности автоматизировано извлекать данные со страниц, извлекали данные вручную, что занимало достаточно большое количество…

Продвинутая работа с данными. 7 фишек pandas для науки о данных

Продвинутая работа с данными. 7 фишек pandas для науки о данных

1. Анализ образцов датафреймов с помощью df.groupby().__iter__() Обычно исследовать набор данных строка за строкой или группа за группой в блокнотах Jupyter сложнее, чем в Excel. Один из полезных трюков заключается…

🐍 Самоучитель по Python для начинающих. Часть 1. Особенности, сферы применения, установка, онлайн IDE. Полный бесплатный курс Python.

🐍 Самоучитель по Python для начинающих. Часть 1. Особенности, сферы применения, установка, онлайн IDE. Полный бесплатный курс Python.

В первой части расскажем о сферах применения Python, о преимуществах и недостатках языка, а также рассмотрим все способы установки и запуска интерпретатора онлайн. – подготовка к работе Python программиста…

🐍 8 технологий, которые должен знать каждый Python-разработчик

🐍 8 технологий, которые должен знать каждый Python-разработчик

Джентльменский набор пайтон-разработчика, который пригодится вне зависимости от того, куда вы пойдете: в инжиниринг, машинное обучение или бэкенд-разработку. Содержание Git. Алгоритмы. Алгоритмы на графах. Рекурсия. SQL и базы данных. Агрегационные…

Как за месяц создать систему учета посещаемости на базе распознавания лиц

Как за месяц создать систему учета посещаемости на базе распознавания лиц

В этом месяце наша система управления посещаемостью достигла отметки в 900 000 событий всего через год после запуска. Однако радость от сегодняшних достижений не может стереть из памяти то, как…

Сжатие текстовых данных методом арифметического кодирования

Сжатие текстовых данных методом арифметического кодирования

АРИФМЕТИЧЕСКОЕ КОДИРОВАНИЕ Арифметическое кодирование (АК) — это статистический метод сжатия данных, работающий по принципу кодирования одного символа за один раз. Длина закодированного выходного кода каждого символа может варьироваться в зависимости от…

20 эффективных статистических методов в анализе данных

20 эффективных статистических методов в анализе данных

Статистические методы, представленные в этой статье, довольно удобны и могут быть использованы для лёгкого изучения любого сложного датасета. Статистический анализ – это одна из самых мощных техник, используемых для поиска…