Модель Orbit для прогнозирования временных рядов

Временные ряды и бизнес Большое количество современных данных имеют временную структуру. Такой структурой, например, обладают экономические и финансовые переменные (ВВП, инфляция, цены акций), продажи и другие. Многим компаниям необходимо планирование,…

Лайфхаки Python: сэкономить память и ускорить выполнение программы

Python часто ругают за то, что он медленный. Однако в нем существует несколько подходов, которые позволяют писать достаточно быстрый код. Сегодня поговорим про обработку списков. TL;DR Используйте списковые включения (list comprehensions), генераторные выражения…

Цветной Pythоn

Бывает, во время работы на Pythоn требуется вывести большое количество информации в терминал. Среди всего объема текста нас интересует конкретное выражение или даже символ. Как выделить интересующую нас сущность в…

Извлечение таблиц из pdf с помощью camelot

На сайте Newtechaudit.ru описывались различные способы извлечения таблиц с данными из pdf-файлов в excel. В частности, с помощью python-библиотеки camelot (как здесь). Рассмотрим расширенные возможности camelot, позволяющие распознать большую таблицу со сложной…

Web-разработка на Python.Что проще Flask?

В моей работе часто встречаются задачи обработки большого количества данных. Хорошей практикой является визуализировать работу программы. Вместо всем наскучивших консольных приложений можно быстро создать статичное веб-приложение. В моей работе часто…

В чем разница между модулем и пакетом в Python?

Модули и пакеты значительно упрощают работу программиста. Классы, объекты, функции и константы, которыми приходится часто пользоваться можно упаковать в модуль, и, в дальнейшем, загружать его в свои программы при необходимости.…

Учим Pandas Python. Топ-10 вопросов о Pandas на StackOverflow

Объем структурированных табличных данных увеличивается с каждым днем. Именно поэтому дата-сайентисту так важно уметь анализировать табличные данные с помощью Pandas. Хотя самообучение  —  отличный способ повысить квалификацию, иногда может пригодиться…

Code Mining исходного кода c Python

В настоящее время все больше и больше развиваются технологии анализа программного кода. Разработано большое количество различных библиотек, методов и подходов для выявления уязвимостей и «узких» мест в коде. С целью…

Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Предлагаем рассмотреть несколько алгоритмов поиска выбросов, проведём первичное сравнение на различных датасетах и определим несколько наиболее оптимальных из них. Выбросы (или аномалии) в статистике — результаты измерения, выделяющиеся из общей…

Ищем выбросы. Критерий Шовене

Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект.…

Гайд по декораторам. Как создать собственные Python-декораторы и правильно их использовать

Статья рассчитана на тех, кто владеет основами Python, знаком с декораторами и хочет научиться создавать собственные декораторы для повышения качества кода. Если вы забыли, что такое декораторы, — повторите тему по первым разделам статьи. Что такое…

Быстро и просто разворачиваем приложение на Selenium Python в Docker

Selenium — это инструмент, созданный для автоматизации работы браузера. Он имеет довольно длинную историю, но несмотря на это на данный момент он является главным инструментом, если нужно прибегнуть к автоматизации браузера. Важно отметить, что здесь я расскажу только…

Как масштабировать многопроцессорность Python до кластера с помощью одной строчки кода

Программы начинаются с малого. Будь то исследовательский анализ данных или построение модели машинного обучения, важно как можно быстрее заставить что-то простое работать. Однако со временем требования меняются, и некогда небольшие…

Основы биоинформатики. Работаем с биологическими данными.

Каждый, кто слышит словосочетание “язык программирования”, наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки…

9 концепций Python, которые вы не должны пропустить для эффективной обработки данных

9 концепций, которые вы должны изучить для своих интервью по науке о данных С появлением Интернета бесконечные ресурсы доступны всего одним щелчком мыши, и в результате мы можем получить доступ…

6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

Алгоритмы машинного обучения делятся на контролируемые и неконтролируемые. Алгоритмы контролируемого обучения моделируют отношения между помеченными входными и выходными данными (также известными как целевые данные). Впоследствии такая модель используется для предсказания…

PANDAS VS SQL для работы с данными.

Еще порядка 10 лет назад для работы по исследованию данных было достаточно SQL как инструмента для выборки данных и формирования отчетов по ним. Но время не стоит на месте, и…

Как использовать MSE в науке о данных

В большинстве описаний среднеквадратичной ошибки (mean square errore, MSE) упускается один важнейший нюанс: метрики и функции потерь  —  это не совсем одно и то же. Для оценки и оптимизации производительности модели в машинном обучении нужны две отдельные функции…