23 сайта с дата сетами: для усиления портфолио аналитика

23 сайта с дата сетами: для усиления портфолио аналитика

Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время. Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике. t.me/bigdatai –…

Понятие о визуализации данных в Pandas, если вы пришли из Excel

Понятие о визуализации данных в Pandas, если вы пришли из Excel

Прочитав много уроков по визуализации данных Pandas, я до сих пор не могу понять их механику. Создание даже простого сюжета всегда требует от меня изучения документации. И даже после запуска кода…

8 паттернов проектирования, которые должен знать каждый ML-разработчик

8 паттернов проектирования, которые должен знать каждый ML-разработчик

Паттерны проектирования предлагают комплексные решения проблем, с которыми разработчики сталкиваются каждый день. В этой статье мы рассмотрим 8 паттернов проектирования с примерами кода на Python. Паттерны проектирования в библиотеках…

Сегментация изображений с использованием сети обратного внимания

Сегментация изображений с использованием сети обратного внимания

Проблемы Большинство методов семантической сегментации на основе СNN (convolutional neural network, сверточной нейронной сети) сосредоточены на простом получении правильных предсказаний без обучения модели различать классы. По этой причине характеристики менее распространенных классов…

Как увеличить скорость Pandas и обрабатывать 10 млн необработанных наборов данных за миллисекунды

Как увеличить скорость Pandas и обрабатывать 10 млн необработанных наборов данных за миллисекунды

За последние годы использование Pandas выросло в бесчисленное количество раз. Покажу вам, как использовать Pandas максимально быстрым способом. Потому что вы не можете ускорить то, что и так быстро работает.…

AWS Personalize для рекомендации новых фильмов пользователям на основе их оценок по сравнению с другими похожими фильмами.

AWS Personalize для рекомендации новых фильмов пользователям на основе их оценок по сравнению с другими похожими фильмами.

Amazon Personalize позволяет разработчикам, не имеющим опыта машинного обучения, легко встраивать сложные возможности персонализации в свои приложения. С помощью Personalize вы предоставляете поток действий из своего приложения, а также список элементов,…

Наука о данных: структура проекта

Наука о данных: структура проекта

Почему необходимо использовать структуру проекта? Когда-то предпочтение было отдано структуре, но, в конце концов, все, что имеет значение, это то, что вам должно быть удобно перемещаться и писать код. Когда…

Погружаемся в графы. Изучаем применение графов в аналитике данных.

Погружаемся в графы. Изучаем применение графов в аналитике данных.

Графы — это способ аналитики данных, который был известен ещё с древних времён. С увеличением вычислительных мощностей процессоров и развитием компьютерных алгоритмов удалось приспособить их для решения современных сложных задач.…

Сорок семь передовых методов рефакторинга для улучшения кода Python

Сорок семь передовых методов рефакторинга для улучшения кода Python

Мы рассмотрим методы и фрагменты кода для документации Python, кодирования, тестирования, проверки и непрерывной интеграции. Есть примеры кода Python до и после, в которых применяется каждый метод. Техники делятся на…

Модель Orbit для прогнозирования временных рядов

Модель Orbit для прогнозирования временных рядов

Временные ряды и бизнес Большое количество современных данных имеют временную структуру. Такой структурой, например, обладают экономические и финансовые переменные (ВВП, инфляция, цены акций), продажи и другие. Многим компаниям необходимо планирование,…

UDF-функции Spark для обработки данных

UDF-функции Spark для обработки данных

Что такое пользовательские функции в Spark: особенности создания и применения Пользовательские функции (User Defined Functions, UDF) – это функции, которые не являются встроенными (уже имеющимися) и создаются самим пользователем во…

Учим Pandas Python. Топ-10 вопросов о Pandas на StackOverflow

Учим Pandas Python. Топ-10 вопросов о Pandas на StackOverflow

Объем структурированных табличных данных увеличивается с каждым днем. Именно поэтому дата-сайентисту так важно уметь анализировать табличные данные с помощью Pandas. Хотя самообучение  —  отличный способ повысить квалификацию, иногда может пригодиться…

Чем отличаются модели МО в науке и производстве

Чем отличаются модели МО в науке и производстве

Сейчас типичная исследовательская статья по МО выглядит примерно так: ПРЕДЛАГАЕМ НОВУЮ АРХИТЕКТУРУ МОДЕЛИ X. КАК ВЫЯСНИЛОСЬ, X ПРЕВОСХОДИТ SOTA (SELF-ORGANISING TREE ALGORITHM, САМООРГАНИЗУЮЩИЙСЯ ДРЕВОВИДНЫЙ АЛГОРИТМ) НА Y%. ТАКИМ ОБРАЗОМ, X…

Подробный Гайд по визуализации данных. Часть I

Подробный Гайд по визуализации данных. Часть I

Первая часть главы из моего электронного руководства Google Analytics 2019: Tutorial Book (скачать можно на главной странице), которая посвящена визуализации данных – тренду последних нескольких лет. Часть материалов в этой главе взята из…

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data. Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и…

Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Предлагаем рассмотреть несколько алгоритмов поиска выбросов, проведём первичное сравнение на различных датасетах и определим несколько наиболее оптимальных из них. Выбросы (или аномалии) в статистике — результаты измерения, выделяющиеся из общей…

Ищем выбросы. Критерий Шовене

Ищем выбросы. Критерий Шовене

Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект.…

Как масштабировать многопроцессорность Python до кластера с помощью одной строчки кода

Как масштабировать многопроцессорность Python до кластера с помощью одной строчки кода

Программы начинаются с малого. Будь то исследовательский анализ данных или построение модели машинного обучения, важно как можно быстрее заставить что-то простое работать. Однако со временем требования меняются, и некогда небольшие…

Как создавать дашборды, которыми будут пользоваться

Как создавать дашборды, которыми будут пользоваться

Дашборд — это инструмент визуализации важных показателей бизнеса. Недавно, во время работы над очередным макетом, я понял, что далеко не все мои коллеги задумываются – будут ли люди пользоваться дашбордами,…