6 алгоритмов машинного обучения, которые должен знать каждый исследователь данных

Алгоритмы машинного обучения делятся на контролируемые и неконтролируемые. Алгоритмы контролируемого обучения моделируют отношения между помеченными входными и выходными данными (также известными как целевые данные). Впоследствии такая модель используется для предсказания…

PANDAS VS SQL для работы с данными.

Еще порядка 10 лет назад для работы по исследованию данных было достаточно SQL как инструмента для выборки данных и формирования отчетов по ним. Но время не стоит на месте, и…

Агрегаты в БД — зачем, как, а стоит ли?

С течением жизни приложения в его БД накапливается все больше данных. Десктопное оно, SaaS или даже мобильное – неважно, в современном мире почти каждый что-то хранит “у себя”. Если это…

📁 Настраиваем Git для правильной работы с опенсорс-проектами

Как принять участие в разработке проекта с открытым исходным кодом и внести свой вклад, не наломав дров? Краткое руководство, чтобы меньше разочаровываться и больше работать над улучшением рабочих процессов. Форк-проект…

Как использовать MSE в науке о данных

В большинстве описаний среднеквадратичной ошибки (mean square errore, MSE) упускается один важнейший нюанс: метрики и функции потерь  —  это не совсем одно и то же. Для оценки и оптимизации производительности модели в машинном обучении нужны две отдельные функции…

FILL-MASK моделирование!

Fill-mask моделирование – это задача маскирования некоторых слов в предложении и дальнейшее предсказание, какие слова должны заменить данные маски. Подобный тип задач используется для обучения больших моделей, направленных на решение…

Парсиг на Python. Web-Scraping с применением библиотек BeautifulSoup4 + Asyncio

Для начала, что такое «Web-Scraping»? Это автоматизированный процесс извлечения данных с какой-либо веб-страницы. Когда не было возможности автоматизировано извлекать данные со страниц, извлекали данные вручную, что занимало достаточно большое количество…

Продвинутая работа с данными. 7 фишек pandas для науки о данных

1. Анализ образцов датафреймов с помощью df.groupby().__iter__() Обычно исследовать набор данных строка за строкой или группа за группой в блокнотах Jupyter сложнее, чем в Excel. Один из полезных трюков заключается…

🐍 Самоучитель по Python для начинающих. Часть 1. Особенности, сферы применения, установка, онлайн IDE. Полный бесплатный курс Python.

В первой части расскажем о сферах применения Python, о преимуществах и недостатках языка, а также рассмотрим все способы установки и запуска интерпретатора онлайн. – подготовка к работе Python программиста…

Эффективные SQL-запросы. 12 способов переписать запросы SQL для улучшения их производительности.

Я часто работаю в условиях, когда при настройке производительности нет возможности менять индексы или параметры сервера. Я обычно сталкиваюсь с подобными сценариями, когда имею дело с: Базами данных поставщиков. “Хрупкими”…

🐍 8 технологий, которые должен знать каждый Python-разработчик

Джентльменский набор пайтон-разработчика, который пригодится вне зависимости от того, куда вы пойдете: в инжиниринг, машинное обучение или бэкенд-разработку. Содержание Git. Алгоритмы. Алгоритмы на графах. Рекурсия. SQL и базы данных. Агрегационные…

Java куки.

Куки представляют простейший способо хранения данных приложения. Куки хранятся в браузере польвователя в виде пары ключ-значение: с каждым уникальным ключом сопоставлется определенное значение. По ключу мы можем получить сохраненное в…

Как за месяц создать систему учета посещаемости на базе распознавания лиц

В этом месяце наша система управления посещаемостью достигла отметки в 900 000 событий всего через год после запуска. Однако радость от сегодняшних достижений не может стереть из памяти то, как…

Сжатие текстовых данных методом арифметического кодирования

АРИФМЕТИЧЕСКОЕ КОДИРОВАНИЕ Арифметическое кодирование (АК) — это статистический метод сжатия данных, работающий по принципу кодирования одного символа за один раз. Длина закодированного выходного кода каждого символа может варьироваться в зависимости от…

20 эффективных статистических методов в анализе данных

Статистические методы, представленные в этой статье, довольно удобны и могут быть использованы для лёгкого изучения любого сложного датасета. Статистический анализ – это одна из самых мощных техник, используемых для поиска…

🐍🚀 Пишем гибридное приложение для хранения заметок на Django, Django Ninja REST Framework и Alpine.js

Изучаем основные возможности Django Ninja, Alpine.js и Axios в процессе создания веб-приложения для хранения заметок. Рано или поздно любой начинающий Django-разработчик сталкивается с проектом, для которого нужно четкое разделение приложения…

КОМАНДА DIG В LINUX

Команда dig (domain information groper) — многофункциональный инструмент для опроса DNS-серверов. Она позволяет получить больше информации о конкретном домене, для того чтобы, например, узнать используемые им IP-адреса. Этот инструмент может…

Статистический анализ данных с помощью SKLEARN

Основная цель работы – это проведение регрессионного и корреляционного анализа на основе 10000 входных данных, которые являются файлами в формате json многоуровневой вложенности. Для начала проведения работы понадобятся следующие импортируемые…

Компилирование и исполнение Java-кода в Runtime

Сегодня я хотел бы поговорить про динамическое компилирование и исполнение Java-кода, подобно скриптовым языкам программирования. В этой статье вы найдете пошаговое руководство как скомпилировать Java в Bytecode и загрузить новые…

Task-Сервер на «Flask» или как заставить несколько компьютеров решать одну задачу c Python

Основанием для разработки «Task-Сервера» — послужила задача по выгрузке видеозаписей с видеорегистраторов Hikvision. В работе была использована библиотека Hikload которая подключалась к регистраторам и загружала видеоролики. Для начала немного о…