Парсиг на Python. Web-Scraping с применением библиотек BeautifulSoup4 + Asyncio

Для начала, что такое «Web-Scraping»? Это автоматизированный процесс извлечения данных с какой-либо веб-страницы. Когда не было возможности автоматизировано извлекать данные со страниц, извлекали данные вручную, что занимало достаточно большое количество…

Продвинутая работа с данными. 7 фишек pandas для науки о данных

1. Анализ образцов датафреймов с помощью df.groupby().__iter__() Обычно исследовать набор данных строка за строкой или группа за группой в блокнотах Jupyter сложнее, чем в Excel. Один из полезных трюков заключается…

🐍 Самоучитель по Python для начинающих. Часть 1. Особенности, сферы применения, установка, онлайн IDE. Полный бесплатный курс Python.

В первой части расскажем о сферах применения Python, о преимуществах и недостатках языка, а также рассмотрим все способы установки и запуска интерпретатора онлайн. – подготовка к работе Python программиста…

🐍 8 технологий, которые должен знать каждый Python-разработчик

Джентльменский набор пайтон-разработчика, который пригодится вне зависимости от того, куда вы пойдете: в инжиниринг, машинное обучение или бэкенд-разработку. Содержание Git. Алгоритмы. Алгоритмы на графах. Рекурсия. SQL и базы данных. Агрегационные…

Как за месяц создать систему учета посещаемости на базе распознавания лиц

В этом месяце наша система управления посещаемостью достигла отметки в 900 000 событий всего через год после запуска. Однако радость от сегодняшних достижений не может стереть из памяти то, как…

Сжатие текстовых данных методом арифметического кодирования

АРИФМЕТИЧЕСКОЕ КОДИРОВАНИЕ Арифметическое кодирование (АК) — это статистический метод сжатия данных, работающий по принципу кодирования одного символа за один раз. Длина закодированного выходного кода каждого символа может варьироваться в зависимости от…

20 эффективных статистических методов в анализе данных

Статистические методы, представленные в этой статье, довольно удобны и могут быть использованы для лёгкого изучения любого сложного датасета. Статистический анализ – это одна из самых мощных техник, используемых для поиска…

🐍🚀 Пишем гибридное приложение для хранения заметок на Django, Django Ninja REST Framework и Alpine.js

Изучаем основные возможности Django Ninja, Alpine.js и Axios в процессе создания веб-приложения для хранения заметок. Рано или поздно любой начинающий Django-разработчик сталкивается с проектом, для которого нужно четкое разделение приложения…

Статистический анализ данных с помощью SKLEARN

Основная цель работы – это проведение регрессионного и корреляционного анализа на основе 10000 входных данных, которые являются файлами в формате json многоуровневой вложенности. Для начала проведения работы понадобятся следующие импортируемые…

Task-Сервер на «Flask» или как заставить несколько компьютеров решать одну задачу c Python

Основанием для разработки «Task-Сервера» — послужила задача по выгрузке видеозаписей с видеорегистраторов Hikvision. В работе была использована библиотека Hikload которая подключалась к регистраторам и загружала видеоролики. Для начала немного о…

Создание приложения на Python для систематизации фото по геолокации и дате

Суть проблемы Как-то я переустановил ОС на ноутбуке и собрал всевозможные резервные копии фотографий с разных устройств в одном месте. Получившийся каталог заслуживал только одного определения  —  полный бардак. Он…

Сборка exe файлов – pyinstaller с Python.

Сборка exe файлов – pyinstaller Давайте немного отвлечемся от программирования и подумаем с кем бы поделится нашей красивой программой или игрой.  – подготовиться к python собеседованию. Если вы просто…

Генерируем случайные значеняй с Python

Генерация случайных значений с помощью модуля secrets Встроенный модуль secrets используется для генерации криптографически стойких случайных чисел, с помощью средств предоставляемых операционной системой. Что хорошо подходит при работе с паролями,…

Визуализация в Python: сравнительный анализ Matplotlib и Plotly. Шпаргалка по визуализации данных.

Data Scientist работает с огромным объемом данных, который необходимо проанализировать и обработать. Одним из подходов к анализу данных является их визуализация с использованием графического представления. Сегодня существует множество библиотек для…

Метод SHAP для категориальных признаков

Категориальные признаки необходимо преобразовывать, прежде чем использовать их в модели. Зачастую это делается с помощью прямого кодирования  —  в итоге получаем бинарную переменную для каждой категории. Проблемы не возникают до…

Анализ данных для выявления признаков неструктурированном тексте  с помощью pandas и json.

При анализе данных есть необходимость выявлять объекты контроля по атрибутам, размещенным в неструктурированном текстовом поле. На первый взгляд, задача может показаться легкой, если анализируемый объем незначительный, но когда объем обрабатываемой…

Машинное обучение при маржинальной торговле

Ошибочное определение уровня риска клиента может привести к низкой доходности банка и повышенному риску для банка, в т.ч. репутационному, так как недостаточная квалификация клиента может привести к неграмотным инвестициям, что…

Топ 5 асинхронных веб-фреймворков на Python

Асинхронность уже не является просто модным словечком в сообществе Python. После выпуска библиотеки asyncio в версии 3.5, разработчики Python признали влияние Node.js в сфере веб-разработки и ввели в язык два…

PyArmor: как запутать код, чтобы защитить программное обеспечение

Все еще не шифруете свой скрипт? Тогда самое время изучить обфускацию. Сегодня познакомлю с полезной библиотекой PyArmor, расскажу о двух методах работы модуля и на собственном примере покажу как запутать…

Инструкция для быстрого овладения наукой о данных.

Я ЗАКАНЧИВАЮ ФАКУЛЬТЕТ КОМПЬЮТЕРНЫХ НАУК. ПРЕДЛОЖЕНИЙ ПО ТРУДОУСТРОЙСТВУ НЕ ПОЛУЧИЛ. ХОТЕЛ БЫ В ТЕЧЕНИЕ МЕСЯЦА СТАТЬ СПЕЦИАЛИСТОМ ПО ОБРАБОТКЕ ДАННЫХ, НЕ ТРАТЯ ДЕНЬГИ НА ДОРОГОСТОЯЩИЕ КУРСЫ. НЕ МОГЛИ БЫ ВЫ…