Numpy для машинного обучения 1 часть.Как рассчитать мощность матрицы.

Numpy для машинного обучения 1 часть.Как рассчитать мощность матрицы.

Numpy linalg.matrix_rank() используется для вычисления степени n квадратной матрицы. Что это означает, что  если у нас есть квадратная матрица M и целое число n, и эта функция используется для вычисления Mn? Numpy linalg matrix_power() Чтобы вычислить степень матрицы m, используйте…

Как получить данные в нужном формате с помощью Pandas

Как получить данные в нужном формате с помощью Pandas

Всем дата-сайентистам хорошо известно: данные никогда не будут такими, какими вы хотите их видеть. Вы можете получить сколько-нибудь упорядоченный спредшит или более-менее точные табличные данные, но в любом случае вам…

100+ шпаргалок для аналитиков данных и data scientists

100+ шпаргалок для аналитиков данных и data scientists

Шпаргалки помогут: – огромный набор шпаргалок и наборов данных для датасаеннтистов Шпаргалки по SQL На английском: Шпаргалки по Python Шпаргалки по статистике Шпаргалки по Machine Learning Шпаргалки по Big…

24 Важные функции Pandas, которые необходимо знать для анализа данных

24 Важные функции Pandas, которые необходимо знать для анализа данных

Python — один из самых популярных и быстрорастущих языков программирования в мире. Он имеет сильную поддержку сообщества, и вы можете найти пакет практически для любой области, такой как разработка программного…

23 сайта с дата сетами: для усиления портфолио аналитика

23 сайта с дата сетами: для усиления портфолио аналитика

Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время. Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике. t.me/bigdatai –…

Понятие о визуализации данных в Pandas, если вы пришли из Excel

Понятие о визуализации данных в Pandas, если вы пришли из Excel

Прочитав много уроков по визуализации данных Pandas, я до сих пор не могу понять их механику. Создание даже простого сюжета всегда требует от меня изучения документации. И даже после запуска кода…

Python Flask: взаимодействие с контейнерами Docker

Python Flask: взаимодействие с контейнерами Docker

А вам приходила в голову мысль о том, что вам нужно реализовать сервер для обслуживания своих функций? Звучит довольно интересно, может стоит попробовать?  Итак, для этого нужно сделать: Для начала…

Пишем вирусы и зловредное ПО на Python

Пишем вирусы и зловредное ПО на Python

В мире  существует много явлений с сомнительной и спорной репутацией. Например, сюда можно отнести  хоккей на траве, датскую квашеную селедку и мужские трусы-стринги. А еще к этому  списку можно с…

Как создать GIF из графиков Matplotlib в Python

Как создать GIF из графиков Matplotlib в Python

В этой статье рассмотрим метод визуализации данных для 2-мерных временных рядов данных с использованием imageio Мы все знаем, что линейные графики – это самый интуитивный способ визуализации временных рядов.…

Как увеличить скорость Pandas и обрабатывать 10 млн необработанных наборов данных за миллисекунды

Как увеличить скорость Pandas и обрабатывать 10 млн необработанных наборов данных за миллисекунды

За последние годы использование Pandas выросло в бесчисленное количество раз. Покажу вам, как использовать Pandas максимально быстрым способом. Потому что вы не можете ускорить то, что и так быстро работает.…

Наука о данных: структура проекта

Наука о данных: структура проекта

Почему необходимо использовать структуру проекта? Когда-то предпочтение было отдано структуре, но, в конце концов, все, что имеет значение, это то, что вам должно быть удобно перемещаться и писать код. Когда…

Сорок семь передовых методов рефакторинга для улучшения кода Python

Сорок семь передовых методов рефакторинга для улучшения кода Python

Мы рассмотрим методы и фрагменты кода для документации Python, кодирования, тестирования, проверки и непрерывной интеграции. Есть примеры кода Python до и после, в которых применяется каждый метод. Техники делятся на…

Модель Orbit для прогнозирования временных рядов

Модель Orbit для прогнозирования временных рядов

Временные ряды и бизнес Большое количество современных данных имеют временную структуру. Такой структурой, например, обладают экономические и финансовые переменные (ВВП, инфляция, цены акций), продажи и другие. Многим компаниям необходимо планирование,…

Лайфхаки Python: сэкономить память и ускорить выполнение программы

Лайфхаки Python: сэкономить память и ускорить выполнение программы

Python часто ругают за то, что он медленный. Однако в нем существует несколько подходов, которые позволяют писать достаточно быстрый код. Сегодня поговорим про обработку списков. TL;DR Используйте списковые включения (list comprehensions), генераторные выражения…

Цветной Pythоn

Цветной Pythоn

Бывает, во время работы на Pythоn требуется вывести большое количество информации в терминал. Среди всего объема текста нас интересует конкретное выражение или даже символ. Как выделить интересующую нас сущность в…

Извлечение таблиц из pdf с помощью camelot

Извлечение таблиц из pdf с помощью camelot

На сайте Newtechaudit.ru описывались различные способы извлечения таблиц с данными из pdf-файлов в excel. В частности, с помощью python-библиотеки camelot (как здесь). Рассмотрим расширенные возможности camelot, позволяющие распознать большую таблицу со сложной…

Web-разработка на Python.Что проще Flask?

Web-разработка на Python.Что проще Flask?

В моей работе часто встречаются задачи обработки большого количества данных. Хорошей практикой является визуализировать работу программы. Вместо всем наскучивших консольных приложений можно быстро создать статичное веб-приложение. В моей работе часто…

В чем разница между модулем и пакетом в Python?

В чем разница между модулем и пакетом в Python?

Модули и пакеты значительно упрощают работу программиста. Классы, объекты, функции и константы, которыми приходится часто пользоваться можно упаковать в модуль, и, в дальнейшем, загружать его в свои программы при необходимости.…

Учим Pandas Python. Топ-10 вопросов о Pandas на StackOverflow

Учим Pandas Python. Топ-10 вопросов о Pandas на StackOverflow

Объем структурированных табличных данных увеличивается с каждым днем. Именно поэтому дата-сайентисту так важно уметь анализировать табличные данные с помощью Pandas. Хотя самообучение  —  отличный способ повысить квалификацию, иногда может пригодиться…

Code Mining исходного кода c Python

Code Mining исходного кода c Python

В настоящее время все больше и больше развиваются технологии анализа программного кода. Разработано большое количество различных библиотек, методов и подходов для выявления уязвимостей и «узких» мест в коде. С целью…