Bamboolib — Анализ данных с помощью Python без программирования

Bamboolib – это библиотека Python, которая предоставляет компонент пользовательского интерфейса для анализа данных без написания кода. 

Одним из вариантов её использования является импортирование готовых функций для анализа данных, создание которых занимает много времени. Bamboolib предназначена для автоматизации рутинных задач обработки данных,исследования и визуализации и может использоваться как начинающими, так и опытными аналитиками данных.

Установка в Anaconda довольно проста :

(Откройте терминал Anaconda и выполните приведённые ниже команды)

Bamboolib — Анализ данных с помощью Python без программирования

Протестируйте Bamboolib в Jupyter

  • Запустите Jupyter Notebook
  • Импортируйте bamboolib в Python, используя следующую команду:
import bamboolib as bam
Bamboolib — Анализ данных с помощью Python без программирования

Когда пользователь нажимает кнопку “Show bamboo UI”, отображается всеобъемлющий пользовательский интерфейс, который позволяет пользователю взаимодействовать с фреймом данных Pandas. Вы можете прокручивать страницу, чтобы просмотреть все столбцы, или перемещаться вверх и вниз, чтобы просмотреть строки.

Bamboolib — Анализ данных с помощью Python без программирования

Как мы можем видеть, графический интерфейс отображает три варианта:

  • 1. Explore DataFrame
  • 2. Search Actions
  • 3. Create Plot

Исследование данных:

Опция “Исследовать фрейм данных” в пользовательском интерфейсе Bamboolib упрощает предварительный анализ данных (EDA). Инструмент изучения фрейма данных состоит из следующих вкладок:

Glimpse: Этот раздел предоставляет высокоуровневые сведения о наборе данных, такие как имена столбцов, типы данных, уникальные значения, отсутствующие значения и форма фрейма данных, которая равна 891 * 12

Bamboolib — Анализ данных с помощью Python без программирования

Predictor patterns: Этот раздел отображает тепловую карту, которая предсказывает взаимосвязь между столбцами по осям x и y. Щёлкните по любой ячейке, чтобы узнать больше о корреляции между любыми двумя столбцами.

Bamboolib — Анализ данных с помощью Python без программирования

Например, столбец “sex” выбран по оси x, а “survived” – по оси y.

Bamboolib — Анализ данных с помощью Python без программирования
Bamboolib — Анализ данных с помощью Python без программирования

Correlation Matrix: отображает корреляцию между столбцами

Bamboolib — Анализ данных с помощью Python без программирования

Search Actions:

Опция преобразования позволяет нам выбирать из ряда преобразований, включая фильтры, сортировку, группировку и многое другое, которые будут применены к нашему набору данных. Благодаря широкому спектру доступных операций, преобразование может быть использовано для управления нашими данными.

Давайте рассмотрим несколько изменений, которые мы можем внести.

Select columns: нажав на действия поиска и выбрав “выбрать или удалить столбцы”, вы можете отфильтровать набор данных, чтобы увидеть только определённые столбцы. Справа появится другое всплывающее окно, позволяющее пользователю нажать “выбрать или удалить” и использовать выпадающий список столбцов для фильтрации.

Bamboolib — Анализ данных с помощью Python без программирования

После выбора “Select” и выбора столбцов нажмите на “Execute”

Bamboolib — Анализ данных с помощью Python без программирования

Мы можем видеть, что набор данных теперь состоит из 891 строки и 10 столбцов

Bamboolib — Анализ данных с помощью Python без программирования

Если в любое время вы захотите перейти к исходному набору данных, нажмите на кнопку “Отменить”

Bamboolib — Анализ данных с помощью Python без программирования

Drop columns: Часто фрейм данных содержит столбцы, которые бесполезны для вашего анализа. Мы можем видеть, что столбец cabin в нашем фрейме данных имеет наибольшее количество отсутствующих значений, следовательно, предпочтительнее удалить его с помощью метода drop column.

Bamboolib — Анализ данных с помощью Python без программирования
Bamboolib — Анализ данных с помощью Python без программирования

Мы можем видеть, что фрейм данных теперь содержит 891 строку и 11 столбцов после удаления столбца cabin.

Bamboolib — Анализ данных с помощью Python без программирования

Filter: Используя эту опцию, мы можем проанализировать набор данных, добавив определённые условия. Например, анализ количества пассажиров, возраст которых меньше или равен 15 годам, может быть проведён, как показано ниже:

Bamboolib — Анализ данных с помощью Python без программирования

Совершенно очевидно, что на “Титанике” было 83 ребёнка (исходя из фильтрации).

Bamboolib — Анализ данных с помощью Python без программирования

Мы можем дополнительно проанализировать эти данные, чтобы определить гендерное распределение детей, как показано ниже:

Bamboolib — Анализ данных с помощью Python без программирования

Sort: Этот параметр позволяет отсортировать набор данных на основе одного или нескольких столбцов. Например, в приведённом ниже наборе данных вы хотели бы отобразить строки с именами в алфавитном порядке от A до Z:

Bamboolib — Анализ данных с помощью Python без программирования
Bamboolib — Анализ данных с помощью Python без программирования

Group By: Этот параметр позволяет вам разделить ваши данные на отдельные группы для выполнения вычислений для лучшего анализа по одному или нескольким столбцам.

Например, вы можете использовать функцию группирования по столбцу “Пол”, чтобы определить количество единиц каждого пола.

Bamboolib — Анализ данных с помощью Python без программирования
Bamboolib — Анализ данных с помощью Python без программирования

Мы также можем сгруппировать по “полу” и вычислить среднее значение Survived, Pclass, Age, Sib Sp, Parch.

Bamboolib — Анализ данных с помощью Python без программирования

Drop missing values: Этот параметр удаляет строки для выбранного столбца, в которых отсутствуют значения.

В нашем наборе данных у нас есть столбец “Возраст”, в котором отсутствует 177 значений. Давайте отбросим все строки, в которых отсутствуют значения:

Bamboolib — Анализ данных с помощью Python без программирования
Bamboolib — Анализ данных с помощью Python без программирования
Bamboolib — Анализ данных с помощью Python без программирования

Create Plot: Вы можете создавать круговые диаграммы, точечные диаграммы, столбчатые диаграммы, гистограммы, прямоугольные диаграммы и многое другое, используя опцию Create Plot.

Гистограмма:

Bamboolib — Анализ данных с помощью Python без программирования

Круговая диаграмма:

Bamboolib — Анализ данных с помощью Python без программирования
Bamboolib — Анализ данных с помощью Python без программирования

Точечный график:

Bamboolib — Анализ данных с помощью Python без программирования

Коробчатая диаграмма:

Bamboolib — Анализ данных с помощью Python без программирования

+1
2
+1
5
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *