Bamboolib — Анализ данных с помощью Python без программирования
Bamboolib – это библиотека Python, которая предоставляет компонент пользовательского интерфейса для анализа данных без написания кода.
Одним из вариантов её использования является импортирование готовых функций для анализа данных, создание которых занимает много времени. Bamboolib предназначена для автоматизации рутинных задач обработки данных,исследования и визуализации и может использоваться как начинающими, так и опытными аналитиками данных.
Установка в Anaconda довольно проста :
(Откройте терминал Anaconda и выполните приведённые ниже команды)
Протестируйте Bamboolib в Jupyter
- Запустите Jupyter Notebook
- Импортируйте bamboolib в Python, используя следующую команду:
import bamboolib as bam
Когда пользователь нажимает кнопку “Show bamboo UI”, отображается всеобъемлющий пользовательский интерфейс, который позволяет пользователю взаимодействовать с фреймом данных Pandas. Вы можете прокручивать страницу, чтобы просмотреть все столбцы, или перемещаться вверх и вниз, чтобы просмотреть строки.
Как мы можем видеть, графический интерфейс отображает три варианта:
- 1. Explore DataFrame
- 2. Search Actions
- 3. Create Plot
Исследование данных:
Опция “Исследовать фрейм данных” в пользовательском интерфейсе Bamboolib упрощает предварительный анализ данных (EDA). Инструмент изучения фрейма данных состоит из следующих вкладок:
Glimpse: Этот раздел предоставляет высокоуровневые сведения о наборе данных, такие как имена столбцов, типы данных, уникальные значения, отсутствующие значения и форма фрейма данных, которая равна 891 * 12
Predictor patterns: Этот раздел отображает тепловую карту, которая предсказывает взаимосвязь между столбцами по осям x и y. Щёлкните по любой ячейке, чтобы узнать больше о корреляции между любыми двумя столбцами.
Например, столбец “sex” выбран по оси x, а “survived” – по оси y.
Correlation Matrix: отображает корреляцию между столбцами
Search Actions:
Опция преобразования позволяет нам выбирать из ряда преобразований, включая фильтры, сортировку, группировку и многое другое, которые будут применены к нашему набору данных. Благодаря широкому спектру доступных операций, преобразование может быть использовано для управления нашими данными.
Давайте рассмотрим несколько изменений, которые мы можем внести.
Select columns: нажав на действия поиска и выбрав “выбрать или удалить столбцы”, вы можете отфильтровать набор данных, чтобы увидеть только определённые столбцы. Справа появится другое всплывающее окно, позволяющее пользователю нажать “выбрать или удалить” и использовать выпадающий список столбцов для фильтрации.
После выбора “Select” и выбора столбцов нажмите на “Execute”
Мы можем видеть, что набор данных теперь состоит из 891 строки и 10 столбцов
Если в любое время вы захотите перейти к исходному набору данных, нажмите на кнопку “Отменить”
Drop columns: Часто фрейм данных содержит столбцы, которые бесполезны для вашего анализа. Мы можем видеть, что столбец cabin в нашем фрейме данных имеет наибольшее количество отсутствующих значений, следовательно, предпочтительнее удалить его с помощью метода drop column.
Мы можем видеть, что фрейм данных теперь содержит 891 строку и 11 столбцов после удаления столбца cabin.
Filter: Используя эту опцию, мы можем проанализировать набор данных, добавив определённые условия. Например, анализ количества пассажиров, возраст которых меньше или равен 15 годам, может быть проведён, как показано ниже:
Совершенно очевидно, что на “Титанике” было 83 ребёнка (исходя из фильтрации).
Мы можем дополнительно проанализировать эти данные, чтобы определить гендерное распределение детей, как показано ниже:
Sort: Этот параметр позволяет отсортировать набор данных на основе одного или нескольких столбцов. Например, в приведённом ниже наборе данных вы хотели бы отобразить строки с именами в алфавитном порядке от A до Z:
Group By: Этот параметр позволяет вам разделить ваши данные на отдельные группы для выполнения вычислений для лучшего анализа по одному или нескольким столбцам.
Например, вы можете использовать функцию группирования по столбцу “Пол”, чтобы определить количество единиц каждого пола.
Мы также можем сгруппировать по “полу” и вычислить среднее значение Survived, Pclass, Age, Sib Sp, Parch.
Drop missing values: Этот параметр удаляет строки для выбранного столбца, в которых отсутствуют значения.
В нашем наборе данных у нас есть столбец “Возраст”, в котором отсутствует 177 значений. Давайте отбросим все строки, в которых отсутствуют значения:
Create Plot: Вы можете создавать круговые диаграммы, точечные диаграммы, столбчатые диаграммы, гистограммы, прямоугольные диаграммы и многое другое, используя опцию Create Plot.