Понятие о визуализации данных в Pandas, если вы пришли из Excel
Прочитав много уроков по визуализации данных Pandas, я до сих пор не могу понять их механику. Создание даже простого сюжета всегда требует от меня изучения документации.
И даже после запуска кода и получения правильного сюжета, это не делает меня уверенным, чтобы попробовать его самостоятельно. Возможно, я ищу связь с Excel. Связь между сюжетом и данными просто кажется интуитивно понятной с помощью графического интерфейса.
Имея это в виду, могу ли я каким-то образом донести это до Pandas?
Диаграммы в Excel и Pandas
Вот что я сделал, чтобы построить простой линейный график в Excel. Рассмотрим следующие данные (получите их здесь).
Затем я строю линейный график, используя функцию рекомендуемых диаграмм в Excel.
Хорошо. Легко и приятно.
Как насчет тех же данных, но в другом формате?
Замышляю это..
Это же полный бардак.
Как насчет Pandas? Давайте построим первый фрейм данных.
Хорошо. Это работает.
Как насчет второго кадра данных?
Кажется, Excel и Pandas отображают сюжет одинаково! Я кое-что понял.
Данные в широкой и длинной формах
Данные, с которыми мы работали некоторое время назад, представляют собой данные широкой и длинной формы соответственно.
Оба являются разумными образцами для хранения данных в табличном формате; вкратце, разница в следующем:
- широкоформатные данные содержат по одной строке на независимую переменную, а метаданные записываются в метках строк и столбцов.
- Данные длинных форм имеют одну строку для наблюдения, метаданные записываются в таблицу в качестве значений.
Широкая форма хорошо работает с линейной диаграммой, потому что я в основном строю независимую переменную (год) против ее метаданных (серия Гаити и Китая).
Будет ли эта линия мышления работать? Давай узнаем.
Создание основных сюжетов с помощью Pandas
Теперь давайте попробуем создать различные графики для наших широкоформатных данных, чтобы проверить мою гипотезу.
Гистограмма
Диаграмма участка
Box Plots
Гистограммы
Точечная диаграмма
К сожалению, точечная диаграмма приводит к ошибке
Мой второй момент озарения
Итак, оглядываясь на предыдущие сюжеты, теперь это имеет смысл.
Если вы строите несколько рядов относительно независимой переменной, то вы используете широкоформатную форму. В противном случае используйте длинную форму.
Давайте снова проверим эту гипотезу и посмотрим, верна ли она. Давайте сделаем точечный сюжет.
Точечная диаграмма
Ура! Это работает.
Поэтому я действительно не сравниваю две серии в точечной диаграмме, а строю график наблюдения, чтобы увидеть их распределение. Цвета не являются обязательными, и я могу сделать то же самое без него.
Но есть и другие библиотеки…
Я решил ограничить рассмотренное здесь графическое представление методом plot
DataFrame.
Когда вы новичок в Pandas, пришедший из Excel, вы хотите быстро оценить, сможете ли вы воспроизвести обычные графики, которые вы используете в Excel, чтобы гарантировать переключение и постоянное использование Pandas.
Кроме того, эффективный анализ данных связан с быстрым созданием графиков; постройте этот график, манипулируйте данными, снова постройте график и так далее. Следовательно, вы будете увязать, если я попытаюсь включить здесь различные методы построения.
Примите это как принцип Pareto применительно к визуализации – вам нужно знать только 20% методов построения графика, чтобы добиться продуктивности.
Вывод
Таким образом, данные в широком формате хорошо работают, когда вы сравниваете или выводите несколько рядов на один индекс. В противном случае лучше придерживаться длинной формы.
Рабочий процесс заключается в том, что вам нужно сначала получить данные в правильной форме, чтобы получить желаемый график, который в первую очередь определяет правильный формат.
Только тогда вы можете создать или добавить элементы к сюжету, чтобы сделать его более привлекательным.
Это похоже на Excel при визуализации данных. Вы должны сначала получить правильные данные для Excel, чтобы выложить корректную диаграмму без наворотов. Затем вы меняете элементы диаграммы, добавляете заголовок и т. д, чтобы сделать его более эффективным.
Вместо того чтобы читать много учебников по визуализации данных Pandas, наличие ментальной модели того, как данные соответствуют сюжету, делает визуализацию данных более увлекательной. Цикл обратной связи между вашей ментальной моделью и инструментом делает обучение более эффективным.