Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Как незначительные изменения могут существенно повлиять на коммуникативную силу ваших визуализаций (data visualization)?

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Посмотрите на этого беднягу сверху. Он несколько дней работал над тем, чтобы извлечь из своих данных какую-то значимую информацию, но теперь не может эффективно донести её до своего начальства. Хотя до крайнего срока его большой презентации осталось всего несколько часов и она быстро приближается, он по-прежнему не осознает, что подготовленные им диаграммы скорее сбивают с толку, чем приносят пользу. Круговая диаграмма была неудачным выбором, поскольку она требует от читателя визуального оценивания долей, что дано далеко не всем людям. И эта красочная столбчатая диаграмма также не принесёт ему никакой пользы, поскольку он явно использует атрибут color ненадлежащим образом.

Давайте поможем ему! Ознакомившись с данной статьёй, мы сможем посоветовать ему, как создать более убедительные визуальные эффекты, которые обеспечат недвусмысленную передачу его выводов и заслуженное признание его тяжелой работы.

Вступление

Визуализация данных – это важная область , которую специалисты по обработке данных могут использовать для вывода наглядной информации, визуализации тенденций и закономерностей или демонстрация выводов данных. Однако часто этим диаграммам не хватает ясности, их трудно читать и интерпретировать или они просто слишком перегружены информацией, чтобы извлечь из них какие-либо значимые выводы.

Часто верно и обратное. Визуальное представление, содержащее минимум информации, может быть полностью устаревшим, и лучшей альтернативой было бы простое числовое представление или таблица.

В этой статье приведены 9 ценных советов о том, как избежать подобных сценариев и повысить ясность и эффективность информации, которую вы хотели бы донести в виде диаграмм.

1. Определите, уместно ли использование диаграммы.

Вы когда-нибудь видели подобные диаграммы?

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Да, я тоже. Если бы Эдвард Туфте увидел это, он бы назвал это chartjunk. Представление двух значений в виде диаграммы не добавляет никакой ценности или понимания данным. На самом деле, это неоправданно затрудняет считывание точных цифр с графика. Можете ли вы сказать, сколько инженеров по обработке данных работает в этом отделе? Это 33 или 34?

На самом деле, это 32. Видите? Простое сообщение о конкретных значениях в письменном описании было бы здесь гораздо эффективнее. Что-то вроде:

В настоящее время наш отдел состоит из 24 специалистов по Data Science и 32 специалистов по Data Engineering.

Итак, в какой момент целесообразно использовать диаграммы вместо необработанных чисел? Технически не существует жёстких правил, и часто это действительно зависит от таких факторов, как сложность ваших данных, ваша целевая аудитория и сообщение, которое вы хотели бы донести. Однако, в качестве общего руководства, если ваши данные состоят более чем из трёх значений, возможно, стоит рассмотреть диаграмму и представить всё визуально, особенно если это позволяет вам выявить тенденции и закономерности в ваших данных.

2. Используйте таблицы вместо диаграмм, если важна точность.

В то время как диаграммы являются отличным выбором для визуализации числовых взаимосвязей, тенденций, распределений или данных временных рядов, они, в конце концов, являются абстракцией и обычно не отображают лежащие в их основе точные цифры. Однако, например, в определённых областях, таких как медицина и финансы, точность имеет значение. В таких случаях предпочтительным выбором являются таблицы.

Взгляните на следующие два представления:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Хотя оба основаны на одних и тех же данных, конвертация валют гораздо лучше представлена в виде таблицы, показывающей точные цифры, а не диаграммы, которая заставляет читателя гадать об этих десятичных дробях.

3. Используйте соответствующие метки осей и убедитесь в их разборчивости.

Насколько полезна диаграмма, если вы не знаете, на что смотреть? Чтобы избежать путаницы и гарантировать, что читатель получит максимальную отдачу от вашего изображения, всегда следите за тем, чтобы оси были правильно обозначены — с указанием как представленных размеров, так и их единиц измерения — и чтобы они были разборчивыми.

Ниже приведён пример точечной диаграммы, показывающей взаимосвязь мощности в лошадиных силах и топливной экономичности в милях на галлон, на основе подмножества общедоступного набора данных Auto MPG [1].

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Обратите внимание, что оси разборчивы и чётко обозначены в общепринятом стиле измерения [Единица измерения], что облегчает чтение этой диаграммы и устраняет любые двусмысленности в интерпретации.

4. Используйте цвета соответствующим образом.

Не так давно я наткнулся на столбчатую диаграмму, которая выглядела примерно так:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Хотя это может выглядеть красиво, цветовая палитра вносит больше путаницы, чем ясности. При визуализации данных разные цвета обычно ассоциируются с разными измерениями или категориями. Вот пример того же графика, что и выше, но атрибут цвета используется для выделения страны происхождения каждого автопроизводителя:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Чтобы ещё больше подчеркнуть важность правильного использования цвета, вот ещё один пример:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Это тот же график, что и представленный в предыдущем разделе, но здесь атрибут color используется для добавления дополнительного измерения информации о количестве цилиндров для каждого автомобиля.

Возвращаясь к красочной столбчатой диаграмме, показанной в начале этого раздела, — здесь представлена единственная величина – топливная экономичность. Однако подобный красочный сюжет может заставить читателя задуматься, имеют ли эти цвета какое-либо значение, которого в данном случае у них нет.

Если единственная цель визуализации – сообщить среднюю топливную экономичность для каждого автопроизводителя, то гораздо более чётким решением было бы отобразить все столбцы в едином цвете, чтобы избежать какой-либо двусмысленности. Чтобы ещё больше улучшить визуальный вид, столбцы можно было бы отсортировать, чтобы помочь читателю определить любые потенциальные тенденции. Теперь диаграмма выглядит следующим образом:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Разве вы не согласны с тем, что это гораздо более ясный способ донести суть дела?

Если вам интересно узнать больше об использовании цвета в визуализации данных, обязательно ознакомьтесь с книгой ColorWise автора Kate Strachnyi.

5. Избегайте круговых диаграмм.

Давайте теперь представим приведённую выше столбчатую диаграмму средней топливной экономичности для каждого автопроизводителя в виде круговой диаграммы:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Ну, нужно ли мне что-то говорить?

Круговые диаграммы чрезвычайно сложны для интерпретации, поскольку они требуют от нас умения точно определять доли, а мы, люди, как правило, довольно плохо справляемся с этим. Например, можете ли вы сказать, у Audi или у Toyota средняя топливная экономичность выше? Как насчет BMW против Peugeot?

Столбчатая диаграмма, подобная приведённой в предыдущем разделе, почти всегда является лучшей альтернативой. Или, как выразился бы Эдвард Тафти:

… что может быть хуже круговой диаграммы? — Несколько круговых диаграмм…

6. Используйте логарифмические шкалы для визуализации больших различий и относительных изменений.

Иногда вы можете наткнуться на некоторые данные, которые содержат огромные различия. Взгляните на следующую диаграмму, показывающую в линейном масштабе годовые оклады по иерархии компании:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Хотя подсчитать заработную плату руководителей высокого уровня несложно, чем ниже вы продвигаетесь по иерархии, тем сложнее это становится сделать. Как только вы достигаете уровня индивидуального участника (IC), это, по сути, превращается в угадайку. Компенсация стажёру вообще не видна. Чтобы обойти эту проблему, данные о заработной плате можно отобразить в логарифмическом масштабе (или log), что даст следующий результат:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Обратите внимание, насколько теперь стало проще читать данные о зарплатах по всей иерархии компании.

Другой сценарий, в котором логарифмические шкалы пригодятся, – это когда ваша цель состоит в том, чтобы визуализировать относительные изменения с течением времени. Допустим, 30 лет назад вы решили инвестировать 10 000 долларов в индексный фонд, и с тех пор он неуклонно растёт со скоростью 9% в год. Построение графика этого роста в линейном масштабе выглядело бы следующим образом:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Хотя это хороший способ показать, что ваши инвестиции растут, он не идеален, если ваша цель – продемонстрировать их устойчивый темп роста в 9% в год. Чтобы достичь этого, вы можете отобразить эти цифры в логарифмическом масштабе:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Теперь эта диаграмма ясно показывает постоянные темпы роста, которые наблюдались в этих инвестициях в течение последних 30 лет.

7. Дважды подумайте, прежде чем переходить к 3D-графикам.

Я понимаю это, действительно понимаю. 3D-графики, кажется, обладают той дополнительной пышностью — глубиной, тенями, причудливыми углами, – которая делает их визуально очень привлекательными на первый взгляд.

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Однако в большинстве случаев это дополнительное приукрашивание искажает исходные данные. Это связано с тем, что 3D-график всё ещё проецируется на двумерное пространство, и в результате на плоской поверхности создаётся иллюзия глубины. Это, в свою очередь, очень затрудняет нашему мозгу обработку информации и создание из неё окончательных выводов.

Например, на приведённом выше графике множество точек данных скрыто за другими. Хотя некоторые меры могут быть приняты для устранения этой проблемы (использование прозрачности или уменьшение размера кругов), это не решает основную проблему искажения.

Вы, наверное, уже не удивлены, что Тафти тоже есть что сказать по этому поводу:

Косметическое оформление, которое часто искажает данные, никогда не исправит лежащий в основе недостаток контента

Конечно, из этого правила есть исключения. Иногда вы можете столкнуться с вариантом использования, который выиграет от 3D-визуализации. Например, графики поверхности или красивые диаграммы плотности населения. Если ваша визуализация интерактивна и позволяет пользователю должным образом изучить её, это тоже прекрасно. Но в качестве общего руководства следует, по возможности, избегать 3D-диаграммы.

8. Обеспечьте доступность.

Что хорошего в диаграммах, если только небольшая часть людей может их прочитать?

Создание доступных диаграмм гарантирует, что все люди, независимо от их способностей, имеют равный доступ к данным и могут использовать эти данные для принятия более обоснованных решений. К сожалению, доступность часто имеет меньший приоритет в мире визуализации данных, хотя осведомлённость об этой проблеме, похоже, растёт.

Некоторые рекомендации в этой области включают использование высокой контрастности между текстом и фоном, цветами и фоном, а также между самими цветами. По возможности также следует избегать совместного использования красного и зелёного цветов на графиках, чтобы сделать диаграммы более удобными для дальтоников. Кроме того, предоставление альтернативного текста, а также более описательных заголовков и меток может помочь людям, использующим вспомогательные технологии, такие как программы чтения с экрана.

Например, взгляните на следующий график:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

Мы можем смоделировать, как это выглядело бы для человека, скажем, с неспособностью воспринимать любой красный свет или протанопией:

Эффективная визуализация данных (data visualization): 9 ценных советов по повышению качества ваших графиков

На этой диаграмме услуги A и B практически неотличимы друг от друга. Это подчёркивает важность того, чтобы сделать использование инструментов обеспечения доступности обычной практикой для специалистов по визуализации данных.

9. Будьте внимательны к предубеждениям.

Если вы следили за финансовыми рынками, то, возможно, заметили одну особенность: по сравнению с большинством других рынков, когда акции в Китае растут, они отображаются красным цветом, тогда как когда они падают, они отображаются зелёным. Это потому, что в Китае красный считается счастливым цветом.

Это лишь один из многих примеров культурных ассоциаций, который подчёркивает важность адаптации ваших визуализаций к вашей аудитории и обеспечения того, чтобы такие атрибуты, как цвета или символы, использовались последовательно и продуманно.

Есть много других предубеждений, на которые следует обратить внимание при подготовке ваших визуализаций. Наиболее распространёнными из них являются:

  • Предвзятость подтверждения: тенденция отображать данные таким образом, чтобы они подтверждали чьи-то ранее существовавшие убеждения.
  • Предвзятость предубеждения: искажение того, как предубеждения воспринимаются аудиторией. Например, навешивание ярлыка на группу “преступники” вместо “люди, которые были арестованы” может привести к серьёзным заблуждениям и преждевременным суждениям.

Помня об этих предубеждениях, вы можете быть уверены, что представленные данные не приведут к каким-либо неправильным толкованиям в том, как они будут восприниматься вашей аудиторией.

Заключение

Визуализация данных необходима для эффективной передачи информации чётким и недвусмысленным способом. Следуя нескольким простым советам и рекомендациям, таким как определение того, нужна ли диаграмма в первую очередь, правильное использование цветов, обеспечение доступности или учёт предубеждений, которые могут проявляться в графиках, можно создать высококачественные визуализации, которые эффективно передают задуманное сообщение нашей целевой аудитории.

Итак, после прочтения этой статьи, как вы думаете, сможете ли вы помочь нашему другу наверху?

+1
12
+1
1
+1
1
+1
0
+1
2

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *