Подробный Гайд по визуализации данных. Часть I

Первая часть главы из моего электронного руководства Google Analytics 2019: Tutorial Book (скачать можно на главной странице), которая посвящена визуализации данных – тренду последних нескольких лет.

Часть материалов в этой главе взята из методического пособия к вебинару 22.01.2018 «Инфографика и визуализация данных» Екатерины Кругловой (Экономический факультет МГУ имени М.В.Ломоносова)

Информация окружает нас повсюду: сообщения в мессенджерах, посты в социальных сетях, видеоролики на YouTube, фотографии на телефоне, музыка по дороге на работу, ценники в магазинах и т.д.

В свое время журнал Science (журнал Американской ассоциации содействия развитию науки) подсчитал, что в период с 1986 по 2007 год в мире было накоплено 295 эксабайт (295 миллиардов гигабайт) информации. Если все это распечатать в книгах, то ими можно полностью покрыть территории США и Китая в 13 слоев. Каждый день современный среднестатистический человек получает столько же информации, сколько житель средневековья за всю свою жизнь.

Скорость обмена и доступ к информации значительно изменились. Научные открытии, технологические прорывы в различных отраслях, повышение уровня образованности населения – все это положительно сказывается на развитии общества в целом.
Человеческий мозг очень пластичен, и он хорошо усваивает и обрабатывает информацию, даже если ее много. Но вся ли она нужна? Помните отрывок из разговора Шерлока Холмса и доктора Ватсона (телесериал «Приключения Шерлока Холмса и доктора Ватсона», режиссер Игорь Масленников), где великий сыщик в исполнении Василия Ливанова поясняет свою точку зрения:

Ватсон, поймите: человеческий мозг — это пустой чердак, куда можно набить все, что угодно. Дурак так и делает: тащит туда нужное и ненужное. И наконец наступает момент, когда самую необходимую вещь туда уже не запихнешь. Или она запрятана так далеко, что ее не достанешь. Я делаю по-другому. В моем чердаке только необходимые мне инструменты. Их немного, но они в идеальном порядке и всегда под рукой. А лишнего хлама мне не нужно.

С этим можно соглашаться, а можно опровергать. Но никто из нас не станет отрицать того факта, что объемы поступающей информации в несколько раз превышают возможности ее усвоения. Из-за этого многие люди ловят так называемый «информационный перегруз». Возникают трудности понимания проблемы и принятия решений, причиной которых является избыток информации.

Исследования показывают, что в течение дня человек забывает около 80% всего увиденного и услышанного. Это очень большой объем ненужной информации, которую герой сэра Артура Конан Дойла очень лаконично назвал «рухлядью». Однако существуют различные техники и методики лучшего усвоения и запоминания информации.

Одним из способов эффективного обучения как раз является визуализация. Это представление числовой и текстовой информации в виде графиков, диаграмм, структурных схем, таблиц, рисунков, карт и т.д.

Подробный Гайд по визуализации данных. Часть I

Примеры визуализации

Многочисленные исследования подтверждают, что:

  • 90 % информации человек воспринимает через зрение;
  • 70 % сенсорных рецепторов находятся в глазах;
  • около половины нейронов головного мозга человека задействованы в обработке визуальной информации;
  • на 17 % выше производительность человека, работающего с визуальной информацией;
  • на 4,5 % лучше вспоминаются детали визуальной информации;
  • в 60 000 раз быстрее воспринимается визуальная информация по сравнению с текстовой;
  • человек запоминает 10 % из услышанного, 20 % — из увиденного и 80 % — из увиденного и сделанного;
  • человек выполняет инструкцию на 323 % лучше, если она содержит иллюстрации.
Подробный Гайд по визуализации данных. Часть I

На графике читатель быстрее найдет минимальное и максимальное значения

Истоки представления данных в виде таблиц, диаграмм и карт прослеживаются с древнейших времен. Ощутимая потребность в качественном представлении информации стала возникать в эпоху Возрождения, с появлением больших количеств данных и визуальной информации из географии, астрономии, геометрии, статистики и других наук.

Подробный Гайд по визуализации данных. Часть I

Визуализация: Чарльз Джозеф Майнард (Charles Joseph Minard)

В 1812 году Наполеон направился в Москву, чтобы завоевать Россию. Поход обернулся катастрофой: примерно 470 000 солдат вышли в его начале, вернулись лишь 10 000. График, который рассказывает историю той кампании, стал одной из самых известных визуализаций всех времен.

Схема описывает путь войск Наполеона туда и обратно. Ширина линии обозначает общее число солдат, цвет – направление (бежевый – к Москве, черный – обратная дорога). Ниже главной визуализации – простой линейный график, иллюстрирующий, насколько и как быстро падала температура той зимой. Схема наглядна, детальна и рисует шокирующую картину провального путешествия. Это всего лишь один из примеров визуализации исторического события, но он очень показателен.

Сегодня, в век компьютерных технологий и огромного количества информации, без преобразования цифровых данных в изображение, которое будет понятно человеку, уже не обойтись. 60% успеха визуализации зависит от выбора типа графика, 30% — от его правильного использования и 10% — от его верного оформления.

Очень часто визуализацию данных путают с другими термином «инфографика». Но у них есть существенное отличие. Данные в графическом виде – это визуализация, а наличие интерпретации этих данных делает визуализацию инфографикой.

Рассмотрим различие на простом примере (Екатерина Круглова, Экономический факультет МГУ имени М.В.Ломоносова, 2018). На рисунке 1 представлена визуализация данных о заболеваемости корью в разных штатах США с 1928 по 2012 год. На рисунке 2 уже инфографика на тех же данных от Wall Street Journal.

Подробный Гайд по визуализации данных. Часть I

Рис. 1. Заболеваемость корью в Американских штатах с 1928 по 2012 год (визуализация)

Подробный Гайд по визуализации данных. Часть I

Рис. 2. Внедрение вакцины позволило победить корь в США (инфографика)

На рисунке 1 в формате тепловой карты изображено количество случаев заболеваний корью в тысячах на 100 000 населения в каждом штате США. Единственный вывод, который можно сделать на основании представленных данных: заболеваемость корью снижается со временем. Рисунок 2 – это инфографика к статье «Борьба с инфекционными заболеваниями в 20-м веке: влияние вакцин», опубликованной в Walt Street Journal. Вертикальная линия на графике обозначает год, когда была введена в медицинскую практику вакцина против кори. Эта линия позволяет читателю интерпретировать данные и сделать на основе этой инфографики вывод: введение вакцины за несколько лет значительно снизило заболеваемость корью в США. Кстати, эта работа удостоилась престижной премии Data Journalism Awards 2015 в номинации «Визуализация данных года (крупное новостное издание)».

Таким образом, визуализация данных — это инструмент анализа, она помогает делать выводы. Инфографика — это готовые выводы, оформленные и структурированные показатели и закономерности.

Когда мы работаем с данными, например, крупной логистической компании для оптимизации маршрутов и сокращения затрат на топливо или обычного интернет-магазина по продаже одежды с целью оптимизации рекламных расходов, мы, по сути, решаем одни и те же задачи – извлекаем из них полезную для себя информацию и принимаем решения исходя из тех знаний, что мы получили в процессе исследования. Отличия только в масштабности (величине) проекта и рабочих инструментах (математических методах и вычислительных алгоритмах).

Существует огромное множество способов визуального представления информации – это столбчатые, круговые, лучевые, линейные, пузырьковые, кольцевые, древовидные диаграммы, гистограммы, диаграммы спагетти, географические диаграммы, график потоков, полярные часы, японские свечи, 3d-карты, матрицы, диаграмма Sankey и т.д.

Подробный Гайд по визуализации данных. Часть I

Типы графиков, dignitasgidital.com

Помните, что успех визуализации напрямую зависит от правильности ее применения, а именно от выбора типа графика, его верного использования и оформления.

Далее мы пошагово разберем несколько инструментов, которые будут полезны веб-аналитику в процессе работы над своими проектами. Это:

  • Google Analytics Edge – надстройка для Microsoft Excel, которая позволяет импортировать данные из Google Analytics в обычные .xlsx файлы и производить с ними любые манипуляции;
  • Google Analytics Spreadsheet Add-on – дополнение к Google Таблицам, которое позволяет создавать любые отчеты и автоматически редактировать их в Spreadsheet;
  • Google Data Studio – инструмент для работы с данными, который позволяет решать простейшие задачи по сведению, анализу и их визуализации;
  • Power BI – это решение от Microsoft, состоящее из десктопного приложения Power BI Desktop, мобильного приложения Power BI Mobile, WEB-сервиса Power BI Service.
  • Tableau – одна из самых популярных систем интерактивной аналитики в мире, которая позволяет в кратчайшие сроки проводить глубокий и разносторонний анализ больших массивов информации.

Разбор будем очень простым – мы возьмем стандартный отчет из Google Analytics по источникам трафика, выгрузим эти данные во все вышеописанные инструменты и визуализируем их. В результаты у вас в голове будет полноценная картина по всем основным продуктам, которые используют в своей ежедневной практике различные маркетинговые агентства и топовые специалисты. В зависимости размера проекта и решаемых задач, вы можете для себя выбрать один из них и использовать его в своей повседневной практике.

Исходные данные, точка А

Предположим, у нас есть сайт с определенной долей трафика по различным каналам. Установленный счетчик Google Analytics ежедневно собирает для нас информацию о посетителях, их взаимодействиях с нашим контентом, достигнутым целям и т.д. Все импортируемые расходы по рекламным кампаниям в Analytics позволяют видеть полную картину происходящего и принимать взвешенные решения о перераспределении бюджетов между ними.

Подробный Гайд по визуализации данных. Часть I

Стандартный отчет Google Analytics

Стандартных отчетов Google Analytics нам уже не хватает. Мы хотим кастомизировать их, чтобы видеть только те параметры и показатели, которые нужны, а далее визуализировать наши данные для дальнейшего их исследования. Плюс задействовать те, которых нет в Analytics.

Да, мы можем воспользоваться специальными отчетами и вычисляемыми показателями. Но зачем, если на рынке существуют более гибкие и производительные инструменты, которые позволяют работать с данными, которые собрал для нас Google Analytics. Давайте разберем их последовательно!

https://t.me/machinelearning_interview

источник

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *