Подробный Гайд по визуализации данных. Часть I
Первая часть главы из моего электронного руководства Google Analytics 2019: Tutorial Book (скачать можно на главной странице), которая посвящена визуализации данных – тренду последних нескольких лет.
Часть материалов в этой главе взята из методического пособия к вебинару 22.01.2018 «Инфографика и визуализация данных» Екатерины Кругловой (Экономический факультет МГУ имени М.В.Ломоносова)
Информация окружает нас повсюду: сообщения в мессенджерах, посты в социальных сетях, видеоролики на YouTube, фотографии на телефоне, музыка по дороге на работу, ценники в магазинах и т.д.
В свое время журнал Science (журнал Американской ассоциации содействия развитию науки) подсчитал, что в период с 1986 по 2007 год в мире было накоплено 295 эксабайт (295 миллиардов гигабайт) информации. Если все это распечатать в книгах, то ими можно полностью покрыть территории США и Китая в 13 слоев. Каждый день современный среднестатистический человек получает столько же информации, сколько житель средневековья за всю свою жизнь.
Скорость обмена и доступ к информации значительно изменились. Научные открытии, технологические прорывы в различных отраслях, повышение уровня образованности населения – все это положительно сказывается на развитии общества в целом.
Человеческий мозг очень пластичен, и он хорошо усваивает и обрабатывает информацию, даже если ее много. Но вся ли она нужна? Помните отрывок из разговора Шерлока Холмса и доктора Ватсона (телесериал «Приключения Шерлока Холмса и доктора Ватсона», режиссер Игорь Масленников), где великий сыщик в исполнении Василия Ливанова поясняет свою точку зрения:
Ватсон, поймите: человеческий мозг — это пустой чердак, куда можно набить все, что угодно. Дурак так и делает: тащит туда нужное и ненужное. И наконец наступает момент, когда самую необходимую вещь туда уже не запихнешь. Или она запрятана так далеко, что ее не достанешь. Я делаю по-другому. В моем чердаке только необходимые мне инструменты. Их немного, но они в идеальном порядке и всегда под рукой. А лишнего хлама мне не нужно.
С этим можно соглашаться, а можно опровергать. Но никто из нас не станет отрицать того факта, что объемы поступающей информации в несколько раз превышают возможности ее усвоения. Из-за этого многие люди ловят так называемый «информационный перегруз». Возникают трудности понимания проблемы и принятия решений, причиной которых является избыток информации.
Исследования показывают, что в течение дня человек забывает около 80% всего увиденного и услышанного. Это очень большой объем ненужной информации, которую герой сэра Артура Конан Дойла очень лаконично назвал «рухлядью». Однако существуют различные техники и методики лучшего усвоения и запоминания информации.
Одним из способов эффективного обучения как раз является визуализация. Это представление числовой и текстовой информации в виде графиков, диаграмм, структурных схем, таблиц, рисунков, карт и т.д.
Многочисленные исследования подтверждают, что:
- 90 % информации человек воспринимает через зрение;
- 70 % сенсорных рецепторов находятся в глазах;
- около половины нейронов головного мозга человека задействованы в обработке визуальной информации;
- на 17 % выше производительность человека, работающего с визуальной информацией;
- на 4,5 % лучше вспоминаются детали визуальной информации;
- в 60 000 раз быстрее воспринимается визуальная информация по сравнению с текстовой;
- человек запоминает 10 % из услышанного, 20 % — из увиденного и 80 % — из увиденного и сделанного;
- человек выполняет инструкцию на 323 % лучше, если она содержит иллюстрации.
Истоки представления данных в виде таблиц, диаграмм и карт прослеживаются с древнейших времен. Ощутимая потребность в качественном представлении информации стала возникать в эпоху Возрождения, с появлением больших количеств данных и визуальной информации из географии, астрономии, геометрии, статистики и других наук.
В 1812 году Наполеон направился в Москву, чтобы завоевать Россию. Поход обернулся катастрофой: примерно 470 000 солдат вышли в его начале, вернулись лишь 10 000. График, который рассказывает историю той кампании, стал одной из самых известных визуализаций всех времен.
Схема описывает путь войск Наполеона туда и обратно. Ширина линии обозначает общее число солдат, цвет – направление (бежевый – к Москве, черный – обратная дорога). Ниже главной визуализации – простой линейный график, иллюстрирующий, насколько и как быстро падала температура той зимой. Схема наглядна, детальна и рисует шокирующую картину провального путешествия. Это всего лишь один из примеров визуализации исторического события, но он очень показателен.
Сегодня, в век компьютерных технологий и огромного количества информации, без преобразования цифровых данных в изображение, которое будет понятно человеку, уже не обойтись. 60% успеха визуализации зависит от выбора типа графика, 30% — от его правильного использования и 10% — от его верного оформления.
Очень часто визуализацию данных путают с другими термином «инфографика». Но у них есть существенное отличие. Данные в графическом виде – это визуализация, а наличие интерпретации этих данных делает визуализацию инфографикой.
Рассмотрим различие на простом примере (Екатерина Круглова, Экономический факультет МГУ имени М.В.Ломоносова, 2018). На рисунке 1 представлена визуализация данных о заболеваемости корью в разных штатах США с 1928 по 2012 год. На рисунке 2 уже инфографика на тех же данных от Wall Street Journal.
На рисунке 1 в формате тепловой карты изображено количество случаев заболеваний корью в тысячах на 100 000 населения в каждом штате США. Единственный вывод, который можно сделать на основании представленных данных: заболеваемость корью снижается со временем. Рисунок 2 – это инфографика к статье «Борьба с инфекционными заболеваниями в 20-м веке: влияние вакцин», опубликованной в Walt Street Journal. Вертикальная линия на графике обозначает год, когда была введена в медицинскую практику вакцина против кори. Эта линия позволяет читателю интерпретировать данные и сделать на основе этой инфографики вывод: введение вакцины за несколько лет значительно снизило заболеваемость корью в США. Кстати, эта работа удостоилась престижной премии Data Journalism Awards 2015 в номинации «Визуализация данных года (крупное новостное издание)».
Таким образом, визуализация данных — это инструмент анализа, она помогает делать выводы. Инфографика — это готовые выводы, оформленные и структурированные показатели и закономерности.
Когда мы работаем с данными, например, крупной логистической компании для оптимизации маршрутов и сокращения затрат на топливо или обычного интернет-магазина по продаже одежды с целью оптимизации рекламных расходов, мы, по сути, решаем одни и те же задачи – извлекаем из них полезную для себя информацию и принимаем решения исходя из тех знаний, что мы получили в процессе исследования. Отличия только в масштабности (величине) проекта и рабочих инструментах (математических методах и вычислительных алгоритмах).
Существует огромное множество способов визуального представления информации – это столбчатые, круговые, лучевые, линейные, пузырьковые, кольцевые, древовидные диаграммы, гистограммы, диаграммы спагетти, географические диаграммы, график потоков, полярные часы, японские свечи, 3d-карты, матрицы, диаграмма Sankey и т.д.
Помните, что успех визуализации напрямую зависит от правильности ее применения, а именно от выбора типа графика, его верного использования и оформления.
Далее мы пошагово разберем несколько инструментов, которые будут полезны веб-аналитику в процессе работы над своими проектами. Это:
- Google Analytics Edge – надстройка для Microsoft Excel, которая позволяет импортировать данные из Google Analytics в обычные .xlsx файлы и производить с ними любые манипуляции;
- Google Analytics Spreadsheet Add-on – дополнение к Google Таблицам, которое позволяет создавать любые отчеты и автоматически редактировать их в Spreadsheet;
- Google Data Studio – инструмент для работы с данными, который позволяет решать простейшие задачи по сведению, анализу и их визуализации;
- Power BI – это решение от Microsoft, состоящее из десктопного приложения Power BI Desktop, мобильного приложения Power BI Mobile, WEB-сервиса Power BI Service.
- Tableau – одна из самых популярных систем интерактивной аналитики в мире, которая позволяет в кратчайшие сроки проводить глубокий и разносторонний анализ больших массивов информации.
Разбор будем очень простым – мы возьмем стандартный отчет из Google Analytics по источникам трафика, выгрузим эти данные во все вышеописанные инструменты и визуализируем их. В результаты у вас в голове будет полноценная картина по всем основным продуктам, которые используют в своей ежедневной практике различные маркетинговые агентства и топовые специалисты. В зависимости размера проекта и решаемых задач, вы можете для себя выбрать один из них и использовать его в своей повседневной практике.
Исходные данные, точка А
Предположим, у нас есть сайт с определенной долей трафика по различным каналам. Установленный счетчик Google Analytics ежедневно собирает для нас информацию о посетителях, их взаимодействиях с нашим контентом, достигнутым целям и т.д. Все импортируемые расходы по рекламным кампаниям в Analytics позволяют видеть полную картину происходящего и принимать взвешенные решения о перераспределении бюджетов между ними.
Стандартных отчетов Google Analytics нам уже не хватает. Мы хотим кастомизировать их, чтобы видеть только те параметры и показатели, которые нужны, а далее визуализировать наши данные для дальнейшего их исследования. Плюс задействовать те, которых нет в Analytics.
Да, мы можем воспользоваться специальными отчетами и вычисляемыми показателями. Но зачем, если на рынке существуют более гибкие и производительные инструменты, которые позволяют работать с данными, которые собрал для нас Google Analytics. Давайте разберем их последовательно!
https://t.me/machinelearning_interview