23 сайта с дата сетами: для усиления портфолио аналитика
Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.
Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.
t.me/bigdatai – здесь собраны лучшие инструменты датасаеентистов.
Общедоступные наборы данных для проектов визуализации данных
Типичный проект визуализации данных может выглядеть примерно так: «Я хочу сделать инфографику о том, как меняется доход в разных регионах России».
FiveThirtyEight
FiveThirtyEight — популярный интерактивный новостной и спортивный сайт, созданный Нейтом Сильвером. Они пишут интересные статьи, основанные на данных.
FiveThirtyEight делает наборы данных, используемые в своих статьях, доступными онлайн на GitHub.
Примеры:
- Безопасность авиалиний — содержит информацию об авариях каждой авиакомпании.
- US Weather History — исторические данные о погоде в США.
NASA
NASA — государственная организация, финансируемая США, поэтому все ее данные общедоступны.
Данные, связанные с наукой о Земле.
BuzzFeed
BuzzFeed – еще один новостной сайт.
BuzzFeed размещает наборы данных, используемые в своих статьях, на Github.
Примеры:
- Вирус Zika — данные о географии вспышки вируса Zika.
- Проверки сведений об огнестрельном оружии — данные о проверках сведений о людях, пытающихся купить огнестрельное оружие.
Общедоступные наборы данных для проектов обработки данных
Иногда конечный результат (например, в виде визуализации) не так важен и вы просто хотите работать с данными.
Хорошими местами для поиска больших общедоступных наборов данных являются поставщики облачного хостинга, такие как Amazon и Google.
Google Public Data sets
У Google есть служба облачного хостинга, которая называется Google Cloud Platform. С GCP вы можете использовать инструмент под названием BigQuery для изучения больших наборов данных.
Google перечисляет все наборы данных на странице. Вам нужно будет зарегистрировать учетную запись GCP. Первые 1 ТБ запросов, которые вы делаете, бесплатны.
AWS Public Data sets
У Amazon есть страница, на которой перечислены все наборы данных. Вам понадобится учетная запись AWS, хотя Amazon предоставляет уровень бесплатного доступа для новых учетных записей, который позволит вам просматривать данные без взимания платы.
Примеры:
- Common Crawl Corpus — данные сканирования более 5 миллиардов веб-страниц.
- Landsat Images — спутниковые снимки поверхности Земли среднего разрешения.
Wikipedia
Стоит ли говорить, что в Википедии содержится большое количество знаний из разных сфер.
Вы можете найти различные способы загрузки данных на сайте Википедии. Вы также найдете сценарии для переформатирования данных различными способами.
Примеры:
Общедоступные наборы данных для проектов машинного обучения
Есть несколько онлайн-хранилищ наборов данных, специально предназначенных для машинного обучения. Эти наборы данных обычно очищаются заранее и позволяют очень быстро тестировать алгоритмы.
Academic Torrents
Academic Torrents — это новый сайт, предназначенный для обмена наборами данных из научных статей.
Потоковые данные
Очень часто, когда вы создаете проект по науке о данных, вы загружаете набор данных, а затем обрабатываете его. Однако по мере того, как онлайн-сервисы генерируют все больше и больше данных, все большее их количество создается в режиме реального времени и недоступно в виде наборов данных.
Twitter имеет хороший потоковый API и позволяет относительно просто фильтровать и транслировать твиты. Здесь есть множество вариантов — вы можете выяснить, какие штаты самые счастливые или в каких странах используется самый сложный язык.
GitHub
GitHub имеет API, который позволяет вам получать доступ к действиям и коду репозитория. Варианты бесконечны — вы можете создать систему для автоматической оценки качества кода или выяснить, как со временем меняется код в больших проектах.
Wunderground
У Wunderground есть API для прогнозов погоды, который позволяет бесплатно выполнять до 500 вызовов API в день. Вы можете использовать эти вызовы для создания набора исторических данных о погоде и прогнозирования погоды на завтра.
Global Health Observatory
Всемирная организация здравоохранения (ВОЗ) хранит большой набор данных о глобальном здравоохранении в Глобальной обсерватории здравоохранения (GHO). Набор данных включает все данные ВОЗ о глобальной пандемии COVID-19. GHO предлагает широкий спектр данных по таким темам, как устойчивость к противомикробным препаратам, деменция, загрязнение воздуха и иммунизация.
Global Health Observatory датасеты
Pew Research Center
Pew Research Center известен своими исследованиями в области политических и социальных наук. В интересах дальнейшего исследования и общественного обсуждения они делают все свои наборы данных общедоступными для вторичного анализа по истечении установленного периода времени.
National Climatic Data Center
Изменение климата — горячая тема на данный момент. Специалисты по данным, которые хотят получить данные о погоде и климате, могут получить доступ к большим наборам данных США из Национальных центров экологической информации (NCEI).
National Climatic Data Center датасеты
Персональные данные
В Интернете полно классных наборов данных, с которыми можно работать. Но как насчет анализа ваших личных данных?
Вот несколько популярных сайтов, которые позволяют загружать сгенерированные вами данные и работать с ними.
Amazon
Amazon позволяет загружать данные о ваших личных расходах, историю заказов и многое другое. Чтобы получить к нему доступ, перейдите к кнопке «Учетные записи и списки» в правом верхнем углу.
На следующей странице найдите раздел «Настройки заказа и покупок» и нажмите ссылку под этим заголовком «Загрузить отчеты о заказах».
Facebook также позволяет загружать данные о вашей личной активности. Чтобы получить к нему доступ, щелкните эту ссылку (вам нужно будет войти в систему, чтобы она работала) и выберите типы данных, которые вы хотите загрузить. Вот пример простого проекта данных, который вы можете создать, используя свои собственные Данные Фейсбука.
Netflix
Netflix позволяет вам запрашивать свои собственные данные для загрузки. По последней информации, данные, которые они позволяют выгружать, довольно ограничены, но они все же могут подойти для некоторых типов проектов и анализа.