23 сайта с дата сетами: для усиления портфолио аналитика

Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.

Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.

t.me/bigdatai – здесь собраны лучшие инструменты датасаеентистов.

Общедоступные наборы данных для проектов визуализации данных

Типичный проект визуализации данных может выглядеть примерно так: «Я хочу сделать инфографику о том, как меняется доход в разных регионах России».

FiveThirtyEight

FiveThirtyEight — популярный интерактивный новостной и спортивный сайт, созданный Нейтом Сильвером. Они пишут интересные статьи, основанные на данных.

FiveThirtyEight делает наборы данных, используемые в своих статьях, доступными онлайн на GitHub.

FiveThirtyEight датасеты.

Примеры:

NASA

NASA — государственная организация, финансируемая США, поэтому все ее данные общедоступны.

Данные, связанные с наукой о Земле.

Данные, связанные с космосом.

BuzzFeed

BuzzFeed – еще один новостной сайт.

BuzzFeed размещает наборы данных, используемые в своих статьях, на Github.

BuzzFeed датасеты.

Примеры:

Общедоступные наборы данных для проектов обработки данных

Иногда конечный результат (например, в виде визуализации) не так важен и вы просто хотите работать с данными.

Хорошими местами для поиска больших общедоступных наборов данных являются поставщики облачного хостинга, такие как Amazon и Google.

Google Public Data sets

У Google есть служба облачного хостинга, которая называется Google Cloud Platform. С GCP вы можете использовать инструмент под названием BigQuery для изучения больших наборов данных.

Google перечисляет все наборы данных на странице. Вам нужно будет зарегистрировать учетную запись GCP. Первые 1 ТБ запросов, которые вы делаете, бесплатны.

BigQuery публичные датасеты.

AWS Public Data sets

У Amazon есть страница, на которой перечислены все наборы данных. Вам понадобится учетная запись AWS, хотя Amazon предоставляет уровень бесплатного доступа для новых учетных записей, который позволит вам просматривать данные без взимания платы.

Примеры:

  • Common Crawl Corpus — данные сканирования более 5 миллиардов веб-страниц.
  • Landsat Images — спутниковые снимки поверхности Земли среднего разрешения.

Wikipedia

Стоит ли говорить, что в Википедии содержится большое количество знаний из разных сфер.

Вы можете найти различные способы загрузки данных на сайте Википедии. Вы также найдете сценарии для переформатирования данных различными способами.

Wikipedia датасеты.

Примеры:

Общедоступные наборы данных для проектов машинного обучения

Есть несколько онлайн-хранилищ наборов данных, специально предназначенных для машинного обучения. Эти наборы данных обычно очищаются заранее и позволяют очень быстро тестировать алгоритмы.

Academic Torrents

Academic Torrents — это новый сайт, предназначенный для обмена наборами данных из научных статей.

Academic Torrents датасеты.

Потоковые данные

Очень часто, когда вы создаете проект по науке о данных, вы загружаете набор данных, а затем обрабатываете его. Однако по мере того, как онлайн-сервисы генерируют все больше и больше данных, все большее их количество создается в режиме реального времени и недоступно в виде наборов данных.

Twitter

Twitter имеет хороший потоковый API и позволяет относительно просто фильтровать и транслировать твиты. Здесь есть множество вариантов — вы можете выяснить, какие штаты самые счастливые или в каких странах используется самый сложный язык.

Начните с API

GitHub

GitHub имеет API, который позволяет вам получать доступ к действиям и коду репозитория. Варианты бесконечны — вы можете создать систему для автоматической оценки качества кода или выяснить, как со временем меняется код в больших проектах.

Начните с API

Wunderground

У Wunderground есть API для прогнозов погоды, который позволяет бесплатно выполнять до 500 вызовов API в день. Вы можете использовать эти вызовы для создания набора исторических данных о погоде и прогнозирования погоды на завтра.

Начните с API

Global Health Observatory

Всемирная организация здравоохранения (ВОЗ) хранит большой набор данных о глобальном здравоохранении в Глобальной обсерватории здравоохранения (GHO). Набор данных включает все данные ВОЗ о глобальной пандемии COVID-19. GHO предлагает широкий спектр данных по таким темам, как устойчивость к противомикробным препаратам, деменция, загрязнение воздуха и иммунизация.

Global Health Observatory датасеты

Pew Research Center

Pew Research Center известен своими исследованиями в области политических и социальных наук. В интересах дальнейшего исследования и общественного обсуждения они делают все свои наборы данных общедоступными для вторичного анализа по истечении установленного периода времени.

Pew Research Center датасеты

National Climatic Data Center

Изменение климата — горячая тема на данный момент. Специалисты по данным, которые хотят получить данные о погоде и климате, могут получить доступ к большим наборам данных США из Национальных центров экологической информации (NCEI).

National Climatic Data Center датасеты

Персональные данные

В Интернете полно классных наборов данных, с которыми можно работать. Но как насчет анализа ваших личных данных?

Вот несколько популярных сайтов, которые позволяют загружать сгенерированные вами данные и работать с ними.

Amazon

Amazon позволяет загружать данные о ваших личных расходах, историю заказов и многое другое. Чтобы получить к нему доступ, перейдите к кнопке «Учетные записи и списки» в правом верхнем углу.

На следующей странице найдите раздел «Настройки заказа и покупок» и нажмите ссылку под этим заголовком «Загрузить отчеты о заказах».

Facebook

Facebook также позволяет загружать данные о вашей личной активности. Чтобы получить к нему доступ, щелкните эту ссылку (вам нужно будет войти в систему, чтобы она работала) и выберите типы данных, которые вы хотите загрузить. Вот пример простого проекта данных, который вы можете создать, используя свои собственные Данные Фейсбука.

Netflix

Netflix позволяет вам запрашивать свои собственные данные для загрузки. По последней информации, данные, которые они позволяют выгружать, довольно ограничены, но они все же могут подойти для некоторых типов проектов и анализа.

источник

Ответить