19 Датасетов для анализа данных, о которых вы скорее всего не слышали.
Хотя анализ данных всегда носит технический характер, вы всё равно можете получать от этого процесса удовольствие. Работа с интересными датасетами отличная практика, благодаря таким датасетам, вы сможете создать различные проекты, основанные на этих данных.
В этой статье мы расскажем о некоторых наборах данных, которые вы можете использовать для развития своих навыков анализа данных, которые бесплатны, общедоступны и тематика которых варьируется от развлечений до животных и спорта. Для более индивидуального подхода к вашему обучению мы также разделили наборы данных на четыре основных навыка, которыми должны овладеть все аналитики данных: очистка данных, визуализация данных, машинное обучение и анализ данных.
@vistehno – погружение в нейросети
О каких датасетах пойдет речь в статье.
Работа с представленными датасетами сделает ваше портфолио в области науки о данных более привлекательным для работодателей.
Изучите эти датасеты , прежде чем приступить к анализу. Вы сможете создать модели, для необычных задач, например: как растущие цены на газ влияют на заполняемость гостиниц в разных частях страны?
Эти необычные датасеты могут стать идеальным способом найти вдохновение в мире Data Science.
Визуализация данных
LEGO Bricks Data
Этот набор данных изначально был составлен для того, чтобы помочь людям понять, как перепрофилировать наборы LEGO, которыми они владеют. Данные содержат детали LEGO, наборы, цвета и описи каждого официального набора LEGO в базе данных Rebrickable. Хотя данные актуальны по состоянию на июль 2017 года, вы можете использовать Rebrickable API для поиска более свежих данных. Используя этот набор данных, вы можете изучить такие вопросы, как: В каких наборах чаще всего используются фрагменты? Какие самые редкие детали LEGO? Как менялись размеры наборов LEGO с течением времени?
The Nutritional Value of Starbucks Drinks
Вы когда-нибудь задумывались, сколько сахара и жира входит в ваши любимые кофейные напитки? Из-за брендинга легко предположить, что продукты питания в Starbucks полезнее, чем в McDonald’s, но вы не можете знать этого наверняка, не изучив данные. Этот набор данных от Kaggle содержит факты о питании для пунктов меню как Starbucks, так и McDonald’s. Вы можете использовать один или оба набора данных для сравнения питательной ценности аналогичных продуктов питания и напитков и визуализации своих результатов.
Global Warming Trends
Этот набор данных некоммерческой организации Berkeley Earth сообщает о том, как температура суши и океана меняется в зависимости от местоположения. Эти данные уже очищены и упакованы, что делает их отличным началом для анализа данных. Попробуйте создать линейный график в качестве визуализации данных, чтобы показать изменения температуры с течением времени.ц
Bachelor Winners
Знаете ли вы, что вы можете использовать аналитику данных, чтобы выяснить, кто выиграет “Холостяк” в следующем сезоне? В этой статье также показано, как заядлый зритель создал набор данных по демографическим данным участников конкурса “Холостяк” и использовал визуализацию данных для сообщения о своих выводах. Проанализируйте данные, чтобы обратить внимание на общие характеристики победителей и найти любые тенденции, которые с самого начала могут точно определить, кто найдёт свою любовь. Может быть, вы даже перехитрите своих друзей во время вашего следующего холостяцкого винного вечера.
A Smarter Way to Play Fantasy Football
Тренируйте свои навыки визуализации данных, одновременно следя за своей любимой командой по фэнтезийному футболу. Вы можете обнаружить закономерности в футбольной базе данных, которые помогут определить ваш стартовый состав. Оттуда создавайте графики для отображения соответствующих точек данных, чтобы представить их остальным членам вашей лиги, чтобы повысить уровень опыта каждого. Обратитесь к графическим изображениям, которые вы создали, чтобы улучшать свои показатели в каждом сезоне.
POTUS’s Twitter Account
Попробуйте создать графическое представление аккаунта Дональда Трампа в Twitter на основе этого набора данных. Проанализируйте данные, чтобы обнаружить закономерности в настроениях, приоритете слов, активных часах, днях недели и многом другом. Как только у вас будут ответы, которые вы ищете, вы можете поиграть, создав графику, отображающую то, что вы собрали.
Who Rules the Kardashians?
Если вы поклонник этой семьи, улучшите свои навыки визуализации данных, выяснив, кем на самом деле является Кардашьян. Данные, содержащиеся в этом руководстве, уже доступны для изучения тенденций внутри семьи и их взаимоотношений со средствами массовой информации.
Вы можете изучить и систематизировать эти данные для создания визуальных графиков, которые показывают, кто возьмёт торт среди королев Калабасас.
Машинное обучение
Fake Job Posts
Мошенники используют поддельные объявления о вакансиях, чтобы украсть личность людей, размещая необычайно заманчивые описания должностных обязанностей, а затем требуя от кандидатов заранее предоставить свои номера социального страхования и личные данные, якобы для того, чтобы их можно было рассмотреть на собеседовании. Этот набор данных Kaggle, составленный специалистом по обработке данных Шивамом Бансалом, содержит 18 000 описаний должностных обязанностей, из которых около 800 являются поддельными. Данные состоят как из текстовой информации, так и из метаинформации о вакансиях. Вы можете использовать эти данные для создания моделей классификации, чтобы определить, какие вакансии являются мошенническими или реальными.
Jeopardy! Questions
Если вы готовы взяться за продвинутый проект машинного обучения, этот набор данных Kaggle от Бояна Тунгуза содержит более 200 000 вопросов из популярного игрового шоу Jeopardy! и может быть использован для различных целей. Например, вы можете запустить алгоритмы классификации, чтобы предсказать категорию или долларовую стоимость вопроса. Или же вы можете пойти ещё дальше и обучить модель BERT, языковую модель для обработки естественного языка (NLP).
Million Song Dataset
Для всех поклонников поп-музыки или современности, этот набор данных был создан в рамках гранта Национального научного фонда для поощрения исследований алгоритмов, масштабируемых до коммерческих размеров. Производные функции взяты из миллиона современных популярных музыкальных треков, которые могут послужи
Очистка данных
Funny Data
Лаборатория взаимодействия человека и компьютера Университета Рочестера совместно с Институтом языковых технологий создали первый набор данных для мультимодального определения юмора. Используя языковые, визуальные и акустические функции, этот набор данных UR-FUNNY является отличной отправной точкой для очистки данных. Обновлённая версия удалила зашумленные экземпляры данных, поэтому отличным упражнением было бы очистить исходную версию, а затем сравнить свою работу с доступными обновлениями.
Video Game Culture Wars
Практикуйте очистку данных, используя существующий набор данных и устанавливая свои собственные ограничения. После скандала с Gamergate несколько лет назад, твиты за 72-часовой период были собраны в электронную таблицу. Выберите путь при работе с данными и начните тренироваться автоматически определять любые нерелевантные данные.
Clever Weather Patterns
Бразилия – самая большая страна в Южной Америке с приятными температурами и большим количеством дождей. Используя этот большой набор данных о почасовой погоде с более чем 100 станций, расширьте свои возможности по очистке данных, прочитав данные и поняв, что сохранить, а что удалить.
Trending Shows on Streaming Platforms
С таким количеством потоковых платформ у зрителей есть большой выбор. Самые популярные шоу, от новых релизов до неизменных фаворитов, создают постоянно меняющийся набор данных и часто отражают нынешний культурный дух времени. Используя этот набор данных о 10 лучших шоу Netflix за период с марта 2020 по март 2022 года, вы можете проанализировать, что люди смотрели не отрываясь во время пандемии COVID-19.
ть основой для вашего прогнозного анализа того, что станет — или не станет – хитом.
Анализ данных
New York City Squirrel Census
Любитель данных из Нью-Йорка с помощью более чем 300 добровольцев подсчитал и понаблюдал за белками, живущими в городе, и всё это для того, чтобы собрать огромное количество данных, которые можно найти здесь.
Знание того, как задавать правильные вопросы, является важным навыком анализа данных, и этот набор данных может стать отличным инструментом для изучения и выработки вопросов, на которые можно ответить с помощью этой переписи белок. Некоторые из них могут включать их самые посещаемые мусорные баки в винном погребе, самые популярные шаблоны или места, где они проводят лето.
Bigfoot Sightings
Несмотря на ограниченные физические доказательства, подтверждающие существование снежного человека, около 11% взрослых американцев верят, что восьмифутовое обезьяноподобное существо реально. Этот набор данных от Организации полевых исследователей снежного человека (BFRO), организации, занимающейся расследованием тайны снежного человека, содержит общедоступные данные наблюдений в удобоваримой форме. Вы можете использовать эти данные для анализа географических и метеорологических тенденций, связанных с наблюдениями снежного человека, и типов собранных доказательств (например, прямое наблюдение, шумы, следы и т.д.).
Pokémon
Здесь собраны данные, полученные от всех семи поколений покемонов, включая базовую статистику, рост, вес, способности и многое другое. Набор данных позволяет идентифицировать самые слабые и сильные типы покемонов, а также идентифицировать легендарных покемонов. Вы можете легко придумать несколько вопросов, на которые можно ответить, исходя из предоставленной информации, и попрактиковать свои аналитические навыки.
Harry Potter
Вы никогда не задумывались, в какой факультет Хогвартса вас бы распределили? Пытаетесь определиться со своим любимым персонажем? Используйте эти наборы данных о Гарри Поттере, чтобы получить окончательный ответ. Вот наши любимые:
- Этот набор данных содержит подробный список персонажей каждого фильма и их демографическую информацию.
- Этот набор данных глубоко погружает в языковую обработку и анализ настроений в фильмах.
- Если вы хотите выйти за рамки книг, используйте этот набор данных для 111 963 названий фанфиков о Поттере, авторов и резюме.
Datasets for Dog Lovers
Чтобы стать владельцем собаки, требуется обширное исследование и подготовка. Используйте эти данные, собранные в Германии, чтобы попрактиковаться в своих навыках анализа и ответить на частые вопросы, связанные с собаками. Некоторые примеры включают: Какие породы процветают в каком климате? А какие собаки лучше всего ладят с детьми?
Топ-6 источников для поиска Наборов данных
Даже если вы никогда раньше не работали над платным проектом в области науки о данных, в Интернете есть множество общедоступных данных, которые вы можете использовать для своих личных проектов. И с помощью этих проектов вы можете создать уникальное портфолио. Вот список источников, где вы можете найти бесплатные общедоступные наборы данных обо всём – от преступности до науки, политики и многого другого.
- UCI Machine Learning Repository
Хранилище машинного обучения UCI Калифорнийского университета в Ирвине содержит более 600 наборов данных по всему, от трансплантации костного мозга детям до данных об эффективности использования топлива в автомобилях. Уникальность сайта заключается в том, что там наборы данных классифицируются по задаче (например, классификация, регрессия или кластеризация), типу данных и области интересов. - Github’s Awesome-Public-Datasets Этот репозиторий Github содержит длинный список высококачественных наборов данных, от сельского хозяйства до развлечений, социальных сетей и нейробиологии. Работа с такими наборами данных, несомненно, позволила бы вам улучшить свои способности начинающего специалиста по обработке данных.
- Pew Research Center
Если ваша область интересов – культура, социология и текущие события, посетите хранилище данных исследовательского центра Pew, которое содержит наборы данных и опросы, охватывающие потребление МЕДИА, использование социальных сетей и демографические тенденции. Каждый набор данных поставляется с отчётами, которые были выпущены на основе этих данных, что может стать хорошей отправной точкой для вашего собственного анализа. - BuzzFeed News Github
Buzzfeed News зарекомендовал себя как заслуживающий доверия источник новостей благодаря своим нелицеприятным журналистским расследованиям. Здесь вы можете получить доступ к хранилищам данных, использованных в некоторых из лучших материалов расследований, опубликованных на Buzzfeed News, включая данные о проверке данных об огнестрельном оружии, донорах политических кампаний, джентрификации и многом другом. - FiveThirtyEight
Отмеченный наградами веб-сайт по журналистике данных FiveThirtyEight публикует свои наборы данных в открытом доступе. Наборы данных тщательно отбираются, и некоторые из них поставляются с кодом, связанным с визуализациями и графикой, использованными в оригинальной новостной статье. Если вы заинтересованы в анализе данных о текущих событиях, наборы данных FiveThirtyEight добавляются несколько раз в день и предназначены для того, чтобы ответить на некоторые из наиболее актуальных вопросов дня. - Data.world
Data.world – это служба каталогов данных (похожая на поисковую систему для наборов данных), которая является домом для крупнейшего в мире сообщества данных для совместной работы. Любой желающий может использовать data.world для создания рабочей области или проекта, в котором размещён набор данных, а также вы можете поделиться своим анализом с сообществом, чтобы получить обратную связь о вашей работе.
Являются ли некоторые Наборы Данных лучше, чем другие?
Прежде всего, хороший набор данных содержит элементы и переменные, необходимые для вашего конкретного анализа. Например, анализ временных рядов – отличный способ визуализировать изменения с течением времени, но для этого требуются данные, содержащие дату или временную метку. Вам также может потребоваться контекстуализировать ваши данные с помощью стороннего источника данных. Например, предположим, что вы анализируете результаты образования определённой демографической группы. Как эта когорта соотносится с остальным населением?
Хороший набор данных дезагрегирован. Примером этого может служить дифференциация результатов тестов для учащихся с различными способностями к обучению вместо агрегирования данных по всему контингенту учащихся. Вам также следует поискать наборы данных, содержащие метаданные или словарь данных, если поля ещё не помечены должным образом. Словарь данных предоставляет информацию об именах столбцов и элементах в столбце. Данными также должно быть относительно легко манипулировать. Если для очистки данных требуются значительные усилия, они могут быть неполными или содержать неточности.