Репозитории и датасеты практически для всех типов проектов в области Data Science. Более 100 датасетов.

Полный список хранилищ данных для каждого типа проблем

Учитывая характер моей работы, я должен работать над новыми проектами каждую неделю, решая разные проблемы. Моя работа требует от меня разбора множества различных типов наборов данных для разработки и разработки инструкций для соискателей в области науки о данных.

Блог содержит несколько полезных наборов данных и репозиториев, классифицированных по различным классам проблем и отраслей промышленности.

@bigdatai – огромный список бесплатных наборов данных и инструментов датасаентиста в одном месте.

Репозитории для Web

Репозитории и датасеты практически для всех типов проектов в области Data Science, изображение №2

Google Dataset Search — поисковая система для исследователей, чтобы найти онлайн-данные.

datasetlist-предлагает список самых больших наборов данных машинного обучения со всего интернета.

UCI — один из старейших репозиториев с данными, классифицированными по типам задач, типам атрибутов, типу данных, области исследования и т.д.

fastai-datasets -наборы данных для классификации изображений, НЛП и локализации изображений

NLP-datasets-алфавитный список бесплатных / общедоступных наборов данных с текстовыми данными для использования в обработке естественного языка

Bifrost – для визуальных наборов данных, классифицированных по задаче, приложению, классу, метке и формату.

Датасеты изображений

Open Dataset Image
Open Dataset Image

ImageNet -это база данных изображений, организованная в соответствии с иерархией WordNet (в настоящее время только существительные), в которой каждый узел иерархии изображен сотнями и тысячами изображений.

CT Medical Images -предназначены для проверки различных методов исследования тенденций в данных КТ-изображений, связанных с использованием контраста и возрастом пациента. Данные состоят из крошечного подмножества изображений из архива изображений рака.

Flickr-faces-Flickr-Faces-HQ (FFHQ)-это высококачественный набор данных изображений человеческих лиц, первоначально созданный в качестве эталона для генеративных состязательных сетей (GAN).

objectnet — это новый вид визуального набора данных, заимствующий идею управления из других областей науки.

CelebFaces — крупномасштабные атрибуты CelebFaces

Animal Faces-HQ dataset (AFHQ) – набор данных лиц животных, состоящий из 15 000 высококачественных изображений с разрешением 512×512.

NLP датасеты

https://medium.com/@ODSC/20-open-datasets-for-natural-language-processing-538fbfaf8e38
https://medium.com/@ODSC/20-open-datasets-for-natural-language-processing-538fbfaf8e38

nlp-datasets-алфавитный список бесплатных / общедоступных наборов данных с текстовыми данными для использования в обработке естественного языка (NLP).

1 trillion n-grams — консорциум лингвистических данных. Ожидается, что эти данные будут полезны для статистического языкового моделирования, например, для машинного перевода или распознавания речи, а также для других целей.

litbank-LitBank-это аннотированный набор данных из 100 произведений англоязычной художественной литературы для поддержки задач обработки естественного языка и вычислительных гуманитарных наук.

BookCorpus-это скрипты для самостоятельного воспроизведения BookCorpus.

rasa-nlu-training-data-краудсорсинговые обучающие данные для разработки и тестирования моделей Rasa NLU.

Google book Ngram-это онлайн-поисковая система, которая отображает частоты любого набора поисковых строк, используя ежегодное количество n-граммов, найденных в источниках, напечатанных между 1500 и 2019 годами в текстовых корпусах Google на английском, китайском, французском, немецком, иврите, итальянском, русском или испанском языках.

Анализ Настроений

From Unsplash
From Unsplash

Отзывы — Amazon ReviewsYelp ReviewsMovie ReviewsFood ReviewsTwitter Airline

Stanford Sentiment Treebank — этот набор данных содержит чуть более 10 000 фрагментов данных Стэнфорда из HTML-файлов Rotten Tomatoes.

Lexicoder Sentiment Dictionary-Lexicoder выполняет простой дедуктивный контент-анализ любого вида текста, практически на любом языке.

Opinion Lexicon-это список английских положительных и отрицательных слов мнения или слов настроения.

Conversational Datasets-коллекция больших наборов данных для выбора разговорного ответа.

Другие — NRC-Emotion-Lexicon-WordlevelISEAR(17K)HappyDBemotion-to-emoji-mapping

Аудио

Audioset – это крупномасштабный набор данных, состоящий из расширяющейся онтологии из 632 классов звуковых событий и коллекции из 2 084 320 человеко-помеченных 10-секундных аудиоклипов, взятых из видео YouTube.

Финансы и экономика

From Unsplash
From Unsplash

Kaggle Finance datasets — наборы данных финансов, о деньгах и инвестировании. Если вам нужно протестировать некоторые новые стратегии инвестирования в криптовалюту или отогнать этих надоедливых энтузиастов мошенничества с кредитными картами, то вы пришли в нужное место.

CFPB Credit Card History– количество и совокупный кредитный лимит новых кредитных карт, открытых каждый месяц.

Top Banks -этот набор данных содержит списки крупнейших банков мира.

Student Loan Debt -это совокупность сводных данных о задолженности по студенческим кредитам, включая баланс задолженности по возрасту, сумме и типам задолженности.

International Monetary FundFinancial Times DatasetWorld Open Bank Data

Здравоохранение

From Unsplash
From Unsplash

Kaggle Healthcare repository -AI в здравоохранении вызывает все больший интерес. Одной из главных проблем является простое преобразование исследований в прикладные программы. Должно быть легко, не так ли?

WHO: глобальные наборы данных здравоохранения.

CDC: используйте это для специфичного для США общественного здравоохранения.

data.gov: ориентированные на США медицинские данные можно искать по нескольким различным факторам.

Научные исследования

From Unsplash
From Unsplash

Re3Data: более 2000 хранилищ исследовательских данных re3data стали наиболее полным источником справочных данных для исследовательских инфраструктур данных во всем мире.

ELVIRA Biomedical Data: высокомерные наборы данных в области биомедицины. Он фокусируется на данных, опубликованных в журналах (Nature, Science и др.).

Merck Molecular Health Activity Challenge: наборы данных, разработанные для содействия машинному обучению поиску лекарств путем моделирования того, как комбинации молекул могут взаимодействовать друг с другом.

SEER-наборы данных, организованные демографическими группами и предоставленные правительством США. Вы можете выполнять поиск по возрасту, расе и полу.

CT Cancer Medical Images-предназначен для проверки различных методов исследования тенденций в данных КТ-изображений, связанных с использованием контраста и возрастом пациента. Эти данные представляют собой крошечное подмножество изображений из архива изображений рака.

Аэрокосмическая и оборонная промышленность

From Unsplash
From Unsplash

NASA’s Data Portal-это постоянно растущий каталог общедоступных наборов данных НАСА, API, визуализаций и многого другого. Включает в себя космическую науку, аэрокосмическую науку, науку о земле, прикладную науку и управленческие данные.

Airline Data Project — коммерческая авиакомпания наборов данных из Массачусетского технологического института мировой авиаиндустрии программы

Astronomical Data Services — разнообразные астрономические данные, доступные из Военно-Морской обсерватории Соединенных Штатов (USNO). Данные включают в себя то, что связано с Солнцем, Луной, планетами и другими небесными объектами и многое другое.

Astronomical Phenomena section of the Astronomical Almanac-различные явления, представляющие астрономический интерес, включая солнечные, лунные, Геоцентрические и гелиоцентрические. Доступны таблицы восхода, захода солнца и сумерек, а также данные о солнечных и лунных затмениях

NASA’s Asteroid Data Sets-обеспечивают доступ к данным PDS об астероидах, пыли, спутниках планет, метеоритах и многом другом.

E-Commerce

Online Influencer MarketingeCommerce search relevancesocial influence on shopping

Библиотеки Python, предлагающие наборы данных

https://blog.tensorflow.org/2019/02/introducing-tensorflow-datasets.html
https://blog.tensorflow.org/2019/02/introducing-tensorflow-datasets.html

TensorFlow Datasets-это набор готовых к использованию наборов данных. Наборы данных TensorFlow-это набор готовых к использованию наборов данных с TensorFlow или другими фреймворками Python ML, такими как Jax. Все наборы данных представлены как tf.данные.Наборы данных, обеспечивающие простые в использовании и высокопроизводительные входные конвейеры. Для начала ознакомьтесь с руководством и нашим списком наборов данных.

S️klearn-пакет машинного обучения. Этот пакет также содержит помощники для извлечения больших наборов данных, обычно используемых сообществом машинного обучения для тестирования алгоритмов на данных, поступающих из “реального мира”.

nltk: набор инструментов для естественного языка. Практическая работа по обработке естественного языка обычно использует большие массивы лингвистических данных, или корпусов.

statsmodel: пакет статистических моделей. Предоставляет наборы данных (т. е. данные и метаданные)для использования в примерах, учебных пособиях, тестировании моделей и т. д.

pydataset-набор данных для образовательных целей, в основном. Он пытается помочь тем, кто впервые обращается к науке о данных в Python, кто должен иметь дело с обычными (и трудоемкими) задачами подготовки данных.

seaborn: пакет визуализации данных, в который вы также можете загрузить пример набора данных из онлайн-репозитория (требуется интернет).

52 датасета для тренировочных проектов

  1. Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
  2. Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
  3. MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
  4. The Boston Housing Dataset — популярный датасет для распознавания паттернов. Содержит информацию о домах в Бостоне: количество квартир, стоимость аренды, индекс преступлений.
  5. Fake News Detection Dataset — содержит 7796 записей с разметкой новостей: правда или ложь. (Вариант применения с исходником на Python: Fake News Detection Python Project )
  6. Wine quality dataset — содержит информацию о вине: 4898 записей с 14 параметрами.
  7. SOCR data – Heights and Weights Dataset — хороший вариант для старта. Содержит 25 000 записей о росте и весе 18-ти летних людей.

    Статья переведена при поддержке компании EDISON Software, которая выполняет «на отлично» заказы из Южного Китая, а также разрабатывает веб-приложения и сайты.
  8. Parkinson Dataset — 195 записей о пациентах с болезнью Паркинсона, с 25 параметрами анализов. Можно использовать для предварительной оценки отличия больных людей от здоровых. (Вариант применения с исходником на Python: Machine Learning Project on Detecting Parkinson’s Disease)
  9. Titanic Dataset — содержит информацию про пассажиров (возраст, пол, родственники на борту и пр) 891 в тренировочном сете и 418 — в тестовом.
  10. Uber Pickups Dataset — информация о 4.5 миллионах поездок на Uber 2014 года и 14 млн. 2015 года. (Вариант применения с исходником на R: Uber Data Analysis Project in R)
  11. Chars74k Dataset — содержит изображения Британских и Канадских символов 64 классов: 0-9, A-Z, a-z. 7700 7.7k естественных изображений, 3400kнаписанных от руки, 62000 синтезированных компьютером шрифтов.
  12. Credit Card Fraud Detection Dataset — содержит информацию о транзакциях скомпрометированных кредитных картах. (Вариант применения с исходником: Credit Card Fraud Detection Machine Learning Project)
  13. Chatbot Intents Dataset — JSON-файл, который содержит различные тэги: greetings, goodbye, hospital_search, pharmacy_search, и тд. Содержит набор шаблонов «вопрос-ответ». (Вариант применения с исходником на Python: Chatbot Project in Python)
  14. Enron Email Dataset — содержит пол миллиона писем от 150 менеджеров Enron.
  15. The Yelp Dataset — содержит 1,2 млн. рекомендаций от 1,6 млн. пользователей про 1,2 млн организаций.
  16. Jeopardy Dataset — более 200 000 записей «вопрос-ответ» из популярной телевизионной игры.
  17. Recommender Systems Dataset — портал с коллекцией датасетов от университета UCSD. Содержит записи об отзывах на популярных сайтах (Goodreads, Amazon). Отлично подходит для создания рекомендательных систем. (Вариант применения с исходником на R: Movie Recommendation System Project in R )
  18. UCI Spambase Dataset — датасет для тренировки для обнаружения спама. Содержит 4601 писем с 57 параметрами метаданных.
  19. Flickr 30k Dataset — более 30 000 изображений и подписей к ним. (Flickr 8k Dataset — 8000 изображений. Проект с исходником на Python: Image Caption Generator Python Project)
  20. IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)
  21. MS COCO dataset — 1,5 млн размеченных изображений.
  22. CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.
  23. GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)
  24. ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.
  25. Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)
  26. Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.
  27. Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.
  28. MPII human pose dataset — датасет содержит 25 000 изображений человеческих поз с аннотацией по суставам.
  29. 20BN-something-something dataset v2 — набор высококачественных видео, которые показывают, как человек выполняет какие-то действия.
  30. Object 365 Dataset — датасет высококачественных изображений с ограничивающими рамками объектов.
  31. Photo sketching dataset — содержит более 1000 изображений с их контурными чертежами.
  32. CQ500 Dataset — датасет содержит 491 КТ-сканирование головы с 193 317 срезами.
  33. IMDB-Wiki dataset — датасет с более чем 5 млн. изображений лиц с пометкой пола и возраста. (Вариант применения с исходником на Gender & Age Detection Python Project)
  34. Youtube 8M Dataset — маркированный набор данных видео, который содержит 6,1 миллиона идентификаторов видео Youtube
  35. Urban Sound 8K dataset — набор городских звуковых данных (содержит 8732 городских звука из 10 классов).
  36. LSUN Dataset — набор данных из миллионов цветных изображений сцен и объектов (около 59 миллионов изображений, 10 различных категорий сцен и 20 различных категорий объектов).
  37. RAVDESS Dataset — аудиовизуальная база данных эмоциональной речи. (Вариант применения с исходником на Speech Emotion Recognition Python Project)
  38. Librispeech Dataset — датасет содержит 1000 часов английской речи с разными акцентами.
  39. Baidu Apolloscape Dataset — датасет для развития технологий самостоятельного вождения.
  40. Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).
  41. The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.
  42. IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.
  43. American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.
  44. Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.
  45. Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.
  46. Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).
  47. Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.
  48. Food environment Atlas Data Portal — содержит данные исследований о питании в США.
  49. Health Data Portal — это портал Министерства здравоохранения и социальных служб США.
  50. Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.
  51. London Datastore Portal — данные о жизни людей в Лондоне.
  52. Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)
+1
0
+1
1
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *