5 Шагов для разработки уникальных Data Science проектов
Возможно, самая сложная часть любого проекта – это придумать новую, но выполнимую идею. Вы часами можете просматривать существующие наборы данных и пытаться придумать новые интересные идеи. Но вот в чём проблема такого подхода: когда вы фокусируетесь только на существующих датасетах — на Kaggle, Google Datasets, FiveThirtyEight — вы ограничиваете свой творческий потенциал небольшим набором задач, для решения которых был разработан этот набор данных.
Иногда мне нравится изучать датасеты, которые кажутся мне интересными. Миллионное повторение задачи прогнозирования Kaggle может принести пользу моему прогрессу в обучении. Но как специалисты по обработке данных, мы стремимся создавать что-то новое и уникальное и генерировать полезную информацию.
Итак, как вы можете прийти к новой идее? В этой статье я собрал выводы из собственного опыта. В результате мною были определены 5 ключевых шагов, которые могут привести к успеху в данном вопросе. Они направляют процесс генерации ваших идей и позволяют вам в полной мере использовать потенциал вашего таланта, как Датасаентиста. Это приведёт к появлению новых и уникальных идей для Data Science проекта.
1. Почему я хочу создать новый проект?
Когда вы думаете о создании нового проекта, у вас в голове должны быть четкие намерения или цели. Почему вы вообще хотите заняться созданием ещё одного проекта в области Data Science? Так что сперва подумайте о том, что именно вы хотите создать:
- проект для портфолио, чтобы показывать его потенциальным работодателям;
- статью о таких вещах, как концепция, модель или исследовательский анализ данных;
- проект, который позволяет вам практиковать навыки, такие как обработка естественного языка, визуализация данных, анализ данных с использованием определенного алгоритма машинного обучения;
- или есть ли у вас что-то совершенно другое на уме.
2. Каковы мои области знаний и интересов?
Размышление над этим вопросом важно по трём основным причинам. Во-первых, вспомните диаграммы Венна из data science. Знание предметной области – важный аспект, которым должен обладать каждый специалист по обработке данных. Вы можете решать задачи с данными только в том случае, если вы также понимаете основную проблематику DS задачи. В противном случае вы создаете алгоритмы, визуализации и делаете прогнозы, которые не имеют отношения к вашим данным . И если ваша работа неуместна, зачем вам вообще это делать?
Вы же не хотите заставлять себя тратить своё свободное время на проект, который вам безразличен. Если вы заинтересованы в какой-либо области, вам не нужно быть экспертом в ней. Но вы должны быть готовы потратить время на дополнительные исследования и понять проблему, выходящую за рамки данных.
В-третьих, исследователи обнаружили, что введение ограничений в творческий процесс приводит к лучшим результатам. Это означает, что сосредоточение внимания на определенной области или комбинации областей даёт лучшие результаты, чем попытки придумать идею без каких-либо ограничений в процессе поиска. В качестве примера, мои области интересов и экспертизы – устойчивое развитие, финансы, популярная культура и обработка естественного языка. Сосредоточение внимания на этих темах позволит мне использовать мои существующие знания при определении того, можно ли превратить вдохновение в выполнимую и новую идею.
3. Как мне найти вдохновение?
Самое важное, что вы можете сделать, чтобы найти вдохновение – это читать. Различные источники могут помочь вам определить интересные темы в процессе генерации идей:
- Новости, статьи с мнениями, записи в блогах: Неподтверждённые факты — в форме истории — отличный способ выдвинуть идеи. WIRED опубликовала эту историю о политической предвзятости в функции автозаполнения Google. Вы могли бы использовать это для исследования предвзятости в языковых моделях. Или же вы могли бы выяснить, возможно ли предсказать местоположение человека на основе поискового запроса, введенного в Google.
- Научная литература: Академические статьи очень часто содержат параграфы, в которых обсуждаются открытые исследовательские вопросы, связанные с исследуемой темой. В этой статье, представляющей языковую модель GPT-2, упоминается, что модель работает не лучше random при выполнении определённых задач, таких как ответы на вопросы без точной настройки. Почему бы не написать что-нибудь о тонкостях тонкой настройки этой модели?
- Публикации в области Data Science: Просмотр записей в блоге, представляющих темы и проекты в области науки о данных, может привести к появлению новых идей. Я увидел это НЛП-исследование офиса и сразу же пожалел, что не придумал это первым. Но как насчет изучения другого телешоу? Или нескольких фильмов, чтобы определить закономерности? Вы могли бы использовать GPT-2 для написания сценариев вашего любимого телешоу.
Помимо чтения, будьте открыты для вдохновения в своей повседневной жизни. Каждый раз, когда вам что-то интересно, подумайте, могли бы вы ответить на этот вопрос с помощью данных. Например, недавно я наткнулся на трейлер телешоу “The Boys” и увидел множество положительных отзывов на IMDb. Поэтому я спросил себя, существует ли доказанная тенденция к тому, что популярные телешоу становятся более жестокими? И растёт ли аудитория, которой нравятся жестокие шоу? Используйте эти моменты любопытства и исследуйте эти вопросы с помощью данных.
Какие у вас есть варианты для создания идей, основанных на приведённом выше вдохновении? Нейробиологи выделили три различных психологических процесса, которые связаны с генерированием идей:
- Вы можете объединить существующие идеи и создать новый результат (комбинационное творчество) → Различные проекты анализировали списки Airbnb, в то время как другие анализировали рынок жилья. Объедините эти идеи, чтобы выяснить, повышает ли Airbnb цены на жилье в городе.
- Вы можете исследовать существующую идею и искать новые проблемы, ко \торые необходимо решить (исследовательское творчество) → Возьмите существующую дискуссию о специалистах по обработке данных с университетским образованием и самоучках и выясните, кто более успешен.
- Вы можете взять существующую идею и изменить в ней что-то такое, что полностью изменит её правила или смысл (трансформационное творчество) → Это самая редкая форма творчества, которая действует за пределами установленного концептуального пространства. Её трудно понять и описать. Примером может служить то, что вместо того, чтобы предсказывать, что что-то произойдёт, попробуйте предсказать то, чего не произойдет.
4. Где я могу найти соответствующие данные?
Как только у вас появится общая тема, поищите данные, чтобы определить, как вы можете реализовать идею в Data Science проекте. Это имеет решающее значение для определения того, является ли ваша идея выполнимой. Рассмотрите существующие базы данных, а также данные, которые всё ещё необходимо собрать и которые сложнее найти:
- Существующие источники набора данных: Google Datasets, FiveThirtyEight, BuzzFeed, AWS, UCI Machine Learning Repository, data.world, Data.gov , и многое другое, что покажет быстрый поиск в Google.
- Что использовали другие люди: Выполните поиск по выбранной вами теме в Google и Google Scholar и посмотрите, исследовал ли кто-нибудь уже подобный вопрос. Какие данные они использовали? Our World in Data сочетает в себе академические и неакадемические источники, о которых вы, возможно, не знаете.
- Данные, которые будут собираться с помощью: веб-скрапинга, интеллектуального анализа текста, API, отслеживания событий, сбора журналов.
Если вы не можете найти никаких данных, которые могли бы помочь вам в реализации вашей проектной идеи, перефразируйте её. Попробуйте сформулировать идею, на которую можно ответить с помощью имеющихся у вас данных. В то же время спросите себя, почему нужные вам данные недоступны? В чём проблема в той области, на которой вы фокусируетесь, и как ее можно было бы решить? Ответы на эти вопросы могли бы привести к самостоятельному проекту в области Data Science.
5. Могу ли я реализовать свою окончательную идею?
У вас есть фантастическая идея! Но осуществимо ли это? Подведите итог процессу генерации вашей идеи. Подумайте о том, чего вы хотели достичь (вопрос 1), есть ли у вас интерес или опыт в этой области (вопрос 2) и есть ли у вас необходимые данные (вопрос 4) для реализации идеи. Теперь вам нужно определить, есть ли у вас навыки для реализации этого проекта и достижения своей цели.
Важным фактором, который следует учитывать, является время, которое вы готовы потратить на этот конкретный проект. Вы не хотите защищать свою докторскую диссертацию по этой теме. Таким образом, ваш окончательный проект может быть только частью вашей идеи или это может быть обучение навыкам, необходимым вам для реализации вашей идеи в будущем. В конце этого процесса генерации идеи должен быть исследовательский вопрос, на который вы можете и хотите ответить за то время, которое готовы потратить на него для достижения своей цели.
Заключение
- Управляйте своими ожиданиями: разработка новой идеи, которая может быть выполнена, займёт больше нескольких часов. Это непрерывный процесс вдохновения, и вы должны записывать любые идеи, которые приходят к вам. Откройте заметки на своём телефоне и записывайте свои идеи. Возможно, вам удастся объединить несколько ваших идей в один сильный проект.
- Поговорите с кем-нибудь о своей идее: Обсуждение идеи вашего проекта с кем-нибудь может помочь вам. Возможно, связанный с этим вопрос более интересен. Возможно, они смогут указать вам на дополнительные источники данных. Возможно, вам нужен собеседник, чтобы понять, имеет ли смысл ваша идея.
- Не бойтесь начинать всё сначала: каждый опыт чему-то вас учит. Каждый раз, когда вы пишете строку кода, вы практикуетесь и расширяете свои навыки. Когда вы поймёте, что ваша идея не приближает вас к вашей цели или идея неосуществима, не бойтесь оставить ее и двигаться дальше. Время, которое вы потратили, не было потрачено впустую. Важно понимать, когда ваши усилия не принесут пользы.