Как и почему я построил модель машинного обучения для прогнозирования результатов матчей по настольному теннису

Обо мне

Я специалист по данным, которому нравится создавать продукты для обработки данных для решения проблем. В настоящее время я работаю вместе с профессионалами из разных областей, чтобы предоставить новые аналитические идеи в отрасли. 

Проблема, которую я хотел решить

Клиент обратился ко мне, чтобы помочь ему построить прибыльную модель машинного обучения для прогнозирования результатов матчей по настольному теннису на основе исторических данных. После запуска проекта я заметил, что проблема оказалась больше, чем ожидалось, потому что предоставленные данные, которые были собраны до использования веб-скрейпинга, были недостаточно надежными для обучения хорошей модели.

Что такое модель машинного обучения для прогнозирования спортивных результатов?

Я предлагал разбить проект на 3 основных шага:

  1. Снова собрать данные, но на этот раз с помощью надежного API.
  2. Проделать еще раз все преобразования и очистку данных.
  3. Развернуть надежную предписывающую модель и автоматизировать ее.

Технический стек

Прежде всего, я выбрал Python в качестве языка для проекта, поскольку Python предоставляет множество библиотек и документации для поддержки любых проблем на этом этапе.
Я разработал проект с помощью Google Colab для возможности делиться и объяснять каждый шаг моим клиентам.
Основные используемые библиотеки:

  • requests
  • pandas
  • numpy
  • sklearn

Для визуализации данных:

  • Tableau

Процесс построения модели машинного обучения для прогнозирования спортивных результатов

Для процесса сбора данных я использовал библиотеку requests, которая снабжала необходимыми данными на основе идентификаторов лиг, с которыми мой клиент хотел работать. Эти вызовы API возвращали, как и ожидалось, данные в формате json, которые я легко преобразовал в табличный формат с помощью Pandas.
В конце сбора данных я гарантирую более 200 тысяч данных хорошего качества для разработки нашей модели прогнозирования результатов матчей по настольному теннису.
Проблема была решена на основе модели машинного обучения бинарной классификации, поскольку в каждой игре должно быть только две возможности для каждого игрока: победа или поражение.

Проблемы, с которыми я столкнулся

Основная проблема, с которой столкнулась эта проблема, заключалась в том, что вначале у меня не было данных хорошего качества, и мне потребовалось несколько дней, прежде чем я осознал это. Еще одна серьезная проблема, с которой я столкнулся, заключалась в том, что я не мог нормально оценить модель как проблему классификации с использованием основных показателей, таких как кривая рентабельности инвестиций, точность и отзыв.
Основным показателем, показывающим успех модели, была долгосрочная рентабельность инвестиций (ROI).

Заключение

Однако это помогло мне понять, что некоторые проекты не могут быть решены с использованием известных и наиболее часто используемых показателей во многих задачах машинного обучения.

Этот проект помог мне узнать все этапы проекта в области науки о данных, начиная со сбора данных для развертывания модели и оказания помощи нашим клиентам. Это так важно для любого специалиста по данным, который хочет иметь хорошее представление о проекте в области науки о данных. Вам следует подумать о решении соответствующей проблемы, просто не заботясь о построении модели, но также работая над сбором данных, полностью вникая в проблему, и необходимо обработать и преобразовать данные, чтобы представить хорошие результаты клиенту.

Ответить