11 важнейших графиков, которые ученые используют в 95% случаев

Визуализации имеют решающее значение для понимания сложных закономерностей и взаимосвязей в данных.

11 важнейших графиков, которые ученые используют в 95% случаев

Они позволяют в сжатой форме понять все тонкости статистических моделей:

  • тонкости статистических моделей
  • проверить предположения модели
  • оценить эффективность модели и многое другое.

Таким образом, важно знать наиболее важные и полезные графики в науке о данных.

На рисунке ниже представлены 11 наиболее важных и обязательных для понимания графиков в науке о данных:

11 важнейших графиков, которые ученые используют в 95% случаев

Сегодня вкратце разберемся, что это такое и как они используются.

KS Plot:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Он используется для оценки различий в распределении.
  • Основная идея заключается в измерении максимального расстояния между кумулятивными функциями распределения (CDF) двух распределений.
  • Чем меньше максимальное расстояние, тем больше вероятность того, что они принадлежат одному и тому же распределению.
  • Таким образом, вместо “графика” он в основном интерпретируется как “статистический тест” для определения различий в распределении.

SHAP Plot:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Он суммирует значимость признаков для прогнозов модели, учитывая взаимодействие/зависимость между ними.
  • Это полезно для определения того, как различные значения (низкие или высокие) признака влияют на общий результат.

ROC Curve:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Он отображает компромисс между частотой истинных положительных результатов (хорошая производительность) и частотой ложных положительных результатов (плохая производительность) при различных порогах классификации.
  • Идея состоит в том, чтобы сбалансировать TPR (хорошая производительность) и FPR (плохая производительность).

Кривая “точность-отдача”:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Он показывает компромисс между Precision и Recall при различных пороговых значениях классификации.

QQ Plot:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Он оценивает сходство распределения между наблюдаемыми данными и теоретическим распределением.
  • Для этого строятся графики зависимости квантилей двух распределений друг от друга.
  • Отклонения от прямой линии указывают на отклонение от предполагаемого распределения.

График кумулятивной объясненной дисперсии:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Это полезно для определения количества размерностей, до которых можно сократить данные, сохранив при этом максимальную дисперсию в процессе PCA.
  • Для большей ясности читайте полную статью о PCA здесь: Формулировка алгоритма анализа главных компонент (PCA) с нуля.

Изгиб локтя:

11 важнейших графиков, которые ученые используют в 95% случаев
  • График позволяет определить оптимальное количество кластеров для алгоритма k-means.
  • Точка локтя изображает идеальное количество кластеров.

Кривой силуэт:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Кривая Elbow часто оказывается неэффективной при наличии большого количества кластеров.
  • Лучшей альтернативой является кривая Silhouette, как показано выше.

Джини-империя и энтропия:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Они используются для измерения степени загрязненности или беспорядка узла или расщепления в дереве решений.
  • На графике сравниваются примесь Джини и энтропия для различных расщеплений.
  • Это позволяет понять компромисс между этими показателями

Компромисс между смещением и дисперсией:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Это, пожалуй, самый популярный график в данном списке.
  • Он используется для поиска оптимального соотношения между смещением и дисперсией модели в зависимости от ее сложности.

Графики частичной зависимости:

11 важнейших графиков, которые ученые используют в 95% случаев
  • Изображает зависимость между целью и признаками.
  • График между целью и одним признаком образует → 1-way PDP.
  • График между целью и двумя признаками образует → 2-сторонний ПДП.
  • На крайнем левом графике увеличение температуры, как правило, приводит к увеличению значения цели.
+1
0
+1
1
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *