11 важнейших графиков, которые ученые используют в 95% случаев
Визуализации имеют решающее значение для понимания сложных закономерностей и взаимосвязей в данных.
Они позволяют в сжатой форме понять все тонкости статистических моделей:
- тонкости статистических моделей
- проверить предположения модели
- оценить эффективность модели и многое другое.
Таким образом, важно знать наиболее важные и полезные графики в науке о данных.
На рисунке ниже представлены 11 наиболее важных и обязательных для понимания графиков в науке о данных:
Сегодня вкратце разберемся, что это такое и как они используются.
KS Plot:
- Он используется для оценки различий в распределении.
- Основная идея заключается в измерении максимального расстояния между кумулятивными функциями распределения (CDF) двух распределений.
- Чем меньше максимальное расстояние, тем больше вероятность того, что они принадлежат одному и тому же распределению.
- Таким образом, вместо “графика” он в основном интерпретируется как “статистический тест” для определения различий в распределении.
SHAP Plot:
- Он суммирует значимость признаков для прогнозов модели, учитывая взаимодействие/зависимость между ними.
- Это полезно для определения того, как различные значения (низкие или высокие) признака влияют на общий результат.
ROC Curve:
- Он отображает компромисс между частотой истинных положительных результатов (хорошая производительность) и частотой ложных положительных результатов (плохая производительность) при различных порогах классификации.
- Идея состоит в том, чтобы сбалансировать TPR (хорошая производительность) и FPR (плохая производительность).
Кривая “точность-отдача”:
- Он показывает компромисс между Precision и Recall при различных пороговых значениях классификации.
QQ Plot:
- Он оценивает сходство распределения между наблюдаемыми данными и теоретическим распределением.
- Для этого строятся графики зависимости квантилей двух распределений друг от друга.
- Отклонения от прямой линии указывают на отклонение от предполагаемого распределения.
График кумулятивной объясненной дисперсии:
- Это полезно для определения количества размерностей, до которых можно сократить данные, сохранив при этом максимальную дисперсию в процессе PCA.
- Для большей ясности читайте полную статью о PCA здесь: Формулировка алгоритма анализа главных компонент (PCA) с нуля.
Изгиб локтя:
- График позволяет определить оптимальное количество кластеров для алгоритма k-means.
- Точка локтя изображает идеальное количество кластеров.
Кривой силуэт:
- Кривая Elbow часто оказывается неэффективной при наличии большого количества кластеров.
- Лучшей альтернативой является кривая Silhouette, как показано выше.
Джини-империя и энтропия:
- Они используются для измерения степени загрязненности или беспорядка узла или расщепления в дереве решений.
- На графике сравниваются примесь Джини и энтропия для различных расщеплений.
- Это позволяет понять компромисс между этими показателями
Компромисс между смещением и дисперсией:
- Это, пожалуй, самый популярный график в данном списке.
- Он используется для поиска оптимального соотношения между смещением и дисперсией модели в зависимости от ее сложности.
Графики частичной зависимости:
- Изображает зависимость между целью и признаками.
- График между целью и одним признаком образует → 1-way PDP.
- График между целью и двумя признаками образует → 2-сторонний ПДП.
- На крайнем левом графике увеличение температуры, как правило, приводит к увеличению значения цели.
+1
+1
1
+1
+1
+1