Python – Центральная предельная теорема
Статистика является важной частью проектов Data science. Мы используем статистические инструменты всякий раз, когда хотим сделать вывод о совокупности данных на основе выборки из набора, собрать информацию из набора или сделать какое-либо предположение о параметре набора. В этой статье мы поговорим об одном из важных статистических инструментов – центральной предельной теореме.
Что такое центральная предельная теорема
Определение: Теорема о центральном пределе утверждает, что если взять большое количество выборок из любой совокупности с конечными средним и дисперсией, то распределение выборочных средних будет соответствовать нормальному распределению независимо от типа исходного распределения. Кроме того, среднее значение этих выборочных средних будет равно среднему значению популяции, а стандартная ошибка (стандартное отклонение выборочных средних) будет уменьшаться с увеличением объема выборки.
Предположим, что мы берем выборку из совокупности с конечным средним значением и конечным стандартным отклонением (сигма). Тогда среднее и стандартное отклонение распределения выборочного среднего можно представить в виде:
\qquad \qquad \mu_{\bar{X}}=\mu \qquad \sigma_{\bar{X}}=\frac{\sigma}{\sqrt{n}}
Где \bar{X} представляет собой выборочное распределение среднего значения выборки размером n каждая, \mu и \sigma – среднее и стандартное отклонение совокупности соответственно.
При увеличении объема выборки ее распределение стремится к нормальному.
Использование центральной предельной теоремы (ЦПТ)
Центральная предельная теорема может быть использована для различных целей в проектах по науке о данных, некоторые из основных применений перечислены ниже
- Оценка параметров популяции – с помощью CLT можно оценить параметры популяции, такие как среднее значение популяции или доля популяции, на основе выборочных данных.
- Проверка гипотез – CLT может использоваться для различных тестов на предположения о гипотезах, поскольку она помогает построить тестовые статистики, такие как z-тест или t-тест, предполагая, что выборочное распределение тестовой статистики является приблизительно нормальным.
- Доверительный интервал – Доверительный интервал играет очень важную роль в определении диапазона, в котором находится параметр популяции. CLT играет очень важную роль в определении доверительного интервала для данного параметра популяции.
- Методы выборки – методы выборки помогают собрать репрезентативные выборки и обобщить полученные результаты на всю совокупность. CLT поддерживает различные методы выборки, используемые при проведении опросов и разработке экспериментов.
- Методы моделирования и Монте-Карло – эти методы предполагают генерацию случайных выборок из известных распределений для аппроксимации поведения сложных систем или оценки статистических величин. CLT играет очень важную роль в имитационном моделировании и методах Монте-Карло.
Реализация центральной предельной теоремы на языке Python
Сгенерируем случайные числа от -40 до 40 и соберем их средние значения в список. Итеративно выполним его операцию для разного количества чисел и построим график их выборочного распределения.
python3
import numpy
import matplotlib.pyplot as plt
# number of sample
num = [1, 10, 50, 100]
# list of sample means
means = []
# Generating 1, 10, 30, 100 random numbers from -40 to 40
# taking their mean and appending it to list means.
for j in num:
# Generating seed so that we can get same result
# every time the loop is run...
numpy.random.seed(1)
x = [numpy.mean(
numpy.random.randint(
-40, 40, j)) for _i in range(1000)]
means.append(x)
k = 0
# plotting all the means in one figure
fig, ax = plt.subplots(2, 2, figsize =(8, 8))
for i in range(0, 2):
for j in range(0, 2):
# Histogram for each x stored in means
ax[i, j].hist(means[k], 10, density = True)
ax[i, j].set_title(label = num[k])
k = k + 1
plt.show()
Выход:
Из графиков видно, что при дальнейшем увеличении объема выборки от 1 до 100 гистограмма приобретает форму нормального распределения.
Эмпирическое правило для теории центральных пределов
Как правило, теорема о центральном пределе используется при достаточно большом объеме выборки, обычно превышающем или равном 30. В некоторых случаях даже при объеме выборки менее 30 центральная предельная теорема все равно работает, но для этого распределение совокупности должно быть близким к нормальному или симметричному.