100 статистических терминов для улучшения навыка программирования, Data Science и исследований (Часть 1)
1. Статистические методы
Для анализа данных используются 2 главных типа статистических методов:
Описательная статистика
Описательная статистика (или дескриптивная статистика) занимается обработкой данных, их систематизацией, наглядным представлением в форме графиков и таблиц, а также их количественным описанием посредством основных статистических показателей.
Например, суммирование роста популяции людей.
Статистический вывод
Статистический вывод – это процесс использования анализа данных для определения свойства, лежащего в основе распределения вероятностей. Выводной статистический анализ выводит свойства популяции, путем проверки гипотез и получения оценок.
Например, поиск вероятности того, в какой день пойдёт дождь.
2. Совокупность и сэмплирование
Совокупность – это целый набор элементов, из которых можно извлекать статистические данные.
Сэмплирование – метод корректировки обучающей выборки с целью балансировки распределения классов в исходном наборе данных.
3. Метод наблюдения
Метод наблюдения – это непрерывное наблюдение и анализ подконтрольных объектов информационной технологии, отслеживание динамики изменений в них.
Например: если мы будем изучать всех пользователей Facebook, которые не говорят по-английски, каждый из них будет элементом наблюдения.
4. Типы данных
Номинальные данные:
- Этот тип данных может быть отнесен к разным группам /категориям
- Не имеет количественного значения
- Например: мужчина/женщина, программист/не программист
Порядковые данные:
- Порядковые значения представляют собой дискретные и упорядоченные единицы
- Его элементы имеют порядковое значение
- Например: участники гонки могут быть упорядочены в соответствии с их финишной позицией
Интервальные данные
- Интервальными называют данные, значения которых зафиксированы в отдельных, равностоящих друг от друга точках на некоторой шкале
- Например: интервал между 10 и 20 Вольтами такой же, как между 20 и 30 вольтами.
Соотношение данных
- Этот тип данных аналогичен предыдущему, с той разницей, что он имеют абсолютный ноль
- Хорошим примером этого типа данных будут рост, вес, длина
5. Типы значений
Элементы данных могут иметь:
- Дискретные значения. Дискретные данные включают в себя круглые конкретные числа, которые определяются путем подсчета.
- Непрерывные значения. Непрерывные данные включают комплексные числа, которые измеряются в течение определенного интервала времени.
6. Вероятность
Вероятность (p
) события – это отношение числа вероятных исходов к числу всех исходов.
- Вероятность располагается между значениями 0 и 1
- Вероятность того, что событие не произойдет (
q
), равна1 — p
, гдеp
– вероятность того, что событие произойдет
Правила сложения
- Если два события являются взаимоисключающими, вероятность наступления конкретного события равна сумме их индивидуальных вероятностей
- Например: В колоде карт содержатся карты 4-ёх цветов. Вероятность того, что выпадет красная карта –
1/4=0,25
, вероятность того, что выпадет чёрная карта –1/4=0,25
Из этого следует: вероятность того, что выпадет красная или чёрная карта – 0,25+0,25 = 0,5
Правила умножения
- Если два события являются взаимоисключающими, вероятность того, что два или более
события произойдут вместе, равна произведению их индивидуальных вероятностей - Например: В колоде карт содержатся карты 4-ёх цветов. Вероятность того, что выпадет красная карта –
1/4=0,25
, вероятность того, что выпадет чёрная карта –1/4=0,25
Вероятность выпадения красной и зеленой карточек равна 1/4 * 1/4 = 0.25 * 0.25 = 0.0625
.
7. Биномиальное распределение
Биномиальное распределение используется для изучения экспериментов только с двумя возможными исходами (успех/неудача).
Такой эксперимент также носит название “Эксперимент Бернулли”.
Вероятность получения ровно k
успехов в n
независимых испытаниях Бернулли определяется формулой:
Где,
Пример применения формулы:
Вероятность выпадения 4 орлов в 10 честных бросках монет (n=10, k=4, p=0,5) равна 0,20508.
Вы можете использовать специальный калькулятор биномиальной вероятности, чтобы упростить свою задачу.