100 статистических терминов для улучшения навыка программирования, Data Science и исследований (Часть 1)

100 статистических терминов для улучшения навыка программирования, Data Science и исследований (Часть 1)

1. Статистические методы

Для анализа данных используются 2 главных типа статистических методов:

Описательная статистика

Описательная статистика (или дескриптивная статистика) занимается обработкой данных, их систематизацией, наглядным представлением в форме графиков и таблиц, а также их количественным описанием посредством основных статистических показателей.

Например, суммирование роста популяции людей.

Статистический вывод

Статистический вывод – это процесс использования анализа данных для определения свойства, лежащего в основе распределения вероятностей. Выводной статистический анализ выводит свойства популяции, путем проверки гипотез и получения оценок.

Например, поиск вероятности того, в какой день пойдёт дождь.

100 статистических терминов для улучшения навыка программирования, Data Science и исследований (Часть 1)

2. Совокупность и сэмплирование

Совокупность – это целый набор элементов, из которых можно извлекать статистические данные.

Сэмплирование – метод корректировки обучающей выборки с целью балансировки распределения классов в исходном наборе данных.

100 статистических терминов для улучшения навыка программирования, Data Science и исследований (Часть 1)

3. Метод наблюдения

Метод наблюдения – это непрерывное наблюдение и анализ подконтрольных объектов информационной технологии, отслеживание динамики изменений в них.

Например: если мы будем изучать всех пользователей Facebook, которые не говорят по-английски, каждый из них будет элементом наблюдения.

4. Типы данных

Номинальные данные:

  • Этот тип данных может быть отнесен к разным группам /категориям
  • Не имеет количественного значения
  • Например: мужчина/женщина, программист/не программист

Порядковые данные:

  • Порядковые значения представляют собой дискретные и упорядоченные единицы
  • Его элементы имеют порядковое значение
  • Например: участники гонки могут быть упорядочены в соответствии с их финишной позицией

Интервальные данные

  • Интервальными называют данные, значения которых зафиксированы в отдельных, равностоящих друг от друга точках на некоторой шкале
  • Например: интервал между 10 и 20 Вольтами такой же, как между 20 и 30 вольтами.

Соотношение данных

  • Этот тип данных аналогичен предыдущему, с той разницей, что он имеют абсолютный ноль
  • Хорошим примером этого типа данных будут рост, вес, длина
100 статистических терминов для улучшения навыка программирования, Data Science и исследований (Часть 1)

5. Типы значений

Элементы данных могут иметь:

  • Дискретные значения. Дискретные данные включают в себя круглые конкретные числа, которые определяются путем подсчета.
  • Непрерывные значения. Непрерывные данные включают комплексные числа, которые измеряются в течение определенного интервала времени.

6. Вероятность

Вероятность (p) события – это отношение числа вероятных исходов к числу всех исходов.

  • Вероятность располагается между значениями 0 и 1
  • Вероятность того, что событие не произойдет (q), равна 1 — p, где p – вероятность того, что событие произойдет

Правила сложения

  • Если два события являются взаимоисключающими, вероятность наступления конкретного события равна сумме их индивидуальных вероятностей
  • Например: В колоде карт содержатся карты 4-ёх цветов. Вероятность того, что выпадет красная карта – 1/4=0,25, вероятность того, что выпадет чёрная карта – 1/4=0,25

Из этого следует: вероятность того, что выпадет красная или чёрная карта – 0,25+0,25 = 0,5

Правила умножения

  • Если два события являются взаимоисключающими, вероятность того, что два или более
    события произойдут вместе, равна произведению их индивидуальных вероятностей
  • Например: В колоде карт содержатся карты 4-ёх цветов. Вероятность того, что выпадет красная карта – 1/4=0,25, вероятность того, что выпадет чёрная карта – 1/4=0,25

Вероятность выпадения красной и зеленой карточек равна 1/4 * 1/4 = 0.25 * 0.25 = 0.0625.

100 статистических терминов для улучшения навыка программирования, Data Science и исследований (Часть 1)

7. Биномиальное распределение

Биномиальное распределение используется для изучения экспериментов только с двумя возможными исходами (успех/неудача).

Такой эксперимент также носит название “Эксперимент Бернулли”.

Вероятность получения ровно k успехов в n независимых испытаниях Бернулли определяется формулой:

100 статистических терминов для улучшения навыка программирования, Data Science и исследований (Часть 1)

Где,

100 статистических терминов для улучшения навыка программирования, Data Science и исследований (Часть 1)

Пример применения формулы:

Вероятность выпадения 4 орлов в 10 честных бросках монет (n=10, k=4, p=0,5) равна 0,20508.

Вы можете использовать специальный калькулятор биномиальной вероятности, чтобы упростить свою задачу.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *