1  Данные.

Введение в статистику

Зачем нам нужна статистика?

Попробуем ответить на этот вопрос с помощью примера.

Допустим, вы занимаетесь исследованиями общественного транспорта и вам интересно оценить а) как часто подростки пользуются общественным транспортом и б) как много времени они в нем проводят. Вы опросили случайных 200 подростков (100 парней и 100 девушек) и обобщенно представили результаты в таблице ниже

Среднее число раз в неделю Среднее время в день
Парни 3.4 раз 40.3 мин
Девушки 3.7 раза 50.5 мин

По обоим метрикам между парнями и девушками есть разница. Вопрос однако в том, насколько эта разница значима? Да и какой смысл мы вкладываем в значимость?Что, например, могло произойти повтори мы опрос. В каких пределах могли бы мы ожидать типичное среднее для других ста случайных девушек и ста случайных парней.

Статистика, если коротко, это про то как делать “правильные” выводы на основе данных.

Данные. Что это?

Начнем с общих идей. Если статистика - это правильный способ читать данные, то что такое данные? В буквальном смысле, данные (data) - это множество точек (от латинского datum - точка). Под “точками” понимаются интересующие нас однородные объекты, например, люди, аудиозаписи, образцы крови и т.д. Примеры: Исследователи собрали 100 анкет. 1 анкета - это одна “точка” (datum), 100 анкет соответственно - data (данные).

В практическом смысле, данные - это таблица с определенной структурой. Еще их называют матрицей или таблицей данных. Статистические методы (классические) работают именно с таким форматом данных. Например, ниже представлены первые несколько строк из таблицы, которую обычно знают как mtcars — это данные об автомобилях 70-х годов.

mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1
Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4
Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2
Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2
Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4

Обратите внимание, что каждая строка в таблице - “наблюдение” и каждый столбец - “переменная”. Мы еще не дали определения этим понятиям, но за названиями можно услышать вложенное значение.

Наблюдения

Таблица данных - это не просто любая таблица, она структурирована определенным образом. Каждая строка соответствует наблюдению (observation), а каждый столбец — переменной (variable). Наблюдение (observation) — это единица анализа. Например, в примере выше, единицей наблюдения является подросток (от 13 до 18 лет). В других ситуациях, наблюдением могли бы быть

  • студент

  • тест, написанный студентом

  • покупка в магазине,

  • в принципе все что угодно, что представляет исследовательский интерес

Переменные

Переменная — это характеристика, которая может меняться от наблюдения к наблюдению. Например,

  • специальность студента
  • оценка за тест
  • время покупки

Переменные могут быть численными (numerical) и категориальными (categorical)

  • численные: возраст, вес, артериальное давление, и т.д.

  • категориальные: цвет глаз, степень прожарки (стейка), удовлетворенность

Численные переменные

  • Численные переменные можно складывать, умножать, делить и т.п.

  • Численные переменные можно разделить на

    • Непрерывные (continuous), которые могут принимать любые значения в рамках какого-то интервала. Например, высота в сантиметрах, температура в градусах Цельсия и т.д.

      • \(X \in R\) - на “математическом”. Символом \(R\) принято обозначать множество вещественных (действительных) чисел. На английском, Real numbers.
    • Дискретные (discrete), которые могут принимать только “целые” значения. Например, число человек в очереди, число ДТП за указанный месяц в Астане, и т.д.

      • \(X \in N\). Символом \(N\) принято обозначать множество натуральных чисел (т.е. целых от нуля и вперед). Natural numbers.

Категориальные переменные

  • Категориальные переменные принимают значения из ограниченного множества категорий, или уровней.

  • Категориальные переменные бывают номинальными (nominal) и порядковыми (ordinal)

  • В номинальных уровни не упорядочены. Например, цвет глаз, группа крови, специальность, пол.

    • Level 1, Level 2, Level 3 и.т.д.
  • Ординальные переменные могут быть упорядочены. Например, степени готовности стейка; степени удовлетворенности услугами.

    • Level 1 < Level 2 < Level 3 и.т.д.

Диаграмма

Будьте бдительны

  • То что значения переменной выражены числами еще не значит, что она на самом деле числовая.

  • Например, оценка IELTS, это числовая или категориальная переменная?

  • Если кто-то сдал экзамен на 1, а кто-то на 9, значит ли, что вместе они знают английский на 10?

  • Категориальные переменные могут быть выражены числами!!

  • Но они не становятся от этого числовыми. Реальные числовые переменные можно складывать, умножать и т.д. Категориальные переменные - нельзя.

Немного упражнений

  • Я описываю переменную, а вы говорите к какому типу она относится.

  • Число браков в Астане за январь.

  • Рост случайно выбранного Казахстанца.

  • Группа крови случайного выбранного Казахстанца

  • Оценка за школьный диктант по шкале от 1 до 5.

Немного упражнений. Ответы.

  • Число браков в Астане за январь. Числовая дискретная.

  • Рост случайно выбранного Казахстанца. Числовая непрерывная.

  • Группа крови случайного выбранного Казахстанца. Номинальная.

  • Оценка за школьный диктант. Порядковая.

Задача.

Исследователи провели эксперимент на 160 детях в возрасте от 5 до 15 лет; контролировался также возраст и пол детей. Каждый ребенок бросал монетку и записывал результат (белый или черный). Тем у кого выпадал “белый” давали небольшой подарок. Половине учеников дали прямые указания “быть честными”, другой половине ничего не говорили. В контрольной группе мальчики и девочки врали с одинаковой частотой. В экспериментальной группе девочки врали реже, и если у мальчиков частота вранья не зависела от возраста, то у девочек она с возрастом уменьшалась. (OpenIntro Statistics 2018:19)

Вопросы

  • Как бы вы сформулировали главный исследовательский вопрос?

  • Что является наблюдением? Как много наблюдений зафиксировано?

  • Перечислите переменные и их типы?

Ответы

  • Исследовательский вопрос:

    • Например, как прямые инструкции не врать, влияют на вероятность вранья среди детей от 5 до 15 лет
  • Что является наблюдением в этом исследовании. Как много наблюдений зафиксировано?

    • Ребенок от 5 до 15 лет; 160 наблюдений

Переменные

  • Пол: номинальная (мальчик, девочка)

  • Возраст: числовая дискретная

  • Получил ли инструкцию не врать: номинальная (да или нет)

  • Врал или не врал: номинальная

Индикаторы

  • Некоторые категориальные переменные принимают только два значения
  • Их называют индикаторами
  • Например:
    • Посещал ли студент занятие (либо да, либо нет)
    • Есть ли у вас собака (либо есть, либо нет)
  • Синтаксис: I(условие), т.е. I(пол мужской): \(1\) если мужчина, \(0\) если нет
    • I потому что Indicator.

Связи между переменными

  • Одна из основных целей анализа данных — находить связи между переменными

  • Две переменные называются связанными, или статистически ассоциированными, если зная значение одной, вы можете предположить значение другой.

  • Например, каков рост случайно взятого человека? Кто его знает?

  • Но, каков рост случайно взятого игрока НБА? Неопределенность осталась, но уменьшилась!

    • Мы могли бы сказать, что переменная “Игрок НБА” статистически ассоциирована с переменной “Рост”.

    • Кстати, определите типы этих переменных.

  • Или, каков рост случайного человека, если мы знаем, что он весит 100 килограмм?

    • Высокие люди, в среднем, весят больше. Так что зная вес человека, мы можем предположить его рост с большей точностью (т.е. с меньшей неопределенностью).
  • Запомните идею с уменьшением неопределенности! Она лежит в основе очень многих методов.

Связи между переменными

  • В каких терминах мы будем говорить о связях между переменными?

  • Для начала нам нужно определиться с тем, что мы хотим объяснить или предсказать? Например, в примере выше мы задались вопросом “каков рост” случайно взятого человека.

    • Т.е. наш основной интерес прикован к “росту”.

    • Переменную основного интереса обычно называют либо зависимой переменной (dependent variable), либо переменной отклика (response variable). Оба варианта в обиходе.

  • Затем, мы решили ввести еще одну переменную “Играет в НБА” которая объясняет или предсказывает нашу зависимую переменную.

    • По аналогии, такие переменные принято называть либо независимыми переменными (independent variables), либо объясняющими переменными (explanatory variables). Опять же в ходу оба варианта, можно использовать или первую, или вторую пару, пока вы последовательны.

Когда мы хотим сказать, что одна переменная зависит от другой (или одна переменная объясняет другую), мы будем использовать такой синтаксис:

  • Зависимая переменная ~ Независимая(ые) переменные

    или

  • Переменная отклика ~ Объясняющая(ие) переменные

Пример:

Рост ~ I(Игрок НБА) + Вес

  • Читать как Рост человека зависит (объясняется) от того играет ли он в НБА и сколько он весит

  • Уже здесь можно заметить концептуальную трудность. Можем ли мы сказать, что рост зависит от контракта с НБА? Скорее наоборот.

    • Сходное про вес, разве вес определяет рост? Скорее наоборот.
  • Статитистические модели не всегда соотносятся с реальностью (агностичны). Программа посчитает вам любую модель, которую ей дадут. Качество модели определяется пониманием процесса, который произвел данные. По сути, самим исследователем и его знанием предмета.

    • Это к тому, что расхожие фразы типа “данные говорят сами за себя” - часто говорят о дилетанстве;

    • Данные, если пытать их достаточно долго, признаются во всем, что вам нужно.

  • С другой стороны, “все модели ошибочны, но некоторые полезны”.

Визуализация данных

  • Окей, допустим у нас есть данные, мы хотим что-нибудь с ними сделать.

  • Почти без исключений, первое что мы делаем, это рисуем графики.

  • Во-первых, это увлекательно и красиво; графиками можно похвастаться в интернете, чтобы все думали какой вы умная_ый.

  • Важнее, однако, то, что графики помогают набросать гипотез о связях между переменными.

  • Давайте посмотрим на примерах.

Gapminder

  • Допустим у нас есть таблица данных вроде той, что внизу
country continent year lifeExp pop gdpPercap
Afghanistan Asia 1952 28.801 8425333 779.4453
Afghanistan Asia 1957 30.332 9240934 820.8530
Afghanistan Asia 1962 31.997 10267083 853.1007
Afghanistan Asia 1967 34.020 11537966 836.1971
Afghanistan Asia 1972 36.088 13079460 739.9811
Afghanistan Asia 1977 38.438 14880372 786.1134
Afghanistan Asia 1982 39.854 12881816 978.0114
Afghanistan Asia 1987 40.822 13867957 852.3959
Afghanistan Asia 1992 41.674 16317921 649.3414
Afghanistan Asia 1997 41.763 22227415 635.3414

Gapminder data: Описание

Gapminder содержит 1704 наблюдений по 6 переменным:

  • country: номинальная, 142 уровня (страны)
  • continent: номинальная, 5 уровней (континенты)
  • year: числовая дискретная, от 1952 до 2007 с 4-х летним шагом
  • lifeExp: числовая непрерывная, средняя продолжительность жизни в годах
  • pop: числовая дискретная, население
  • gdpPercap: непрерывная, ВВП на душу населения

Числовая ~ Числовая

  • Что мы можем сделать? Если у нас есть две числовые переменные, мы могли бы представить их совместное распределение как обычный XY-график, вроде тех, что мы чертили в средней школе. Такие графики называют диаграммами рассеяния (scatterplot).

  • На графике ниже представлены средняя продолжительность жизни и ВВП на душу для стран мира в 2007 году.

Связи между переменными: Числовая ~ Числовая

Что мы можем сказать о связи между этими переменными

  • Чисто технический, мы могли назвать этот график так

    • Life expectancy (response) ~ GDP per capita (explanatory)
  • Дальше, связь положительная: чем выше ВВП тем выше продолжительность жизни

  • Связь нелинейная: сначала, рост ВВП связан с резким повышением продолжительности жизни, но после определенного уровня продолжительности жизни перестает расти (у возраста есть верхняя граница)

  • Присутвуют выбросы (outliers)

Обследование vs. Эксперимент

Обследования (observational studies)

  • Обследования - это когда, данные наблюдаются “как есть”.
    • Опросы, веб-скрэппинг
    • Пример, PISA - это обследование.
  • Обследования могут выявить корреляцию, но не каузацию (причинно-следственную связь)
  • Например, ВВП только коррелирует с продолжительностью жизни, мы пока не можем сказать, что ВВП приводит к повышению уровня жизни

Эксперименты

  • В экспериментах испытуемые случайным образом распределяются в разные группы: как правило контрольную и экспериментальную

  • Эксперименты МОГУТ доказать причинно-следственные связи между переменными

  • Пример: Студенты, которые рано просыпаются, учатся лучше.

Пример

  • Типичное исследование могло бы выглядить следующим образом: возьмем случайных студентов, и будем следить за их практиками сна и оценками
    • Если “жаворонки” будут учится лучше “сов”, значит, раннее пробуждение коррелирует с успеваемостью
  • Эксперимент:
    • Выберем группу студентов и случайным образом разделим их на две подгруппы: экспериментальная будет специально вставать рано, а контрольная - когда захочет
    • Если спустя некоторые время, студенты, которых заставляли вставать рано, будут иметь лучше оценки, мы сможем утверждать, что ранее пробуждение влияет на успеваемость.

В чем разница?

Разница в том, что решение когда просыпаться, в эксперименте контролируется, а в обследовании - нет.

Но почему?

  • В обследованиях, мы не контролируем другие переменные, которые могут влиять как на отклик, так и на объясняющую переменную
  • Например, студенты, которые регулярно тренируются, могут одновременно соблюдать режим и лучше учится.
  • Такие внешние переменные, которые влияют как на отклик, так и на объясняющие переменные, называются спутывающими переменными (confounding variables)

Но почему эксперименты могут?

  • Внешние переменные, которые могут влиять как на ответ, так и на объясняющие переменные, одинаково представлены в обеих группах благодаря случайному распределению в группы
  • Экспериментальная и контрольная группы схожи по всем остальным переменным, кроме одной - раннего пробуждения
  • Поэтому, разницу в оценках мы можем приписать раннему пробуждению

Популяция и выборка

Пример

  • Допустим мы хотим узнать, какой процент жителей Астаны добирается до работы на автобусе
  • Популяция (также генеральная совокупность): все жители Астаны в возрасте от 18 до 65 лет
  • Выборка: 100 человек, которых мы планируем опросить
  • Как мы решаем, кто попадет в выборку?

Популяция и выборка

  • Любой исследовательский вопрос предполагает популяцию интереса (population of interest)
  • Популяция - это все объекты, которые, в идеале, мы бы хотели исследовать (например, опросить)
  • Выборка - это малая часть популяции, которую нам удалось заполучить.
  • Статистический вывод (inference) - это способы понять структуру популяции на основании выборки
    • Например, если в вашей выборке 50 человек регулярно добираются до работы на автобусе, значит ли это что 50% всех взрослых жителей Астаны делают то же самое?
    • Зависит от того, насколько хороша ваша выборка.

Стратегии выборки

  • ИП: какой процент жителей Астаны ездит на работу на автобусе?
  • Варианты выборки:
    • опросить своих друзей
    • открыть онлайн опрос и прорекламировать его в медиа
    • встать у входа торгового центра и опрашивать каждого десятого входящего
    • выбрать 25 случайных адресов в каждом из районов Астаны и позвонить хозяевам
    • через базу данных физических лиц проживающих в Астане выбрать 100 случайных иин (подходящих по возрасу) и связаться с этими людьми
  • Оцените выборки

Репрезентативная выборка

  • Хорошая выборка отражает структуру популяции

  • Если в популяции 60% людей ездят на работу на автобусе, то в хорошей выборке, пропорция должна быть похожей

  • Когда структура выборки повторяет структуру популяции, мы называем ее репрезентативной

  • В таких случаях, то что мы видим в выборке может быть генерализировано на популяцию

Как получить репрезентативную выборку?

Общая мысль: каждый объект в популяции должен иметь равные шансы попасть в выборку

Есть три общих стратегии:

  1. Простая случайная выборка
  2. Статифицированная случайная выборка
  3. Кластеризовання случайная выборка
    • Простая
    • Многоступенчатая

Простая случайная выборка

Основная идея: просто случайным образом выберите N объектов из популяции

Например:

  1. Просто из базы ИИН сгенерируйте 100 случайных номеров
  2. Ура! У нас репрезентативная выборка
  • Плюсы: Лучший способ добиться репрезентативности в теории
  • Минусы: Худший способ на практике (во многих ситуациях, практически невозможно)

Стратифицировання случайная выборка

Основная идея: разбить население на однородные группы - страты - и случайно выбрать представителей этих страт

Пример:

  1. Взять 25 мужчин и женщин в возрасте до 35 лет; а также 25 мужчин и женщин старше 25 лет.

Кластерная случайная выборка

Основная идея: разбить популяцию на разнородные группы - кластеры - и случайным образом выбрать либо кластеры как единое целое, либо случайным образом выбрать из кластеров

  1. Выбрать случайным образом торговые центры
  2. Случайным образом опрашивать людей в торговых центрах

Как испортить выборку

  1. Convenience sampling (доступная выборка)
    • Например, когда вы опрашиваете только своих друзей
  2. Добровольная выборка (voluntary response sample)
    • Проблема всех онлайн-опросов
    • Вероятность участия может зависеть от характеристик респондентов
      • Например, “Поддерживаете ли вы ужесточение наказания за жестокое обращение с животными”
      • С очень большой вероятностью, люди, которые имеют твердое мнение по этому вопросу будут активно отвечать. А люди, которым это не так важно, пройдут мимо.
  3. Non response sampling (выборка без ответов)
    • Например, когда вы задаете чувствительные вопросы и люди на них не отвечают

Иллюстрация

Выборка - это как суп

Выборка - это немного про то, как мы пробуем суп

  • Нам не нужно есть весь суп, чтобы понять его свойства. Достаточно одной ложки, при условии, что он хорошо перемешан.
  • Однако если суп не перемешан (например все специи осели на дне), даже огромная поварешка нам не поможет.

Soup

Пример плохой выборки: Landon vs FDR

  • 1936, выборы президента США: Республиканец Лэндон против демократа Франклина Делано Рузвельта (FDR)
  • Один популярный журнал того времени, the Literary Digest, разослал около 10 анкет по всей стране с просьбой указать за кого собираетесь голосовать
  • Получил около 2.4 миллона ответов
  • Согласно их данным, Рузвельт должен был получить 43% голосов (и соответственно проиграть)
  • На самих выборах, однако, Рузвельт получил 62% голосов (и естественно выиграл)
  • Вопрос: Почему такая большая разница, почти 20%, между прогнозом и реальностью?

Что могло пойти не так?

  • Генеральная совокупность: Население США с правом голоса
  • Выборка:
    • подписчики журнала, зарегистрированные автовладельцы, зарегистрированные владельцы телефонов
  • Год 1936, Великая Депрессия в самом разгаре
  • Как вы думаете, если в 1936 году у вас есть автомобиль и телефон, вы богаты или нет?
  • Скорее да, чем нет, и так сложилось, что богатые люди в штатах чаще поддерживают Республиканску партию
  • Таким образом, выборка, которую собрал журнал, была не репрезентативной той генеральной совокупности, которую она хотела оценить (голосущее население США)
  • Больше про этот случай можно почитать тут

Выборочная статистика vs. Популяционный параметр I

  • В примере выше, журнал хотел оценить какая доля людей в генеральной совокупности будет голосовать за Рузвельта. Обозначим эту долю как \(\mu\), а большой буквой \(N\) обозначим общее число людей в их генеральной совокупности. Т.е. \(N\) - это общее число американцев с правом голоса.

\[\mu = \frac{\sum_{i=1}^{N}x_i}{N} \textrm{- истинный и неизвестный популяционный параметр}\]

  • Для оценки они собрали выборку, обозначим ее размер как \(n\), и посчитали выборочную статистику (т.е. долю людей в выборке, которые планируют голосовать за Рузвельта).

\[\bar{s} = \frac{\sum_{i = 1}^{n}x_i}{n} \textrm{- выборочная статистика}\]

Выборочная статистика vs. Популяционный параметр II

  • Почувствуйте, что называется, разницу. Выборочная статистика - известна, ее только что посчитали.
  • Популяционный параметр - нет, у нас нет доступа ко всей генеральной совокупности.
  • Однако, выборочная статистика оценивает популяционный параметр. Она наша лучшая догадка о неизвестном параметре. Оценка подразумаевает, что у нас есть погрешность.
  • Большая часть математической статистики как раз про то, как количественно охарактеризовать эту погрешность. Насколько далеко выборочная статистика может случайно уйти от настоящего параметра.
  • Случайность и погрешность у нас появляются из-за процедуры выборки, так как в нее попадают разные наблюдения. Если выборка хорошая, т.е. полностью случайная, наблюдения в нее попадают разные, со всех концов спектра, и результирующее среднее дает нам хорошее представление обо всей совокупности.
  • В плохих выборках, где не у всех наблюдений есть равный шанс попасть в выборку, выборочная статистика может уйти очень и очень далеко от истинных значений параметра.

Выборочная статистика vs. Популяционный параметр III

  • Разграничение между (выборочной) статистикой и параметром принципально важно
  • Формально, статистики будут обозначаться латинскими буквами с над-чертой или крышечкой:
    • Например, выборочное среднее: \(\overline{x}\), выборочная пропорция: \(\hat{p}\)
  • Для популяционных параметров будем использовать греческие буквы:
    • Например, популяционное среднее: \(\mu_{x}\)

Случайная переменная

  • А теперь очень важная идея!!
  • Выборочная статистика - это случайная переменная (random variable). Например, выборочное среднее \(\overline{x}\) будет меняться от выборки к выборке.
  • А вот, популяционный параметр - это константа: настоящее популяционно среднее фиксировано (но неизвестно)
  • И опять, выборочная статистика приближенно оценивает популяционный параметр.

Упражнение 1.17

1.17 В Общем Социальном Опросе (The General Social Survey) есть вопрос, “После обычного рабочего дня, сколько приблизительно часов вы тратите на отдых или развлечения”. Для выборки из 1,155 американцев это время в среднем составило 1.65 часа. (OpenIntro Statistics 2018:29).

Упражнение 1.17

Определите что является а) наблюдением, б) переменной, в) выборочной статистикой и г) популяционным параметром

  1. Гражданин США (ну или просто американец)

  2. Время отдыха после рабочего дня

  3. 1.65

  4. Среднее время отдыха для всех граждан США после рабочего дня

Exercise 1.17

Определите что является а) наблюдением, б) переменной, в) выборочной статистикой и г) популяционным параметром

  1. Гражданин США (ну или просто американец): Наблюдение

  2. Время отдыха после рабочего дня: Переменная

  3. 1.65: выборочная статистика

  4. Среднее время отдыха для всех граждан США после рабочего дня: Популяционный параметр.

Read and Practice

  • Reading: Open Intro Statistics, 4ed, Chapter 1
  • Practice: 1.5, 1.9, 1.14, 1.17, 1.21, 1.31, 1.35, 1.41