2  Переменные

Числовые переменные

  • Бывают
    • Непрерывные (continuous): рост, вес, артериальное давление
    • Дискретные (discrete): число разводов, число детей
  • Как понять, что вы имеете дело именно с числовой переменной (а не категориальной, которая выражена числами)?
  • К числовым переменным можно применять арифметические операции
    • Если один человек весит 70 кг, а другой 60 кг, вместе они весят 130 кг.
  • Помните о порядковых переменных, которые “прикидываются” числовыми
    • Если у меня IELTS 3, а у друга 6, это не значит, что он в два раза лучше знает английский. Или что вместе мы знаем английский на 9.

Гистограмма

Обычно анализ численных переменных начинается с визуализации их распределения. Один из типичных способо сделать это - гистограмма, диаграмма которая показывает частоты значений.

Гистограмма строится следующим образом,

  • Диапазон чисел разбивается на интервалы
  • Для каждого интервала считается число наблюдений попавших в него
  • Высоты столбцов показывают эти частоты

  • На практике размер интервала (или “корзины”) остается на усмотрение исследователя

  • Играя с размером, можно либо “детализировать”, либо “обобщать” распределение

Пример: средняя продолжительность жизни

Ассимметрия распределений (skewness): хвосты распределений

  • Визуально гистограммы имеют “хвосты” - регионы по “краям” распределения
    • “хвосты” могут быть “длинными” или “толстыми”
  • Если у распределения “длинный/толстый” хвост - можно сказать, что распределение “скошенно” (skewed) в его сторону.
  • Если у вас длинный левый хвост, распределение скошенно влево (left-skewed).
  • А если правый, то скошенно вправо (right-skewed).
  • В целос распределения принято делить на
    • Скошенные вправо
    • Скошенные влево
    • Симметричные

Примеры

(a) GDP: Right-skewed
(b) Life expectancy: Left-skewed
Рисунок 2.1: Skewness

Мода

  • Мода распределения, если очень упрощать, - это самое частое значение. Визуально мода соответствует “пику”, то есть максимуму, распределения.

  • По количеству таких пиков обычно говорят о

    • Юнимодальных распределениях: с одним максимумом

    • Бимодальных: с двумя

    • И мультимодальных: с больше чем двумя

Бимодальное распределение

  • Допустим у есть распределение
classroom <- tibble(ages = c(14, 
                             15, 15, 
                             16, 16, 16, 
                             17, 17, 17, 17, 
                             18, 18, 18, 
                             19, 
                             29, 
                             30, 30, 
                             31, 31, 31, 
                             32, 32, 
                             33),
                    classroom = "classroom")
  • Его распределение будет выглядеть так

Меры Центральной Тенденции

Обобщающие статистики (summary statistics)

  • Допустим я хотел бы обобщить данные о ВВП за 2007 год.
  • Обобщающая статистика как-то характеризует распределение
    • Например, показывает его “центр”
    • Или степень “разбросанности” значений
    • Или ассиметрию распределения (скошенность)
  • Еще раз напомню, что статистика - это любое число или числа, которые вы вычисляете на основании выборки

Центр распределения: среднее, медиана, и мода

  • Выборочное среднее - это сумма всех значений, деленная на число наблюдений

\[\bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n}\]

  • Например, \(\mathbf{x} = \{1, 2, 3, 4, 10\} \rightarrow \bar{x} = \frac{1+2+3+4+10}{5}=4\)

  • Выборочная медиана - это точка в числовом ряду, которая делит его “пополам”

    • e.g. \(\mathbf{x} = {1, 2, \mathbf{3}, 4, 10}\)
  • Мода - самое частое значение

    • Редко используется для числовых переменных

Как оценить “центр” распределения.

Пример: Среднее и Медиана

  • Допустим есть фирма, в которой
    • зарплата директора 1,000,000 тенге
    • а зарплата сотрудников 100,000 тенге
  • Средняя зарплата \(\frac{5 \times 100,000 + 1,000,000}{6} = 250000\)
  • А медиана \(100,000\) тенге
  • Если мы исключим директора, и среднее существенно измениться (\(100,000\) тенге)
    • А медиана останется прежней.
  • Среднее чувствительно к выбросам (outliers).
  • Медиана - робастна (устойчива) к выбросам (outliers).
Робастность

Под робастностью в статистике понимают нечувствительность к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами (Вики).

Среднее vs. Медиана

  • Что лучше, среднее или медиана? Зависит от контекста
  • Например, доходы домохозяйств, обычно измеряются медианой:
    • Потому что распределение доходов, как правило, скошенно вправо.
    • Как вы думаете, почему?
  • Среднее, однако, содержит больше информации о распределении. Поэтому зная среднее, вы можете посчитать, например, общее богатство в регионе.

Пример

  • Определите где медиана, а где среднее?

Продолжительность жизни

Среднее vs. Медиана: в контексте скошенности

  • Если Среднее > Медианы: распределение скошенно вправо
  • Если Среднее < Медианы: распределение скошенно влево
  • Если Среднее \(\approx\) Медианы: распределение симметрично
  • Среднее “притягивается” выбросами
  • Медиана более устойчива

Метрики Разброса

Дисперсия (variance) и стандартное отклонение

  • Допустим есть два кафе, в обоих месячный доход \(1,500,000\) тенге
month Cafe A Cafe B
January 1000 700
February 1300 1900
March 700 1000
April 1200 1100
May 800 500
June 1000 800

Дисперсия

  • Кафе различаются в том, насколько значения разбросаны вокруг среднего
  • Как можно выразить эту разницу с помощью некоего числа?
  • Один вариант взять разброс значений (т.е. минимальное и максимальное значения)
    • \(700\) и \(1300\) для Кафе А
    • \(700\) и \(1900\) для Кафе Б
  • Неплохо, но не очень информативно

А что если посмотреть на девиации от среднего

\[\begin{align*} \delta_1 = x_1 - \bar{x} = 1000 - 1000 = 0 \\ \delta_2 = x_2 - \bar{x} = 1300 - 1000 = 300 \\ \delta_3 = x_3 - \bar{x} = 700 - 1000 = -300 \\ \delta_4 = x_4 - \bar{x} = 1200 - 1000 = 200 \\ \delta_5 = x_5 - \bar{x} = 800 - 1000 = -200 \\ \delta_6 = x_6 - \bar{x} = 1000 - 1000 = 0 \end{align*}\]

А потом возвести их в квадрат

\[\begin{align*} \delta_1^2 = (x_1 - \bar{x})^2 = 0^2 = 0 \\ \delta_2^2 = (x_2 - \bar{x})^2 = 300^2 = 90,000\\ \delta_3^2 = (x_3 - \bar{x})^2 = -300^2 = 90,000\\ \delta_4^2 = (x_4 - \bar{x})^2 = 200^2 = 40,000\\ \delta_5^2 = (x_5 - \bar{x})^2 = -200^2 = 40,000 \\ \delta_6^2 = (x_6 - \bar{x})^2 = 1000 - 1000 = 0 \end{align*}\]

Сложить

\[\begin{align*} SSD_{WWYB} = \sum_{i=1}^{6}\delta_i^2 = \\ \sum_{i=1}^{6}(x_i - \bar{x})^2 = \\ 260000 \end{align*}\]

И вот мы придумали Дисперсию

\[\begin{align*} Variance(X) = \frac{SSD}{n} = \frac{\sum_{i=1}^{6}(x_i - \bar{x})^2}{6} = \\ \frac{260000}{6} \approx 43,333 \end{align*}\]

И стандартное отклонение \[ sd(X) = \sqrt{43,333} \approx 6.58 \]

Дисперсия и стандартное отклонение

def: Выборочная дисперсия

\[ Var(X) = \frac{\sum_{i=1}^{n}(x_i - \hat{x})^2}{n-1} \]

def: Выборочное стандартное отклонение

\[ sd(X) = \sqrt{Var(X)} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \hat{x})^2}{n-1}} \]

Немного об R

  • Когда R считает дисперсию, он использует формулу с \(n-1\) в знаменателе.
c(1000, 1300, 700, 1200, 800, 1000) %>% var()
[1] 52000
c(1000, 1300, 700, 1200, 800, 1000) %>% var()*5/6
[1] 43333.33

Другие меры разброса: IQR

  • IQR значит Интерквартильный размах (Interquartile Range)
  • IQR - это пара значений, указывающих на 1-ый 3-ий квартили распределения
    • \(Q_1\): 1-ый квартиль или \(25\%\) перцентиль, - это то значение, ниже которого находятся \(25\%\) данных
    • \(Q_3\): 3-ий квартиль или \(75\%\) перцентиль, - это то значение, ниже которого находится \(75\%\) данных
  • Вопрос: чему соответствует 2-ой квартиль?

Примеры и упражнения

Пример 1

The distribution of GDP per capita in gapminder data set is right-skewed, with a few extremely wealth countries lingering out into the right tail. If you were wanting to understand the typical wealth among countries, should you be more interested in the median or mean?

Пример 1

Распределение ВВП на душу населения в датасете gapminder скошено вправо: существует несколько очень богатых стран. Что будет лучше описывать это распределение, среднее или медиана?

Ответ:

  • Если вы хотите понять насколько богата типичная страна, то медиана.
  • Но если вы хотите понять насколько, например, “богат” мир в целом, то среднее.

Категориальные переменные

Данные

state homeownership application_type
NJ MORTGAGE individual
HI RENT individual
WI RENT individual
PA RENT individual
CA RENT joint
KY OWN individual
MI MORTGAGE joint
AZ MORTGAGE individual
NV MORTGAGE individual
IL RENT individual

Данные о кредитах выданных на the Lending Club platform. В датасете \(10000\) наблюдений за тремя переменными:

  • state: Штат в котором выдан кредит
  • homeownership: Статус домовладения
    • levels: RENT, MORTGAGE, OWN
  • application_type: Тип заявки
    • levels: individual, joint
  • Если вдруг интересно, можно почитать про платформу https://en.wikipedia.org/wiki/LendingClub

Частоты

  • Что можно сделать с категориальными переменным.
  • Самое очевидное, это посчитать частоты уровней (т.к. как часто встречаются те или иные уровни)
homeownership n
MORTGAGE 4789
OWN 1353
RENT 3858
  • Аналогично для application_type
application_type n
individual 8505
joint 1495

Визуализация

  • Еще можно построить столбцовую диаграмму (barcharts)

Homeownership: Count

Homeownership: Proprotion

Bar chart

  • Аналогично для типа заявки

Таблица сопряженности (сontingency table)

application_type MORTGAGE OWN RENT
individual 3839 1170 3496
joint 950 183 362

Марджинальные (marginal) распределения

table(loans$application_type, loans$homeownership) %>%
  addmargins()
            
             MORTGAGE   OWN  RENT   Sum
  individual     3839  1170  3496  8505
  joint           950   183   362  1495
  Sum            4789  1353  3858 10000

Строковые и столбцовые пропорции

Строковые пропорции

  • Иногда, мы бы хотели увидеть как прорции одной переменной меняются по уровням другой
  • Для этого мы можем разделить каждый элемент строки на сумму этой строки
            
             MORTGAGE   OWN  RENT   Sum
  individual     3839  1170  3496  8505
  joint           950   183   362  1495
  Sum            4789  1353  3858 10000
            
             MORTGAGE   OWN  RENT   Sum
  individual    0.451 0.138 0.411 1.000
  joint         0.635 0.122 0.242 1.000
  Sum           0.479 0.135 0.386 1.000

Столбцовые пропорции

  • Аналогично со столбцами
            
             MORTGAGE   OWN  RENT   Sum
  individual     3839  1170  3496  8505
  joint           950   183   362  1495
  Sum            4789  1353  3858 10000
            
             MORTGAGE   OWN  RENT   Sum
  individual    0.802 0.865 0.906 0.851
  joint         0.198 0.135 0.094 0.150
  Sum           1.000 1.000 1.000 1.000

Таблицы сопряженности и столбцовые диаграммы

  • Таблицы сопряженности и строковые/столбцовые пропорции помогают понять связь между категориальными переменными
  • Таблицы сопряженности также могут быть визуализированы как
    • Стековая диаграмма (a stacked barplot)
    • Группированная диаграмма (a side-by-side barplot)
    • Стандартизованная диаграмма (a standardized barplot)

Стековая диаграмма

Мы просто наваливаем уровни один на другой (стек)

Группированная

Складываем уровни рядом друг с другом

Стандартизованная

Приводим все столбцы к одной высоте, а потом делим пропорцианально уровням второй переменной

  • Так лучше видно пропорции

Какой тип лучше?

  • Стековая хороша, когда вы точно представляете, где у вас объясняющая переменная, а где переменная-отклик. Вы сначала группируете наблюдения по объясняющей, а потом разбиваете их на стеки по уровням переменной-отклика

  • Групповая позволяет лучше видеть число наблюдений в группах

  • Стандартизованная подходит, когда у вас “дисбаланс” уровней: когда один уровень охватывает большую часть наблюдений

Сетка (grid)

  • Иногда можно просто построить несколько панелей, для каждого уровня категориальной переменной

Круговые диаграммы (pie-charts) - под запретом!

Bar chart

Pie chart

Bar chart and Pie chart

Пример: General Social Survey (GSS)

year marital age race rincome partyid relig denom tvhours
2000 Never married 26 White $8000 to 9999 Ind,near rep Protestant Southern baptist 12
2000 Divorced 48 White $8000 to 9999 Not str republican Protestant Baptist-dk which NA
2000 Widowed 67 White Not applicable Independent Protestant No denomination 2
2000 Never married 39 White Not applicable Ind,near rep Orthodox-christian Not applicable 4
2000 Divorced 25 White Not applicable Not str democrat None Not applicable 1
2000 Married 25 White $20000 - 24999 Strong democrat Protestant Southern baptist NA
2000 Never married 36 White $25000 or more Not str republican Christian Not applicable 3
2000 Divorced 44 White $7000 to 7999 Ind,near dem Protestant Lutheran-mo synod NA
2000 Married 44 White $25000 or more Not str democrat Protestant Other 0
2000 Married 47 White $25000 or more Strong republican Protestant Southern baptist 3

GSS

Описание

У нас есть выборка из General Social survey.

Общий социальный опрос (General Social Survey, GSS) - социологическый опрос, регулярно собираемый с 1972 года Национальным центром изучения общественного мнения при Чикагском университете. GSS собирает информацию и ведет исторический учет проблем, опыта, отношения и практики жителей Соединенных Штатов. (Wiki)

  • \(21483\) наблюдений и \(9\) переменных, за период \(2000-2014\)

Переменные

  • year: год опроса, \(2000–2014\)
  • age: возраст, максимальный возраст ограничен \(89\).
  • marital
  • race
  • rincome: официальный доход
  • partyid: партийная принадлежность
  • relig: религиозная идентификация
  • denom: конкретная религиозная деноминация
  • tvhours: сколько часов в день смотрит телевизор

GSS: столбцовые диаграммы

  • Совет: сортируйте уровни по их частоте (от редких к частым)

  • А еще лучше ориентируйте столбцовые диаграммы горизонтально

Числовая ~ Категориальная переменные

Идея простая

  1. Разбиваем числовую переменную на подгруппы соответственно уровням категориальной
  2. Визуализируем числовую переменную
    • ящичковыеми диаграммами (boxplots)
    • или прозрачными гистограммами
  3. Добавляем к графикам выборочные статистики
    • среднее
    • медиану
    • стандартное отклонение
    • и подобное

County data set

Будем работать с данными по окрукам (counties) в США. Всего в штатах 3142 округа.

  • административно-территориальная единица штата в Соединённых Штатах Америки. По численности населения меньше, чем штат, и больше, чем город (вики)
name state pop2017 poverty unemployment_rate per_capita_income median_hh_income median_edu pop_change
Autauga County Alabama 55504 13.7 3.86 27841.70 55317 some_college Increased
Baldwin County Alabama 212628 11.8 3.99 27779.85 52562 some_college Increased
Barbour County Alabama 25270 27.2 5.90 17891.73 33368 hs_diploma Descreased
Bibb County Alabama 22668 15.2 4.39 20572.05 43404 hs_diploma Increased
Blount County Alabama 58013 15.6 4.02 21367.39 47412 hs_diploma Increased
Bullock County Alabama 10309 28.5 4.93 15444.16 29655 hs_diploma Descreased
Butler County Alabama 19825 24.4 5.49 17014.95 36326 hs_diploma Descreased
Calhoun County Alabama 114728 18.6 4.93 23609.64 43686 some_college Descreased
Chambers County Alabama 33713 18.8 4.08 21079.51 37342 hs_diploma Descreased
Cherokee County Alabama 25857 16.1 4.05 23067.93 40041 hs_diploma Descreased

Датасет содержит следующие переменные

  • name (cat): County name
  • state (cat): State name
  • pop2017 (num): Population in 2017
  • pop_change (cat): Population change from 2010 to 2017
  • poverty (num): Percent of population in poverty in 2017
  • unemployment_rate (num): Unemployment rate in 2017
  • per_capita_income (num): Per capita (per person) income (2013-2017)
  • median_hh_income (num): Median household income
  • median_edu (ord): Median education level (2013-2017)

Ящичковая диаграмма (boxplot)

Прозрачные гистограммы

Графики плотности

Картинки - хорошо, но картинки с числами - лучше!

  • Подготовим статистики
pop_change mean_hh_income sd_hh_income first_quartile third_quartile
Increased 54412.97 14086.45 44633.5 60874.50
Descreased 45267.26 10364.54 38071.5 51102.75
  • И добавим их на картинку

Самостоятельная работа и упражнения

Все по желанию,

  • Читать: Open Intro Statistics (4ed), Ch. 2
  • Упражнения: 2.1, 2.2, 2.4, 2.7, 2.8, 2.9, 2.10, 2.14, 2.17