2 Переменные
Числовые переменные
- Бывают
- Непрерывные (continuous): рост, вес, артериальное давление
- Дискретные (discrete): число разводов, число детей
- Как понять, что вы имеете дело именно с числовой переменной (а не категориальной, которая выражена числами)?
- К числовым переменным можно применять арифметические операции
- Если один человек весит 70 кг, а другой 60 кг, вместе они весят 130 кг.
- Помните о порядковых переменных, которые “прикидываются” числовыми
- Если у меня IELTS 3, а у друга 6, это не значит, что он в два раза лучше знает английский. Или что вместе мы знаем английский на 9.
Гистограмма
Обычно анализ численных переменных начинается с визуализации их распределения. Один из типичных способо сделать это - гистограмма, диаграмма которая показывает частоты значений.
Гистограмма строится следующим образом,
- Диапазон чисел разбивается на интервалы
- Для каждого интервала считается число наблюдений попавших в него
- Высоты столбцов показывают эти частоты
- На практике размер интервала (или “корзины”) остается на усмотрение исследователя
- Играя с размером, можно либо “детализировать”, либо “обобщать” распределение
Пример: средняя продолжительность жизни
Ассимметрия распределений (skewness): хвосты распределений
- Визуально гистограммы имеют “хвосты” - регионы по “краям” распределения
- “хвосты” могут быть “длинными” или “толстыми”
- Если у распределения “длинный/толстый” хвост - можно сказать, что распределение “скошенно” (skewed) в его сторону.
- Если у вас длинный левый хвост, распределение скошенно влево (left-skewed).
- А если правый, то скошенно вправо (right-skewed).
- В целос распределения принято делить на
- Скошенные вправо
- Скошенные влево
- Симметричные
Примеры
Мода
Мода распределения, если очень упрощать, - это самое частое значение. Визуально мода соответствует “пику”, то есть максимуму, распределения.
По количеству таких пиков обычно говорят о
Юнимодальных распределениях: с одним максимумом
Бимодальных: с двумя
И мультимодальных: с больше чем двумя
Бимодальное распределение
- Допустим у есть распределение
classroom <- tibble(ages = c(14,
15, 15,
16, 16, 16,
17, 17, 17, 17,
18, 18, 18,
19,
29,
30, 30,
31, 31, 31,
32, 32,
33),
classroom = "classroom")- Его распределение будет выглядеть так
Меры Центральной Тенденции
Обобщающие статистики (summary statistics)
- Допустим я хотел бы обобщить данные о ВВП за 2007 год.
- Обобщающая статистика как-то характеризует распределение
- Например, показывает его “центр”
- Или степень “разбросанности” значений
- Или ассиметрию распределения (скошенность)
- Еще раз напомню, что статистика - это любое число или числа, которые вы вычисляете на основании выборки
Центр распределения: среднее, медиана, и мода
- Выборочное среднее - это сумма всех значений, деленная на число наблюдений
\[\bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n}\]
Например, \(\mathbf{x} = \{1, 2, 3, 4, 10\} \rightarrow \bar{x} = \frac{1+2+3+4+10}{5}=4\)
Выборочная медиана - это точка в числовом ряду, которая делит его “пополам”
- e.g. \(\mathbf{x} = {1, 2, \mathbf{3}, 4, 10}\)
Мода - самое частое значение
- Редко используется для числовых переменных
Как оценить “центр” распределения.
Пример: Среднее и Медиана
- Допустим есть фирма, в которой
- зарплата директора 1,000,000 тенге
- а зарплата сотрудников 100,000 тенге
- Средняя зарплата \(\frac{5 \times 100,000 + 1,000,000}{6} = 250000\)
- А медиана \(100,000\) тенге
- Если мы исключим директора, и среднее существенно измениться (\(100,000\) тенге)
- А медиана останется прежней.
- Среднее чувствительно к выбросам (outliers).
- Медиана - робастна (устойчива) к выбросам (outliers).
- Робастность
-
Под робастностью в статистике понимают нечувствительность к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами (Вики).
Среднее vs. Медиана
- Что лучше, среднее или медиана? Зависит от контекста
- Например, доходы домохозяйств, обычно измеряются медианой:
- Потому что распределение доходов, как правило, скошенно вправо.
- Как вы думаете, почему?
- Среднее, однако, содержит больше информации о распределении. Поэтому зная среднее, вы можете посчитать, например, общее богатство в регионе.
Пример
- Определите где медиана, а где среднее?
Продолжительность жизни
Среднее vs. Медиана: в контексте скошенности
- Если Среднее > Медианы: распределение скошенно вправо
- Если Среднее < Медианы: распределение скошенно влево
- Если Среднее \(\approx\) Медианы: распределение симметрично
- Среднее “притягивается” выбросами
- Медиана более устойчива
Метрики Разброса
Дисперсия (variance) и стандартное отклонение
- Допустим есть два кафе, в обоих месячный доход \(1,500,000\) тенге
| month | Cafe A | Cafe B |
|---|---|---|
| January | 1000 | 700 |
| February | 1300 | 1900 |
| March | 700 | 1000 |
| April | 1200 | 1100 |
| May | 800 | 500 |
| June | 1000 | 800 |
Дисперсия
- Кафе различаются в том, насколько значения разбросаны вокруг среднего
- Как можно выразить эту разницу с помощью некоего числа?
- Один вариант взять разброс значений (т.е. минимальное и максимальное значения)
- \(700\) и \(1300\) для Кафе А
- \(700\) и \(1900\) для Кафе Б
- Неплохо, но не очень информативно
А что если посмотреть на девиации от среднего
\[\begin{align*} \delta_1 = x_1 - \bar{x} = 1000 - 1000 = 0 \\ \delta_2 = x_2 - \bar{x} = 1300 - 1000 = 300 \\ \delta_3 = x_3 - \bar{x} = 700 - 1000 = -300 \\ \delta_4 = x_4 - \bar{x} = 1200 - 1000 = 200 \\ \delta_5 = x_5 - \bar{x} = 800 - 1000 = -200 \\ \delta_6 = x_6 - \bar{x} = 1000 - 1000 = 0 \end{align*}\]
А потом возвести их в квадрат
\[\begin{align*} \delta_1^2 = (x_1 - \bar{x})^2 = 0^2 = 0 \\ \delta_2^2 = (x_2 - \bar{x})^2 = 300^2 = 90,000\\ \delta_3^2 = (x_3 - \bar{x})^2 = -300^2 = 90,000\\ \delta_4^2 = (x_4 - \bar{x})^2 = 200^2 = 40,000\\ \delta_5^2 = (x_5 - \bar{x})^2 = -200^2 = 40,000 \\ \delta_6^2 = (x_6 - \bar{x})^2 = 1000 - 1000 = 0 \end{align*}\]
Сложить
\[\begin{align*} SSD_{WWYB} = \sum_{i=1}^{6}\delta_i^2 = \\ \sum_{i=1}^{6}(x_i - \bar{x})^2 = \\ 260000 \end{align*}\]
И вот мы придумали Дисперсию
\[\begin{align*} Variance(X) = \frac{SSD}{n} = \frac{\sum_{i=1}^{6}(x_i - \bar{x})^2}{6} = \\ \frac{260000}{6} \approx 43,333 \end{align*}\]
И стандартное отклонение \[ sd(X) = \sqrt{43,333} \approx 6.58 \]
Дисперсия и стандартное отклонение
def: Выборочная дисперсия
\[ Var(X) = \frac{\sum_{i=1}^{n}(x_i - \hat{x})^2}{n-1} \]
def: Выборочное стандартное отклонение
\[ sd(X) = \sqrt{Var(X)} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \hat{x})^2}{n-1}} \]
Немного об R
- Когда R считает дисперсию, он использует формулу с \(n-1\) в знаменателе.
c(1000, 1300, 700, 1200, 800, 1000) %>% var()[1] 52000
c(1000, 1300, 700, 1200, 800, 1000) %>% var()*5/6[1] 43333.33
Другие меры разброса: IQR
- IQR значит Интерквартильный размах (Interquartile Range)
- IQR - это пара значений, указывающих на 1-ый 3-ий квартили распределения
- \(Q_1\): 1-ый квартиль или \(25\%\) перцентиль, - это то значение, ниже которого находятся \(25\%\) данных
- \(Q_3\): 3-ий квартиль или \(75\%\) перцентиль, - это то значение, ниже которого находится \(75\%\) данных
- Вопрос: чему соответствует 2-ой квартиль?
Примеры и упражнения
Пример 1
The distribution of GDP per capita in gapminder data set is right-skewed, with a few extremely wealth countries lingering out into the right tail. If you were wanting to understand the typical wealth among countries, should you be more interested in the median or mean?
Пример 1
Распределение ВВП на душу населения в датасете gapminder скошено вправо: существует несколько очень богатых стран. Что будет лучше описывать это распределение, среднее или медиана?
Ответ:
- Если вы хотите понять насколько богата типичная страна, то медиана.
- Но если вы хотите понять насколько, например, “богат” мир в целом, то среднее.
Категориальные переменные
Данные
| state | homeownership | application_type |
|---|---|---|
| NJ | MORTGAGE | individual |
| HI | RENT | individual |
| WI | RENT | individual |
| PA | RENT | individual |
| CA | RENT | joint |
| KY | OWN | individual |
| MI | MORTGAGE | joint |
| AZ | MORTGAGE | individual |
| NV | MORTGAGE | individual |
| IL | RENT | individual |
Данные о кредитах выданных на the Lending Club platform. В датасете \(10000\) наблюдений за тремя переменными:
state: Штат в котором выдан кредитhomeownership: Статус домовладения- levels:
RENT,MORTGAGE,OWN
- levels:
application_type: Тип заявки- levels:
individual,joint
- levels:
- Если вдруг интересно, можно почитать про платформу https://en.wikipedia.org/wiki/LendingClub
Частоты
- Что можно сделать с категориальными переменным.
- Самое очевидное, это посчитать частоты уровней (т.к. как часто встречаются те или иные уровни)
| homeownership | n |
|---|---|
| MORTGAGE | 4789 |
| OWN | 1353 |
| RENT | 3858 |
- Аналогично для
application_type
| application_type | n |
|---|---|
| individual | 8505 |
| joint | 1495 |
Визуализация
- Еще можно построить столбцовую диаграмму (barcharts)
Bar chart
- Аналогично для типа заявки
Таблица сопряженности (сontingency table)
| application_type | MORTGAGE | OWN | RENT |
|---|---|---|---|
| individual | 3839 | 1170 | 3496 |
| joint | 950 | 183 | 362 |
Марджинальные (marginal) распределения
table(loans$application_type, loans$homeownership) %>%
addmargins()
MORTGAGE OWN RENT Sum
individual 3839 1170 3496 8505
joint 950 183 362 1495
Sum 4789 1353 3858 10000
Строковые и столбцовые пропорции
Строковые пропорции
- Иногда, мы бы хотели увидеть как прорции одной переменной меняются по уровням другой
- Для этого мы можем разделить каждый элемент строки на сумму этой строки
MORTGAGE OWN RENT Sum
individual 3839 1170 3496 8505
joint 950 183 362 1495
Sum 4789 1353 3858 10000
MORTGAGE OWN RENT Sum
individual 0.451 0.138 0.411 1.000
joint 0.635 0.122 0.242 1.000
Sum 0.479 0.135 0.386 1.000
Столбцовые пропорции
- Аналогично со столбцами
MORTGAGE OWN RENT Sum
individual 3839 1170 3496 8505
joint 950 183 362 1495
Sum 4789 1353 3858 10000
MORTGAGE OWN RENT Sum
individual 0.802 0.865 0.906 0.851
joint 0.198 0.135 0.094 0.150
Sum 1.000 1.000 1.000 1.000
Таблицы сопряженности и столбцовые диаграммы
- Таблицы сопряженности и строковые/столбцовые пропорции помогают понять связь между категориальными переменными
- Таблицы сопряженности также могут быть визуализированы как
- Стековая диаграмма (a stacked barplot)
- Группированная диаграмма (a side-by-side barplot)
- Стандартизованная диаграмма (a standardized barplot)
Стековая диаграмма
Мы просто наваливаем уровни один на другой (стек)
Группированная
Складываем уровни рядом друг с другом
Стандартизованная
Приводим все столбцы к одной высоте, а потом делим пропорцианально уровням второй переменной
- Так лучше видно пропорции
Какой тип лучше?
Стековая хороша, когда вы точно представляете, где у вас объясняющая переменная, а где переменная-отклик. Вы сначала группируете наблюдения по объясняющей, а потом разбиваете их на стеки по уровням переменной-отклика
Групповая позволяет лучше видеть число наблюдений в группах
Стандартизованная подходит, когда у вас “дисбаланс” уровней: когда один уровень охватывает большую часть наблюдений
Сетка (grid)
- Иногда можно просто построить несколько панелей, для каждого уровня категориальной переменной
Круговые диаграммы (pie-charts) - под запретом!
Bar chart and Pie chart
GSS
Описание
У нас есть выборка из General Social survey.
Общий социальный опрос (General Social Survey, GSS) - социологическый опрос, регулярно собираемый с 1972 года Национальным центром изучения общественного мнения при Чикагском университете. GSS собирает информацию и ведет исторический учет проблем, опыта, отношения и практики жителей Соединенных Штатов. (Wiki)
- \(21483\) наблюдений и \(9\) переменных, за период \(2000-2014\)
Переменные
year: год опроса, \(2000–2014\)age: возраст, максимальный возраст ограничен \(89\).maritalracerincome: официальный доходpartyid: партийная принадлежностьrelig: религиозная идентификацияdenom: конкретная религиозная деноминацияtvhours: сколько часов в день смотрит телевизор
GSS: столбцовые диаграммы
- Совет: сортируйте уровни по их частоте (от редких к частым)
- А еще лучше ориентируйте столбцовые диаграммы горизонтально
Числовая ~ Категориальная переменные
Идея простая
- Разбиваем числовую переменную на подгруппы соответственно уровням категориальной
- Визуализируем числовую переменную
- ящичковыеми диаграммами (boxplots)
- или прозрачными гистограммами
- Добавляем к графикам выборочные статистики
- среднее
- медиану
- стандартное отклонение
- и подобное
County data set
Будем работать с данными по окрукам (counties) в США. Всего в штатах 3142 округа.
- административно-территориальная единица штата в Соединённых Штатах Америки. По численности населения меньше, чем штат, и больше, чем город (вики)
| name | state | pop2017 | poverty | unemployment_rate | per_capita_income | median_hh_income | median_edu | pop_change |
|---|---|---|---|---|---|---|---|---|
| Autauga County | Alabama | 55504 | 13.7 | 3.86 | 27841.70 | 55317 | some_college | Increased |
| Baldwin County | Alabama | 212628 | 11.8 | 3.99 | 27779.85 | 52562 | some_college | Increased |
| Barbour County | Alabama | 25270 | 27.2 | 5.90 | 17891.73 | 33368 | hs_diploma | Descreased |
| Bibb County | Alabama | 22668 | 15.2 | 4.39 | 20572.05 | 43404 | hs_diploma | Increased |
| Blount County | Alabama | 58013 | 15.6 | 4.02 | 21367.39 | 47412 | hs_diploma | Increased |
| Bullock County | Alabama | 10309 | 28.5 | 4.93 | 15444.16 | 29655 | hs_diploma | Descreased |
| Butler County | Alabama | 19825 | 24.4 | 5.49 | 17014.95 | 36326 | hs_diploma | Descreased |
| Calhoun County | Alabama | 114728 | 18.6 | 4.93 | 23609.64 | 43686 | some_college | Descreased |
| Chambers County | Alabama | 33713 | 18.8 | 4.08 | 21079.51 | 37342 | hs_diploma | Descreased |
| Cherokee County | Alabama | 25857 | 16.1 | 4.05 | 23067.93 | 40041 | hs_diploma | Descreased |
Датасет содержит следующие переменные
name(cat): County namestate(cat): State namepop2017(num): Population in 2017pop_change(cat): Population change from 2010 to 2017poverty(num): Percent of population in poverty in 2017unemployment_rate(num): Unemployment rate in 2017per_capita_income(num): Per capita (per person) income (2013-2017)median_hh_income(num): Median household incomemedian_edu(ord): Median education level (2013-2017)
Ящичковая диаграмма (boxplot)
Прозрачные гистограммы
Графики плотности
Картинки - хорошо, но картинки с числами - лучше!
- Подготовим статистики
| pop_change | mean_hh_income | sd_hh_income | first_quartile | third_quartile |
|---|---|---|---|---|
| Increased | 54412.97 | 14086.45 | 44633.5 | 60874.50 |
| Descreased | 45267.26 | 10364.54 | 38071.5 | 51102.75 |
- И добавим их на картинку
Самостоятельная работа и упражнения
Все по желанию,
- Читать: Open Intro Statistics (4ed), Ch. 2
- Упражнения: 2.1, 2.2, 2.4, 2.7, 2.8, 2.9, 2.10, 2.14, 2.17