9  Логистическая Регрессия

Вспомним обычную регрессию

  • Линейная регрессия позволяет предсказать значения переменной-отклика (response variable) по известным значениям объясняющих переменных (explanatory variables)

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + Шум \]

  • Переменную-отклик также называют зависимая переменная

  • Объясняющие переменные также называют предикторами или регрессорами

  • А их сумму вместе с коэффициентами - линейным предиктором

\[ \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p = \textrm{Линейный предиктор} \]

  • Типичная линейная регрессия выглядит как-то так

  • Обратите внимание, что наша переменная-отклик - непрерывная. Она может принимать очень много возможных значений.

  • Но что если, переменная будет бинарной. То есть возможные значения будут только 0 и 1.

  • Давайте посмотрим на график

  • В чем проблема?

  • Линейная регрессия выходит за пределы возможных значений

    • Например, для 10, предсказанное значение будет отрицательным
  • В идеале, функция с помощью которой мы предсказываем значения должна быть а) ограничена нулем и единицей и б) плавно изменяться в промежутке от нуля до единицы.

    • Мы бы хотели, чтобы функция говорила нам о вероятности
  • Например, она могла бы выглядеть как-то так

  • Сравните эту плавную, изящную сигмоиду с тупой, прямой линией

Начнем с пример

  • Мы будем работать с данными конкурса научных грантов в Казахстане в 2017 г.
  • Было подано 4 448 заявок, из которых 1 096 (около 25%) получили финансирование на общую сумму более 9,5 млрд тенге (около 27 млн долларов)
    • Это небольшие деньги. Казахстан тратит только около 3,5% своего ВВП на науку и образование. Средний показатель для стран ОЭСР около 7% (Всемирный банк).
win score domain project_name win_2014 rints scopus hirsh fake sex member region degree
1 35.67 science Негармоничский анализ и его применение 1 0 1 9 0 1 no алматы 3
0 35.00 science Субэллиптические функциональные неравенства и приложения 0 0 1 13 0 1 no алматы 3
0 34.33 science Механизмы распада звездных кластеров в галактике Млечный Путь и в Большом Магеллановом Облаке 1 0 1 3 0 1 no алматы 1

Логистическая регрессия

  • Когда мы работали с линейной регрессией, переменная отклика была просто числом

\[\begin{align*} Y = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n + \epsilon \\ \epsilon \sim N(0, \sigma^2), Y \in R \end{align*}\]

  • Во многих случаях, однако, переменная отклика является бинарной, то есть она принимает только два значения \(0\) или \(1\)

    \[Y \in \{0, 1\}\]

  • Например, есть ли у вас машина (1) или нет (0)

  • Логистическая регрессия (Logistic regression) - это расширение линейной регрессии для бинарного отклика

  • Логистическая регрессия моделирует вероятность события (например, что ваша переменная отклика примет значение \(1\))

\[\begin{align*} P(Y = 1) = p \\ P(Y = 0) = (1-p) \end{align*}\]

  • В частности, логистическая регрессия моделирует вероятность события как функцию линейного предиктора (\(\sum\beta X\))

\[ p = f(\beta_0 + \beta_1X_1 + \dots + \beta_nX_n) \]

  • Собственно, функция которая связывает линейный предиктор и вероятность отлика выглядит так

\[ p = \frac{e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}}{1 + e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}} \\ \]

  • А соотвественно вероятность “неудачи”

\[ (1-p) = 1 - \frac{e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}}{1 + e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}} = \frac{1}{1 + e^{\beta_0 + \beta_1X_1 + \dots \beta_nX_n}} \]

  • Зачем нам все это? Идея такая: если мы возьмем отношение вероятности успеха (\(p\)) к неудачи (\(1-p\)), окажется, что знаменатель “уйдет” и все превратится в красивую экспоненту

\[ \frac{p}{1-p} = e^{\beta_0 + \beta_1X_1 + \dots \beta_{n}X_n} \]

  • А если мы возьмем логарифм этого отношения, все вообще станет прекрасно

\[ log(\frac{p}{1-p}) = \beta_{0} + \beta_{1}X_1 + \dots + \beta_{n}X_n \]

  • Что тут “прекрасно”? Справа у нас линейный предиктор. Некий набор переменных помноженных на параметры. Эти параметры собственно нам и нужны, потому что они показывают “связь” между ИКСами (объясняющими переменными) и ИГРЕКом (переменной отклика)

  • Возможно, вы чувствуете себя как-то так

  • Но давайте выпишем то, что у нас есть

\[\begin{align*} logit(p) &= log(\frac{p}{1-p}) = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n \\ \textrm{где} \\ \frac{p}{1-p} &= e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n} = Шансы \end{align*}\]

  • И поговорим за вот эту штуку \(\frac{p}{1-p}\)

Шансы (Odds)

  • Отношение \(\frac{p}{1-p}\) называется Шансы (odds)
  • Шансы показывают, насколько вероятность того, что событие произойдет, больше/меньше, чем вероятность того, что событие не произойдет.
Шансы

Шансы = \(\frac{P(\textrm{событие произойдет})}{P(\textrm{событие НЕ произойдет})}\)

  • Зная шансы, легко расчитать вероятность события и наоборот:

    • Допустим шансы закончить лекцию вовремя равны 2 к 1. Значит вероятность примерно равна \(66\%\)

    \[ Шансы = \frac{p}{1-p} = 2 \],

    \[ p = \frac{Шансы}{1 + Шансы} = \frac{2}{3} \approx 0.66 \]

  • Или допустим, вероятность какого-то события равна 50%, шансы будут 1 к 1.

\[ Шансы = \frac{p}{1-p} = \frac{0.5}{0.5} = 1 \]

  • Шансы часто используют в ставках на спорт (например, “шансы выигрыша 2 к 1”)
  • Так вот, Логистическая регрессия моделирует как меняется логарифм шансов при изменений линейного предиктора
    • ну то есть если у вас объясняющая переменная меняет значение, как это влияет на логарифм шансов
Совет

Логарифм шансов принято называть логитом (вероятно от “logarithm + unit”), отсюда название регрессии - логистическая

Подгонка логистической регрессии с помощью функции glm()

  • Для подгонки логистической регрессии мы используем функцию glm(). Синтаксис очень похож на синтаксис функции lm(): необходимо указать аргументы формулы и данных
  • Помимо этого, необходимо указать дополнительный аргумент family = "binomial". Так R поймет, что вы моделируете бинарный отклик
  • Посмотрим на результат
(1)
(Intercept) -7.122
(0.277)
score 0.243
(0.010)
sexfemale -0.319
(0.077)
Num.Obs. 4488
AIC 4236.5
BIC 4255.8
Log.Lik. -2115.263
RMSE 0.39
  • Выглядит очень похоже на обычный результат функции lm(). Посмотрим на колонку Estimate, которая дает нам коэффициенты регрессии
    • \(\beta_0\) = -7.1215278
    • \(\beta_1\) = 0.2430623
    • \(\beta_2\) = NA
  • Как мы можем их интерпретировать? Давайте вспомним формулу. Представьте, что у нас есть проект, набравший \(30\) баллов, и его возглавляет женщина - каковы шансы такого проекта получить финансирование?

\[\begin{align*} P(Y = 1|X_1 = 30, X_2 = 0) = p_1 \\ P(Y = 1|X_1 = 30, X_2 = 1) = p_2 \\ Odds_1 = \frac{p_1}{1-p_1} = e^{\beta_0 + \beta_1*30 + \beta_2*0} \\ Odds_2 = \frac{p_2}{1-p_2} = e^{\beta_0 + \beta_1*30 + \beta_2*1} \\ \frac{Odds_2}{Odds_1} = \frac{e^{\beta_0 + \beta_1*30 + \beta_2}}{e^{\beta_0 + \beta_1*35}} = e^{\beta_2*sex} \\ e^{\beta_2} = \frac{Odds_2}{Odds_1} \\ \beta_2 = log(\frac{Odds_2}{Odds_1}) \end{align*}\]

Уведомление

Коэффициент линейной регрессии показывает насколько изменяется зависимая переменная (Y) при увеличении объясняющей переменной на 1 единицу.

Сравните,

Уведомление

Коэффициент логистической регрессии показывает насколько изменяется логарифм шансов события при увеличении объясняющей переменной на 1 единицу

  • Согласно модели, мы видим, что проект с 30-ю баллами возглавляемый мужчиной (пол = 1) имеет примерно на \(1.38\) больше шансов выиграть грант, чем 30-й бальный проект возглавляемый женщиной.
    • Внимательно: не в \(1.38\) раз больше вероятности, а в \(1.38\) раз больше шансов!!!
(1)
(Intercept) -7.122
(0.277)
score 0.243
(0.010)
sexfemale -0.319
(0.077)
Num.Obs. 4488
AIC 4236.5
BIC 4255.8
Log.Lik. -2115.263
RMSE 0.39
  • Взглянем на коэффициент, связанный с полом. Сам коэффициент это логарифм-шансов.

\[ \beta_{sex} = 0.31894 \]

  • Его экспонента - это увеличение шансов для мужчин

\[ e^{0.31894} = 1.375669 \]

  • В R есть много средств для быстрого “перевода” коэффициентов в более понятные числа
term estimate std.error statistic p.value
(Intercept) 0.0008075 0.2769605 -25.713154 0.00e+00
score 1.2751480 0.0104002 23.370858 0.00e+00
sexfemale 0.7269159 0.0771784 -4.132563 3.59e-05
  • А теперь немного кода, чтобы показать откуда берутся эти коэффициенты
[1] 1.185708
[1] 0.8619103
[1] 0.5424824
[1] 0.4629172
[1] 0.7269159
 (Intercept)        score    sexfemale 
0.0008075321 1.2751480317 0.7269158503 
  • Теперь давайте попробуем понять, как переменная score влияет на шансы получить финансирование
[1] 0.2036047
[1] 0.4629172
[1] 3.371344
   score 
3.371344 

Выбор модели

  • Опять же, как решить какая модель лучше?
  • Посмотрим на результаты
модель1 модель2
(Intercept) -7.440 (0.278)*** -7.634 (0.285)***
score 0.243 (0.010)*** 0.249 (0.011)***
sex 0.319 (0.077)*** 0.286 (0.078)***
memberyes 2.850 (0.313)***
Num.Obs. 4488 4488
AIC 4236.5 4131.8
BIC 4255.8 4157.4
Log.Lik. -2115.263 -2061.887
RMSE 0.39 0.39
  • Присмотритесь к выводу и вы увидите некий AIC. Что это такое?

  • AIC - это аббревиатура для информационного критерия Акаике1. Это статистический показатель, который показывает “правдоподобность” модели.

  • AIC пытается найти баланс между “простотой” модели и ее “согласованностью” с данными.

    • Простота измеряется как число параметров (т.е. коэффициентов), чем меньше параметров тем проще

    • “Согласованность” - как правдоподобие (likelihood), т.е. вероятность наблюдать данные как у нас при условии, что модель (т.е. значения параметров) верны.

  • AIC вычисляется так:

\[AIC = -2 * log(L) + 2 * k\]

  • где \(L\) - максимальное значение функции правдоподобия модели, а \(k\) - количество параметров.

  • Интерпретация: чем меньше AIC, тем лучше модель. AIC может использоваться для сравнения нескольких моделей.

Уведомление

Чем меньше AIC тем лучше модель!

  • Самое классное - AIC - это случайная переменная с известным распределением (хи-квадрат).

\[ AIC \sim \chi^2 \]

  • То есть вы можете сравнить AIC двух моделей и понять дает ли вам более сложная модель “значительное” уменьшение AIC

    • Если да, то значит более сложная модель лучше
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
4485 4230.527 NA NA NA
4484 4123.774 1 106.7525 0

Принцип Максимального Правдоподобия

  • В линейной регрессии для оценки параметров мы использовали Метод Наименьших Квадратов (Ordinary Least Squares, или OLS regression)

    • Мы брали квадраты остатков, и находили параметры, которые минимизировали их сумму.
  • В логистической регрессии используют другой метод - принцип максимального правдоподобия. Мы выбираем те значения параметров, которые делают наши данные наиболее вероятными (максимум правдоподобия)

\[ argmax_{\beta}(P(Data|Model)) \]

  • Другими словами, мы максимизируем вероятность наблюдаемых данных. Простой пример: вы подбросили монетку 10 раз. 7 раз выпала решка. Оцените, с точки зрения максимального правдоподобие, вероятность решки.

  • Если вы помните, вероятность выпадения 7 решек можно посчитать с помощью биноминального распределения.

\[ \textrm{ Вероятность 7 решек } = C_{10}^{7} p^7(1-p)^3 \]

  • Идея в том, что вы выбираете такие значение которые максимизируют правдоподобие модели.

    • То есть у вас есть много возможных значений для \(p\) - и вы выбираете то, которое делает вероятность наблюдать 7 решек максимальной

Давайте практиковаться

  • Посмотрим на некоторые наши данные
member n
no 4411
yes 77
  • Создадим синтетические данные, чтобы понять какие значение предсказывает модель

  • Посмотрим как

Еще больше результатов

  • В конкурсе было семь возможных “направлений” по которым подавались проекты

    • Условно мы их обозвали “Безопасность”, “Наука”, “Недропользование”, “Культура”, “Науки о жизни”, “Энергетика” и “Сельское хозяйство”.
  • Ниже процент победивших проектов в зависимости от пола руководителя (слева) и предсказанные вероятности победы вместе с доверительными интервалами (справа)

  • Практически везде у руководителей-мужчин вероятность победы значительно выше чем у женщин.

    • Единественное исключение - Безопасность. Но там в целом было мало проектов.

Модели в целом

Влияние баллов

Влияние пола и баллов

А теперь вернемся к баллам

Models for Score
sex demo demo+domain demo+domain+fake+qual full
sexFemale -0.699*** -0.679*** -0.452** -0.267+ -0.052
0.139 (<0.001) 0.138 (<0.001) 0.143 (0.002) 0.141 (0.059) 0.141 (0.714)
regionАстана -0.249 -0.082 -0.175 0.009
0.175 (0.154) 0.177 (0.646) 0.174 (0.315) 0.177 (0.962)
regionШымкент -2.633*** -2.538*** -2.302*** -1.435***
0.279 (<0.001) 0.279 (<0.001) 0.275 (<0.001) 0.309 (<0.001)
regionOther -1.041*** -0.918*** -0.873*** -0.366+
0.176 (<0.001) 0.178 (<0.001) 0.176 (<0.001) 0.209 (0.080)
domainAgriculture 0.443+ 0.274 0.198
0.232 (0.057) 0.229 (0.232) 0.228 (0.387)
domainScience 1.327*** 0.301 0.080
0.237 (<0.001) 0.249 (0.227) 0.247 (0.745)
domainLife 0.221 -0.284 -0.525*
0.233 (0.344) 0.235 (0.227) 0.236 (0.026)
domainSecurity 0.135 0.115 0.323
0.457 (0.767) 0.449 (0.798) 0.444 (0.468)
domainNatural Rm 1.056*** 0.524** 0.655***
0.195 (<0.001) 0.197 (0.008) 0.197 (<0.001)
domainEnergy 0.845** 0.089 0.111
0.291 (0.004) 0.292 (0.761) 0.289 (0.701)
fakeYes -0.897*** -0.811***
0.178 (<0.001) 0.176 (<0.001)
rintsYes 0.792*** 0.728***
0.195 (<0.001) 0.193 (<0.001)
scopusYes 0.219 0.147
0.173 (0.205) 0.171 (0.387)
Hirsh 0.316*** 0.251***
0.029 (<0.001) 0.029 (<0.001)
Win 2014yes 1.597***
0.186 (<0.001)
degreeDoctor 0.472**
0.148 (0.001)
degreePhD 0.942***
0.222 (<0.001)
Inst capWorks with 0.777***
0.170 (<0.001)
Inst capMember -0.675
0.525 (0.199)
Inst Cap(Missing) -1.784**
0.632 (0.005)
Org prestigeNational -0.159
0.241 (0.509)
Org prestigeInternational 1.014
0.668 (0.129)
Org prestigeOther 0.831***
0.196 (<0.001)
Num.Obs. 4496 4496 4496 4496 4496
R2 0.006 0.029 0.040 0.078 0.110
R2 Adj. 0.005 0.028 0.038 0.075 0.106
AIC 26595.2 26493.5 26456.2 26281.6 26139.1
BIC 26614.5 26531.9 26533.2 26384.1 26299.4
Log.Lik. -13294.621 -13240.740 -13216.118 -13124.786 -13044.552
RMSE 4.66 4.60 4.57 4.48 4.40

Немного картинок

Опять к таблицам

Science Energy Natural_rm Culture Life Agriculture
hirsh 0.291*** 0.191* 0.196*** 0.280 0.229** 0.170
0.048 (<0.001) 0.089 (0.032) 0.057 (<0.001) 0.185 (0.131) 0.073 (0.002) 0.136 (0.212)
win_2014Yes 1.963*** 1.536* 0.982+ 1.763*** 1.703*** 1.333**
0.437 (<0.001) 0.642 (0.017) 0.524 (0.061) 0.366 (<0.001) 0.463 (<0.001) 0.471 (0.005)
rintsYes 1.265** 0.142 0.537 0.820* -0.118 0.959+
0.478 (0.008) 0.672 (0.833) 0.355 (0.131) 0.416 (0.049) 0.613 (0.847) 0.521 (0.066)
scopusYes 1.097+ 1.829** -0.441 0.387 -0.405 0.037
0.572 (0.056) 0.684 (0.008) 0.320 (0.169) 0.360 (0.283) 0.451 (0.370) 0.440 (0.934)
fakeYes -2.562*** -1.430* 0.323 -0.932** -2.719*** -0.848*
0.583 (<0.001) 0.645 (0.027) 0.343 (0.346) 0.340 (0.006) 0.662 (<0.001) 0.416 (0.042)
sexFemale 0.484 0.225 -0.175 0.109 -0.616 -0.023
0.405 (0.233) 0.623 (0.718) 0.265 (0.510) 0.280 (0.696) 0.399 (0.124) 0.363 (0.949)
regionАстана 0.325 -1.389* -0.556 -0.129 0.939+ 0.504
0.479 (0.497) 0.662 (0.037) 0.393 (0.158) 0.342 (0.707) 0.537 (0.081) 0.498 (0.312)
regionШымкент -0.619 -3.499** 0.494 -3.094*** 1.073 -0.419
1.073 (0.564) 1.210 (0.004) 0.612 (0.420) 0.551 (<0.001) 1.289 (0.406) 0.856 (0.625)
regionOther 0.190 -1.111 -0.006 -0.434 0.692 -0.458
0.746 (0.799) 0.815 (0.174) 0.409 (0.989) 0.434 (0.318) 0.658 (0.293) 0.470 (0.331)
degreeDoctor 0.358 0.051 0.683* 0.688* -0.208 0.452
0.432 (0.408) 0.570 (0.928) 0.286 (0.017) 0.285 (0.016) 0.423 (0.622) 0.386 (0.243)
degreePhD 1.459** 0.406 1.672*** 0.570 0.070 -0.505
0.519 (0.005) 0.701 (0.563) 0.435 (<0.001) 0.483 (0.238) 0.630 (0.911) 0.776 (0.515)
inst_capWorks with -0.363 2.275*** 1.354*** 1.268** 1.172* 0.043
0.523 (0.488) 0.645 (<0.001) 0.392 (<0.001) 0.437 (0.004) 0.540 (0.030) 0.419 (0.918)
inst_capMember -2.647* -1.277 0.112 0.756 -0.758 -1.029
1.209 (0.029) 1.557 (0.412) 1.128 (0.921) 1.446 (0.601) 1.588 (0.633) 1.224 (0.401)
inst_cap(Missing) 0.055 -4.542*** -0.488 -2.435
2.468 (0.982) 1.202 (<0.001) 0.895 (0.586) 1.876 (0.195)
org_prestigeNational 1.759* -1.052 -0.419 -0.508 1.020 -0.894
0.764 (0.022) 0.803 (0.191) 0.532 (0.431) 0.550 (0.356) 0.798 (0.202) 0.596 (0.134)
org_prestigeInternational 2.724+ 6.351* 2.601 1.498 -2.187
1.469 (0.064) 3.182 (0.047) 1.713 (0.129) 1.109 (0.177) 1.608 (0.174)
org_prestigeOther 1.763** 1.343+ 1.153** 1.000* 1.696* 0.076
0.658 (0.008) 0.741 (0.071) 0.407 (0.005) 0.412 (0.015) 0.657 (0.010) 0.458 (0.868)
Num.Obs. 565 326 1045 1304 561 583
R2 0.255 0.238 0.083 0.114 0.161 0.050
R2 Adj. 0.232 0.199 0.068 0.102 0.135 0.025
AIC 3240.1 1904.4 5929.9 7732.8 3303.3 3309.3
BIC 3322.5 1972.6 6024.0 7831.0 3385.6 3383.6
Log.Lik. -1601.066 -934.197 -2945.941 -3847.376 -1632.674 -1637.667
RMSE 4.12 4.25 4.06 4.63 4.44 4.02

А теперь назад к логит-регрессии

Models for Win
merit merit+memory merit+memory+demo full-inst_cap full full, scoreXsex full, scoreXdomain full, hirshXsex
Score 0.246*** 0.232*** 0.224*** 0.232*** 0.227*** 0.327*** 0.232***
0.010 (<0.001) 0.011 (<0.001) 0.011 (<0.001) 0.012 (<0.001) 0.015 (<0.001) 0.026 (<0.001) 0.012 (<0.001)
Hirsh 0.143*** 0.074*** 0.041* 0.020 0.020 0.023 0.010
0.016 (<0.001) 0.016 (<0.001) 0.016 (0.012) 0.017 (0.240) 0.017 (0.227) 0.017 (0.175) 0.018 (0.559)
rintsYes 0.284** 0.177+ 0.168 0.131 0.131 0.129 0.135
0.097 (0.003) 0.104 (0.089) 0.110 (0.127) 0.113 (0.244) 0.113 (0.245) 0.113 (0.253) 0.113 (0.231)
scopusYes 0.079 0.028 0.092 0.110 0.110 0.105 0.100
0.090 (0.381) 0.097 (0.770) 0.103 (0.369) 0.105 (0.294) 0.105 (0.295) 0.106 (0.320) 0.106 (0.344)
fakeYes -0.390*** -0.207* -0.069 -0.058 -0.057 -0.021 -0.058
0.092 (<0.001) 0.099 (0.036) 0.109 (0.526) 0.111 (0.599) 0.111 (0.604) 0.112 (0.848) 0.111 (0.600)
Win 2014yes 0.563*** 0.520*** 0.520*** 0.509*** 0.521***
0.102 (<0.001) 0.104 (<0.001) 0.104 (<0.001) 0.104 (<0.001) 0.104 (<0.001)
degreeDoctor 0.425*** 0.399*** 0.399*** 0.398*** 0.395***
0.087 (<0.001) 0.088 (<0.001) 0.088 (<0.001) 0.089 (<0.001) 0.088 (<0.001)
degreePhD -0.021 -0.096 -0.097 -0.094 -0.094
0.133 (0.877) 0.137 (0.480) 0.137 (0.480) 0.137 (0.492) 0.137 (0.491)
domainAgriculture -0.447** -0.545*** -0.544*** 2.857* -0.562***
0.157 (0.004) 0.162 (<0.001) 0.162 (<0.001) 1.207 (0.018) 0.162 (<0.001)
domainScience 0.058 0.004 0.004 2.827** -0.012
0.149 (0.698) 0.152 (0.982) 0.152 (0.977) 1.037 (0.006) 0.153 (0.939)
domainLife 0.938*** 1.040*** 1.042*** 4.142*** 1.030***
0.137 (<0.001) 0.141 (<0.001) 0.141 (<0.001) 0.943 (<0.001) 0.141 (<0.001)
domainSecurity 0.230 0.135 0.136 6.837*** 0.112
0.269 (0.392) 0.284 (0.634) 0.284 (0.633) 1.554 (<0.001) 0.285 (0.693)
domainNatural Rm 0.498*** 0.518*** 0.518*** 3.883*** 0.496***
0.118 (<0.001) 0.120 (<0.001) 0.120 (<0.001) 0.896 (<0.001) 0.121 (<0.001)
domainEnergy 0.103 0.076 0.075 1.988 0.055
0.175 (0.557) 0.179 (0.671) 0.179 (0.675) 1.320 (0.132) 0.179 (0.757)
sexFemale -0.221** -0.203* -0.464 -0.211* -0.268**
0.085 (0.009) 0.086 (0.019) 0.584 (0.428) 0.087 (0.015) 0.097 (0.006)
regionАстана -0.129 -0.238* -0.238* -0.247* -0.235*
0.104 (0.214) 0.108 (0.027) 0.108 (0.027) 0.108 (0.022) 0.108 (0.029)
regionШымкент -0.397+ -0.365 -0.365 -0.335 -0.369+
0.221 (0.072) 0.224 (0.102) 0.224 (0.103) 0.224 (0.135) 0.224 (0.099)
regionOther -0.336** -0.323* -0.323* -0.325* -0.329*
0.130 (0.010) 0.133 (0.015) 0.133 (0.015) 0.134 (0.015) 0.133 (0.014)
Org prestigeNational 0.062 -0.307* -0.307* -0.289+ -0.317*
0.136 (0.649) 0.153 (0.045) 0.153 (0.045) 0.153 (0.059) 0.153 (0.038)
Org prestigeInternational 0.397 0.353 0.354 0.326 0.349
0.381 (0.298) 0.389 (0.364) 0.389 (0.362) 0.395 (0.410) 0.389 (0.370)
Org prestigeOther 0.151 0.055 0.055 0.059 0.049
0.122 (0.215) 0.127 (0.664) 0.127 (0.664) 0.127 (0.644) 0.127 (0.697)
Pr Ranksecond -0.675*** -0.726*** -0.727*** -0.719*** -0.731***
0.141 (<0.001) 0.145 (<0.001) 0.145 (<0.001) 0.145 (<0.001) 0.145 (<0.001)
Pr Rankbest -0.083 -0.100 -0.098 -0.089 -0.105
0.110 (0.451) 0.112 (0.372) 0.112 (0.380) 0.112 (0.428) 0.112 (0.351)
Pr Ranktie 0.379 0.415 0.417 0.346 0.416
0.479 (0.429) 0.476 (0.384) 0.476 (0.381) 0.479 (0.469) 0.476 (0.382)
Inst capWorks with 0.588*** 0.588*** 0.575*** 0.590***
0.102 (<0.001) 0.102 (<0.001) 0.102 (<0.001) 0.102 (<0.001)
Inst capMember 3.093*** 3.092*** 3.084*** 3.098***
0.337 (<0.001) 0.337 (<0.001) 0.342 (<0.001) 0.336 (<0.001)
Inst Cap(Missing) 0.284 0.287 0.246 0.290
0.406 (0.484) 0.406 (0.480) 0.413 (0.552) 0.407 (0.475)
score:sexFemale 0.010
0.022 (0.652)
score:domainAgriculture -0.129**
0.046 (0.005)
score:domainScience -0.106**
0.038 (0.006)
score:domainLife -0.118**
0.036 (0.001)
score:domainSecurity -0.259***
0.061 (<0.001)
score:domainNatural Rm -0.128***
0.034 (<0.001)
score:domainEnergy -0.073
0.049 (0.137)
hirsh:sexFemale 0.055
0.038 (0.146)
Num.Obs. 4488 4488 4488 4488 4488 4488 4488 4488
AIC 4250.2 4838.3 4217.7 4031.0 3913.5 3915.3 3898.0 3913.4
BIC 4263.0 4870.4 4256.1 4191.3 4093.0 4101.2 4115.9 4099.3
Log.Lik. -2123.111 -2414.162 -2102.828 -1990.511 -1928.771 -1928.669 -1915.019 -1927.704
RMSE 0.39 0.42 0.39 0.38 0.37 0.37 0.37 0.37

Немного о качестве моделей


  1. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») Хироцугу Акаике↩︎