9 Логистическая Регрессия – Введение в статистику + R

Вспомним обычную регрессию

Линейная регрессия позволяет предсказать значения переменной-отклика (response variable) по известным значениям объясняющих переменных (explanatory variables)

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + Шум \]

Переменную-отклик также называют зависимая переменная
Объясняющие переменные также называют предикторами или регрессорами
А их сумму вместе с коэффициентами - линейным предиктором

\[ \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p = \textrm{Линейный предиктор} \]

Типичная линейная регрессия выглядит как-то так

Обратите внимание, что наша переменная-отклик - непрерывная. Она может принимать очень много возможных значений.
Но что если, переменная будет бинарной. То есть возможные значения будут только 0 и 1.
Давайте посмотрим на график

В чем проблема?
Линейная регрессия выходит за пределы возможных значений
- Например, для 10, предсказанное значение будет отрицательным
В идеале, функция с помощью которой мы предсказываем значения должна быть а) ограничена нулем и единицей и б) плавно изменяться в промежутке от нуля до единицы.
- Мы бы хотели, чтобы функция говорила нам о вероятности
Например, она могла бы выглядеть как-то так

Сравните эту плавную, изящную сигмоиду с тупой, прямой линией

Начнем с пример

Мы будем работать с данными конкурса научных грантов в Казахстане в 2017 г.
Было подано 4 448 заявок, из которых 1 096 (около 25%) получили финансирование на общую сумму более 9,5 млрд тенге (около 27 млн долларов)
- Это небольшие деньги. Казахстан тратит только около 3,5% своего ВВП на науку и образование. Средний показатель для стран ОЭСР около 7% (Всемирный банк).

win	score	domain	project_name	win_2014	scopus	hirsh	sex	member	region	degree
1	35.67	science	Негармоничский анализ и его применение	1	1	9	1	no	алматы	3
0	35.00	science	Субэллиптические функциональные неравенства и приложения	0	1	13	1	no	алматы	3
0	34.33	science	Механизмы распада звездных кластеров в галактике Млечный Путь и в Большом Магеллановом Облаке	1	1	3	1	no	алматы	1

Логистическая регрессия

Когда мы работали с линейной регрессией, переменная отклика была просто числом

\[\begin{align*} Y = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n + \epsilon \\ \epsilon \sim N(0, \sigma^2), Y \in R \end{align*}\]

Во многих случаях, однако, переменная отклика является бинарной, то есть она принимает только два значения \(0\) или \(1\)

\[Y \in \{0, 1\}\]
Например, есть ли у вас машина (1) или нет (0)
Логистическая регрессия (Logistic regression) - это расширение линейной регрессии для бинарного отклика
Логистическая регрессия моделирует вероятность события (например, что ваша переменная отклика примет значение \(1\))

\[\begin{align*} P(Y = 1) = p \\ P(Y = 0) = (1-p) \end{align*}\]

В частности, логистическая регрессия моделирует вероятность события как функцию линейного предиктора (\(\sum\beta X\))

\[ p = f(\beta_0 + \beta_1X_1 + \dots + \beta_nX_n) \]

Собственно, функция которая связывает линейный предиктор и вероятность отлика выглядит так

\[ p = \frac{e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}}{1 + e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}} \\ \]

А соотвественно вероятность “неудачи”

\[ (1-p) = 1 - \frac{e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}}{1 + e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}} = \frac{1}{1 + e^{\beta_0 + \beta_1X_1 + \dots \beta_nX_n}} \]

Зачем нам все это? Идея такая: если мы возьмем отношение вероятности успеха (\(p\)) к неудачи (\(1-p\)), окажется, что знаменатель “уйдет” и все превратится в красивую экспоненту

\[ \frac{p}{1-p} = e^{\beta_0 + \beta_1X_1 + \dots \beta_{n}X_n} \]

А если мы возьмем логарифм этого отношения, все вообще станет прекрасно

\[ log(\frac{p}{1-p}) = \beta_{0} + \beta_{1}X_1 + \dots + \beta_{n}X_n \]

Что тут “прекрасно”? Справа у нас линейный предиктор. Некий набор переменных помноженных на параметры. Эти параметры собственно нам и нужны, потому что они показывают “связь” между ИКСами (объясняющими переменными) и ИГРЕКом (переменной отклика)
Возможно, вы чувствуете себя как-то так

Но давайте выпишем то, что у нас есть

\[\begin{align*} logit(p) &= log(\frac{p}{1-p}) = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n \\ \textrm{где} \\ \frac{p}{1-p} &= e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n} = Шансы \end{align*}\]

И поговорим за вот эту штуку \(\frac{p}{1-p}\)

Шансы (Odds)

Отношение \(\frac{p}{1-p}\) называется Шансы (odds)
Шансы показывают, насколько вероятность того, что событие произойдет, больше/меньше, чем вероятность того, что событие не произойдет.

Шансы

Шансы = \(\frac{P(\textrm{событие произойдет})}{P(\textrm{событие НЕ произойдет})}\)

Зная шансы, легко расчитать вероятность события и наоборот:
- Допустим шансы закончить лекцию вовремя равны 2 к 1. Значит вероятность примерно равна \(66\%\)
\[ Шансы = \frac{p}{1-p} = 2 \],

\[ p = \frac{Шансы}{1 + Шансы} = \frac{2}{3} \approx 0.66 \]
Или допустим, вероятность какого-то события равна 50%, шансы будут 1 к 1.

\[ Шансы = \frac{p}{1-p} = \frac{0.5}{0.5} = 1 \]

Шансы часто используют в ставках на спорт (например, “шансы выигрыша 2 к 1”)
Так вот, Логистическая регрессия моделирует как меняется логарифм шансов при изменений линейного предиктора
- ну то есть если у вас объясняющая переменная меняет значение, как это влияет на логарифм шансов

Совет

Логарифм шансов принято называть логитом (вероятно от “logarithm + unit”), отсюда название регрессии - логистическая

Подгонка логистической регрессии с помощью функции glm()

Для подгонки логистической регрессии мы используем функцию glm(). Синтаксис очень похож на синтаксис функции lm(): необходимо указать аргументы формулы и данных
Помимо этого, необходимо указать дополнительный аргумент family = "binomial". Так R поймет, что вы моделируете бинарный отклик

Посмотрим на результат

	(1)
(Intercept)	-7.122
	(0.277)
score	0.243
	(0.010)
sexfemale	-0.319
	(0.077)
Num.Obs.	4488
AIC	4236.5
BIC	4255.8
Log.Lik.	-2115.263
RMSE	0.39

Выглядит очень похоже на обычный результат функции lm(). Посмотрим на колонку Estimate, которая дает нам коэффициенты регрессии
- \(\beta_0\) = -7.1215278
- \(\beta_1\) = 0.2430623
- \(\beta_2\) = NA
Как мы можем их интерпретировать? Давайте вспомним формулу. Представьте, что у нас есть проект, набравший \(30\) баллов, и его возглавляет женщина - каковы шансы такого проекта получить финансирование?

\[\begin{align*} P(Y = 1|X_1 = 30, X_2 = 0) = p_1 \\ P(Y = 1|X_1 = 30, X_2 = 1) = p_2 \\ Odds_1 = \frac{p_1}{1-p_1} = e^{\beta_0 + \beta_1*30 + \beta_2*0} \\ Odds_2 = \frac{p_2}{1-p_2} = e^{\beta_0 + \beta_1*30 + \beta_2*1} \\ \frac{Odds_2}{Odds_1} = \frac{e^{\beta_0 + \beta_1*30 + \beta_2}}{e^{\beta_0 + \beta_1*35}} = e^{\beta_2*sex} \\ e^{\beta_2} = \frac{Odds_2}{Odds_1} \\ \beta_2 = log(\frac{Odds_2}{Odds_1}) \end{align*}\]

Уведомление

Коэффициент линейной регрессии показывает насколько изменяется зависимая переменная (Y) при увеличении объясняющей переменной на 1 единицу.

Сравните,

Уведомление

Коэффициент логистической регрессии показывает насколько изменяется логарифм шансов события при увеличении объясняющей переменной на 1 единицу

Согласно модели, мы видим, что проект с 30-ю баллами возглавляемый мужчиной (пол = 1) имеет примерно на \(1.38\) больше шансов выиграть грант, чем 30-й бальный проект возглавляемый женщиной.
- Внимательно: не в \(1.38\) раз больше вероятности, а в \(1.38\) раз больше шансов!!!

	(1)
(Intercept)	-7.122
	(0.277)
score	0.243
	(0.010)
sexfemale	-0.319
	(0.077)
Num.Obs.	4488
AIC	4236.5
BIC	4255.8
Log.Lik.	-2115.263
RMSE	0.39

Взглянем на коэффициент, связанный с полом. Сам коэффициент это логарифм-шансов.

\[ \beta_{sex} = 0.31894 \]

Его экспонента - это увеличение шансов для мужчин

\[ e^{0.31894} = 1.375669 \]

В R есть много средств для быстрого “перевода” коэффициентов в более понятные числа

term	estimate	std.error	statistic	p.value
(Intercept)	0.0008075	0.2769605	-25.713154	0.00e+00
score	1.2751480	0.0104002	23.370858	0.00e+00
sexfemale	0.7269159	0.0771784	-4.132563	3.59e-05

А теперь немного кода, чтобы показать откуда берутся эти коэффициенты

[1] 1.185708

[1] 0.8619103

[1] 0.5424824

[1] 0.4629172

[1] 0.7269159

 (Intercept)        score    sexfemale 
0.0008075321 1.2751480317 0.7269158503

Теперь давайте попробуем понять, как переменная score влияет на шансы получить финансирование

[1] 0.2036047

[1] 0.4629172

[1] 3.371344

   score 
3.371344

Выбор модели

Опять же, как решить какая модель лучше?

Посмотрим на результаты

	модель1	модель2
(Intercept)	-7.440 (0.278)***	-7.634 (0.285)***
score	0.243 (0.010)***	0.249 (0.011)***
sex	0.319 (0.077)***	0.286 (0.078)***
memberyes		2.850 (0.313)***
Num.Obs.	4488	4488
AIC	4236.5	4131.8
BIC	4255.8	4157.4
Log.Lik.	-2115.263	-2061.887
RMSE	0.39	0.39

Присмотритесь к выводу и вы увидите некий AIC. Что это такое?
AIC - это аббревиатура для информационного критерия Акаике¹. Это статистический показатель, который показывает “правдоподобность” модели.
AIC пытается найти баланс между “простотой” модели и ее “согласованностью” с данными.
- Простота измеряется как число параметров (т.е. коэффициентов), чем меньше параметров тем проще
- “Согласованность” - как правдоподобие (likelihood), т.е. вероятность наблюдать данные как у нас при условии, что модель (т.е. значения параметров) верны.
AIC вычисляется так:

\[AIC = -2 * log(L) + 2 * k\]

где \(L\) - максимальное значение функции правдоподобия модели, а \(k\) - количество параметров.
Интерпретация: чем меньше AIC, тем лучше модель. AIC может использоваться для сравнения нескольких моделей.

Уведомление

Чем меньше AIC тем лучше модель!

Самое классное - AIC - это случайная переменная с известным распределением (хи-квадрат).

\[ AIC \sim \chi^2 \]

То есть вы можете сравнить AIC двух моделей и понять дает ли вам более сложная модель “значительное” уменьшение AIC
- Если да, то значит более сложная модель лучше

Resid. Df	Resid. Dev	Df	Deviance	Pr(>Chi)
4485	4230.527	NA	NA	NA
4484	4123.774	1	106.7525	0

Принцип Максимального Правдоподобия

В линейной регрессии для оценки параметров мы использовали Метод Наименьших Квадратов (Ordinary Least Squares, или OLS regression)
- Мы брали квадраты остатков, и находили параметры, которые минимизировали их сумму.
В логистической регрессии используют другой метод - принцип максимального правдоподобия. Мы выбираем те значения параметров, которые делают наши данные наиболее вероятными (максимум правдоподобия)

\[ argmax_{\beta}(P(Data|Model)) \]

Другими словами, мы максимизируем вероятность наблюдаемых данных. Простой пример: вы подбросили монетку 10 раз. 7 раз выпала решка. Оцените, с точки зрения максимального правдоподобие, вероятность решки.
Если вы помните, вероятность выпадения 7 решек можно посчитать с помощью биноминального распределения.

\[ \textrm{ Вероятность 7 решек } = C_{10}^{7} p^7(1-p)^3 \]

Идея в том, что вы выбираете такие значение которые максимизируют правдоподобие модели.
- То есть у вас есть много возможных значений для \(p\) - и вы выбираете то, которое делает вероятность наблюдать 7 решек максимальной

Давайте практиковаться

Посмотрим на некоторые наши данные

member	n
no	4411
yes	77

Создадим синтетические данные, чтобы понять какие значение предсказывает модель

Посмотрим как

Еще больше результатов

В конкурсе было семь возможных “направлений” по которым подавались проекты
- Условно мы их обозвали “Безопасность”, “Наука”, “Недропользование”, “Культура”, “Науки о жизни”, “Энергетика” и “Сельское хозяйство”.
Ниже процент победивших проектов в зависимости от пола руководителя (слева) и предсказанные вероятности победы вместе с доверительными интервалами (справа)
Практически везде у руководителей-мужчин вероятность победы значительно выше чем у женщин.
- Единественное исключение - Безопасность. Но там в целом было мало проектов.

Модели в целом

Влияние баллов

Влияние пола и баллов

А теперь вернемся к баллам

Models for Score
	sex	demo	demo+domain	demo+domain+fake+qual	full
sexFemale	-0.699***	-0.679***	-0.452**	-0.267+	-0.052
	0.139 (<0.001)	0.138 (<0.001)	0.143 (0.002)	0.141 (0.059)	0.141 (0.714)
regionАстана		-0.249	-0.082	-0.175	0.009
		0.175 (0.154)	0.177 (0.646)	0.174 (0.315)	0.177 (0.962)
regionШымкент		-2.633***	-2.538***	-2.302***	-1.435***
		0.279 (<0.001)	0.279 (<0.001)	0.275 (<0.001)	0.309 (<0.001)
regionOther		-1.041***	-0.918***	-0.873***	-0.366+
		0.176 (<0.001)	0.178 (<0.001)	0.176 (<0.001)	0.209 (0.080)
domainAgriculture			0.443+	0.274	0.198
			0.232 (0.057)	0.229 (0.232)	0.228 (0.387)
domainScience			1.327***	0.301	0.080
			0.237 (<0.001)	0.249 (0.227)	0.247 (0.745)
domainLife			0.221	-0.284	-0.525*
			0.233 (0.344)	0.235 (0.227)	0.236 (0.026)
domainSecurity			0.135	0.115	0.323
			0.457 (0.767)	0.449 (0.798)	0.444 (0.468)
domainNatural Rm			1.056***	0.524**	0.655***
			0.195 (<0.001)	0.197 (0.008)	0.197 (<0.001)
domainEnergy			0.845**	0.089	0.111
			0.291 (0.004)	0.292 (0.761)	0.289 (0.701)
fakeYes				-0.897***	-0.811***
				0.178 (<0.001)	0.176 (<0.001)
rintsYes				0.792***	0.728***
				0.195 (<0.001)	0.193 (<0.001)
scopusYes				0.219	0.147
				0.173 (0.205)	0.171 (0.387)
Hirsh				0.316***	0.251***
				0.029 (<0.001)	0.029 (<0.001)
Win 2014yes					1.597***
					0.186 (<0.001)
degreeDoctor					0.472**
					0.148 (0.001)
degreePhD					0.942***
					0.222 (<0.001)
Inst capWorks with					0.777***
					0.170 (<0.001)
Inst capMember					-0.675
					0.525 (0.199)
Inst Cap(Missing)					-1.784**
					0.632 (0.005)
Org prestigeNational					-0.159
					0.241 (0.509)
Org prestigeInternational					1.014
					0.668 (0.129)
Org prestigeOther					0.831***
					0.196 (<0.001)
Num.Obs.	4496	4496	4496	4496	4496
R2	0.006	0.029	0.040	0.078	0.110
R2 Adj.	0.005	0.028	0.038	0.075	0.106
AIC	26595.2	26493.5	26456.2	26281.6	26139.1
BIC	26614.5	26531.9	26533.2	26384.1	26299.4
Log.Lik.	-13294.621	-13240.740	-13216.118	-13124.786	-13044.552
RMSE	4.66	4.60	4.57	4.48	4.40

Немного картинок

Опять к таблицам

	Science	Energy	Natural_rm	Culture	Life	Agriculture
hirsh	0.291***	0.191*	0.196***	0.280	0.229**	0.170
	0.048 (<0.001)	0.089 (0.032)	0.057 (<0.001)	0.185 (0.131)	0.073 (0.002)	0.136 (0.212)
win_2014Yes	1.963***	1.536*	0.982+	1.763***	1.703***	1.333**
	0.437 (<0.001)	0.642 (0.017)	0.524 (0.061)	0.366 (<0.001)	0.463 (<0.001)	0.471 (0.005)
rintsYes	1.265**	0.142	0.537	0.820*	-0.118	0.959+
	0.478 (0.008)	0.672 (0.833)	0.355 (0.131)	0.416 (0.049)	0.613 (0.847)	0.521 (0.066)
scopusYes	1.097+	1.829**	-0.441	0.387	-0.405	0.037
	0.572 (0.056)	0.684 (0.008)	0.320 (0.169)	0.360 (0.283)	0.451 (0.370)	0.440 (0.934)
fakeYes	-2.562***	-1.430*	0.323	-0.932**	-2.719***	-0.848*
	0.583 (<0.001)	0.645 (0.027)	0.343 (0.346)	0.340 (0.006)	0.662 (<0.001)	0.416 (0.042)
sexFemale	0.484	0.225	-0.175	0.109	-0.616	-0.023
	0.405 (0.233)	0.623 (0.718)	0.265 (0.510)	0.280 (0.696)	0.399 (0.124)	0.363 (0.949)
regionАстана	0.325	-1.389*	-0.556	-0.129	0.939+	0.504
	0.479 (0.497)	0.662 (0.037)	0.393 (0.158)	0.342 (0.707)	0.537 (0.081)	0.498 (0.312)
regionШымкент	-0.619	-3.499**	0.494	-3.094***	1.073	-0.419
	1.073 (0.564)	1.210 (0.004)	0.612 (0.420)	0.551 (<0.001)	1.289 (0.406)	0.856 (0.625)
regionOther	0.190	-1.111	-0.006	-0.434	0.692	-0.458
	0.746 (0.799)	0.815 (0.174)	0.409 (0.989)	0.434 (0.318)	0.658 (0.293)	0.470 (0.331)
degreeDoctor	0.358	0.051	0.683*	0.688*	-0.208	0.452
	0.432 (0.408)	0.570 (0.928)	0.286 (0.017)	0.285 (0.016)	0.423 (0.622)	0.386 (0.243)
degreePhD	1.459**	0.406	1.672***	0.570	0.070	-0.505
	0.519 (0.005)	0.701 (0.563)	0.435 (<0.001)	0.483 (0.238)	0.630 (0.911)	0.776 (0.515)
inst_capWorks with	-0.363	2.275***	1.354***	1.268**	1.172*	0.043
	0.523 (0.488)	0.645 (<0.001)	0.392 (<0.001)	0.437 (0.004)	0.540 (0.030)	0.419 (0.918)
inst_capMember	-2.647*	-1.277	0.112	0.756	-0.758	-1.029
	1.209 (0.029)	1.557 (0.412)	1.128 (0.921)	1.446 (0.601)	1.588 (0.633)	1.224 (0.401)
inst_cap(Missing)	0.055		-4.542***	-0.488	-2.435
	2.468 (0.982)		1.202 (<0.001)	0.895 (0.586)	1.876 (0.195)
org_prestigeNational	1.759*	-1.052	-0.419	-0.508	1.020	-0.894
	0.764 (0.022)	0.803 (0.191)	0.532 (0.431)	0.550 (0.356)	0.798 (0.202)	0.596 (0.134)
org_prestigeInternational	2.724+	6.351*	2.601	1.498	-2.187
	1.469 (0.064)	3.182 (0.047)	1.713 (0.129)	1.109 (0.177)	1.608 (0.174)
org_prestigeOther	1.763**	1.343+	1.153**	1.000*	1.696*	0.076
	0.658 (0.008)	0.741 (0.071)	0.407 (0.005)	0.412 (0.015)	0.657 (0.010)	0.458 (0.868)
Num.Obs.	565	326	1045	1304	561	583
R2	0.255	0.238	0.083	0.114	0.161	0.050
R2 Adj.	0.232	0.199	0.068	0.102	0.135	0.025
AIC	3240.1	1904.4	5929.9	7732.8	3303.3	3309.3
BIC	3322.5	1972.6	6024.0	7831.0	3385.6	3383.6
Log.Lik.	-1601.066	-934.197	-2945.941	-3847.376	-1632.674	-1637.667
RMSE	4.12	4.25	4.06	4.63	4.44	4.02

А теперь назад к логит-регрессии

Models for Win
	merit	merit+memory	merit+memory+demo	full-inst_cap	full	full, scoreXsex	full, scoreXdomain	full, hirshXsex
Score	0.246***		0.232***	0.224***	0.232***	0.227***	0.327***	0.232***
	0.010 (<0.001)		0.011 (<0.001)	0.011 (<0.001)	0.012 (<0.001)	0.015 (<0.001)	0.026 (<0.001)	0.012 (<0.001)
Hirsh		0.143***	0.074***	0.041*	0.020	0.020	0.023	0.010
		0.016 (<0.001)	0.016 (<0.001)	0.016 (0.012)	0.017 (0.240)	0.017 (0.227)	0.017 (0.175)	0.018 (0.559)
rintsYes		0.284**	0.177+	0.168	0.131	0.131	0.129	0.135
		0.097 (0.003)	0.104 (0.089)	0.110 (0.127)	0.113 (0.244)	0.113 (0.245)	0.113 (0.253)	0.113 (0.231)
scopusYes		0.079	0.028	0.092	0.110	0.110	0.105	0.100
		0.090 (0.381)	0.097 (0.770)	0.103 (0.369)	0.105 (0.294)	0.105 (0.295)	0.106 (0.320)	0.106 (0.344)
fakeYes		-0.390***	-0.207*	-0.069	-0.058	-0.057	-0.021	-0.058
		0.092 (<0.001)	0.099 (0.036)	0.109 (0.526)	0.111 (0.599)	0.111 (0.604)	0.112 (0.848)	0.111 (0.600)
Win 2014yes				0.563***	0.520***	0.520***	0.509***	0.521***
				0.102 (<0.001)	0.104 (<0.001)	0.104 (<0.001)	0.104 (<0.001)	0.104 (<0.001)
degreeDoctor				0.425***	0.399***	0.399***	0.398***	0.395***
				0.087 (<0.001)	0.088 (<0.001)	0.088 (<0.001)	0.089 (<0.001)	0.088 (<0.001)
degreePhD				-0.021	-0.096	-0.097	-0.094	-0.094
				0.133 (0.877)	0.137 (0.480)	0.137 (0.480)	0.137 (0.492)	0.137 (0.491)
domainAgriculture				-0.447**	-0.545***	-0.544***	2.857*	-0.562***
				0.157 (0.004)	0.162 (<0.001)	0.162 (<0.001)	1.207 (0.018)	0.162 (<0.001)
domainScience				0.058	0.004	0.004	2.827**	-0.012
				0.149 (0.698)	0.152 (0.982)	0.152 (0.977)	1.037 (0.006)	0.153 (0.939)
domainLife				0.938***	1.040***	1.042***	4.142***	1.030***
				0.137 (<0.001)	0.141 (<0.001)	0.141 (<0.001)	0.943 (<0.001)	0.141 (<0.001)
domainSecurity				0.230	0.135	0.136	6.837***	0.112
				0.269 (0.392)	0.284 (0.634)	0.284 (0.633)	1.554 (<0.001)	0.285 (0.693)
domainNatural Rm				0.498***	0.518***	0.518***	3.883***	0.496***
				0.118 (<0.001)	0.120 (<0.001)	0.120 (<0.001)	0.896 (<0.001)	0.121 (<0.001)
domainEnergy				0.103	0.076	0.075	1.988	0.055
				0.175 (0.557)	0.179 (0.671)	0.179 (0.675)	1.320 (0.132)	0.179 (0.757)
sexFemale				-0.221**	-0.203*	-0.464	-0.211*	-0.268**
				0.085 (0.009)	0.086 (0.019)	0.584 (0.428)	0.087 (0.015)	0.097 (0.006)
regionАстана				-0.129	-0.238*	-0.238*	-0.247*	-0.235*
				0.104 (0.214)	0.108 (0.027)	0.108 (0.027)	0.108 (0.022)	0.108 (0.029)
regionШымкент				-0.397+	-0.365	-0.365	-0.335	-0.369+
				0.221 (0.072)	0.224 (0.102)	0.224 (0.103)	0.224 (0.135)	0.224 (0.099)
regionOther				-0.336**	-0.323*	-0.323*	-0.325*	-0.329*
				0.130 (0.010)	0.133 (0.015)	0.133 (0.015)	0.134 (0.015)	0.133 (0.014)
Org prestigeNational				0.062	-0.307*	-0.307*	-0.289+	-0.317*
				0.136 (0.649)	0.153 (0.045)	0.153 (0.045)	0.153 (0.059)	0.153 (0.038)
Org prestigeInternational				0.397	0.353	0.354	0.326	0.349
				0.381 (0.298)	0.389 (0.364)	0.389 (0.362)	0.395 (0.410)	0.389 (0.370)
Org prestigeOther				0.151	0.055	0.055	0.059	0.049
				0.122 (0.215)	0.127 (0.664)	0.127 (0.664)	0.127 (0.644)	0.127 (0.697)
Pr Ranksecond				-0.675***	-0.726***	-0.727***	-0.719***	-0.731***
				0.141 (<0.001)	0.145 (<0.001)	0.145 (<0.001)	0.145 (<0.001)	0.145 (<0.001)
Pr Rankbest				-0.083	-0.100	-0.098	-0.089	-0.105
				0.110 (0.451)	0.112 (0.372)	0.112 (0.380)	0.112 (0.428)	0.112 (0.351)
Pr Ranktie				0.379	0.415	0.417	0.346	0.416
				0.479 (0.429)	0.476 (0.384)	0.476 (0.381)	0.479 (0.469)	0.476 (0.382)
Inst capWorks with					0.588***	0.588***	0.575***	0.590***
					0.102 (<0.001)	0.102 (<0.001)	0.102 (<0.001)	0.102 (<0.001)
Inst capMember					3.093***	3.092***	3.084***	3.098***
					0.337 (<0.001)	0.337 (<0.001)	0.342 (<0.001)	0.336 (<0.001)
Inst Cap(Missing)					0.284	0.287	0.246	0.290
					0.406 (0.484)	0.406 (0.480)	0.413 (0.552)	0.407 (0.475)
score:sexFemale						0.010
						0.022 (0.652)
score:domainAgriculture							-0.129**
							0.046 (0.005)
score:domainScience							-0.106**
							0.038 (0.006)
score:domainLife							-0.118**
							0.036 (0.001)
score:domainSecurity							-0.259***
							0.061 (<0.001)
score:domainNatural Rm							-0.128***
							0.034 (<0.001)
score:domainEnergy							-0.073
							0.049 (0.137)
hirsh:sexFemale								0.055
								0.038 (0.146)
Num.Obs.	4488	4488	4488	4488	4488	4488	4488	4488
AIC	4250.2	4838.3	4217.7	4031.0	3913.5	3915.3	3898.0	3913.4
BIC	4263.0	4870.4	4256.1	4191.3	4093.0	4101.2	4115.9	4099.3
Log.Lik.	-2123.111	-2414.162	-2102.828	-1990.511	-1928.771	-1928.669	-1915.019	-1927.704
RMSE	0.39	0.42	0.39	0.38	0.37	0.37	0.37	0.37

Немного о качестве моделей