9 Логистическая Регрессия
Вспомним обычную регрессию
- Линейная регрессия позволяет предсказать значения переменной-отклика (response variable) по известным значениям объясняющих переменных (explanatory variables)
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p + Шум \]
Переменную-отклик также называют зависимая переменная
Объясняющие переменные также называют предикторами или регрессорами
А их сумму вместе с коэффициентами - линейным предиктором
\[ \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p = \textrm{Линейный предиктор} \]
- Типичная линейная регрессия выглядит как-то так
Обратите внимание, что наша переменная-отклик - непрерывная. Она может принимать очень много возможных значений.
Но что если, переменная будет бинарной. То есть возможные значения будут только 0 и 1.
Давайте посмотрим на график
В чем проблема?
Линейная регрессия выходит за пределы возможных значений
- Например, для 10, предсказанное значение будет отрицательным
В идеале, функция с помощью которой мы предсказываем значения должна быть а) ограничена нулем и единицей и б) плавно изменяться в промежутке от нуля до единицы.
- Мы бы хотели, чтобы функция говорила нам о вероятности
Например, она могла бы выглядеть как-то так
- Сравните эту плавную, изящную сигмоиду с тупой, прямой линией
Начнем с пример
- Мы будем работать с данными конкурса научных грантов в Казахстане в 2017 г.
- Было подано 4 448 заявок, из которых 1 096 (около 25%) получили финансирование на общую сумму более 9,5 млрд тенге (около 27 млн долларов)
- Это небольшие деньги. Казахстан тратит только около 3,5% своего ВВП на науку и образование. Средний показатель для стран ОЭСР около 7% (Всемирный банк).
| win | score | domain | project_name | win_2014 | rints | scopus | hirsh | fake | sex | member | region | degree |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 35.67 | science | Негармоничский анализ и его применение | 1 | 0 | 1 | 9 | 0 | 1 | no | алматы | 3 |
| 0 | 35.00 | science | Субэллиптические функциональные неравенства и приложения | 0 | 0 | 1 | 13 | 0 | 1 | no | алматы | 3 |
| 0 | 34.33 | science | Механизмы распада звездных кластеров в галактике Млечный Путь и в Большом Магеллановом Облаке | 1 | 0 | 1 | 3 | 0 | 1 | no | алматы | 1 |
Логистическая регрессия
- Когда мы работали с линейной регрессией, переменная отклика была просто числом
\[\begin{align*} Y = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n + \epsilon \\ \epsilon \sim N(0, \sigma^2), Y \in R \end{align*}\]
Во многих случаях, однако, переменная отклика является бинарной, то есть она принимает только два значения \(0\) или \(1\)
\[Y \in \{0, 1\}\]
Например, есть ли у вас машина (1) или нет (0)
Логистическая регрессия (Logistic regression) - это расширение линейной регрессии для бинарного отклика
Логистическая регрессия моделирует вероятность события (например, что ваша переменная отклика примет значение \(1\))
\[\begin{align*} P(Y = 1) = p \\ P(Y = 0) = (1-p) \end{align*}\]
- В частности, логистическая регрессия моделирует вероятность события как функцию линейного предиктора (\(\sum\beta X\))
\[ p = f(\beta_0 + \beta_1X_1 + \dots + \beta_nX_n) \]
- Собственно, функция которая связывает линейный предиктор и вероятность отлика выглядит так
\[ p = \frac{e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}}{1 + e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}} \\ \]
- А соотвественно вероятность “неудачи”
\[ (1-p) = 1 - \frac{e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}}{1 + e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n}} = \frac{1}{1 + e^{\beta_0 + \beta_1X_1 + \dots \beta_nX_n}} \]
- Зачем нам все это? Идея такая: если мы возьмем отношение вероятности успеха (\(p\)) к неудачи (\(1-p\)), окажется, что знаменатель “уйдет” и все превратится в красивую экспоненту
\[ \frac{p}{1-p} = e^{\beta_0 + \beta_1X_1 + \dots \beta_{n}X_n} \]
- А если мы возьмем логарифм этого отношения, все вообще станет прекрасно
\[ log(\frac{p}{1-p}) = \beta_{0} + \beta_{1}X_1 + \dots + \beta_{n}X_n \]
Что тут “прекрасно”? Справа у нас линейный предиктор. Некий набор переменных помноженных на параметры. Эти параметры собственно нам и нужны, потому что они показывают “связь” между ИКСами (объясняющими переменными) и ИГРЕКом (переменной отклика)
Возможно, вы чувствуете себя как-то так
- Но давайте выпишем то, что у нас есть
\[\begin{align*} logit(p) &= log(\frac{p}{1-p}) = \beta_0 + \beta_1X_1 + \dots + \beta_nX_n \\ \textrm{где} \\ \frac{p}{1-p} &= e^{\beta_0 + \beta_1X_1 + \dots + \beta_nX_n} = Шансы \end{align*}\]
- И поговорим за вот эту штуку \(\frac{p}{1-p}\)
Шансы (Odds)
- Отношение \(\frac{p}{1-p}\) называется Шансы (odds)
- Шансы показывают, насколько вероятность того, что событие произойдет, больше/меньше, чем вероятность того, что событие не произойдет.
Шансы = \(\frac{P(\textrm{событие произойдет})}{P(\textrm{событие НЕ произойдет})}\)
Зная шансы, легко расчитать вероятность события и наоборот:
- Допустим шансы закончить лекцию вовремя равны 2 к 1. Значит вероятность примерно равна \(66\%\)
\[ Шансы = \frac{p}{1-p} = 2 \],
\[ p = \frac{Шансы}{1 + Шансы} = \frac{2}{3} \approx 0.66 \]
Или допустим, вероятность какого-то события равна 50%, шансы будут 1 к 1.
\[ Шансы = \frac{p}{1-p} = \frac{0.5}{0.5} = 1 \]
- Шансы часто используют в ставках на спорт (например, “шансы выигрыша 2 к 1”)
- Так вот, Логистическая регрессия моделирует как меняется логарифм шансов при изменений линейного предиктора
- ну то есть если у вас объясняющая переменная меняет значение, как это влияет на логарифм шансов
Логарифм шансов принято называть логитом (вероятно от “logarithm + unit”), отсюда название регрессии - логистическая
Подгонка логистической регрессии с помощью функции glm()
- Для подгонки логистической регрессии мы используем функцию
glm(). Синтаксис очень похож на синтаксис функцииlm(): необходимо указать аргументы формулы и данных - Помимо этого, необходимо указать дополнительный аргумент
family = "binomial". Так R поймет, что вы моделируете бинарный отклик
- Посмотрим на результат
| (1) | |
|---|---|
| (Intercept) | -7.122 |
| (0.277) | |
| score | 0.243 |
| (0.010) | |
| sexfemale | -0.319 |
| (0.077) | |
| Num.Obs. | 4488 |
| AIC | 4236.5 |
| BIC | 4255.8 |
| Log.Lik. | -2115.263 |
| RMSE | 0.39 |
- Выглядит очень похоже на обычный результат функции
lm(). Посмотрим на колонкуEstimate, которая дает нам коэффициенты регрессии- \(\beta_0\) = -7.1215278
- \(\beta_1\) = 0.2430623
- \(\beta_2\) = NA
- Как мы можем их интерпретировать? Давайте вспомним формулу. Представьте, что у нас есть проект, набравший \(30\) баллов, и его возглавляет женщина - каковы шансы такого проекта получить финансирование?
\[\begin{align*} P(Y = 1|X_1 = 30, X_2 = 0) = p_1 \\ P(Y = 1|X_1 = 30, X_2 = 1) = p_2 \\ Odds_1 = \frac{p_1}{1-p_1} = e^{\beta_0 + \beta_1*30 + \beta_2*0} \\ Odds_2 = \frac{p_2}{1-p_2} = e^{\beta_0 + \beta_1*30 + \beta_2*1} \\ \frac{Odds_2}{Odds_1} = \frac{e^{\beta_0 + \beta_1*30 + \beta_2}}{e^{\beta_0 + \beta_1*35}} = e^{\beta_2*sex} \\ e^{\beta_2} = \frac{Odds_2}{Odds_1} \\ \beta_2 = log(\frac{Odds_2}{Odds_1}) \end{align*}\]
Коэффициент линейной регрессии показывает насколько изменяется зависимая переменная (Y) при увеличении объясняющей переменной на 1 единицу.
Сравните,
Коэффициент логистической регрессии показывает насколько изменяется логарифм шансов события при увеличении объясняющей переменной на 1 единицу
- Согласно модели, мы видим, что проект с 30-ю баллами возглавляемый мужчиной (пол = 1) имеет примерно на \(1.38\) больше шансов выиграть грант, чем 30-й бальный проект возглавляемый женщиной.
- Внимательно: не в \(1.38\) раз больше вероятности, а в \(1.38\) раз больше шансов!!!
| (1) | |
|---|---|
| (Intercept) | -7.122 |
| (0.277) | |
| score | 0.243 |
| (0.010) | |
| sexfemale | -0.319 |
| (0.077) | |
| Num.Obs. | 4488 |
| AIC | 4236.5 |
| BIC | 4255.8 |
| Log.Lik. | -2115.263 |
| RMSE | 0.39 |
- Взглянем на коэффициент, связанный с полом. Сам коэффициент это логарифм-шансов.
\[ \beta_{sex} = 0.31894 \]
- Его экспонента - это увеличение шансов для мужчин
\[ e^{0.31894} = 1.375669 \]
- В R есть много средств для быстрого “перевода” коэффициентов в более понятные числа
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 0.0008075 | 0.2769605 | -25.713154 | 0.00e+00 |
| score | 1.2751480 | 0.0104002 | 23.370858 | 0.00e+00 |
| sexfemale | 0.7269159 | 0.0771784 | -4.132563 | 3.59e-05 |
- А теперь немного кода, чтобы показать откуда берутся эти коэффициенты
[1] 1.185708
[1] 0.8619103
[1] 0.5424824
[1] 0.4629172
[1] 0.7269159
(Intercept) score sexfemale
0.0008075321 1.2751480317 0.7269158503
- Теперь давайте попробуем понять, как переменная
scoreвлияет на шансы получить финансирование
[1] 0.2036047
[1] 0.4629172
[1] 3.371344
score
3.371344
Выбор модели
- Опять же, как решить какая модель лучше?
- Посмотрим на результаты
| модель1 | модель2 | |
|---|---|---|
| (Intercept) | -7.440 (0.278)*** | -7.634 (0.285)*** |
| score | 0.243 (0.010)*** | 0.249 (0.011)*** |
| sex | 0.319 (0.077)*** | 0.286 (0.078)*** |
| memberyes | 2.850 (0.313)*** | |
| Num.Obs. | 4488 | 4488 |
| AIC | 4236.5 | 4131.8 |
| BIC | 4255.8 | 4157.4 |
| Log.Lik. | -2115.263 | -2061.887 |
| RMSE | 0.39 | 0.39 |
Присмотритесь к выводу и вы увидите некий AIC. Что это такое?
AIC - это аббревиатура для информационного критерия Акаике1. Это статистический показатель, который показывает “правдоподобность” модели.
AIC пытается найти баланс между “простотой” модели и ее “согласованностью” с данными.
Простота измеряется как число параметров (т.е. коэффициентов), чем меньше параметров тем проще
“Согласованность” - как правдоподобие (likelihood), т.е. вероятность наблюдать данные как у нас при условии, что модель (т.е. значения параметров) верны.
AIC вычисляется так:
\[AIC = -2 * log(L) + 2 * k\]
где \(L\) - максимальное значение функции правдоподобия модели, а \(k\) - количество параметров.
Интерпретация: чем меньше AIC, тем лучше модель. AIC может использоваться для сравнения нескольких моделей.
Чем меньше AIC тем лучше модель!
- Самое классное - AIC - это случайная переменная с известным распределением (хи-квадрат).
\[ AIC \sim \chi^2 \]
То есть вы можете сравнить AIC двух моделей и понять дает ли вам более сложная модель “значительное” уменьшение AIC
- Если да, то значит более сложная модель лучше
| Resid. Df | Resid. Dev | Df | Deviance | Pr(>Chi) |
|---|---|---|---|---|
| 4485 | 4230.527 | NA | NA | NA |
| 4484 | 4123.774 | 1 | 106.7525 | 0 |
Принцип Максимального Правдоподобия
В линейной регрессии для оценки параметров мы использовали Метод Наименьших Квадратов (Ordinary Least Squares, или OLS regression)
- Мы брали квадраты остатков, и находили параметры, которые минимизировали их сумму.
В логистической регрессии используют другой метод - принцип максимального правдоподобия. Мы выбираем те значения параметров, которые делают наши данные наиболее вероятными (максимум правдоподобия)
\[ argmax_{\beta}(P(Data|Model)) \]
Другими словами, мы максимизируем вероятность наблюдаемых данных. Простой пример: вы подбросили монетку 10 раз. 7 раз выпала решка. Оцените, с точки зрения максимального правдоподобие, вероятность решки.
Если вы помните, вероятность выпадения 7 решек можно посчитать с помощью биноминального распределения.
\[ \textrm{ Вероятность 7 решек } = C_{10}^{7} p^7(1-p)^3 \]
Идея в том, что вы выбираете такие значение которые максимизируют правдоподобие модели.
- То есть у вас есть много возможных значений для \(p\) - и вы выбираете то, которое делает вероятность наблюдать 7 решек максимальной
Давайте практиковаться
- Посмотрим на некоторые наши данные
| member | n |
|---|---|
| no | 4411 |
| yes | 77 |
- Создадим синтетические данные, чтобы понять какие значение предсказывает модель
- Посмотрим как
Еще больше результатов
В конкурсе было семь возможных “направлений” по которым подавались проекты
- Условно мы их обозвали “Безопасность”, “Наука”, “Недропользование”, “Культура”, “Науки о жизни”, “Энергетика” и “Сельское хозяйство”.
Ниже процент победивших проектов в зависимости от пола руководителя (слева) и предсказанные вероятности победы вместе с доверительными интервалами (справа)
Практически везде у руководителей-мужчин вероятность победы значительно выше чем у женщин.
- Единественное исключение - Безопасность. Но там в целом было мало проектов.
Модели в целом
Влияние баллов
Влияние пола и баллов
А теперь вернемся к баллам
| sex | demo | demo+domain | demo+domain+fake+qual | full | |
|---|---|---|---|---|---|
| sexFemale | -0.699*** | -0.679*** | -0.452** | -0.267+ | -0.052 |
| 0.139 (<0.001) | 0.138 (<0.001) | 0.143 (0.002) | 0.141 (0.059) | 0.141 (0.714) | |
| regionАстана | -0.249 | -0.082 | -0.175 | 0.009 | |
| 0.175 (0.154) | 0.177 (0.646) | 0.174 (0.315) | 0.177 (0.962) | ||
| regionШымкент | -2.633*** | -2.538*** | -2.302*** | -1.435*** | |
| 0.279 (<0.001) | 0.279 (<0.001) | 0.275 (<0.001) | 0.309 (<0.001) | ||
| regionOther | -1.041*** | -0.918*** | -0.873*** | -0.366+ | |
| 0.176 (<0.001) | 0.178 (<0.001) | 0.176 (<0.001) | 0.209 (0.080) | ||
| domainAgriculture | 0.443+ | 0.274 | 0.198 | ||
| 0.232 (0.057) | 0.229 (0.232) | 0.228 (0.387) | |||
| domainScience | 1.327*** | 0.301 | 0.080 | ||
| 0.237 (<0.001) | 0.249 (0.227) | 0.247 (0.745) | |||
| domainLife | 0.221 | -0.284 | -0.525* | ||
| 0.233 (0.344) | 0.235 (0.227) | 0.236 (0.026) | |||
| domainSecurity | 0.135 | 0.115 | 0.323 | ||
| 0.457 (0.767) | 0.449 (0.798) | 0.444 (0.468) | |||
| domainNatural Rm | 1.056*** | 0.524** | 0.655*** | ||
| 0.195 (<0.001) | 0.197 (0.008) | 0.197 (<0.001) | |||
| domainEnergy | 0.845** | 0.089 | 0.111 | ||
| 0.291 (0.004) | 0.292 (0.761) | 0.289 (0.701) | |||
| fakeYes | -0.897*** | -0.811*** | |||
| 0.178 (<0.001) | 0.176 (<0.001) | ||||
| rintsYes | 0.792*** | 0.728*** | |||
| 0.195 (<0.001) | 0.193 (<0.001) | ||||
| scopusYes | 0.219 | 0.147 | |||
| 0.173 (0.205) | 0.171 (0.387) | ||||
| Hirsh | 0.316*** | 0.251*** | |||
| 0.029 (<0.001) | 0.029 (<0.001) | ||||
| Win 2014yes | 1.597*** | ||||
| 0.186 (<0.001) | |||||
| degreeDoctor | 0.472** | ||||
| 0.148 (0.001) | |||||
| degreePhD | 0.942*** | ||||
| 0.222 (<0.001) | |||||
| Inst capWorks with | 0.777*** | ||||
| 0.170 (<0.001) | |||||
| Inst capMember | -0.675 | ||||
| 0.525 (0.199) | |||||
| Inst Cap(Missing) | -1.784** | ||||
| 0.632 (0.005) | |||||
| Org prestigeNational | -0.159 | ||||
| 0.241 (0.509) | |||||
| Org prestigeInternational | 1.014 | ||||
| 0.668 (0.129) | |||||
| Org prestigeOther | 0.831*** | ||||
| 0.196 (<0.001) | |||||
| Num.Obs. | 4496 | 4496 | 4496 | 4496 | 4496 |
| R2 | 0.006 | 0.029 | 0.040 | 0.078 | 0.110 |
| R2 Adj. | 0.005 | 0.028 | 0.038 | 0.075 | 0.106 |
| AIC | 26595.2 | 26493.5 | 26456.2 | 26281.6 | 26139.1 |
| BIC | 26614.5 | 26531.9 | 26533.2 | 26384.1 | 26299.4 |
| Log.Lik. | -13294.621 | -13240.740 | -13216.118 | -13124.786 | -13044.552 |
| RMSE | 4.66 | 4.60 | 4.57 | 4.48 | 4.40 |
Немного картинок
Опять к таблицам
| Science | Energy | Natural_rm | Culture | Life | Agriculture | |
|---|---|---|---|---|---|---|
| hirsh | 0.291*** | 0.191* | 0.196*** | 0.280 | 0.229** | 0.170 |
| 0.048 (<0.001) | 0.089 (0.032) | 0.057 (<0.001) | 0.185 (0.131) | 0.073 (0.002) | 0.136 (0.212) | |
| win_2014Yes | 1.963*** | 1.536* | 0.982+ | 1.763*** | 1.703*** | 1.333** |
| 0.437 (<0.001) | 0.642 (0.017) | 0.524 (0.061) | 0.366 (<0.001) | 0.463 (<0.001) | 0.471 (0.005) | |
| rintsYes | 1.265** | 0.142 | 0.537 | 0.820* | -0.118 | 0.959+ |
| 0.478 (0.008) | 0.672 (0.833) | 0.355 (0.131) | 0.416 (0.049) | 0.613 (0.847) | 0.521 (0.066) | |
| scopusYes | 1.097+ | 1.829** | -0.441 | 0.387 | -0.405 | 0.037 |
| 0.572 (0.056) | 0.684 (0.008) | 0.320 (0.169) | 0.360 (0.283) | 0.451 (0.370) | 0.440 (0.934) | |
| fakeYes | -2.562*** | -1.430* | 0.323 | -0.932** | -2.719*** | -0.848* |
| 0.583 (<0.001) | 0.645 (0.027) | 0.343 (0.346) | 0.340 (0.006) | 0.662 (<0.001) | 0.416 (0.042) | |
| sexFemale | 0.484 | 0.225 | -0.175 | 0.109 | -0.616 | -0.023 |
| 0.405 (0.233) | 0.623 (0.718) | 0.265 (0.510) | 0.280 (0.696) | 0.399 (0.124) | 0.363 (0.949) | |
| regionАстана | 0.325 | -1.389* | -0.556 | -0.129 | 0.939+ | 0.504 |
| 0.479 (0.497) | 0.662 (0.037) | 0.393 (0.158) | 0.342 (0.707) | 0.537 (0.081) | 0.498 (0.312) | |
| regionШымкент | -0.619 | -3.499** | 0.494 | -3.094*** | 1.073 | -0.419 |
| 1.073 (0.564) | 1.210 (0.004) | 0.612 (0.420) | 0.551 (<0.001) | 1.289 (0.406) | 0.856 (0.625) | |
| regionOther | 0.190 | -1.111 | -0.006 | -0.434 | 0.692 | -0.458 |
| 0.746 (0.799) | 0.815 (0.174) | 0.409 (0.989) | 0.434 (0.318) | 0.658 (0.293) | 0.470 (0.331) | |
| degreeDoctor | 0.358 | 0.051 | 0.683* | 0.688* | -0.208 | 0.452 |
| 0.432 (0.408) | 0.570 (0.928) | 0.286 (0.017) | 0.285 (0.016) | 0.423 (0.622) | 0.386 (0.243) | |
| degreePhD | 1.459** | 0.406 | 1.672*** | 0.570 | 0.070 | -0.505 |
| 0.519 (0.005) | 0.701 (0.563) | 0.435 (<0.001) | 0.483 (0.238) | 0.630 (0.911) | 0.776 (0.515) | |
| inst_capWorks with | -0.363 | 2.275*** | 1.354*** | 1.268** | 1.172* | 0.043 |
| 0.523 (0.488) | 0.645 (<0.001) | 0.392 (<0.001) | 0.437 (0.004) | 0.540 (0.030) | 0.419 (0.918) | |
| inst_capMember | -2.647* | -1.277 | 0.112 | 0.756 | -0.758 | -1.029 |
| 1.209 (0.029) | 1.557 (0.412) | 1.128 (0.921) | 1.446 (0.601) | 1.588 (0.633) | 1.224 (0.401) | |
| inst_cap(Missing) | 0.055 | -4.542*** | -0.488 | -2.435 | ||
| 2.468 (0.982) | 1.202 (<0.001) | 0.895 (0.586) | 1.876 (0.195) | |||
| org_prestigeNational | 1.759* | -1.052 | -0.419 | -0.508 | 1.020 | -0.894 |
| 0.764 (0.022) | 0.803 (0.191) | 0.532 (0.431) | 0.550 (0.356) | 0.798 (0.202) | 0.596 (0.134) | |
| org_prestigeInternational | 2.724+ | 6.351* | 2.601 | 1.498 | -2.187 | |
| 1.469 (0.064) | 3.182 (0.047) | 1.713 (0.129) | 1.109 (0.177) | 1.608 (0.174) | ||
| org_prestigeOther | 1.763** | 1.343+ | 1.153** | 1.000* | 1.696* | 0.076 |
| 0.658 (0.008) | 0.741 (0.071) | 0.407 (0.005) | 0.412 (0.015) | 0.657 (0.010) | 0.458 (0.868) | |
| Num.Obs. | 565 | 326 | 1045 | 1304 | 561 | 583 |
| R2 | 0.255 | 0.238 | 0.083 | 0.114 | 0.161 | 0.050 |
| R2 Adj. | 0.232 | 0.199 | 0.068 | 0.102 | 0.135 | 0.025 |
| AIC | 3240.1 | 1904.4 | 5929.9 | 7732.8 | 3303.3 | 3309.3 |
| BIC | 3322.5 | 1972.6 | 6024.0 | 7831.0 | 3385.6 | 3383.6 |
| Log.Lik. | -1601.066 | -934.197 | -2945.941 | -3847.376 | -1632.674 | -1637.667 |
| RMSE | 4.12 | 4.25 | 4.06 | 4.63 | 4.44 | 4.02 |
А теперь назад к логит-регрессии
| merit | merit+memory | merit+memory+demo | full-inst_cap | full | full, scoreXsex | full, scoreXdomain | full, hirshXsex | |
|---|---|---|---|---|---|---|---|---|
| Score | 0.246*** | 0.232*** | 0.224*** | 0.232*** | 0.227*** | 0.327*** | 0.232*** | |
| 0.010 (<0.001) | 0.011 (<0.001) | 0.011 (<0.001) | 0.012 (<0.001) | 0.015 (<0.001) | 0.026 (<0.001) | 0.012 (<0.001) | ||
| Hirsh | 0.143*** | 0.074*** | 0.041* | 0.020 | 0.020 | 0.023 | 0.010 | |
| 0.016 (<0.001) | 0.016 (<0.001) | 0.016 (0.012) | 0.017 (0.240) | 0.017 (0.227) | 0.017 (0.175) | 0.018 (0.559) | ||
| rintsYes | 0.284** | 0.177+ | 0.168 | 0.131 | 0.131 | 0.129 | 0.135 | |
| 0.097 (0.003) | 0.104 (0.089) | 0.110 (0.127) | 0.113 (0.244) | 0.113 (0.245) | 0.113 (0.253) | 0.113 (0.231) | ||
| scopusYes | 0.079 | 0.028 | 0.092 | 0.110 | 0.110 | 0.105 | 0.100 | |
| 0.090 (0.381) | 0.097 (0.770) | 0.103 (0.369) | 0.105 (0.294) | 0.105 (0.295) | 0.106 (0.320) | 0.106 (0.344) | ||
| fakeYes | -0.390*** | -0.207* | -0.069 | -0.058 | -0.057 | -0.021 | -0.058 | |
| 0.092 (<0.001) | 0.099 (0.036) | 0.109 (0.526) | 0.111 (0.599) | 0.111 (0.604) | 0.112 (0.848) | 0.111 (0.600) | ||
| Win 2014yes | 0.563*** | 0.520*** | 0.520*** | 0.509*** | 0.521*** | |||
| 0.102 (<0.001) | 0.104 (<0.001) | 0.104 (<0.001) | 0.104 (<0.001) | 0.104 (<0.001) | ||||
| degreeDoctor | 0.425*** | 0.399*** | 0.399*** | 0.398*** | 0.395*** | |||
| 0.087 (<0.001) | 0.088 (<0.001) | 0.088 (<0.001) | 0.089 (<0.001) | 0.088 (<0.001) | ||||
| degreePhD | -0.021 | -0.096 | -0.097 | -0.094 | -0.094 | |||
| 0.133 (0.877) | 0.137 (0.480) | 0.137 (0.480) | 0.137 (0.492) | 0.137 (0.491) | ||||
| domainAgriculture | -0.447** | -0.545*** | -0.544*** | 2.857* | -0.562*** | |||
| 0.157 (0.004) | 0.162 (<0.001) | 0.162 (<0.001) | 1.207 (0.018) | 0.162 (<0.001) | ||||
| domainScience | 0.058 | 0.004 | 0.004 | 2.827** | -0.012 | |||
| 0.149 (0.698) | 0.152 (0.982) | 0.152 (0.977) | 1.037 (0.006) | 0.153 (0.939) | ||||
| domainLife | 0.938*** | 1.040*** | 1.042*** | 4.142*** | 1.030*** | |||
| 0.137 (<0.001) | 0.141 (<0.001) | 0.141 (<0.001) | 0.943 (<0.001) | 0.141 (<0.001) | ||||
| domainSecurity | 0.230 | 0.135 | 0.136 | 6.837*** | 0.112 | |||
| 0.269 (0.392) | 0.284 (0.634) | 0.284 (0.633) | 1.554 (<0.001) | 0.285 (0.693) | ||||
| domainNatural Rm | 0.498*** | 0.518*** | 0.518*** | 3.883*** | 0.496*** | |||
| 0.118 (<0.001) | 0.120 (<0.001) | 0.120 (<0.001) | 0.896 (<0.001) | 0.121 (<0.001) | ||||
| domainEnergy | 0.103 | 0.076 | 0.075 | 1.988 | 0.055 | |||
| 0.175 (0.557) | 0.179 (0.671) | 0.179 (0.675) | 1.320 (0.132) | 0.179 (0.757) | ||||
| sexFemale | -0.221** | -0.203* | -0.464 | -0.211* | -0.268** | |||
| 0.085 (0.009) | 0.086 (0.019) | 0.584 (0.428) | 0.087 (0.015) | 0.097 (0.006) | ||||
| regionАстана | -0.129 | -0.238* | -0.238* | -0.247* | -0.235* | |||
| 0.104 (0.214) | 0.108 (0.027) | 0.108 (0.027) | 0.108 (0.022) | 0.108 (0.029) | ||||
| regionШымкент | -0.397+ | -0.365 | -0.365 | -0.335 | -0.369+ | |||
| 0.221 (0.072) | 0.224 (0.102) | 0.224 (0.103) | 0.224 (0.135) | 0.224 (0.099) | ||||
| regionOther | -0.336** | -0.323* | -0.323* | -0.325* | -0.329* | |||
| 0.130 (0.010) | 0.133 (0.015) | 0.133 (0.015) | 0.134 (0.015) | 0.133 (0.014) | ||||
| Org prestigeNational | 0.062 | -0.307* | -0.307* | -0.289+ | -0.317* | |||
| 0.136 (0.649) | 0.153 (0.045) | 0.153 (0.045) | 0.153 (0.059) | 0.153 (0.038) | ||||
| Org prestigeInternational | 0.397 | 0.353 | 0.354 | 0.326 | 0.349 | |||
| 0.381 (0.298) | 0.389 (0.364) | 0.389 (0.362) | 0.395 (0.410) | 0.389 (0.370) | ||||
| Org prestigeOther | 0.151 | 0.055 | 0.055 | 0.059 | 0.049 | |||
| 0.122 (0.215) | 0.127 (0.664) | 0.127 (0.664) | 0.127 (0.644) | 0.127 (0.697) | ||||
| Pr Ranksecond | -0.675*** | -0.726*** | -0.727*** | -0.719*** | -0.731*** | |||
| 0.141 (<0.001) | 0.145 (<0.001) | 0.145 (<0.001) | 0.145 (<0.001) | 0.145 (<0.001) | ||||
| Pr Rankbest | -0.083 | -0.100 | -0.098 | -0.089 | -0.105 | |||
| 0.110 (0.451) | 0.112 (0.372) | 0.112 (0.380) | 0.112 (0.428) | 0.112 (0.351) | ||||
| Pr Ranktie | 0.379 | 0.415 | 0.417 | 0.346 | 0.416 | |||
| 0.479 (0.429) | 0.476 (0.384) | 0.476 (0.381) | 0.479 (0.469) | 0.476 (0.382) | ||||
| Inst capWorks with | 0.588*** | 0.588*** | 0.575*** | 0.590*** | ||||
| 0.102 (<0.001) | 0.102 (<0.001) | 0.102 (<0.001) | 0.102 (<0.001) | |||||
| Inst capMember | 3.093*** | 3.092*** | 3.084*** | 3.098*** | ||||
| 0.337 (<0.001) | 0.337 (<0.001) | 0.342 (<0.001) | 0.336 (<0.001) | |||||
| Inst Cap(Missing) | 0.284 | 0.287 | 0.246 | 0.290 | ||||
| 0.406 (0.484) | 0.406 (0.480) | 0.413 (0.552) | 0.407 (0.475) | |||||
| score:sexFemale | 0.010 | |||||||
| 0.022 (0.652) | ||||||||
| score:domainAgriculture | -0.129** | |||||||
| 0.046 (0.005) | ||||||||
| score:domainScience | -0.106** | |||||||
| 0.038 (0.006) | ||||||||
| score:domainLife | -0.118** | |||||||
| 0.036 (0.001) | ||||||||
| score:domainSecurity | -0.259*** | |||||||
| 0.061 (<0.001) | ||||||||
| score:domainNatural Rm | -0.128*** | |||||||
| 0.034 (<0.001) | ||||||||
| score:domainEnergy | -0.073 | |||||||
| 0.049 (0.137) | ||||||||
| hirsh:sexFemale | 0.055 | |||||||
| 0.038 (0.146) | ||||||||
| Num.Obs. | 4488 | 4488 | 4488 | 4488 | 4488 | 4488 | 4488 | 4488 |
| AIC | 4250.2 | 4838.3 | 4217.7 | 4031.0 | 3913.5 | 3915.3 | 3898.0 | 3913.4 |
| BIC | 4263.0 | 4870.4 | 4256.1 | 4191.3 | 4093.0 | 4101.2 | 4115.9 | 4099.3 |
| Log.Lik. | -2123.111 | -2414.162 | -2102.828 | -1990.511 | -1928.771 | -1928.669 | -1915.019 | -1927.704 |
| RMSE | 0.39 | 0.42 | 0.39 | 0.38 | 0.37 | 0.37 | 0.37 | 0.37 |
Немного о качестве моделей
Разработан в 1971 как «an information criterion» («(некий) информационный критерий») Хироцугу Акаике↩︎