<< Предыдущая

стр. 46
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

предполагать, что целесообразно общую выборку разбить на две под-
выборки объемами n1 и n2 соответственно (n1 + n2 = n) и построить для
каждой из выборок уравнение регрессии (рис. 11.3, б). Через S1 и S2

264
обозначим суммы квадратов отклонений значений yi каждой из под-
выборок от соответствующих уравнений регрессии. Очевидно, равен-
ство S0 = S1 + S2 возможно лишь при совпадении коэффициентов ре-
грессии для всех трех уравнений. Чем сильнее различие в поведении
Y для двух подвыборок, тем больше значение S0 будет превосходить
S1 + S2. Тогда разность S0 ? (S1 + S2) может быть интерпретирована
как улучшение качества модели при разбиении интервала наблюдений
на два подынтервала. Следовательно, дробь [S0 ? (S1 + S2)]/(m + 1) оп-
ределяет оценку уменьшения дисперсии регрессии за счет построения
двух уравнений вместо одного. При этом число степеней свободы со-
кратиться на (m + 1), т. к. вместо (m + 1) параметра объединенного
уравнения теперь необходимо оценивать (2m + 2) параметра двух рег-
рессий. Дробь (S1 + S2)/(n ? 2m ? 2) ? необъясненная дисперсия зави-
симой переменной при использовании двух регрессий. Тогда напра-
шивается вывод о том, что общую выборку целесообразно разбить на
два подынтервала только в случае, если уменьшение дисперсии будет
значимо больше оставшейся необъясненной дисперсии. Данный ана-
лиз осуществляется по стандартной процедуре сравнения дисперсий
на основе F-статистики (см. раздел 3.5.5). В этом случае F-статистика
имеет вид:
S0 ? S1 ? S2 n ? 2m ? 2
F= ? . (11.18)
S1 + S2 m +1
Если уменьшение дисперсии статистически не отличается от не-
объясненной дисперсии, то построеннная F-статистика имеет распре-
деление Фишера с числами степеней свободы н1 = m + 1 и
н2 = n 0 ? 2m ? 2 . Здесь m – число количественных объясняющих пе-
ременных в уравнениях регрессии (m – одинаково для всех трех урав-
нений регрессии).
Тогда, если Fнабл , рассчитанное по формуле (11.18), окажется при
выбранном уровне значимости ? меньше соответствующей критиче-
ской точки распределения Фишера Fкр. = Fб; m +1; n ? 2m ? 2 , то считается,
что различие между S0 и S1 + S2 статистически незначимо и нет смыс-
ла разбивать уравнение регрессии на части. В противном случае раз-
биение на подынтервалы целесообразно с точки зрения улучшения
качества модели. Это фактически означает необходимость введения в
уравнение регрессии соответствующей фиктивной переменной.


265
Отметим, что использование указанной F-статистики (теста Чоу)
осуществляется достаточно просто. Однако оно менее информативно,
нежели общий анализ сложной регрессии с фиктивными переменны-
ми, осуществляемый на базе t-статистик (с учетом вклада каждой
фиктивной переменной), коэффициента детерминации и статистики
Дарбина–Уотсона. Однако тест Чоу вполне достаточен, если требует-
ся установить, что зависимости в подвыборках различаются.

11.4. Использование фиктивных переменных в сезонном анализе
Многие экономические показатели напрямую связаны с сезон-
ными колебаниями. Например, спрос на туристические путевки, ох-
лажденную воду и мороженое существенно выше летом, чем зимой.
Спрос на обогреватели, шубы выше зимой. Некоторые показатели
имеют существенные квартальные колебания и т. д.
Обычно сезонные колебания характерны для временных рядов.
Устранение или нейтрализация сезонного фактора в таких моделях
позволяет сконцентрироваться на других важных количественных и
качественных характеристиках модели, в частности на общем направ-
лении развития модели, так называемом тренде. Такое устранение се-
зонного фактора называется сезонной корректировкой. Существует
несколько методов сезонной корректировки, одним из которых явля-
ется метод фиктивных переменных.
Пусть переменная Y определяется количественной переменной
X, причем эта зависимость существенно разнится по кварталам. Тогда
общую модель в этой ситуации можно представить в виде:

?t = в 0 + в1? t + г 1D1t + г 2 D 2t + г 3 D 3t + е t , (11.19)

? 1, если рассматривается II квартал,
D1t = ?
где
? 0, в противном случае.
? 1, если рассматривается III квартал,
D 2t = ?
? 0, в противном случае.
? 1, если рассматривается IV квартал,
D 3t = ?
? 0, в противном случае.
Заметим, что число кварталов равно четырем, а следовательно
число фиктивных переменных должно быть равно трем. В нашем
примере в качестве базы выбран I квартал. Если значения Y сущест-

266
венно различаются по кварталам (сезонам), то в уравнении (11.19) ко-
эффициенты при фиктивных переменных окажутся статистически
значимыми. Тогда ожидаемое значение Y по кварталам определяется
следующими соотношениями:
M(Y | D1 = 0, D 2 = 0, D 3 = 0) = в 0 + в1X – для I квартала,
M(Y | D1 = 1, D 2 = 0, D 3 = 0) = (в 0 + г 1 ) + в1X – для II квартала,
M(Y | D1 = 0, D 2 = 1, D 3 = 0) = (в 0 + г 2 ) + в 1X – для III квартала,
M(Y | D1 = 0, D 2 = 0, D 3 = 1) = (в 0 + г 3 ) + в 1X – для IV квартала.
Легко видеть, что в модели (11.19) рассматриваются такие ситуа-
ции, при которых квартальные различия отражаются лишь в различии
свободных членов моделей. Если же различия затрагивают и измене-
ния коэффициента пропорциональности, то это может быть отражено
следующей моделью:
Yt = в 0 + в 1X t + г 1D1t + г 2 D 2t + г 3 D 3t +
(11.20)
+ г 4 D1t X t + г 5 D 2t X t + г 6 D 3t X t + е t .
Выбор правильной формы модели регрессии является в данной
ситуации достаточно серьезной проблемой, т. к. в этом случае вполне
вероятны ошибки спецификации. Наиболее рациональной практиче-
ской стратегией выбора модели является следующая схема.
Вначале рассматривается модель (11.20). Определяется статисти-
ческая значимость коэффициентов. Если дифференциальные угловые
коэффициенты оказываются статистически незначимыми, то перехо-
дят к модели (11.19). Если в этой модели дифференциальные свобод-
ные члены оказываются статистически незначимыми, то делают вы-
вод, что квартальные (сезонные) изменения несущественны для рас-
сматриваемой зависимости.

11.5. Зависимая переменная фиктивна
Заметим, что иногда (хотя достаточно редко) фиктивные пере-
менные могут быть использованы для объяснения поведения зависи-
мой переменной. Например, если рассматривать следующую зависи-
мость: наличие автомобиля в зависимости от дохода, пола субъекта и
т. п., то зависимая переменная имеет как бы два возможных значения:
0, если машины нет, и 1, если машина есть.


267
Однако если для моделей данного типа использовать обыкновен-
ный МНК, то оценки, получаемые с его помощью, не обладают свой-
ствами наилучших линейных несмещенных оценок (BLUE). Поэтому
для определения коэффициентов в этом случае используются другие
методы.
11.5.1. Модель LPM
Рассмотрим модели, в которых зависимая переменная выражает-
ся в виде фиктивной (двоичной) переменной. Объясняющие перемен-
ные могут быть как количественными, так и качественными.
Например, анализируется наличие работы у субъекта в зависимо-
сти от возраста, образования, семейного положения, доходов осталь-
ных членов семьи и т. д. В этом случае зависимая переменная Y имеет
два возможных состояния:
? 0, субъект не имеет работу,
Y=?
? 1, субъект имеет работу.
Или, например, при исследовании торгового баланса в качестве
зависимой может быть использована следующая переменная:
? 0, если торговый баланс отрицательный,
Y=?
? 1, если торговый баланс не отрицательный.
Представим рассматриваемые модели в виде:
Y = в 0 + в1X1 + ... + в m X m + г 1D1 + ... + г k D k + е . (11.21)
Например, пусть Y – результат сдачи с первой попытки экзамена
в ГАИ; X1 – количество часов вождения в автошколе; X2 – средний
процент выпускников данной автошколы, сдающих экзамен в ГАИ с
первой попытки; D3 – использование компьютерной методики обуче-
ния. В этой ситуации
? 0, экзамен не сдан с первой попытки,
Y=?
? 1, экзамен сдан с первой попытки.
Пусть 0 ? X1 ? 50 часов, 0 ? X2 ? 100 %,
? 0, компьютеры не использовались,
D3 = ?
? 1, компьютеры использовались.
Тогда получим следующую модель:
Y = в 0 + в1X1 + в 2 X 2 + г 3D3 + е . (11.22)

268
Модели вида (11.21) и (11.22) называются линейными вероятно-
стными моделями (linear probability models) (LPM-моделями). Суть
этого названия поясним на простейшем примере данной модели:
Y = в 0 + в 1X + е . (11.23)
При использовании модели (11.23) среднее ожидаемое значение
Y (условное математическое ожидание Y) при Х = х с учетом того,
что M(?i) = 0, определяется соотношением M(Y Х = х ) = в 0 + в 1х . С
другой стороны, M (Y ?х) = 0?P(Y = 0 ?х) + 1?P(Y = 1 ?х) = P(Y = 1 ?х).
Следовательно, из (11.23) имеем:
P(Y = 1 ?х) = ?0 + ?1х. (11.24)
С учетом вышесказанного можно отметить, что применимость
МНК к моделям LPM имеет определенные ограничения:
1. Случайные отклонения ?i в данных моделях не являются нормаль-
ными случайными величинами, а скорее всего, имеют биноминаль-
ное распределение.
Из (11.23) следует, что ?i = y i ? в 0 ? в 1x i .
Но тогда
е i = 1 ? в 0 ? в 1x i при yi = 1,
е i = ?в 0 ? в 1x i при yi = 0.
Правда, можно отметить, что невыполнимость предпосылки
МНК о нормальном распределении случайных отклонений не столь
существенна при определении оценок уравнения регрессии (они ос-
таются несмещенными), но она достаточно важна при анализе прове-
рок соответствующих гипотез. Однако с ростом объема выборки би-
номинальное распределение стремится к нормальному распределе-
нию.
2. Случайные отклонения не обладают свойством постоянства дис-
персии (гомоскедастичности).
Действительно,
D(е i ) = M(е i ? M(е i )) 2 = M(е i2 ) (т. к. M(е i ) = 0 ).
D(е i ) = M(е i2 ) = (?в 0 ? в 1x i ) 2 ? P(y i = 0) + (1 ? в 0 ? в 1x i ) 2 ? P(y i = 1) =
= (?в 0 ? в 1 x i ) 2 ? (1 ? P(y i = 1)) + (1 ? в 0 ? в 1x i ) 2 ? P(y i = 1) =
= ( ?в 0 ? в1x i ) 2 ? (1 ? в 0 ? в1x i ) + (1 ? в 0 ? в1x i ) 2 ? (в 0 + в1x i ) =
= (в 0 + в1x i )(1 ? в 0 ? в1x i ) = P(y i = 1)(1 ? P(y i = 1)) .
269
Следовательно, D(?i) зависит от вероятностей соответствующих
значений Y, которые в свою очередь зависят от выбранных значений
X. Это означает, что дисперсии отклонений могут быть различными
для различных наблюдений.
Однако данная проблема гетероскедастичности также преодоли-
ма (см. параграф 8.4).
3. Очевидно, использование формул (11.21) – (11.23) может привести
к ситуации, когда некоторые yi будут либо меньше нуля, либо
больше единицы.
Тогда мы получим противоречие с (11.24), т. к. 0 ? P(Y = 1) ? 1.
Возможный вариант устранения данной проблемы рассматривается в
следующем разделе.
4. Применение модели LPM весьма проблематично с содержатель-
ной точки зрения.
Действительно, увеличение в (11.23) значения переменной X на
одну единицу приводит к изменению значения Y на величину ?1 вне
зависимости от конкретного значения X, что, безусловно, противоре-
чит теоретическим и практическим выкладкам (например, закону
убывающей эффективности и т. п.).
Все вышеперечисленное позволяет сделать вывод о том, что не-
посредственное использование МНК в модели LPM приводит к серь-
езным погрешностям и необоснованным выводам. Поэтому в данном
случае его использование не рекомендуется.
11.5.2. Logit модель
Для преодоления недостатков LPM-моделей необходимо исполь-
зовать такие модели, в которых не будут, по крайней мере, нарушать-
ся неравенства 0 ? P(Y = 1 ?х) ? 1, и зависимость между P(Y = 1 ?х) и
х не будет иметь линейный характер, а будет удовлетворять закону
убывающей эффективности.
В качестве одного из вариантов преодоления недостатков модели
LPM можно предложить logit модель. Поясним суть данной модели.
По модели LPM условная вероятность pi = P(Y = 1 | xi ) выража-
лась формулой:
pi = P(Y = 1| xi ) = M(Y = 1| xi) = ?0 + ?1xi. (11.25)
Представим условную вероятность pi в следующем виде:


270
1 1
p i = M(Y = 1 | x i ) = = , (11.26)
?(в 0 +в1x i ) ? zi
1+ e
1+ e
где z i = в 0 + в 1x i .
Из (11.26) нетрудно заметить, что при ? ? < z i < +? никогда не
нарушается следующее неравенство: 0 ? pi ? 1. Кроме того, формула
зависимости pi от xi не является линейной. С другой стороны, из
(11.26) очевидно, что pi не является также линейной функцией и от
параметров ? и ?. Это означает, что для их определения неприменим
МНК. Но эта проблема легко преодолима. Действительно,
1
1 ? pi = . (11.27)
zi
1+ e
Но тогда, разделив (11.26) на (11.27), имеем:
1 + ez i
pi
= ez i .
= (11.28)
1 ? pi 1 + e ? z i
pi
Отношение является отношением вероятностей, характе-
1 ? pi
ризующим во сколько раз P(y i = 1) больше, чем P(y i = 0) .
Прологарифмировав левую и правую части (11.28), получим
Pi
= z i = в 0 + в 1x i .
ln (11.29)
1 ? Pi
Модель (11.29) называется logit моделью. Она выражает лога-

<< Предыдущая

стр. 46
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>