<< Предыдущая

стр. 28
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

Н0: ?1 = ?2 = … = ?m = 0.
Если данная гипотеза не отклоняется, то делается вывод о том,
что совокупное влияние всех m объясняющих переменных Х1, Х2, …,
Хm модели на зависимую переменную Y можно считать статистически
несущественным, а общее качество уравнения регрессии ? невысоким.
Проверка данной гипотезы осуществляется на основе дисперси-
онного анализа ? сравнения объясненной и остаточной дисперсий.
Н0: (объясненная дисперсия) = (остаточная дисперсия),
Н1: (объясненная дисперсия) > (остаточная дисперсия).
Для этого строится F-статистика:
)
2 2
? k i /m ? (y i - y ) /m
F= = , (6.37)
)2
2
? e i /(n ? m ? 1) ? (y i - y i ) /(n ? m ? 1)
где ? k i2 /m ? объясненная дисперсия; ? e i2 /(n ? m ? 1) ? остаточная
дисперсия. При выполнении предпосылок МНК построенная F-
статистика имеет распределение Фишера с числами степеней свободы
?1 = = m, ?2 = n ? m ? 1. Поэтому, если при требуемом уровне значи-
мости ? Fнабл. > Fкр. = F?;m;n?m?1 (где F?;m;n?m?1 ? критическая точка рас-
пределения Фишера), то Н0 отклоняется в пользу Н1. Это означает, что
объясненная дисперсия существенно больше остаточной дисперсии, а
следовательно, уравнение регрессии достаточно качественно отражает
динамику изменения зависимой переменной Y. Если Fнабл. < Fкр. =
= F?;m;n?m?1, то нет оснований для отклонения Н0. Значит, объясненная
дисперсия соизмерима с дисперсией, вызванной случайными факто-
рами. Это дает основания считать, что совокупное влияние объяс-
няющих переменных модели несущественно, а следовательно, общее
качество модели невысоко.
Однако на практике чаще вместо указанной гипотезы проверяют
тесно связанную с ней гипотезу о статистической значимости коэф-
фициента детерминации R2:
Н0: R2 = 0,
Н0: R2 > 0.
Для проверки данной гипотезы используется следующая F-
статистика:



157
R2 n ? m ?1
? . (6.38)
F= 2
1? R m
Величина F при выполнении предпосылок МНК и при справед-
ливости H0 имеет распределение Фишера аналогичное F-статистике
(6.37). Действительно, разделив числитель и знаменатель дроби в
(6.37) на общую сумму квадратов отклонений ? (y i ? y) 2 , мы получим
(6.38):
2 2
R2 n ? m ?1
? k i / ? (y i ? y) (n ? m ? 1)
F= ? ?
= .
e i2 / ? (y i ? y) 2 1? R2
? m m
Из (6.38) очевидно, что показатели F и R2 равны или не равны
нулю одновременно. Если F = 0, то R2 = 0, и линия регрессии Y = y
является наилучшей по МНК, и, следовательно, величина Y линейно
не зависит от X1, Х2, ..., Xm. Для проверки нулевой гипотезы H0: F= 0
при заданном уровне значимости ? по таблицам критических точек
распределения Фишера находится критическое значение Fкр. =
F?;m;n?m?1. Нулевая гипотеза отклоняется, если F > Fкр.. Это равносиль-
но тому, что R2 > 0, т. е. R2 статистически значим.
Анализ статистики F позволяет сделать вывод о том, что для
принятия гипотезы об одновременном равенстве нулю всех коэффи-
циентов линейной регрессии, коэффициент детерминации R2 не дол-
жен существенно отличаться от нуля. Его критическое значение
уменьшается при росте числа наблюдений и может стать сколь угодно
малым.
Пусть, например, при оценке регрессии с двумя объясняющими переменны-
0.65 30 ? 2 ? 1
2
? ? 25.07. По таблицам
ми по 30 наблюдениям R = 0.65. Тогда F =
0.35 2
критических точек распределения Фишера найдем F0.05;2;27 = 3.36; F0,01;2;27 = =
5.49. Поскольку Fнабл. = 25.07 > Fкрит. как при 5%, так и при 1% уровне значимо-
2
сти, то нулевая гипотеза в обоих случаях отклоняется. Если в той же ситуации R
0.4 27
? = 9 . Предположение о незначимости связи отвергается и
= 0.4, то F =
0.6 2
здесь.
Отметим, что в случае парной регрессии проверка нулевой гипо-
тезы для F-статистики равносильна проверке нулевой гипотезы для
r ? n?2
t-статистики t = xy коэффициента корреляции (см. раздел
2
1 ? rxy

158
3.5.6). В этом случае F-статистика равна квадрату t-статистики. Само-
стоятельную важность коэффициент R2 приобретает в случае множе-
ственной линейной регрессии.

6.7.2. Проверка равенства двух коэффициентов детерминации
Другим важным направлением использования статистики Фише-
ра является проверка гипотезы о равенстве нулю не всех коэффициен-
тов регрессии одновременно, а только некоторой части этих коэффи-
циентов. Данное использование статистики F позволяет оценить обо-
снованность исключения или добавления в уравнение регрессии неко-
торых наборов объясняющих переменных, что особенно важно при
совершенствовании линейной регрессионной модели.
Пусть первоначально построенное по n наблюдениям уравнение
регрессии имеет вид
Y = b0 + b1X1 + b2X2 + ... + bm-kXm-k + ... + bmXm , (6.39)
2
и коэффициент детерминации для этой модели равен R 1 . Исключим
из рассмотрения k объясняющих переменных (не нарушая общности,
положим, что это будут k последних переменных). По первоначаль-
ным n наблюдениям для оставшихся факторов построим другое урав-
нение регрессии:
Y = с0 + с1X1 + с2X2 + ... + сm-kXm-k, (6.40)
для которого коэффициент детерминации равен R 2 . Очевидно,
2

R 2 ? R 1 , так как каждая дополнительная переменная объясняет часть
2
2
(пусть незначительную) рассеивания зависимой переменной. Возни-
кает вопрос: существенно ли ухудшилось качество описания поведе-
ния зависимой переменной Y. На него можно ответить, проверяя ги-
потезу H0: R 1 ? R 2 = 0 и используя статистику
2
2

R1 ? R 2 n ? m ? 1
2
?
2
F= . (6.41)
2
1 ? R1 k
В случае справедливости H0 приведенная статистика F имеет распре-
деление Фишера с числами степеней свободы ?1 = k , ?2 = n ? m ? 1.
Действительно, соотношение (6.41) может быть переписано в виде
(R 1 ? R 2 )/k
2
F= 2
. (6.42)
2
(1 ? R 1 ) /( n ? m ? 1)


159
Здесь (R 1 ? R 2 ) ? потеря качества уравнения в результате отбрасы-
2
2
вания k объясняющих переменных; k ? число дополнительно появив-
2
шихся степеней свободы; (1 ? R 1 ) /(n ? m ? 1) ? необъясненная дис-
персия первоначального уравнения. Следовательно, мы попадаем в
ситуацию аналогичную (6.37).
По таблицам критических точек распределения Фишера находят
Fкр. = F?;m;n?m?1 (? ? требуемый уровень значимости). Если рассчитан-
ное значение Fнабл. статистики (6.41) превосходит Fкр., то нулевая ги-
потеза о равенстве коэффициентов детерминации (фактически об од-
новременном равенстве нулю отброшенных k коэффициентов регрес-
сии) должна быть отклонена. В этом случае одновременное исключе-
ние из рассмотрения k объясняющих переменных некорректно, так
как R 1 существенно превышает R 2 . Это означает, что общее качество
2
2
первоначального уравнения регрессии существенно лучше качества
уравнения регрессии с отброшенными переменными, так как оно объ-
ясняет гораздо большую долю разброса зависимой переменной. Если
же, наоборот, наблюдаемая F-статистика невелика (т. е. меньше, чем
Fкр.), то это означает, что разность R 1 ? R 2 незначительна. Следова-
2
2
тельно, можно сделать вывод, что в этом случае одновременное от-
брасывание k объясняющих переменных не привело к существенному
ухудшению общего качества уравнения регрессии, и оно вполне до-
пустимо.
Аналогичные рассуждения могут быть использованы и по поводу
обоснованности включения новых k объясняющих переменных. В
этом случае рассчитывается F-статистика
R 2 ? R1 n ? m ? 1
2
?
2
F= . (6.43)
2
1? R2 k
Если она превышает критическое значение Fкр., то включение но-
вых переменных объясняет существенную часть необъясненной ранее
дисперсии зависимой переменной. Поэтому такое добавление оправ-
дано. Однако отметим, что добавлять переменные целесообразно, как
правило, по одной. Кроме того, при добавлении объясняющих пере-
менных в уравнение регрессии логично использовать скорректиро-
ванный коэффициент детерминации (6.35), т. к. обычный R2 всегда
растет при добавлении новой переменной; а в скорректированном R 2
одновременно растет величина m, уменьшающая его.


160
Если увеличение доли объясненной дисперсии при добавлении
новой переменной незначительно, то R 2 может уменьшиться. В этом
случае добавление указанной переменной нецелесообразно.
Заметим, что для сравнения качества двух уравнений регрессии
по коэффициенту детерминации R2 обязательным является требова-
ние, чтобы зависимая переменная была представлена в одной и той же
форме, и число наблюдений n для обеих моделей было одинаковым.
Например, пусть один и тот же показатель Y моделируется двумя
уравнениями:
Y = ?0 + ?1X1 + ?2X2 + ?
линейным и
lnY = ?0 + ?1X1 + ?2X2 + ?.
лог-линейным
Тогда их коэффициенты детерминации R 1 и R 2 рассчитываются
2
2
по формулам:
2 2
? ei ? ei
2
R2
=1? =1?
и .
R1 2
2 2
? (y i ? y) ? (lny i ? ln y)
Так как знаменатели дробей в приведенных соотношениях раз-
личны, то прямое сравнение коэффициентов детерминации в этом
случае будет некорректным.

6.7.3. Проверка гипотезы о совпадении уравнений
регрессии для двух выборок
Еще одним направлением использования F-статистики является
проверка гипотезы о совпадении уравнений регрессии для отдельных
групп наблюдений. Одним из распространенных тестов проверки дан-
ной гипотезы является тест Чоу, суть которого состоит в следующем.
Пусть имеются две выборки объемами n1 и n2 соответственно.
Для каждой из этих выборок оценено уравнение регрессии вида:
Y = b0k + b1kX1 + b2kX2 + ... + bmkXm + ek, k = 1, 2. (6.44)
Проверяется нулевая гипотеза о равенстве друг другу соответст-
вующих коэффициентов регрессии
H0: bj1 = bj2, j = 0, 1, ..., m.
Другими словами, будет ли уравнение регрессии одним и тем же
для обеих выборок?



161
2
Пусть суммы ? e ik (k = 1, 2) квадратов отклонений значений yi
i
от линий регрессии равны S1 и S2 соответственно для первого и второ-
го уравнений регрессии.
Пусть по объединенной выборке объема (n1 + n2) оценено еще
одно уравнение регрессии, для которого сумма квадратов отклонений
yi от уравнения регрессии равна S0.
Для проверки Н0 в этом случае строится следующая F-статистика:
S0 ? S1 ? S2 n1 + n 2 ? 2m ? 2
?
F= . (6.45)
S1 + S2 m +1

В случае справедливости H0 построенная F-статистика имеет рас-
пределение Фишера с числами степеней свободы ?1 = m + 1; ?2 = n1 +
+ n2 ? 2m ? 2 .
Очевидно, F-статистика близка к нулю, если S0 ? S1 + S2 , и это
фактически означает, что уравнения регрессии для обеих выборок
практически одинаковы. В этом случае F < Fкрит.= Fб; н1 ; н2 . Если же F >
> Fкрит., то нулевая гипотеза отклоняется. Приведенные выше рассуж-
дения особенно важны для ответа на вопрос, можно ли за весь рас-

<< Предыдущая

стр. 28
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>