<< Предыдущая

стр. 21
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

X X
а б
Рис. 5.1

В знаменателе дроби (5.12), определяющей значение S21 , стоит
b

сумма ?(хi ? x )2 квадратов отклонений xi от среднего значения x . Эта
сумма велика (а следовательно, вся дробь мала, и дисперсия S21 оцен-
b




118
ки меньше), если регрессия определяется на широком диапазоне зна-
чений переменной X.
Например, на рис. 5.2 через пары точек (1, 3) и (2, 3) проведена
одна и та же прямая. Но диапазон (1, 3) шире диапазона (2, 3). Если
вместо точки 3 рассмотреть либо точку 3а, либо 3б (т. е. при случайном
изменении выборки), то наклон прямой для пары (1, 3) изменится зна-
чительно меньше, чем для пары (2, 3).
Y





2


1 3б




0 X
Рис. 5.2
2
? xi
S2 0 = S21
?
Дисперсия свободного члена уравнения регрессии b b
n
пропорциональна дисперсии S21 . Действительно, чем сильнее меняет-
b
ся наклон прямой, проведенной через данную точку (x, y) , тем больше
разброс значений свободного члена, характеризующего точку пересе-
чения этой прямой с осью OY.
Кроме того, разброс значений свободного члена тем больше, чем
больше средняя величина x 2 . Это связано с тем, что при больших по
модулю значениях X даже небольшое изменение наклона регрессион-
ной прямой может вызвать большое изменение оценки свободного
члена, поскольку в этом случае в среднем велико расстояние от точек
наблюдений до оси OY.
На рис.5.3 через пары точек (1, 2) и (3, 4) проходит одна и та же
прямая, пересекающая ось OY в точке (0, b0). Для второй из этих пар
значения переменной X больше по абсолютной величине (при одина-
ковом диапазоне изменений X и Y), чем для первой. Если в этих парах
точки 1 и 3 изменить на одну и ту же величину (новые точки 1а, 3а), то
углы наклона новых прямых (1а, 2) и (3а, 4) будут одинаковы. Но сво-


119
бодный член b01 для первой прямой будет существенно меньше отли-
чаться от b0, чем свободный член b02 для второй прямой.
Y
3 4
•a •
b02

3
1a 2
• •
b01

1
b0

0 X
Рис. 5.3

5.3. Проверка гипотез относительно коэффициентов
линейного уравнения регрессии
Эмпирическое уравнение регрессии определяется на основе ко-
нечного числа статистических данных. Поэтому коэффициенты эмпи-
рического уравнения регрессии являются случайными величинами,
изменяющимися от выборки к выборке. При проведении статистиче-
ского анализа перед исследователем зачастую возникает необходи-
мость сравнения эмпирических коэффициентов регрессии b0 и b1 с не-
которыми теоретически ожидаемыми значениями ?0 и ?1 этих коэф-
фициентов. Данный анализ осуществляется по схеме статистической
проверки гипотез, которая подробно проанализирована в разделе 3.4.
Для проверки гипотезы
H0: b1 = ?1,
H1: b1 ? ?1
используется статистика
b ? в1
t= 1 , (5.14)
Sb1
которая при справедливости H0 имеет распределение Стьюдента с
числом степеней свободы ? = n ? 2, где n ? объем выборки. Следова-
тельно, H0: b1 = ?1 отклоняется на основании данного критерия, если
b1 ? в 1
?Тнабл.?= ? tб , (5.15)
Sb1 ,n ?2
2



120
где ? ? требуемый уровень значимости. При невыполнении (5.15) cч-
итается, что нет оснований для отклонения H0.
Наиболее важной на начальном этапе статистического анализа
построенной модели все же является задача установления наличия
линейной зависимости между Y и X. Эта проблема может быть реше-
на по той же схеме:
H0: b1 = 0,
H1: b1 ? 0.
Гипотеза в такой постановке обычно называется гипотезой о
статистической значимости коэффициента регрессии. При этом, ес-
ли H0 принимается, то есть основания считать, что величина Y не за-
висит от Х. В этом случае говорят, что коэффициент b1 статистиче-
ски незначим (он слишком близок к нулю). При отклонении H0 коэф-
фициент b1 считается статистически значимым, что указывает на на-
личие определенной линейной зависимости между Y и X. В данном
случае рассматривается двусторонняя критическая область, т. к. важ-
ным является именно отличие от нуля коэффициента регрессии, и он
может быть как положительным, так и отрицательным.
Поскольку в данном случае полагается, что ?1 = 0, то формально
значимость оцененного коэффициента регрессии b1 проверяется с по-
мощью анализа отношения его величины к его стандартной ошибке
Sb1 = S21 . В случае выполнения исходных предпосылок модели эта
b

дробь имеет распределение Стьюдента с числом степеней свободы ? =
= n ? 2, где n ? число наблюдений. Данное отношение называется t-
статистикой.
b b
t= 1 = 1 . (5.16)
Sb1 2
Sb 1

Для t-статистики проверяется нулевая гипотеза о равенстве ее
нулю. Очевидно, t = 0 равнозначно b1 = 0, поскольку t пропорцио-
нальна b1. Фактически это свидетельствует об отсутствии линейной
связи между X и Y.
По аналогичной схеме на основе t-статистики проверяется гипо-
теза о статистической значимости коэффициента b0:
b b
t= 0 = . (5.17)
S b0 2
Sb 0


121
Отметим, что для парной регрессии более важным является ана-
лиз статистической значимости коэффициента b1, т. к. именно в нем
скрыто влияние объясняющей переменной Х на зависимую перемен-
ную Y.
Для примера 4.1.
2
S2 2
? (y i ? b0 ? b1x i )
? ei 35.3
S 21 = = = = = 0.0023.
b
12 ? 10 ? 125.25
2 2 2 2 2 2
n( x ? x ) n(n ? 2)( x ? x ) n(n ? 2)( x ? x )
S b1 = 0.0023 = 0.0485.

b1 0.9339
t b1 = = = 19.2557.
S b1 0.0485
Критическое значение при уровне значимости ? = 0.05 равно tкр. = t б =
,n ?2
2
= t 0.025;10 = 2.228.
Сравним модуль наблюдаемого значения ? t b1 ?= 19.2557 с критическим
значением t 0.025;0.8 . Поскольку ? t b1 ? = 19.2557 > 2.228 = tкр., то нулевая гипотеза
{t = 0} должна быть отвергнута в пользу альтернативной при выбранном уровне
значимости. Это подтверждает статистическую значимость коэффициента регрес-
сии b1.
Аналогично проверяется статистическая значимость коэффициента b0:
S2 ? ? x i2
2
= S 21 ? x 2 = 0.0023 ? 15884.75 = 36.5349 .
Sb 0 = b
n( x 2 ? x 2 )
S b 0 = 36.5349 = 6.044.
b0 3.699
= 0.612 .
t b0 = =
S b 0 6.044
Так как ? t b 0 ? = 0.612 < 2.228 = tкр., то гипотеза о статистической незначимо-
сти коэффициента b0 не отклоняется. Это означает, что в данном случае свобод-
ным членом уравнения регрессии можно пренебречь, рассматривая регрессию как
Y = b1X.
При оценке значимости коэффициента линейной регрессии на
начальном этапе можно использовать следующее “грубое” правило,
позволяющее не прибегать к таблицам.
Если стандартная ошибка коэффициента больше его модуля
( ?t? < 1 ), то коэффициент не может быть признан значимым, т. к. до-
верительная вероятность здесь при двусторонней альтернативной ги-
потезе составит менее чем 0.7.
Если 1 < ?t? < 2, то найденная оценка может рассматриваться как
122
относительно (слабо) значимая. Доверительная вероятность в этом
случае лежит между значениями 0.7 и 0.95.
Если 2 < ?t? < 3, то это свидетельствует о значимой линейной свя-
зи между X и Y. В этом случае доверительная вероятность колеблется
от 0.95 до 0.99.
Наконец, если ?t? > 3, то это почти гарантия наличия линейной
связи.
Конечно, в каждом конкретном случае играет роль число наблю-
дений. Чем их больше, тем надежнее при прочих равных условиях вы-
воды о значимости коэффициента. Однако для n >10 предложенное
“грубое” правило практически всегда работает.

5.4. Интервальные оценки коэффициентов
линейного уравнения регрессии
Как отмечалось в параграфе 5.2, базовыми предпосылками МНК
является предположение о нормальном распределении отклонений ?i с
нулевым математическим ожиданием и постоянной дисперсией, т. е.
е i ? N(0, у 2 ) . Естественность этого предположения обосновывается
хорошо известной в теории вероятностей центральной предельной
теоремой (ЦПТ), которую можно сформулировать следующим обра-
зом.
Если СВ представляет собой сумму очень большого числа неза-
висимых случайных величин, влияние каждой из которых на всю
сумму ничтожно мало, то рассматриваемая СВ имеет распределение,
близкое к нормальному.
Но случайное отклонение ?i как раз и отражает влияние на неза-
висимую величину тех переменных, которые не включены в модель.
Таких переменных обычно очень много, причем их индивидуальное
влияние достаточно мало (иначе, их необходимо было учесть в моде-
ли). Следовательно, при рассмотрении случайных отклонений мы по-
падаем практически в условия ЦПТ. Тогда можно заключить, что ?i
(i = 1, n ) имеют нормальное распределение с M(е i ) = 0 , у 2 (е i ) = у 2 .
Это позволяет получать не только наилучшие линейные несмещенные
точечные оценки (BLUE) b0 и b1 коэффициентов ?0 и ?1 линейного
уравнения регрессии, но и находить их интервальные оценки, что дает
определенные гарантии точности.
Указанные выше предположения позволяют утверждать, что СВ
b0 и b1 имеют нормальные распределения. Действительно, как извест-

123
но, линейная комбинация нормально распределенных СВ является
нормально распределенной СВ. Но, как показано в формулах (5.7),
(5.8), коэффициенты b1 и b0 могут быть представлены в виде:
b1 = ?ci yi , b0 = ?di yi ,
где ci, di ? постоянные.
Другими словами, b1 и b0 являются линейными комбинациями
yi. В свою очередь yi по формуле (4.6) является линейной комбинаци-
ей ?i (при этом считается, что ?0, ?1 и xi ? константы или неслучайные
величины). Тогда b1 и b0 через yi являются линейными функциями от
?i, имеющими нормальное распределение. Следовательно, b1 и b0
также распределены нормально.
Как отмечалось ранее, M(b 0 ) = в 0 , M(b1 ) = в 1 .
S2
D(b1 ) ? S21 = ,
b 2
? (x i ? x)
S2 ? x i2 2
? ei
? S2 0 2
= где S =
D(b 0 ) , .
b

<< Предыдущая

стр. 21
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>