<< Предыдущая

стр. 20
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

S xy S
b1 = 2 = ?1 + xе . (5.5)
2
Sx Sx
Здесь ?1 ? постоянная величина (истинное значение коэффициен-
S
та регрессии), xе ? случайная компонента. Аналогичный результат
S2x
можно получить и для коэффициента b0. Отметим при этом, что на
практике такое разложение осуществить невозможно, поскольку неиз-
вестны истинные значения ?0 и ?1, а также значения отклонений для
всей генеральной совокупности.
Итак, мы показали, что свойства оценок коэффициентов регрес-
сии, а следовательно, и качество построенной регрессии существенно
зависят от свойств случайной составляющей. Доказано, что для полу-
чения по МНК наилучших результатов необходимо, чтобы выполнял-
ся ряд предпосылок относительно случайного отклонения.

Предпосылки МНК (условия Гаусса?Маркова)
10. Математическое ожидание случайного отклонения ?i равно
нулю: M(?i) = 0 для всех наблюдений.
Данное условие означает, что случайное отклонение в среднем не
оказывает влияния на зависимую переменную. В каждом конкретном
наблюдении случайный член может быть либо положительным, либо
отрицательным, но он не должен иметь систематического смещения.
Отметим, что выполнимость M(?i) = 0 влечет выполнимость
M(Y?X = = xi) = ?0 + ?1xi.
20. Дисперсия случайных отклонений ?i постоянна:
D(?i) = D(?j) = ?2 для любых наблюдений i и j.
Данное условие подразумевает, что несмотря на то, что при каж-
дом конкретном наблюдении случайное отклонение может быть либо
большим, либо меньшим, не должно быть некой априорной причины,
вызывающей большую ошибку (отклонение).
Выполнимость данной предпосылки называется гомоскедастич-
ностью (постоянством дисперсии отклонений). Невыполнимость
данной предпосылки называется гетероскедастичностью (непосто-
янством дисперсий отклонений).
113
Поскольку D(?i) = M(?i ? M(?i))2 = M(е i2 ) , то данную предпосылку
можно переписать в форме: M(е i2 ) = ?2.
Причины невыполнимости данной предпосылки и проблемы, свя-
занные с этим, подробно рассматриваются в главе 8.
30. Случайные отклонения ?i и ?j являются независимыми
друг от друга для i ? j.
Выполнимость данной предпосылки предполагает, что отсутст-
вует систематическая связь между любыми случайными отклонения-
ми. Другими словами, величина и определенный знак любого случай-
ного отклонения не должны быть причинами величины и знака любо-
го другого отклонения.
Выполнимость данной предпосылки влечет следующее соотно-
шение:
? 0, если i ? j;
?
у еiе j = cov(е i , е j ) = ? (5.6)
?у , если i = j.
2
?
Поэтому, если данное условие выполняется, то говорят об отсут-
ствии автокорреляции. С учетом выполнимости предпосылки 10 соот-
ношение (5.6) может быть переписано в виде: M(?i ?j) = 0 (i ? j).
Причины невыполнимости данной предпосылки и проблемы, свя-
занные с этим, подробно рассматриваются в главе 9.
40. Случайное отклонение должно быть независимо от объяс-
няющих переменных.
Обычно это условие выполняется автоматически при условии,
что объясняющие переменные не являются случайными в данной мо-
дели.
Данное условие предполагает выполнимость следующего соот-
ношения:
у еi xi = cov(?i, xi) = M((?i ? M(?i))(xi ? M(xi))) = M(?i(xi ? M(xi))) =
= M(?i xi) ? M(?i) M(xi) = M(?i xi) = 0.
Следует отметить, что выполнимость данной предпосылки не
столь критична для эконометрических моделей.
50. Модель является линейной относительно параметров.



114
Теорема Гаусса?Маркова. Если предпосылки 1о ? 5о выполнены,
то оценки, полученные по МНК, обладают следующими свойствами:
1. Оценки являются несмещенными, т. е. M(b 0 ) = в 0 , M(b1 ) = в 1 .
Это вытекает из того, что M(е i ) = 0 и говорит об отсутствии
систематической ошибки в определении положения линии
регрессии.
2. Оценки состоятельны, т. к. дисперсия оценок параметров при
возрастании числа n наблюдений стремится к нулю:
D(b 0 ) ??> 0 , D(b1 ) ??> 0 . Другими словами, при увели-
n>? n>?
чении объема выборки надежность оценок увеличивается (b0
наверняка близко к ?0, b1 ? близко к ?1).
3. Оценки эффективны, т. е. они имеют наименьшую дисперсию
по сравнению с любыми другими оценками данных парамет-
ров, линейными относительно величин yi.
В англоязычной литературе такие оценки называются BLUE (Best Lin-
ear Unbiased Estimators) ? наилучшие линейные несмещенные оценки.
Если предпосылки 2о и 3о нарушены, т. е. дисперсия отклонений
непостоянна и (или) значения е i , е j связаны друг с другом, то свойст-
ва несмещенности и состоятельности сохраняются, но свойство эф-
фективности ? нет.
Наряду с выполнимостью указанных предпосылок при построе-
нии классических линейных регрессионных моделей делаются еще
некоторые предположения. Например:
• объясняющие переменные не являются случайными величинами;
• случайные отклонения имеют нормальное распределение;
• число наблюдений существенно больше числа объясняющих пере-
менных;
• отсутствуют ошибки спецификации;
• отсутствует совершенная мультиколлинеарность.
5.2. Анализ точности определения оценок
коэффициентов регрессии
В силу случайного отбора элементов в выборку случайными яв-
ляются также оценки b0 и b1 коэффициентов ?0 и ?1 теоретического
уравнения регрессии. Их математические ожидания при выполнении
предпосылок об отклонениях ?i равны соответственно M(b 0 ) = в 0 ,

115
M(b1 ) = в 1 . При этом оценки тем надежнее, чем меньше их разброс
вокруг ?0 и ?1, т. е. чем меньше дисперсии D(b0) и D(b1) оценок. На-
дежность получаемых оценок, очевидно, тесно связана с дисперсией
случайных отклонений ?i. Фактически D(?i) является дисперсией
D(Y?X = xi) переменной Y относительно линии регрессии (дисперси-
ей Y, очищенной от влияния X). Полагая, что измерения ? равноточ-
ные, можно считать, что все эти дисперсии равны между собой
(предпосылка 20) D(?i) = у е = ?2.
2

Приведем формулы связи дисперсий коэффициентов D(b0) и
D(b1) с дисперсией ?2 случайных отклонений ?i. Для этого представим
формулы определения коэффициентов а и b в виде линейных функций
относительно значений Y:
? (x i ? x)(y i ? y) ? (x i ? x)y i y ? (x i ? x)
b1 = = ? .?
2 2 2
? (x i ? x) ? (x i ? x) ? (x i ? x)
? (x i ? x)(y i ? y) ? (x i ? x)y i
b1 = = , т. к. ?(xi ? x ) = 0.
2 2
? (x i ? x) ? (x i ? x)
(x i ? x)
Введя обозначение ci = , имеем:
2
? (x i ? x)
b1 = ? ciyi. (5.7)
По аналогии имеем:
? yi 1
b 0 = y ? b1x = ? ? c i y i x = ? ( ? c i x)y i .
n n
1
? c i x , имеем:
Обозначив di =
n
b 0 = ? d iy i. (5.8)
Так как предполагается, что дисперсия Y постоянна и не зависит
от значений X, то ci и di можно рассматривать как некоторые постоян-
ные. Следовательно,
у2
2 2
D(b1) = D(? ciyi) = ? ? c i = (5.9)
2
? (x i ? x)
1 2c i x
1
2 2 2 2
2
+ c i2 x 2 ) =
D(b0) = D(? diyi) = ? ? d i = ? ?( ? c i x ) = ? ? ( 2 ?
n n
n


116
x2 x2 у 2 ? x i2
1 21
2
=? ( ?0+ )=? ( + )= . (5.10)
2 2
n ? (x i ? x) n ? (x i ? x)
2
? (x i ? x)
n
Из соотношений (5.10), (5.11) очевидны следующие выводы.
• Дисперсии b0 и b1 прямо пропорциональны дисперсии случайного
отклонения ?2. Следовательно, чем больше фактор случайности,
тем менее точными будут оценки.
• Чем больше число n наблюдений, тем меньше дисперсии оценок.
Это вполне логично, т. к. чем большим числом мы располагаем,
тем вероятнее получение более точных оценок.
Чем больше дисперсия (разброс значений ?(хi ? x )2) объясняю-

щей переменной, тем меньше дисперсия оценок коэффициентов.
Другими словами, чем шире область изменений объясняющей
переменной, тем точнее будут оценки (тем меньше доля случай-
ности в их определении).
Наглядное обсуждение этих выводов проведем чуть позже на ос-
нове следующих рассуждений.
В силу того, что случайные отклонения ?i по выборке определены
быть не могут, при анализе надежности оценок коэффициентов рег-
рессии они заменяются отклонениями e i = y i ? b 0 ? b1x i значений yi
переменной Y от оцененной линии регрессии. Дисперсия случайных
отклонений D(?i) = ?2 заменяется ее несмещенной оценкой
2
? ei
1
2 2
?(yi ? b0 ? b1xi) = . (5.11)
S=
n?2
n?2
Тогда
S2
2
D(b1 ) ? Sb1 = , (5.12)
2
? (x i ? x)
S2 ? x i2
= x 2 S2 1 .
? S2 0 =
D(b 0 ) (5.13)
b
b
n ? ? (x i ? x) 2
2
? ei
2
S= ? необъясненная дисперсия (мера разброса зависимой пе-
n?2
ременной вокруг линии регрессии). Отметим, что корень квадратный
2
? ei
из необъясненной дисперсии, т. е. S = , называется стандарт-
n?2
ной ошибкой оценки (стандартной ошибкой регрессии).


117
S20 и Sb1 = S21 ? стандартные отклонения случайных ве-
S b0 = b b

личин b0 и b1, называемые стандартными ошибками коэффициентов
регрессии.
Объяснение данных соотношений имеет весьма наглядную гра-
фическую интерпретацию.
Коэффициент b1 определяет наклон прямой регрессии. Чем
больше разброс значений Y вокруг линии регрессии, тем больше (в
среднем) ошибка определения наклона прямой регрессии. Действи-
тельно, если такой разброс совсем отсутствует ( е i = 0 ), то прямая оп-
ределяется однозначно и ошибки при определении b и a не будет во-
все ( ? e i = 0 ? S2 = 0 ? Sb 0 = Sb1 = 0 ). Например, на рис. 5.1, а все на-
блюдаемые точки лежат на одной прямой ( ? e i2 = 0 ). Тогда через лю-
бой набор точек проводится одна и та же прямая. На рис. 5.1, б точки
не лежат на одной прямой, но для трех точек прямая регрессии будет
такой же (хотя отклонения от линии регрессии существенны), как и на
рис. 5.1, а. Однако при исключении из рассмотрения любой из ука-
занных трех точек прямые регрессии будут существенно отличаться
друг от друга ((1, 2), (1, 3), (2, 3)). Следовательно, значительно разли-
чаются их углы наклона, а значит, стандартная ошибка Sb1 коэффици-
ента регрессии b1 будет существенной.
Y Y


3
3

1
2
1


2

<< Предыдущая

стр. 20
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>