<< Предыдущая

стр. 29
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

сматриваемый период времени построить единое уравнение регрессии
(рис. 6.1, а), или же нужно разбить временной интервал на части и на
каждой из них строить свое уравнение регрессии (рис. 6.1, б).

Y t0 t1 t2 Y t0 t1 t2
•• •
• • • •
• • ••
• ••
• •• • • •
• • •••
• ••
• • ••
•• • ••
t t
а б
Рис. 6.1
Некоторые причины необходимости использования различных
уравнений регрессии для описания изменения одной и той же зависи-
мой переменной на различных временных интервалах будут анализи-

162
роваться ниже при рассмотрении фиктивных переменных и времен-
ных рядов.

6.8. Проверка выполнимости предпосылок МНК.
Статистика Дарбина–Уотсона
Статистическая значимость коэффициентов регрессии и близкое
к единице значение коэффициента детерминации R2 не гарантируют
высокое качество уравнения регрессии. Для иллюстрации этого факта
весьма нагляден пример из [3], в котором анализируется зависимость
реального объема потребления CONS (млрд долл. 1982) от численно-
сти населения РОР (млн чел.) в США 1931?1990 гг. Корреляционное
поле статистических данных изображено на рис. 6.2.
CONS
3000

2500

2000

1500

1000
500 1931

РОР
100 150 200 250 300
Рис. 6.2
Линейное уравнение регрессии, построенное по МНК по реаль-
ным статистическим данным, имеет вид:
CONS = ?1817.3 + 16.7?POP.
Стандартные ошибки коэффициентов Sb0 = 84.7, Sb1 = 0.46. Сле-
довательно, их t-статистики t b0 = ?21.4 , t b1 = 36.8. Эти значения су-
щественно превышают 3, что свидетельствует о статистической зна-
чимости коэффициентов. Коэффициент детерминации R2 = 0.96 (т. е.
уравнение “объясняет” 96% дисперсии объема потребления). Однако
по расположению точек на корреляционном поле видно, что зависи-
мость между РОР и CONS явно не является линейной, а будет скорее
экспоненциальной. Для качественного прогноза уровня потребления
линейная функция, безусловно, не может быть использована. За рас-
сматриваемый период времени население США росло почти линейно
(с постоянными годовыми приростами), а объем потребления ? по
163
экспоненте (с почти постоянными темпами прироста), т. е. за рассмат-
риваемый период существенно выросло потребление на душу населе-
ния.
Таким образом, при весьма хороших значениях t-статистик и F-
статистики предложенное уравнение регрессии не может быть при-
знано удовлетворительным (отметим, что R2 = 0.96, скорее всего, в
силу того, что и CONS и РОР имели временный тренд). Можно ли оп-
ределить причину этого?
Нетрудно заметить, что в данном случае не выполняются необхо-
димые предпосылки МНК об отклонениях ?i точек наблюдений от ли-
нии регрессии (см. параграф 6.1). Эти отклонения явно не обладают
постоянной дисперсией и не являются взаимно независимыми. Нару-
шение необходимых предпосылок делает неточными полученные
оценки коэффициентов регрессии, увеличивая их стандартные ошиб-
ки, и обычно свидетельствует о неверной спецификации самого урав-
нения. Поэтому следующим этапом проверки качества уравнения рег-
рессии является проверка выполнимости предпосылок МНК. Причи-
ны невыполнимости этих предпосылок, их последствия и методы кор-
ректировки будут подробно рассмотрены в последующих главах. В
данном разделе мы лишь обозначим эти проблемы, а также обсудим
весьма популярную в регрессионном анализе статистику Дарбина–
Уотсона.
Оценивая линейное уравнение регрессии, мы предполагаем, что
реальная взаимосвязь переменных линейна, а отклонения от регресси-
онной прямой являются случайными, независимыми друг от друга ве-
личинами с нулевым математическим ожиданием и постоянной дис-
персией. Если эти предположения не выполняются, то оценки коэф-
фициентов регрессии не обладают свойствами несмещенности, эф-
фективности и состоятельности, и анализ их значимости будет неточ-
ным.
Причинами, по которым отклонения не обладают перечисленны-
ми выше свойствами, могут быть либо нелинейный характер зависи-
мости между рассматриваемыми переменными, либо наличие неуч-
тенного в уравнении существенного фактора. Действительно, при не-
линейной зависимости между переменными (рис. 6.2) отклонения от
прямой регрессии не случайно распределены вокруг нее, а обладают
определенными закономерностями, которые зачастую выражаются в
существенном преобладании числа пар соседних отклонений ?i?1 и ?i с
совпадающими знаками над числом пар с противоположными знака-

164
ми. Отсутствие в уравнении регрессии какого-либо существенного
фактора может также служить причиной устойчивых отклонений за-
висимой переменной от линии регрессии в ту или иную сторону. До-
биться выполнимости предпосылок МНК в этих ситуациях можно ли-
бо путем оценивания какой-то другой нелинейной формулы, либо
включением в уравнение регрессии новой объясняющей переменной.
Это позволит реалистичнее отразить поведение зависимой перемен-
ной.
При статистическом анализе уравнения регрессии на начальном
этапе чаще других проверяют выполнимость одной предпосылки, а
именно, условия статистической независимости отклонений между
собой. Поскольку значения ?i теоретического уравнения регрессии
Y = ?0 + ?1X + ? остаются неизвестными ввиду неопределенности ис-
тинных значений коэффициентов регрессии, то проверяется статисти-
ческая независимость их оценок ? отклонений еi, i = 1, 2, …, n. При
этом обычно проверяется их некоррелированность, являющаяся необ-
ходимым, но недостаточным условием независимости. Причем прове-
ряется некоррелированность не любых, а только соседних величин еi.
Соседними обычно считаются соседние во времени (при рассмотре-
нии временных рядов) или по возрастанию объясняющей переменной
X (в случае перекрестной выборки) значения еi. Для этих величин не-
сложно рассчитать коэффициент корреляции, называемый в этом слу-
чае коэффициентом автокорреляции первого порядка,

re i e i?1 = ? i ? e i e i ?1
( e - M(e i ))( e i ?1 - M(e i ?1 ))
= . (6.46)
2 2 2
? (e i ? M(e i )) ? (e i ?1 ? M(e i ?1 )) 2
? e i ? e i ?1
При этом учитывается, что M(ei) = 0, i = 1, 2, …, n.
На практике для анализа коррелированности отклонений вместо
коэффициента корреляции используют тесно с ним связанную стати-
стику Дарбина–Уотсона DW, рассчитываемую по формуле:
2
? (e i ? e i ?1 )
DW = . (6.47)
2
? ei
Действительно,
2 2 2 2 2
? (e i ? ei ?1 ) = ? (e i ? 2ei ei ?1 + e i ?1 ) = ? e i ? 2 ? e i ei ?1 + ? e i ?1 ?
? 2 ? e i2 ? 2? ei e i ?1 .



165
Здесь сделано допущение, что при больших n выполняется со-
отношение: ? e i2 ? ? e i2?1 .
Тогда
2( ? ei2 ? ? ei e i ?1 )
DW ? = 2(1 ? re i e i?1 ) . (6.48)
2
? ei
Нетрудно заметить, что если ei = ei?1, то re i e i?1 = 1 и DW = 0.
Если ei = ?ei , то re i e i?1 = ?1, и DW = 4. Во всех других случаях
0 < DW < 4 .
К этому же результату можно подойти с другой стороны. Если
каждое следующее отклонение ei приблизительно равно предыдущему
ei-1, то каждое слагаемое (ei ? ei?1) в числителе дроби (6.47) близко ну-
лю. Тогда, очевидно, числитель дроби (6.47) будет существенно
меньше знаменателя и, следовательно, статистика DW окажется близ-
кой к нулю. Например, для зависимости CONS и POP (рис. 6.2) DW =
= 0.045, что очень близко к нулю и подтверждает наличие положи-
тельной автокорреляции остатков первого порядка (линейной зависи-
мости между остатками).
В другом крайнем случае, когда точки наблюдений поочередно
отклоняются в разные стороны от линии регрессии ( ei ? ?ei?1 ),
2
2
? (2e i ) ? ei
ei ? ei?1 ? 2ei и DW = =4 = 4 . Это случай отрицательной
2 2
? ei ? ei
автокорреляции остатков первого порядка.
При случайном поведении отклонений можно предположить, что
в одной половине случаев знаки последовательных отклонений совпа-
дают, а в другой ? противоположны. Так как абсолютная величина от-
клонений в среднем предполагается одинаковой, то можно считать,
что в половине случаев ei ? ei?1, а в другой ei ? ?ei?1 . Тогда
1 2
? ( 2e i ) 2
? ei
2 = 0.5 ? 4 = 2.
DW = 2 2
? ei ? ei
Таким образом, необходимым условием независимости случай-
ных отклонений является близость к двойке значения статистики Дар-
бина–Уотсона.
Тогда, если DW? 2, мы считаем отклонения от регрессии случай-
ными (хотя они в действительности могут и не быть таковыми). Это

166
означает, что построенная линейная регрессия, вероятно, отражает ре-
альную зависимость. Скорее всего, не осталось неучтенных сущест-
венных факторов, влияющих на зависимую переменную. Какая-либо
другая нелинейная формула не превосходит по статистическим харак-
теристикам предложенную линейную. В этом случае, даже когда R2
невелико, вполне вероятно, что необъясненная дисперсия вызвана
влиянием на зависимую переменную большого числа различных фак-
торов, индивидуально слабо влияющих на исследуемую переменную,
и может быть описана как случайная нормальная ошибка.
Возникает вопрос, какие значения DW можно считать статисти-
чески близкими к двум?
Для ответа на этот вопрос разработаны специальные таблицы
(приложение 6) критических точек статистики Дарбина–Уотсона, по-
зволяющие при данном числе наблюдений n, количестве объясняю-
щих переменных m и заданном уровне значимости ? определять гра-
ницы приемлемости (критические точки) наблюдаемой статистики
DW.
Для заданных ?, n, m в таблице (приложение 6) указываются два
числа: dl ? нижняя граница и du ? верхняя граница. Для проверки ги-
потезы об отсутствии автокорреляции остатков используется следую-
щий отрезок.
DW
4?du
0 dl du 2 4
4-dl


Область принятия Область
Область
гипотезы отклонения Н0
отклонения H0


Область Отрицательная
Положительная
неопределенности автокорреляция
автокорреляция

Рис. 6.3

Выводы осуществляются по следующей схеме.
Если DW < dl , то это свидетельствует о положительной автокор-
реляции остатков.
Если DW > 4 ? dl , то это свидетельствует об отрицательной авто-
корреляции остатков.


167
При du < DW < 4 ? du гипотеза об отсутствии автокорреляции ос-
татков принимается.
Если dl < DW < du или 4 ? du < DW < 4? dl , то гипотеза об отсут-
ствии автокорреляции не может быть ни принята, ни отклонена.
Не обращаясь к таблице критических точек Дарбина–Уотсона,
можно пользоваться “грубым” правилом и считать, что автокорреля-
ция остатков отсутствует, если 1.5 < DW < 2.5. Для более надежного
вывода целесообразно обращаться к таблицам.
При наличии автокорреляции остатков полученное уравнение
регрессии обычно считается неудовлетворительным.
В рассмотренном выше примере зависимости реального потреб-
ления от численности населения введение новой объясняющей пере-
менной DINC ? располагаемого дохода ? позволяет существенно уве-
личить статистику DW. В этом случае переменная РОР становится не-
значимой (ее t-статистика равна 0.16) и ее целесообразно исключить
из рассмотрения. Высокий уровень R2 в первоначальном уравнении
объяснялся не тем, что динамика численности населения определяла
динамику объема реального потребления, а тем, что обе эти перемен-
ные имели выраженную тенденцию (тренд) возрастания в рассматри-
ваемый период.
Подробно проблема автокорреляции и другие свойства отклоне-
ний рассматриваются в главе 9.
Конечно, статистический анализ построенной регрессии является
достаточно сложным и многоступенчатым процессом, имеющим оп-

<< Предыдущая

стр. 29
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>