<< Предыдущая

стр. 38
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

ческий анализ отклонений, тест ранговой корреляции Спирмена, тест
Парка, тест Глейзера, тест Голдфелда?Квандта.

8.3.1. Графический анализ остатков
Использование графического представления отклонений позво-
ляет определиться с наличием гетероскедастичности. В этом случае
по оси абсцисс откладывается объясняющая переменная Х (либо ли-
нейная комбинация объясняющих переменных Y = b0 + b1X1 + ... +
+ bmXm), а по оси ординат либо отклонения еi, либо их квадраты e i2 .
Примеры таких графиков приведены на рис. 8.4.
e i2 e i2 e i2




xi xi xi
а б в
e i2 e i2




xi xi
г д
Рис. 8.4
214
На рис. 8.4, а все отклонения e i2 находятся внутри полуполосы
постоянной ширины, параллельной оси абсцисс. Это говорит о неза-
висимости дисперсий e i2 от значений переменной Х и их постоянстве,
т.е. в этом случае мы находимся в условиях гомоскедастичности.
На рис. 8.4, б ? г наблюдаются некие систематические изменения
в соотношениях между значениями xi переменной Х и квадратами от-
клонений e i2 . Рис. 8.4, б соответствует примеру из параграфа 8.1. На
рис. 8.4, в отражена линейная; 8.4, г ? квадратичная; 8.4, д ? гипербо-
лическая зависимости между квадратами отклонений и значениями
объясняющей переменной Х. Другими словами, ситуации, представ-
ленные на рис. 8.4, б ? д, отражают большую вероятность наличия ге-
тероскедастичности для рассматриваемых статистических данных.
Отметим, что графический анализ отклонений является удобным
и достаточно надежным в случае парной регрессии. При множествен-
ной регрессии графический анализ возможен для каждой из объяс-
няющих переменных Хj , j = 1, 2, …, m отдельно. Чаще же вместо объ-
)
ясняющих переменных Хj по оси абсцисс откладывают значения y i ,
получаемые из эмпирического уравнения регрессии. Поскольку по
)
уравнению множественной линейной регрессии y i является линейной
комбинацией хij , j = 1, 2, … , m, то график, отражающий зависимость
)
e i2 от y i , может указать на наличие гетероскедастичности аналогично
ситуациям на рис. 8.4, б ? д. Такой анализ наиболее целесообразен
при большом количестве объясняющих переменных.
8.3.2. Тест ранговой корреляции Спирмена
При использовании данного теста предполагается, что дисперсия
отклонения будет либо увеличиваться, либо уменьшаться с увеличе-
нием значения Х. Поэтому для регрессии, построенной по МНК, абсо-
лютные величины отклонений еi и значения хi СВ Х будут коррелиро-
ваны. Значения хi и еi ранжируются (упорядочиваются по величинам).
Затем определяется коэффициент ранговой корреляции:
2
? di
=1? 6?
rx, e , (8.1)
2
n(n ? 1)
где di ? разность между рангами хi и ei , i = 1, 2, … , n; n ? число на-
блюдений.
Например, если х20 является 25-м по величине среди всех наблю-
дений Х; а е20 ? является 32-м, то di = 25 ? 32= ?7.
215
Доказано, что если коэффициент корреляции ?х,е для генераль-
ной совокупности равен нулю, то статистика
rx,e n ? 2
t= (8.2)
2
1 ? rx, e
имеет распределение Стьюдента с числом степеней свободы ? = n ? 2.
Следовательно, если наблюдаемое значение t-статистики, вычис-
ленное по формуле (8.2), превышает tкр. = t?,n?2 (определяемое по таб-
лице критических точек распределения Стьюдента), то необходимо
отклонить гипотезу о равенстве нулю коэффициента корреляции ?х,е, а
следовательно, и об отсутствии гетероскедастичности. В противном
случае гипотеза об отсутствии гетероскедастичности принимается.
Если в модели регрессии больше чем одна объясняющая пере-
менная, то проверка гипотезы может осуществляться с помощью t-
статистики для каждой из них отдельно.
8.3.3. Тест Парка
Р. Парк предложил критерий определения гетероскедастичности,
дополняющий графический метод некоторыми формальными зависи-
мостями. Предполагается, что дисперсия ?i2 = ?2(ei ) является функ-
цией i-го значения хi объясняющей переменной. Парк предложил
следующую функциональную зависимость

у i2 = у 2 x в e v i . (8.3)
i

Прологарифмировав (8.4), получим:
lnу i2 = lnу 2 + вlnx i + v i . (8.4)
Так как дисперсии у i2 обычно неизвестны, то их заменяют оцен-
ками квадратов отклонений e i2 .
Критерий Парка включает следующие этапы:
1. Строится уравнение регрессии yi = b0 + b1xi + еi.
)
2. Для каждого наблюдения определяются lne i2 = ln(y i ? y i ) 2 .
3. Строится регрессия
ln e i2 = ? + ?lnxi + vi , (8.5)
где ? = ln?2.
В случае множественной регрессии зависимость (8.5) строится
для каждой объясняющей переменной.

216
4. Проверяется статистическая значимость коэффициента ? уравнения
в
. Если коэффициент ? статисти-
(8.5) на основе t-статистики t =

чески значим, то это означает наличие связи между ln e i2 и lnxi, т. е.
гетероскедастичности в статистических данных.
Отметим, что использование в критерии Парка конкретной функ-
циональной зависимости (8.5) может привести к необоснованным вы-
водам (например, коэффициент ? статистически незначим, а гетеро-
скедастичность имеет место). Возможна еще одна проблема. Для слу-
чайного отклонения vi в свою очередь может иметь место гетероске-
дастичность. Поэтому критерий Парка дополняется другими тестами.
8.3.4. Тест Глейзера
Тест Глейзера по своей сути аналогичен тесту Парка и дополняет
его анализом других (возможно, более подходящих) зависимостей
между дисперсиями отклонений ?i и значениями переменной хi. По
данному методу оценивается регрессионная зависимость модулей от-
клонений ?ei?(тесно связанных с ?i2) от хi. При этом рассматриваемая
зависимость моделируется следующим уравнением регрессии:
| ei |= ? + ?хik + vi . (8.6)
Изменяя значения k, можно построить различные регрессии.
Обычно k = …, ?1, ?0.5, 0.5, 1, … Статистическая значимость коэф-
фициента ? в каждом конкретном случае фактически означает нали-
чие гетероскедастичности. Если для нескольких регрессий (8.6) коэф-
фициент ? оказывается статистически значимым, то при определе-
нии характера зависимости обычно ориентируются на лучшую из них.
Отметим, что так же, как и в тесте Парка, в тесте Глейзера для
отклонений vi может нарушаться условие гомоскедастичности. Одна-
ко во многих случаях предложенные модели являются достаточно
хорошими для определения гетероскедастичности.
8.3.5. Тест Голдфелда?Квандта
В данном случае также предполагается, что стандартное откло-
нение ?i = ?(?i) пропорционально значению хi переменной Х в этом
наблюдении, т. е. у i2 = у 2 x i2 . Предполагается, что ?i имеет нормальное
распределение и отсутствует автокорреляция остатков.
Тест Голдфелда?Квандта состоит в следующем:

217
1. Все n наблюдений упорядочиваются по величине Х.
2. Вся упорядоченная выборка после этого разбивается на три подвы-
борки размерностей k, (n ? 2k), k соответственно.
3. Оцениваются отдельные регрессии для первой подвыборки (k пер-
вых наблюдений) и для третьей подвыборки (k последних наблю-
дений). Если предположение о пропорциональности дисперсий от-
клонений значениям Х верно, то дисперсия регрессии (сумма квад-
k
ратов отклонений S1 = ? e i2 ) по первой подвыборке будет сущест-
i =1
венно меньше дисперсии регрессии (суммы квадратов отклонений
n
S3 = ? e i2 ) по третьей подвыборке.
i=n-k
4. Для сравнения соответствующих дисперсий строится следующая
F-статистика:
S /(k ? m ? 1) S3
F= 3 =. (8.7)
S1/(k ? m ? 1) S1
Здесь (k ? m ? 1) ? число степеней свободы соответствующих вы-
борочных дисперсий (m ? количество объясняющих переменных в
уравнении регрессии).
При сделанных предположениях относительно случайных от-
клонений построенная F-статистика имеет распределение Фишера
с числами степеней свободы ?1 = ?2 = k ? m ? 1.
S
5. Если Fнабл.= 3 > Fкр.= Fб; н1;н2 , то гипотеза об отсутствии гетероскеда-
S1
стичности отклоняется (здесь ? ? выбранный уровень значимости).

Естественным является вопрос, какими должны быть размеры
подвыборок для принятия обоснованных решений. Для парной рег-
рессии Голфелд и Квандт предлагают следующие пропорции: n = 30,
k = 11; n = 60, k = 22.
Для множественной регрессии данный тест обычно проводится
для той объясняющей переменной, которая в наибольшей степени
связана с ?i. При этом k должно быть больше, чем (m + 1). Если нет
уверенности относительно выбора переменной Xj, то данный тест мо-
жет осуществляться для каждой из объясняющих переменных.
Этот же тест может быть использован при предположении об об-
ратной пропорциональности между ?i и значениями объясняющей пе-
ременной. При этом статистика Фишера примет вид: F = S1/S3.

218
8.4. Методы смягчения проблемы гетероскедастичности
Как отмечалось в разделе 8.2, гетероскедастичность приводит к
неэффективности оценок, несмотря на их несмещенность. Это может
привести к необоснованным выводам по качеству модели. Поэтому
при установлении гетероскедастичности возникает необходимость
преобразования модели с целью устранения данного недостатка. Вид
преобразования зависит от того, известны или нет дисперсии ?i2 от-
клонений ?i .
8.4.1. Метод взвешенных наименьших квадратов (ВНК)
Данный метод применяется при известных для каждого наблюде-
ния значениях ?i2. В этом случае можно устранить гетероскедастич-
ность, разделив каждое наблюдаемое значение на соответствующее
ему значение дисперсии. В этом суть метода взвешенных наименьших
квадратов.
Для простоты изложения опишем ВНК на примере парной ре-
грессии:
yi = ?0 + ?1xi + ?i . (8.8)
у i2 :
Разделим обе части (9.7) на известное ?i =
yi 1 xе
= в 0 + в1 i + i . (8.9)
уi уi уi уi
yi xi e 1
= у i* , = xi*, i = vi,
Положив = zi, получим уравнение
уi уi уi уi
регрессии без свободного члена, но с дополнительной объясняющей
переменной Z и с “преобразованным” отклонением v:
уi* =?0zi + ?1xi* + vi. (8.10)
При этом для vi выполняется условие гомоскедастичности.
Действительно,
2
у i2 (v i ) = M(v i ? M(v i )) 2 = M(v i ) ? M 2 (v i ) .
1
0
Так как по предпосылке 1 МНК M(ei) = 0, то M(v i ) = 2 M(e i ) = 0 , и
уi
тогда у i2 (v i ) = M(v i2 ) =
e i2 1 1 1
= M( 2 ) = 2 M(e i2 ) = 2 M(e i ? M(e i )) 2 = 2 у i2 = 1 = const.
уi уi уi уi

219
Следовательно, для преобразованной модели (8.10) выполняются
предпосылки 10 ? 50 МНК. В этом случае оценки, полученные по
МНК, будут наилучшими линейными несмещенными оценками.
Таким образом, метод взвешенных наименьших квадратов вклю-
чает следующие этапы:
1. Каждую из пар наблюдений (хi , уi) делят на известную величину ?i .
Тем самым наблюдениям с наименьшими дисперсиями придаются
наибольшие “веса”, а с максимальными дисперсиями ? наименьшие
“веса”. Действительно, наблюдения с меньшими дисперсиями от-
клонений будут более значимыми при оценке коэффициентов ре-
грессии, чем наблюдения с большими дисперсиями. Учет этого
факта увеличивает вероятность получения более точных оценок.
?1 x y ?
2. По МНК для преобразованных значений ? , i , i ? строится
?у у у ?
? i i i?
уравнение регрессии без свободного члена с гарантированными ка-
чествами оценок.
8.4.2. Дисперсии отклонений не известны
Для применения ВНК необходимо знать фактические значения
дисперсий у i2 отклонений. На практике такие значения известны край-
не редко. Следовательно, чтобы применить ВНК, необходимо сделать
реалистические предположения о значениях у i2 .
Например, может оказаться целесообразным предположить, что
дисперсии у i2 отклонений ?i пропорциональны значениям хi (рис.8.5, а)
или значениям хi2 (рис. 8.5, б).
2 2
уi уi




xi xi

<< Предыдущая

стр. 38
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>