<< Предыдущая

стр. 21
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

- Если ? t1? q / 2,? ? t ? t1? q / 2,? то критерий проверки t не попа-
дает в критическую область и мы принимаем гипотезу Н0 .
Это означает, что при заданном уровне значимости соответ-
ствующий параметр регрессии статистически незначимо от-
личается от нуля.
В противном случае мы принимаем гипотезу Н1 . Это озна-
-
чает, что при заданном уровне значимости соответствующий
параметр регрессии статистически значимо отличается от
нуля.

117
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


8.10. Статистические выводы о величине коэффициента де-
терминации.
Коэффициент детерминации является индикатором того,
насколько хорошо изменения фактора X объясняют изменения
отклика Y . Чем он ближе к единице, тем выше качество урав-
нения регрессии.
Так как коэффициент детерминации вычисляется по
конечной случайной выборке, то он сам является случайной
величиной. Проверка значимости коэффициента детерминации -
это проверка гипотезы о том, что он значимо отличается от
нуля.
H0 : R2 = 0
H1 : R 2 > 0
Критерий проверки рассчитывается по формуле:
R2 / m
F=
(1 ? R 2 ) /( N ? m ? 1)
где N - объем выборки, m - количество независимых
переменных (факторов). Критерий проверки подчиняется F -
распределению с m степенями свободы для числителя и
( N ? m ? 1) степенями свободы для знаменателя.
В случае однофакторной линейной регрессии критерий
проверки принимает вид:
R2
F=
(1 ? R 2 ) /( N ? 2)
Количество степеней свободы для числителя равно 1,
количество степеней свободы для знаменателя равно ( N ? 2) .
Если в действительности переменная Y не зависит от
переменной X , то коэффициент детерминации R 2 и критерий
проверки F равны нулю. При этом их оценки по случайной
выборке могут отличаться от нуля, но чем больше это отличие,
тем менее оно вероятно.
Если же критерий проверки F больше некоторого
критического значения при заданном уровне доверительной
вероятности, то это событие считается слишком маловероятным
118
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


и мы отвергаем гипотезу H 0 и принимаем гипотезу H 1 . Это
значит, что переменная Y зависит от переменной X .
Проверка гипотезы для однофакторной линейной регрессии
проводится по следующей схеме:
1) Гипотеза
H0 : R2 = 0
H1 : R 2 > 0
2) Принятая величина уровня значимости
q = 0.05 или q = 0.01
3) Критерий проверки
R2
F= ( N ? 2)
1? R2
4) Правило принятия решения
Принять Н0 , если F ? F1? q , ? 1,? 2 .
В противном случае принять Н1 , то есть Н1 принимается, когда
критерий проверки F попадает в критическую область
F > F1? q , ? 1,? 2 .
Здесь это квантиль
F1? q , ? 1,? 2 F -распределения,
-
? 1 = 1 степенями
соответствующая уровню значимости q с
свободы для числителя и ? 2 = N ? 2 степенями свободы для
знаменателя.
Величину F1? q , ? 1,? 2 можно вычислить с помощью электронных
таблиц Microsoft Excel:
F1? q , ? 1,? 2 = FРАСПОБР (q,? 1 ,? 2 )
5) Проверка гипотезы
- Если F ? F1? q , ? 1,? 2 , то критерий проверки F не попадает в
критическую область и мы принимаем гипотезу Н0 . Это озна-
чает, что при заданном уровне значимости изменения фактора
X не объясняют изменения отклика Y и регрессионная мо-
дель должна быть отвергнута.
В противном случае мы принимаем гипотезу Н1 . Это означает,
-
что при заданном уровне значимости переменная Y зависит от
переменной X .
119
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


8.11. Полоса неопределенности однофакторной линейной
регрессии.
Так как параметры линейной регрессии зависимы между
( b = Y ? a ? X ),
собой то уравнение регрессии можно
переписать в виде f = ax + b = a ? ( x ? X ) + Y . Каждая точка на
линии регрессии выражается через выборочные значения (a, Y ) ,
2 2
(? a ,? Y ) , и потому
имеющие выборочные дисперсии
является случайной величиной.
Дисперсия линии регрессии
Так как в МНК предполагается, что фактор Х
нестохастичен, то дисперсию точки на линии регрессии можно
выразить следующим образом:
2 2 2
? f = ( x ? X )2 ?? a + ? Y
Из этой формулы следует, что:
- дисперсия величины Y влияет на дисперсию точки на линии
регрессии аддитивным образом, то есть ее вклад постоянен
и не зависит от величины фактора Х,
- дисперсия величины a влияет на дисперсию точки на линии
регрессии мультипликативным образом, то есть ее вклад
тем больше, чем больше абсолютное отклонение фактора Х
от X .
С учетом того, что
2
?e 12
2 2
?a = ?Y = ?e
N

? (x
N
? X )2
k
k =1
для дисперсии точки на линии регрессии получим:
? ?
? ?
(x ? X ) ?
2
=?e ?? + N
1
2 2
?f
?N ?
? ( xk ? X ) ?
2
?
? ?
k =1



120
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


Доверительный интервал линии регрессии
Аналогично тому, как мы нашли доверительные интервалы
для истинных параметров линейной регрессии, мы можем
записать доверительный интервал для линии регрессии в виде:
f ? t1? q / 2, ? ? f ? f ? f + t1? q / 2, ? ? f
Ширина доверительного интервала линии регрессии равна
2t1? q / 2, ? ? f . Эту величину называют еще шириной полосы
неопределенности линии регрессии.

8.12. Прогнозирование на основе однофакторной линейной
регрессии.
При прогнозировании, то есть при экстраполяции линии
регрессии за пределы поля точек, по которым была получена эта
линия, мы должны учитывать не только неопределенность
положения самой линии регрессии (о чем говорилось в
предыдущем параграфе), но и дисперсию случайных отклонений от
нее (ошибок МНК).
Дисперсия прогноза
Дисперсию случайной величины y = f + e в произвольной
точке х можно выразить следующим образом:
2 2 2
? f +e = ? f + ? e
Используя полученную в предыдущем параграфе формулу для
дисперсии линии регрессии получаем:
? ?
? ?
(x ? X ) ?2
= ? e ? ?1 + + N
1
2 2
? f +e
?N ?
? ( xk ? X ) 2 ?
?
? ?
k =1

Доверительный интервал прогноза
Так как математическое ожидание ошибки МНК е равно нулю,
то доверительный интервал для прогнозного значения отклика Y в
точке х определяется неравенствами:
f ? t1? q / 2, ? ? f + e ? y ? f + t1? q / 2, ? ? f + e .
121
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


?y = 2 t1? q / 2, ? ? f + e
Назовем величину шириной полосы
неопределенности прогноза.
Горизонт прогнозирования
Ширина полосы неопределенности прогноза минимальна при
x= X и возрастает при увеличении абсолютной величины
отклонения переменной х от X . Точность прогноза определяется
шириной полосы неопределенности.
Пусть мы априорно задаем максимально возможную ширину
неопределенности прогноза ?y max и считаем, что точность
прогноза является удовлетворительной, если в точке прогноза
?y ? ?y max . При удалении от поля точек, по которым была
получена линия регрессии, ?y обязательно достигнет ?y max .
Соответствующее удаление называется горизонтом
прогнозирования. Дальнейшее удаление приведет к тому, что
?y превысит ?y max . Интервал значений х, в пределах которого
точность прогноза является удовлетворительной, выражается
неравенством:
| x ? X |? xmax
?? ?
2
?ymax ? 1? N
? ( xk ? X ) 2
= ?? ? ?1 ?
где xmax
?? 2t1? q / 2, ? ? e ? N ? k =1
?? ? ?

8.13. Проверка допущений МНК.
Изучая уравнение линейной регрессии мы предполагали,
что реальная взаимосвязь фактора Х и отклика Y линейна, а
отклонения от прямой регрессии случайны, независимы между
собой, имеют нулевое математическое ожидание и постоянную
дисперсию. Если это не так, то статистический анализ
параметров регрессии некорректен и оценки этих параметров не
обладают свойствами несмещенности и состоятельности.
Например, это может быть, если в действительности связь
между переменными нелинейна. Поэтому после получения
уравнения регрессии необходимо исследовать его ошибки.
122
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


Ошибки метода наименьших квадратов, то есть величины
ek = y k ? f k должны обладать следующими свойствами:
1) Ошибки должны являться реализацией нормально распреде-
ленной случайной переменной.
2) Математическое ожидание ошибки должно быть равно ну-
лю: M (ek ) = 0 .
3) Дисперсия ошибки должна быть постоянна: D (ek ) = ? 2 .
4) Ошибки должны быть независимыми, то есть
k? j
?0
cov(ek , e j ) = ? 2
?? k= j
После того, как получено уравнение регрессии y = ax + b + e ,
каждое из этих допущений должно быть проверено.
Проверка гипотезы о том, что ошибки нормально распреде-
лены
Идентификация закона распределения случайной величины
изучена в главе 6, поэтому здесь мы не будем подробно
рассматривать этот вопрос. Кратко можно сказать, что проверка

<< Предыдущая

стр. 21
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>