<< Предыдущая

стр. 21
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

собой то уравнение регрессии можно
переписать в виде f = ax + b = a ? ( x ? X ) + Y . Каждая точка на
линии регрессии выражается через выборочные значения (a, Y ) ,
2 2
(? a ,? Y ) , и потому
имеющие выборочные дисперсии
является случайной величиной.
Дисперсия линии регрессии
Так как в МНК предполагается, что фактор Х
нестохастичен, то дисперсию точки на линии регрессии можно
выразить следующим образом:
2 2 2
? f = ( x ? X )2 ?? a + ? Y
Из этой формулы следует, что:
- дисперсия величины Y влияет на дисперсию точки на линии
регрессии аддитивным образом, то есть ее вклад постоянен
и не зависит от величины фактора Х,
- дисперсия величины a влияет на дисперсию точки на линии
регрессии мультипликативным образом, то есть ее вклад
тем больше, чем больше абсолютное отклонение фактора Х
от X .
С учетом того, что
2
?e 12
2 2
?a = ?Y = ?e
N
N
? (x ? X )2
k
k =1
для дисперсии точки на линии регрессии получим:
? ?
? ?
(x ? X ) ?
2
1
=?e ?? + N
2 2
?f
?N ?
? ( xk ? X ) ?
2
?
? ?
k =1



120
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


Доверительный интервал линии регрессии
Аналогично тому, как мы нашли доверительные интервалы
для истинных параметров линейной регрессии, мы можем
записать доверительный интервал для линии регрессии в виде:
f ? t1? q / 2, ? ? f ? f ? f + t1? q / 2, ? ? f
Ширина доверительного интервала линии регрессии равна
2t1? q / 2, ? ? f . Эту величину называют еще шириной полосы
неопределенности линии регрессии.

8.12. Прогнозирование на основе однофакторной линейной
регрессии.
При прогнозировании, то есть при экстраполяции линии
регрессии за пределы поля точек, по которым была получена эта
линия, мы должны учитывать не только неопределенность
положения самой линии регрессии (о чем говорилось в
предыдущем параграфе), но и дисперсию случайных отклонений от
нее (ошибок МНК).
Дисперсия прогноза
Дисперсию случайной величины y = f + e в произвольной
точке х можно выразить следующим образом:
2 2 2
? f +e = ? f + ? e
Используя полученную в предыдущем параграфе формулу для
дисперсии линии регрессии получаем:
? ?
? ?
(x ? X ) ?2
1
= ? e ? ?1 + + N
2 2
? f +e
?N ?
? ( xk ? X ) 2 ?
?
? ?
k =1

Доверительный интервал прогноза
Так как математическое ожидание ошибки МНК е равно нулю,
то доверительный интервал для прогнозного значения отклика Y в
точке х определяется неравенствами:
f ? t1? q / 2, ? ? f + e ? y ? f + t1? q / 2, ? ? f + e .
121
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


?y = 2 t1? q / 2, ? ? f + e
Назовем величину шириной полосы
неопределенности прогноза.
Горизонт прогнозирования
Ширина полосы неопределенности прогноза минимальна при
x= X и возрастает при увеличении абсолютной величины
отклонения переменной х от X . Точность прогноза определяется
шириной полосы неопределенности.
Пусть мы априорно задаем максимально возможную ширину
неопределенности прогноза ?y max и считаем, что точность
прогноза является удовлетворительной, если в точке прогноза
?y ? ?y max . При удалении от поля точек, по которым была
получена линия регрессии, ?y обязательно достигнет ?y max .
Соответствующее удаление называется горизонтом
прогнозирования. Дальнейшее удаление приведет к тому, что
?y превысит ?y max . Интервал значений х, в пределах которого
точность прогноза является удовлетворительной, выражается
неравенством:
| x ? X |? xmax
?? ?
2
?ymax ? 1? N
? ( xk ? X ) 2
= ?? ? ?1 ?
где xmax
?? 2t1? q / 2, ? ? e ? N ? k =1
?? ? ?

8.13. Проверка допущений МНК.
Изучая уравнение линейной регрессии мы предполагали,
что реальная взаимосвязь фактора Х и отклика Y линейна, а
отклонения от прямой регрессии случайны, независимы между
собой, имеют нулевое математическое ожидание и постоянную
дисперсию. Если это не так, то статистический анализ
параметров регрессии некорректен и оценки этих параметров не
обладают свойствами несмещенности и состоятельности.
Например, это может быть, если в действительности связь
между переменными нелинейна. Поэтому после получения
уравнения регрессии необходимо исследовать его ошибки.
122
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


Ошибки метода наименьших квадратов, то есть величины
ek = y k ? f k должны обладать следующими свойствами:
1) Ошибки должны являться реализацией нормально распреде-
ленной случайной переменной.
2) Математическое ожидание ошибки должно быть равно ну-
лю: M (ek ) = 0 .
3) Дисперсия ошибки должна быть постоянна: D (ek ) = ? 2 .
4) Ошибки должны быть независимыми, то есть
k? j
?0
cov(ek , e j ) = ? 2
?? k= j
После того, как получено уравнение регрессии y = ax + b + e ,
каждое из этих допущений должно быть проверено.
Проверка гипотезы о том, что ошибки нормально распреде-
лены
Идентификация закона распределения случайной величины
изучена в главе 6, поэтому здесь мы не будем подробно
рассматривать этот вопрос. Кратко можно сказать, что проверка
гипотезы о том, что ошибки МНК нормально распределены,
проводится в два этапа:
(e1 , e2 ,..., e N )
1) По выборке строится гистограмма
распределения случайной величины е.
2) Полученная гистограмма проверяется на соответствие
нормальному распределению с помощью критерия согласия
Пирсона.
Проверка гипотезы о том, что математическое ожидание
ошибки равно нулю
Пусть ошибка МНК е имеет математическое ожидание µ e и
генеральную дисперсию ? e2 . Состоятельными и несмещенными
оценками математического ожидания и дисперсии ошибки
будут выборочная средняя и выборочная дисперсия:
1N
e = ? ( y k ? a xk ? b )
N k =1
123
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


1N
? ( y k ? a xk ? b ) 2
2
?e =
N ? 2 k =1
Мы должны проверить гипотезу
H0 : e = 0
H1 : e ? 0
Проверка этой гипотезы осуществляется по следующей схеме:
1) Априорные предположения
Математическое ожидание ошибки равно нулю
µe = 0
2) Результаты испытания
Выборочная средняя ошибки и выборочное с.к.о. ошибки
e, ? e
при объеме выборки N.
3) Гипотеза
H0 : e = 0
H1 : e ? 0
4) Принятая величина уровня значимости
q = 0.05 или q = 0.01
5) Критерий проверки
e ? µe e
t= =
?e ?e
6) Правило принятия решения
Принять Н0 , если ? t1? q / 2, ? ? t ? t1? q / 2, ?
В противном случае принять Н1 , то есть Н1 принимается, когда
критерий проверки t попадает в критическую область
| t | > t1? q / 2, ? .
7) Проверка гипотезы
- Если ? t1? q / 2, ? ? t ? t1? q / 2, ? то критерий проверки t не попада-
ет в критическую область и мы принимаем гипотезу Н0 . Это
означает, что при заданном уровне значимости выборочная
средняя ошибки e статистически незначимо отличается от ну-
ля.
124
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


- В противном случае мы принимаем гипотезу Н1 . Это означает,
что при заданном уровне значимости в уравнении регрессии
присутствует систематическая ошибка, и это уравнение должно
быть уточнено.
Проверка гипотезы о том, что дисперсия ошибки постоянна
Упорядочим исходную выборку ( x k , y k ) , k = 1,..., N по воз-
растанию величины x . Обозначим как N 1 / 2 половину от объема
N 1 / 2 = ЦЕЛОЕ ( N / 2) . Выберем число
выборки, то есть
M ? N 1 / 2 . После этого по упорядоченной по возрастанию величи-
ны x выборке рассчитаем отклонения от линии регрессии, первое
для k = 1,..., M (для меньших значений x ), второе для
k = N ? M + 1,..., N (для больших значений x ). Для лучшего
разграничения между двумя группами наблюдений число М можно
выбрать таким образом, чтобы исключить до 20% серединных
точек.
В случае постоянства дисперсии ошибок МНК необъясненная
дисперсия для меньших значений x должна быть приблизительно
равна необъясненной дисперсии для больших значений x , то есть
должно быть справедливым следующее равенство:
M N

?e ?e
?
2 2
k k
k =1 k = N ? M +1
2 2
Обозначим большую из этих сумм как S1 , а меньшую как S 2 .
2 2
Чем ближе к единице отношение S1 / S 2 , тем больше оснований
рассчитывать на то, что дисперсия ошибок МНК постоянна. Слу-
чайная величина F = S1 / S 2 подчиняется F -распределению
2 2


Фишера с ? 1 = M ? 2, ? 2 = M ? 2 степенями свободы. Проверка
гипотезы о постоянстве дисперсии ошибок осуществляется по сле-
дующей схеме:

1) Гипотеза
H 0 : S12 = S 2
2

<< Предыдущая

стр. 21
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>