<< Предыдущая

стр. 18
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

константе (номиналу облигации),
4) значение функции y = f (x) при x > ? должно стремиться
к нулю.
Приведем примеры функций, которые не удовлетворяют хотя
бы одному из ограничений и поэтому не могут быть использо-
ваны для построения рассматриваемой модели из соображений
содержательности:
- линейная функция y = b ? ax не удовлетворяет первому и
четвертому условию, так как при x > ? величина y > ?? ,
- гипербола y = b + a / x не соответствует третьему условию,
так как при x > 0 величина y > ? .
При этом данные функции могут удовлетворительным образом
описывать набор исходных данных ( x k , y k ) .

8.3. Расчет параметров математической модели.
Если выбор вида математической модели - это не формали-
зуемая задача, то расчет параметров уже выбранной математи-
ческой модели является чисто формальным процессом. В общем
103
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


случае он состоит в решении системы вообще говоря нелиней-
ных уравнений.
Рассмотрим произвольную однофакторную зависимость, то
есть модель, в которой связь фактора Х и отклика Y выражается
функцией Y = f (a1 ,..., a L , X ) . Вид функции предполагается
известным. Наша задача состоит в том, чтобы по имеющейся
выборке данных, то есть по набору точек ( x k , y k ), k = 1,..., N
вычислить неизвестные параметры модели (a1 ,..., a L ) . Для это-
го нам нужно решить систему уравнений:
? y1 = f (a1 ,..., a L , x1 )
?...............................
?
?
? y k = f (a1 ,..., a L , x k )
?...............................
?
? y N = f (a1 ,..., a L , x N )
?
Эта система состоит из N уравнений с L неизвестными па-
раметрами модели (a1 ,..., a L ) . Возможны три варианта соотно-
шения между количеством уравнений N и количеством
неизвестных L:
1) N < L
В этом случае объем выборки является недостаточным для
определения параметров модели. Необходимо увеличить
количество фактических данных и/или упростить модель,
уменьшив количество ее параметров.
2) N = L
Если объем выборки совпадает с количеством неизвестных
параметров, то решение системы единственно. Но так как
предполагается, что исходные данные ( x k , y k ) могут иметь
случайный характер, то и решение ( a1 ,..., a L ) также случайно,
так как оно в точности соответствует случайным исходным
данным.
3) N > L
При объеме выборки, превышающем количество неизвестных
параметров, система уравнений является избыточной. Из
исходной системы уравнений в различных комбинациях можно
составить несколько систем по L уравнений в каждой. Каждая
104
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


из систем даст свое решение, и все эти решения будут вообще
говоря разными. Если их нанести на график, то получится
целый пучок аппроксимирующих кривых. Если эти кривые
каким-либо образом усреднить, то полученное усредненное
решение будет гораздо достовернее описывать истинную
зависимость между Х и Y, так как оно в значительной степени
будет защищено от случайности выборки. Этот эффект усред-
нения тем больше, чем больше объем выборки N.
Наиболее эффективным методом усреднения решений избыточ-
ной системы уравнений является регрессионный анализ или ме-
тод наименьших квадратов (МНК).

8.4. Сущность метода наименьших квадратов.
Пусть после предварительного анализа принято решение о
том, что связь фактора Х и отклика Y выражается функцией
Y = f (a1 ,..., a L , X ) . Наша задача состоит в том, чтобы по
имеющейся выборке, то есть по набору точек
( xk , y k ), k = 1,..., N вычислить наилучшие оценки неизвестных
параметров модели (a1 ,..., a L ) . Заметим, что все значения
( xk , y k ) - это не переменные, а конкретные числа.
Между рассчитанными по модели значениями отклика f k и
реальными значениями из выборки y k будут присутствовать
расхождения, которые обозначим как
ek = y k ? f k = y k ? f (a1 ,..., a L , x k )
Метод наименьших квадратов позволяет найти такой набор
параметров модели, при котором сумма квадратов всех расхож-
дений между значениями по выборке и вычисленными по моде-
ли значениями будет минимальной, то есть
N
S = ? ek > min
2

k =1
N
S = ? [ yk ? f (a1 ,..., aL , xk )]2 > min
k =1

Величина S является функцией от L переменных (a1 ,..., a L ) .
Минимум этой функции можно найти, приравняв к нулю все ее
105
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


частные производные по каждому из неизвестных параметров и
решив полученную таким образом систему из L уравнений:
?f (a1 ,..., a L , xk )
? ?S N
= ?2? [ y k ? f (a1 ,..., a L , xk )] =0
? ?a ?a1
?1 k =1
?
?....................................................................................
? ?S ?f (a1 ,..., a L , xk )
N
= ?2? [ y k ? f (a1 ,..., a L , xk )]
? =0
? ?a L ?a L
? k =1

Решение такой системы уравнений в случае нелинейной за-
висимости между Х и Y может быть сопряжено со значительны-
ми трудностями. Поэтому в дальнейшем мы ограничимся рас-
смотрением линейной зависимости между Х и Y, то есть линей-
ной регрессии. К тому же, во многих случаях нелинейная зави-
симость может быть сведена к линейной достаточно простыми
преобразованиями данных.

8.5. Свойства ошибок метода наименьших квадратов.
Рассмотрим подробнее ошибки, возникающие при примене-
нии МНК, то есть расхождения между рассчитанными по моде-
ли значениями отклика f k и реальными значениями из выборки
y k , которые мы обозначили как
ek = y k ? f k = y k ? f (a1 ,..., a L , x k )
Для того, чтобы мы могли сказать, что модель адекватна
эмпирическим данным, эти ошибки должны обладать опреде-
ленными свойствами:
1) Ошибки должны являться реализацией нормально распреде-
ленной случайной переменной.
Это означает, что хотя существует только один главный
фактор Х, определяющий поведение отклика Y, но
присутствует также большое количество малосущественных
факторов, совокупное воздействие которых на отклик Y
согласно центральной предельной теореме имеет
нормальное распределение.
2) Математическое ожидание ошибки должно быть равно
нулю: M (ek ) = 0 .

106
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


Это означает, что отсутствует систематическая ошибка в
определении линии регрессии, следовательно оценки
параметров регрессии являются несмещенными, то есть
математическое ожидание оценки каждого параметра равно
его истинному значению.
3) Дисперсия ошибки должна быть постоянна: D (ek ) = ? 2 .
Это означает, что при увеличении объема выборки
дисперсия оценок параметров регрессии стремится к нулю,
то есть оценки параметров регрессии являются
состоятельными.
4) Ошибки должны быть независимыми, то есть
k? j
?0
cov(ek , e j ) = ? 2
?? k= j
Это означает, что ошибка в одной из величин отклика Y не
приводит автоматически к ошибкам в последующих
величинах.
Кроме того, в МНК предполагается что факторы (независимые
переменные) не являются случайными величинами.

8.6. Оценка параметров однофакторной линейной регрессии.
Допустим, что принята гипотеза о том, что связь фактора Х
и отклика Y выражается линейной функцией f ( x) = ax + b . На-
личие отклонений, связанных со случайным характером рас-
сматриваемых переменных и/или с влиянием неучтенных фак-
торов приведет к тому, что связь между рассчитанными по мо-
дели значениями отклика f k и реальными значениями из вы-
борки y k будет выражаться в виде:
y k = f k + ek = ax k + b + ek
где ek - это расхождения между моделью и выборкой.

Оценка параметров линейной регрессии
Вычислим такой набор параметров модели, при котором
сумма квадратов всех расхождений между значениями по вы-
борке и вычисленными по модели значениями будет минималь-
ной, то есть
107
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ

N
S = ? ek2 > min
k =1
N
S = ? [ yk ? axk ? b]2 > min
k =1
Величина S является функцией от 2-х переменных (a, b) . Ми-
нимум этой функции можно найти, приравняв к нулю ее част-
ные производные по каждому из неизвестных параметров и ре-
шив полученную таким образом систему из 2-х уравнений. Так
как вычисление параметров мы будем проводить по конечной
выборке, то в результате мы получим лишь оценку этих пара-
метров (a, b) :
? ?S N

? ?b = ?2? [ yk ? axk ? b] = 0
? k =1
?
? ?S = ?2 [ y ? ax ? b]x = 0
N

?k k
? ?a k
? k =1

Из 1-го уравнения системы получаем:
N N

?y ? a ? xk ? bN = 0 ? b = Y ? a ? X
k
k =1 k =1
Из 2-го уравнения системы получаем:
N N N N N

?y x ? a ? x ? b? xk = 0 ? ? y k xk ? a ? xk2 ? bN X = 0
2
k k k
k =1 k =1 k =1 k =1 k =1
Подставив в это уравнение выражение для оценки параметра b
найдем оценку параметра a :
N N

?x ? (x
yk ? N ? X ? Y ? X )( y k ? Y )
k k
a= ?
k =1 k =1
N N

?x ? (x
2
?N?X ? X )2
2
k k
k =1 k =1
Из последнего равенства следует, что оценку параметра a мож-
но выразить через ковариацию или коэффициент корреляции
переменных Х и Y:


108
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


? xy ?y
a= 2 =?
?x ?x
Параметр a , который еще называют коэффициентом регрессии,

<< Предыдущая

стр. 18
(из 43 стр.)

ОГЛАВЛЕНИЕ

Следующая >>