<< Предыдущая

стр. 18
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

одной из переменных Y с некоторым количеством других перемен-
ных ( X 1 ,..., X M ) можно выразить некоторой функцией (матема-
тической моделью):
Y = f (a1 ,..., a L , X 1 ,..., X M ) , где
( X 1 ,..., X M ) - это набор независимых переменных, которые
-
будем называть факторами,
- Y - это зависимая переменная, которую будем называть
откликом,
(a1 ,..., a L ) - это набор констант, которые будем называть
-
параметрами математической модели.
В случае, когда отклик Y зависит только от единственного фактора
Х, модель называется однофакторной. Если отклик Y зависит от
нескольких факторов ( X 1 ,..., X M ) , модель называется
многофакторной.
Математическая модель, связывающая факторы и отклик,
может быть найдена только на основе реальных выборок этих
величин. Определение модели включает в себя два этапа:
- выбор вида модели, то есть вида функции f,
- расчет параметров выбранной модели ( a1 ,..., a L ) .
Первый этап, то есть выбор вида математической модели, является
не формализуемой задачей. Это решение принимается с учетом
простоты и удобства использования модели, содержательности мо-
дели и других соображений. Второй этап, то есть расчет парамет-
ров выбранной математической модели, является задачей, которая
решается с помощью регрессионного анализа реальных выборок
факторов и отклика.

8.2. Выбор вида математической модели.
Рассмотрим однофакторную зависимость. Этот случай наи-
более прост и может быть изучен графически. Предположим,
101
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


что имеется массив значений фактора Х и соответствующий ему
массив значений отклика Y. Нанесем соответствующие точки
( x k , y k ), k = 1,..., N на график. Если фактор и отклик - это ре-
альные статистические данные, то указанные точки никогда не
лягут на простую линию (прямую, параболу, гиперболу, экспо-
ненту, синусоиду и т.д.). Всегда будут присутствовать отклоне-
ния, связанные со случайным характером рассматриваемых пе-
ременных и/или с влиянием неучтенных факторов.
Кроме того часто оказывается, что один и тот же набор то-
чек можно с примерно одинаковой точностью описать различ-
ными аналитическими функциями. Следовательно, выбор вида
математической модели - это не формализуемая задача. Рацио-
нальный выбор той или иной модели может быть обоснован
лишь с учетом определенных требований, а именно:
- простоты модели,
- содержательности модели.
Простота модели
Наиболее распространенной ошибкой при описании фактиче-
ской зависимости является попытка детерминированного описания
этой зависимости, то есть включение в математическую модель
всех наблюдающихся особенностей конкретной выборки, в том
числе и тех, которые в действительности носят случайный харак-
тер.
Например, любой набор точек ( x k , y k ), k = 1,..., N можно
описать абсолютно точно полиномом (N-1)-й степени, зависящим
от N параметров ( a 0 , a1 ,..., a N ?1 ) :
N ?1
y = ? ak x k
k =0
Но на практике получается, что появляющаяся новая (N+1)-я точка
уже не будет удовлетворять полученной формуле. То же самое
можно сказать обо всех появляющихся далее новых точках. При
этом расхождение между реальными данными и моделью будет на-
растать с увеличением количества новых данных.
В то же время может оказаться, что исходный набор
значений ( x k , y k ) можно приближенно описать какой-либо
простой функцией (прямой, параболой, гиперболой, экспонен
102
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


той, синусоидой и т.д.), и эта модель, зависящая от небольшого
числа параметров, будет устойчива к появлению новых данных.
Следовательно, необходимым требованием к математической
модели является ее простота.
Содержательность модели
Под содержательностью математической модели будем по-
нимать разумную интерпретируемость результатов, которые мо-
гут быть получены при вычислении по этой модели.
Поясним это утверждение на простом примере. Пусть наша
задача состоит в том, чтобы описать кривую зависимости цены
бескупонной облигации от срока до погашения облигации. В
данном случае фактором X является срок до погашения, откли-
ком Y является цена. На эту математическую модель можно на-
ложить очевидные ограничения:
1) функция y = f (x) должна быть неотрицательной,
2) функция y = f (x) должна быть монотонно убывающей,
3) значение функции y = f (x) при x = 0 должно быть равно
константе (номиналу облигации),
4) значение функции y = f (x) при x > ? должно стремиться
к нулю.
Приведем примеры функций, которые не удовлетворяют хотя
бы одному из ограничений и поэтому не могут быть использо-
ваны для построения рассматриваемой модели из соображений
содержательности:
- линейная функция y = b ? ax не удовлетворяет первому и
четвертому условию, так как при x > ? величина y > ?? ,
- гипербола y = b + a / x не соответствует третьему условию,
так как при x > 0 величина y > ? .
При этом данные функции могут удовлетворительным образом
описывать набор исходных данных ( x k , y k ) .

8.3. Расчет параметров математической модели.
Если выбор вида математической модели - это не формали-
зуемая задача, то расчет параметров уже выбранной математи-
ческой модели является чисто формальным процессом. В общем
103
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


случае он состоит в решении системы вообще говоря нелиней-
ных уравнений.
Рассмотрим произвольную однофакторную зависимость, то
есть модель, в которой связь фактора Х и отклика Y выражается
функцией Y = f (a1 ,..., a L , X ) . Вид функции предполагается
известным. Наша задача состоит в том, чтобы по имеющейся
выборке данных, то есть по набору точек ( x k , y k ), k = 1,..., N
вычислить неизвестные параметры модели (a1 ,..., a L ) . Для это-
го нам нужно решить систему уравнений:
? y1 = f (a1 ,..., a L , x1 )
?...............................
?
?
? y k = f (a1 ,..., a L , x k )
?...............................
?
? y N = f (a1 ,..., a L , x N )
?
Эта система состоит из N уравнений с L неизвестными па-
раметрами модели (a1 ,..., a L ) . Возможны три варианта соотно-
шения между количеством уравнений N и количеством
неизвестных L:
1) N < L
В этом случае объем выборки является недостаточным для
определения параметров модели. Необходимо увеличить
количество фактических данных и/или упростить модель,
уменьшив количество ее параметров.
2) N = L
Если объем выборки совпадает с количеством неизвестных
параметров, то решение системы единственно. Но так как
предполагается, что исходные данные ( x k , y k ) могут иметь
случайный характер, то и решение ( a1 ,..., a L ) также случайно,
так как оно в точности соответствует случайным исходным
данным.
3) N > L
При объеме выборки, превышающем количество неизвестных
параметров, система уравнений является избыточной. Из
исходной системы уравнений в различных комбинациях можно
составить несколько систем по L уравнений в каждой. Каждая
104
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


из систем даст свое решение, и все эти решения будут вообще
говоря разными. Если их нанести на график, то получится
целый пучок аппроксимирующих кривых. Если эти кривые
каким-либо образом усреднить, то полученное усредненное
решение будет гораздо достовернее описывать истинную
зависимость между Х и Y, так как оно в значительной степени
будет защищено от случайности выборки. Этот эффект усред-
нения тем больше, чем больше объем выборки N.
Наиболее эффективным методом усреднения решений избыточ-
ной системы уравнений является регрессионный анализ или ме-
тод наименьших квадратов (МНК).

8.4. Сущность метода наименьших квадратов.
Пусть после предварительного анализа принято решение о
том, что связь фактора Х и отклика Y выражается функцией
Y = f (a1 ,..., a L , X ) . Наша задача состоит в том, чтобы по
имеющейся выборке, то есть по набору точек
( xk , y k ), k = 1,..., N вычислить наилучшие оценки неизвестных
параметров модели (a1 ,..., a L ) . Заметим, что все значения
( xk , y k ) - это не переменные, а конкретные числа.
Между рассчитанными по модели значениями отклика f k и
реальными значениями из выборки y k будут присутствовать
расхождения, которые обозначим как
ek = y k ? f k = y k ? f (a1 ,..., a L , x k )
Метод наименьших квадратов позволяет найти такой набор
параметров модели, при котором сумма квадратов всех расхож-
дений между значениями по выборке и вычисленными по моде-
ли значениями будет минимальной, то есть
N
S = ? ek > min
2

k =1
N
S = ? [ yk ? f (a1 ,..., aL , xk )]2 > min
k =1

Величина S является функцией от L переменных (a1 ,..., a L ) .
Минимум этой функции можно найти, приравняв к нулю все ее
105
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


частные производные по каждому из неизвестных параметров и
решив полученную таким образом систему из L уравнений:
?f (a1 ,..., a L , xk )
? ?S N
= ?2? [ y k ? f (a1 ,..., a L , xk )] =0
? ?a ?a1
?1 k =1
?
?....................................................................................
? ?S ?f (a1 ,..., a L , xk )
N
= ?2? [ y k ? f (a1 ,..., a L , xk )]
? =0
? ?a L ?a L
? k =1

Решение такой системы уравнений в случае нелинейной за-
висимости между Х и Y может быть сопряжено со значительны-
ми трудностями. Поэтому в дальнейшем мы ограничимся рас-
смотрением линейной зависимости между Х и Y, то есть линей-
ной регрессии. К тому же, во многих случаях нелинейная зави-
симость может быть сведена к линейной достаточно простыми
преобразованиями данных.

8.5. Свойства ошибок метода наименьших квадратов.
Рассмотрим подробнее ошибки, возникающие при примене-
нии МНК, то есть расхождения между рассчитанными по моде-
ли значениями отклика f k и реальными значениями из выборки
y k , которые мы обозначили как
ek = y k ? f k = y k ? f (a1 ,..., a L , x k )
Для того, чтобы мы могли сказать, что модель адекватна
эмпирическим данным, эти ошибки должны обладать опреде-
ленными свойствами:
1) Ошибки должны являться реализацией нормально распреде-
ленной случайной переменной.
Это означает, что хотя существует только один главный
фактор Х, определяющий поведение отклика Y, но
присутствует также большое количество малосущественных
факторов, совокупное воздействие которых на отклик Y
согласно центральной предельной теореме имеет
нормальное распределение.
2) Математическое ожидание ошибки должно быть равно
нулю: M (ek ) = 0 .

106
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 8. Регрессионный анализ


Это означает, что отсутствует систематическая ошибка в
определении линии регрессии, следовательно оценки
параметров регрессии являются несмещенными, то есть
математическое ожидание оценки каждого параметра равно
его истинному значению.
3) Дисперсия ошибки должна быть постоянна: D (ek ) = ? 2 .
Это означает, что при увеличении объема выборки
дисперсия оценок параметров регрессии стремится к нулю,
то есть оценки параметров регрессии являются
состоятельными.
4) Ошибки должны быть независимыми, то есть
k? j
?0
cov(ek , e j ) = ? 2

<< Предыдущая

стр. 18
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>