<< Предыдущая

стр. 11
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

величины в N раз. Из этого следует, что точность оценки можно
повысить путем увеличения объема выборки. Среднее
арифметическое не защищено от промахов. Особенно большое
влияние на него оказывают промахи при малом объеме выборки.
При увеличении объема эта оценка становится все более
устойчивой.
Среднее арифметическое по 50%-му интерквантильному
промежутку
Перед вычислением этой оценки выборка {xk } должна быть
упорядочена по возрастанию. Данная оценка является аналогом
предыдущей, но усреднение проводится по усеченной на 25%
слева и справа выборке. Если обозначить как М четвертую часть
от объема выборки, то есть M=ЦЕЛОЕ(N/4), то
N ?M
1
?x
=
X 50%
N ? 2M
k
k = M +1
Среднее арифметическое по 50%-ному интерквантильному про-
межутку нечувствительно к промахам в выборке.
Центр размаха
Центр размаха определяется как среднее между максимальным
и минимальным значением в выборке:
= [max( xk ) + min( xk )] / 2
X центр размаха

61
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 4. Оценка параметров распределения по выборке случайной вели-
чины

Центр размаха не защищен от промахов в выборке. Более того, в
отличие от среднего арифметического, объем выборки оказывает
гораздо меньшее влияние на точность этой оценки.

4.3. Оценка дисперсии и среднеквадратичного отклонения.
Оценки дисперсии и среднеквадратичного отклонения по
выборке случайной величины {xk }, k = 1,..., N вычисляются по
формулам:
1N
? ( xk ? X ) 2
D=
N ? 1 k =1
?= D
В случае небольших выборок и при наличии промахов
вместо среднего арифметического X следует применять ХЦЕНТР.
Эти оценки называют еще выборочной дисперсией и
выборочным с.к.о. Они определяют рассеяние случайной
величины, однако сами также являются случайными
величинами со своими показателями рассеяния.
Приближенные формулы для вычисления дисперсии и с.к.о.
выборочной дисперсии, а также дисперсии и с.к.о. выборочного
с.к.о. следующие:
4
m ??
? ( D) = D( D)
D( D) ? 4
N
4
m4 ? ?
D (? ) ? ? (? ) = D(? )
2
4 N?
где m4 - это оценка четвертого центрального момента
распределения, которая приведена в следующем параграфе.

4.4. Оценка коэффициента асимметрии и эксцесса.
Оценки третьего и четвертого моментов распределения по вы-
борке {xk }, k = 1,..., N определяются как:
N
N
? ( xk ? X ) 3
m3 =
( N ? 1)( N ? 2) k =1
62
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 4. Оценка параметров распределения по выборке случайной вели-
чины


N 2 ? 2N + 3 N

? ( xk ? X ) 4 ?
m4 =
( N ? 1)( N ? 2)( N ? 3) k =1
3(2 N ? 3) N N

? ( xk ? X ) ? ( xk ? X ) 2
? 2

N ( N ? 1)( N ? 2)( N ? 3) k =1 k =1
Следовательно, оценки коэффициента асимметрии и эксцесса
можно найти по формулам:
N
1 N
? ( xk ? X ) 3
?= 3
? ( N ? 1)( N ? 2) k =1
N 2 ? 2N + 3 3(2 N ? 3)( N ? 1)
N
1
?
?= 4 ( xk ? X ) 4 ?
? ( N ? 1)( N ? 2)( N ? 3) k =1 N ( N ? 2)( N ? 3)
В случае небольших выборок и при наличии промахов вместо
среднего арифметического X следует применять ХЦЕНТР.
Дисперсии оценок коэффициента асимметрии и эксцесса можно
оценить как:
6( N ? 1)
D(? ) =
( N + 1)( N + 3)
24 N ( N ? 2)( N ? 3)
D(? ) =
( N ? 1) 2 ( N + 3)( N + 5)
Считается, что если | ? | / D(? ) > 3 , то распределение несим-

метрично. Если же | ? | / D(? ) < 3 , то асимметрия несущест-
венна и ее наличие может быть объяснено случайностью выбор-
ки.

4.5. Исключение промахов из выборки.
Промахами в выборке случайных величин будем называть
аномально отклоняющиеся от центра распределения значения
по сравнению с основной массой данных.
В применении к ценам активов, эти аномалии могут быть
вызваны сменой президента или правительства, банкротством
крупных компаний, террористическими актами и т.п.


63
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 4. Оценка параметров распределения по выборке случайной вели-
чины

Решение о том, фильтровать промахи или нет, каждый при-
нимает для себя сам. Однако следует учесть, что промахи могут
существенно исказить оценку параметров распределения.
В этом параграфе излагается формализованная процедура
удаления аномальных величин из выборки. Прежде всего, вве-
дем понятие коэффициента цензурирования. Коэффициент цен-
зурирования - это безразмерная величина G, такая, что все зна-
чения из выборки {x k } , лежащие за пределами интервала
X ЦЕНТР ? G ? ? ? x ? X ЦЕНТР + G ? ? , считаются промахами и
подлежат исключению из выборки.
Интуитивно понятно, что коэффициент цензурирования
должен зависеть от объема выборки и рассчитанного по
выборке значения эксцесса. Действительно, такое отклонение от
центра, которое является промахом для средневершинного (а
тем более плосковершинного) распределения, для
островершинного распределения с его длинными "тяжелыми"
спадами может безусловно принадлежать выборке.
Эмпирическая формула для коэффициента цензурирования
как функции от объема выборки N и эксцесса ?, пригодная к
применению для широкого класса распределений следующая:
G = 1.55 + 0.8 ? lg( N / 10) ? ? ? 1 .
Теперь все готово для написания алгоритма удаления
промахов из выборки:
1) Вычислить величину ХЦЕНТР,
2) Вычислить оценку среднеквадратичного отклонения ? , при
этом в качестве центра распределения использовать ХЦЕНТР,
3) Вычислить оценку эксцесса ? , при этом в качестве центра
распределения использовать ХЦЕНТР,
4) Вычислить коэффициент цензурирования G,
5) Исключить из выборки значения, лежащие за пределами
интервала X ЦЕНТР ? G ? ? ? x ? X ЦЕНТР + G ? ?
После удаления промахов нужно пересчитать параметры
распределения. При этом в качестве центра распределения уже
можно использовать среднее арифметическое X , как состоя-
тельную и несмещенную оценку математического ожидания.
64
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 5. Статистические выводы


5. СТАТИСТИЧЕСКИЕ ВЫВОДЫ

5.1. Введение.
Какие выводы о некотором параметре генеральной сово-
купности мы можем сделать, имея выборочное значение этого
параметра? Ответ на этот вопрос зависит от того, имеем ли мы
априорную информацию о величине генерального параметра.
Если априорная информация о величине генерального па-
раметра отсутствует, то мы можем по выборочному значению
оценить этот параметр, задав для него доверительный интер-
вал, то есть границы, в которых его величина лежит с опреде-
ленной доверительной вероятностью.
Если есть априорные соображения о величине генерального
параметра, то мы можем проверить гипотезу о том, соответст-
вует ли выборочная оценка априорному значению генерального
параметра.

5.2. Выборочное распределение выборочной средней.
Пусть случайная величина Х имеет математическое ожидание
µ и генеральную дисперсию ? . Оценками математического
2


ожидания и дисперсии по выборке ( x1 , x 2 ,..., x N ) будут
выборочная средняя и выборочная дисперсия:
1N 1N
X = ? xk ? ( xk ? X ) 2
2
?=
N ? 1 k =1
N k =1
Рассмотрим случайную величину t = ( X ? µ ) /(? / N ) . Так
как M ( X ) = µ и ? ( X ) = ? / N , то эта случайная величина
имеет нулевое математическое ожидание и единичную дисперсию.
Будем считать, что величина t подчиняется распределению
Стьюдента с ? = N ? 1 степенями свободы, хотя в общем случае
это утверждение некорректно. Дело в том, что строго говоря
величина t подчиняется распределению Стьюдента только в
случае когда выборка ( x1 , x 2 ,..., x N ) взята из нормально
распределенной совокупности.


65
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 5. Статистические выводы


5.3. Доверительный интервал для генеральной средней.
Доверительный интервал возможных значений величины t ,
характеризующийся доверительной вероятностью P или
уровнем значимости q = 1 ? P , это такой интерквантильный
промежуток t q / 2,? ? t ? t1? q / 2,? , внутри которого лежат 100 P
процентов всех значений случайной величины t , а 100q
процентов лежат вне этого промежутка. При этом 100q / 2
процентов лежит слева от t q / 2,? и 100q / 2 процентов лежит
справа от t1? q / 2,? .
Величины t q / 2,? и t1? q / 2,? - это квантили распределения
Стьюдента с ? = N ? 1 степенями свободы, причем, так как это
распределение симметрично и имеет нулевое математическое
ожидание, то t q / 2,? = ?t1? q / 2,? . Используя последнее равенство и
подставив значение t = ( X ? µ ) /(? / N ) получаем, что
X ?µ
? t1? q / 2,? ? ? t1? q / 2,?
?/ N
Отсюда следует, что доверительный интервал для
математического ожидания µ через выборочную среднюю и
выборочное с.к.о. задается в виде:
? ?
? µ ? X + t1? q / 2,?
X ? t1? q / 2,?
N N
Ширина доверительного интервала для математического
ожидания очень существенно зависит от объема выборки.
Проиллюстрируем это на простом примере. Пусть в двух
испытаниях получены одинаковые значения выборочной
средней X = 1.2 и выборочного с.к.о. ? = 2.5 . Но в первом
случае эти данные были получены по выборке объемом
N = 100 , а во втором случае по выборке объемом N = 25 .
Зададимся уровнем значимости q = 0.05 .
Вычислим с помощью функций Microsoft Excel
доверительные интервалы для математического ожидания:

66
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 5. Статистические выводы


1) Большая выборка

? = 2.5
X = 1.2 N = 100
t1? q / 2, ? = СТЬЮДРАСПОБР (q, N ? 1) =
= СТЬЮДРАСПОБР (0.05, 99) = 1.984

<< Предыдущая

стр. 11
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>