<< Предыдущая

стр. 14
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

есть расчет оптимального количества интервалов группировки и
оптимальной ширины интервала, а также построения по сгруп-
пированным данным гистограммы распределения.
Полученное эмпирическое распределение будет аппрокси-
мировано непрерывной аналитической функцией, то есть будет
идентифицирован закон распределения случайной величины.
Также рассмотрено использование критериев согласия при
идентификации закона распределения.
В качестве выборки случайной величины использована вы-
борка, состоящая из логарифмов относительного изменения ве-
личины индекса Российской торговой системы (индекса РТС) за
период с 1 сентября 1995 года по 31 декабря 2002 года.

6.2. Группировка данных. Оптимальное число интервалов
группировки.
Для расчета оценок математического ожидания, дисперсии,
среднеквадратичного отклонения, коэффициента асимметрии и
эксцесса (на основе моментов распределения) не требуется
предварительного упорядочивания и группировки данных. Эти
величины могут быть найдены непосредственно по исходной
выборке.
Для определения медианы, квантилей распределения, для
удаления промахов из выборки данные необходимо располо-
жить в порядке возрастания, то есть упорядочить выборку.
Группировка данных необходима для того, чтобы найти
форму распределения, то есть, в конечном итоге идентифициро-
вать закон распределения.
В результате группировки выборка представляется в виде
гистограммы, состоящей из L столбцов (интервалов
79
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 6. Идентификация закона распределения по выборке случайной ве-
личины

группировки), каждый из которых имеет ширину d. После
нормирования гистограмма представляет собой эмпирическую
плотность распределения случайной величины.
Из качественных соображений следует, что должно
существовать оптимальное число интервалов группировки.
Действительно, при большом количестве столбцов и
поэтому малой ширине столбца, из-за случайности выборки
гистограмма будет заполнена очень неравномерно, иметь сильно
изрезанный вид, состоять из большого количества всплесков и
провалов.
При другой крайности, то есть очень малом числе столбцов
большой ширины, гистограмма будет излишне сглаживать
распределение, уничтожать его характерные особенности.
Например, если выбрать только один интервал группировки с
шириной, равной размаху выборки, то любое распределение
сведется к прямоугольному. Два столбца выбирать нельзя, так
как любое симметричное распределение, как и в предыдущем
случае, сведется к прямоугольному. Три столбца также дают
мало информации о форме распределения.
Эти сугубо качественные рассуждения показывают, что
должно существовать некоторое оптимальное количество
интервалов группировки.
Если исходить из предположения, что генеральная
совокупность, из которой получена данная конкретная выборка,
имеет гладкую кривую плотности вероятности (это справедливо
в большинстве случаев), то неравномерности гистограммы
являются случайным шумом, обусловленным случайностью
выборки. Увеличение ширины столбца и уменьшение
количества столбцов фильтруют этот шум. Однако, дальнейшее
увеличение ширины столбца начинает сглаживать уже само
распределение.
Следовательно, определение оптимального числа
интервалов группировки при построении гистограммы является
задачей оптимальной фильтрации. При этом оптимальное
количество столбцов гистограммы - это такое количество,
при котором максимально возможное сглаживание случайного
шума сочетается с минимальным искажением от
сглаживания самого распределения.
80
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 6. Идентификация закона распределения по выборке случайной ве-
личины

Оптимальное число столбцов должно зависеть не только от
объема выборки, как это указано в большинстве пособий по
статистике. Очевидно, что это число зависит еще и от формы
распределения. Действительно, если плосковершинные
распределения можно приблизить достаточно малым
количеством столбцов, то для островершинных распределений с
их длинными, пологими спадами это количество естественно
должно быть больше.
Количество интервалов группировки должно быть
нечетным числом. При четном числе столбцов область вблизи
центра распределения будет описываться двумя симметрично
расположенными относительно центра столбцами гистограммы,
тем самым пик распределения будет неоправданно
сглаживаться. Это особенно критично для островершинных
распределений. Как уже говорилось выше, три столбца дают
очень мало информации о форме распределения. Поэтому будем
считать, что количество столбцов гистограммы должно быть
нечетным числом не менее пяти.
Эмпирическая формула для оценки оптимального
количества столбцов гистограммы как функции от объема
выборки N и эксцесса ? , пригодная к применению для
широкого класса распределений следующая:
? + 1.5
L= N 0.4
6
Вычисленное по этой формуле значение должно быть
округлено вниз до ближайшего большего или равного пяти
нечетного целого.
Используя значение L , ширину столбца гистограммы
2 max(| xk ? X |)
можно найти по формуле: d =
L

6.3. Построение гистограммы распределения.
Изложим алгоритм построения гистограммы по выборке
случайных величин {xk }, k = 1,..., N :
1) Упорядочить исходную выборку по возрастанию.
2) Вычислить оценки центра распределения:
81
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 6. Идентификация закона распределения по выборке случайной ве-
личины


Хмедиана, Хцентр_сгибов, X , X 50% , Хцентр_размаха.
Упорядочить эти оценки по возрастанию и выбрать из них в
качестве центра распределения серединное, то есть третье
по счету, значение, которое обозначить как ХЦЕНТР.
3) Вычислить оценку среднеквадратичного отклонения
1N
? ( xk ? X ЦЕНТР ) 2
?=
N ? 1 k =1
4) Вычислить оценку эксцесса
N 2 ? 2N + 3 N
1
? ( xk ? Х ЦЕНТР ) 4 ?
?= 4?
? ( N ? 1)( N ? 2)( N ? 3) k =1
3(2 N ? 3)( N ? 1)
?
N ( N ? 2)( N ? 3)
5) Вычислить коэффициент цензурирования
G = 1.55 + 0.8 ? lg( N / 10) ? ? ? 1
6) Исключить из выборки все значения (промахи), лежащие за
пределом интервала
X ЦЕНТР ? G ? ? ? x ? X ЦЕНТР + G ? ?
Если в выборке присутствовали промахи, то ее объем
уменьшился. Обозначим как {x k }, k = 1,..., M очищенную
от промахов выборку ( M ? N ) . Все дальнейшие операции
будут проводиться с очищенной выборкой.
7) Заново вычислить параметры распределения
M
1
?x
X= k
M k =1

1M
? ( xk ? X ) 2
?=
M ? 1 k =1
M
1 M
? ( xk ? X ) 3
?= 3?
? ( M ? 1)( M ? 2) k =1


82
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 6. Идентификация закона распределения по выборке случайной ве-
личины


M 2 ? 2M + 3 M
1
? ( xk ? X ) 4 ?
?= 4?
? ( M ? 1)( M ? 2)( M ? 3) k =1
3(2M ? 3)( M ? 1)
?
M ( M ? 2)( M ? 3)
8) Рассчитать оптимальное количество столбцов гистограммы
? + 1.5
L= M 0.4
6
Полученное число округлить вниз до ближайшего большего
или равного пяти нечетного целого.
9) Рассчитать левую и правую границы гистограммы
X min = X ? max(| xk ? X |)
X max = X + max(| xk ? X |)
10) Рассчитать ширину столбца гистограммы
X max ? X min 2 max(| xk ? X |)
d= =
L L
11) Рассчитать массив узлов разбиения на оси х
X i = X min + (i ? 1) ? d
i = 1,..., L + 1
Интервалы между соседними узлами являются интервалами
разбиения.
12) Рассчитать количество случайных величин из выборки
{x k }, k = 1,..., M , которое попадает в каждый из интервалов
разбиения. В результате получится ненормированная
гистограмма распределения или гистограмма частот. Она
задана в виде массива, который обозначим как
{s i }, i = 1,..., L .
13) В случае, если есть основания полагать, что плотность
вероятности должна быть симметричной, и в подтверждение
этого, вычисленный на шаге 7 коэффициент асимметрии
незначительно отличается от нуля, то можно провести
расчетное симметрирование гистограммы. Центральный
столбец остается без изменения, а в симметричных

83
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 6. Идентификация закона распределения по выборке случайной ве-
личины

относительно него парах столбцов количество отсчетов
усредняется.
14) Вычислить площадь S ненормированной гистограммы. Она
должна быть равна произведению ширины столбца d на
объем выборки M.
15) Нормировать гистограмму путем деления количества
отсчетов в каждом столбце на S. Таким образом на этом
шаге получена гистограмма плотности вероятности:
pi = si / S = si /(d ? M )
i = 1,..., L
16) Рассчитать значения интегральной функции распределения в
узлах разбиения
F1 ? 0
Fi = Fi ?1 + p i ?1 ? d
i = 2,..., L + 1
Фактически, на этом шаге мы получили функцию
распределения в табличном виде, то есть мы имеем массив
значений случайной величины { X i } и соответствующий
ему массив значений {Fi }, i = 1,..., L + 1 .

6.4. Гистограмма логарифмов относительных изменений ин-
декса РТС.
Рассмотрим временной ряд, состоящий из
последовательных значений цены некоторого актива
{Pt }, t = 0,..., T . Тогда цену в момент времени Т можно пред-
ставить, как
P P2 Pt P
PT = P0 1
... T
...
P0 P Pt ?1 PT ?1
1
Движение цены актива - это случайный процесс, вызванный
действиями большого количества участников рынка. Предполо-
жим, что отношения цен активов в любой момент времени яв-
ляются случайными величинами с одинаковым законом распре-
деления.

84
С.В. Булашев. Статистика для трейдеров (электронная версия).
Глава 6. Идентификация закона распределения по выборке случайной ве-
личины

Тогда по выборке этих случайных величин, которая может
быть получена из ценового ряда, можно определить их закон
распределения.
Но исследовать непосредственно отношение цен представ-
ляется не совсем удобным. Дело в том, что так как цена не мо-
жет упасть ниже нуля, то отношение цен также не может быть
меньше нуля. С другой стороны, цена может сколь угодно силь-
но вырасти, то есть отношение цен может быть неограниченно
большим. Этих качественных рассуждений достаточно, чтобы
понять, что плотность вероятности отношения цен будет иметь
положительную асимметрию. Однако, если мы перейдем к лога-

<< Предыдущая

стр. 14
(из 44 стр.)

ОГЛАВЛЕНИЕ

Следующая >>