<< Предыдущая

стр. 17
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>

менная является сложной композицией индивидуальных спросов, ока-
зывающих на нее определенное влияние помимо факторов, учитывае-
мых в модели. Это может оказаться причиной отклонения реальных
значений от модельных.
4. Ошибки измерений. Какой бы качественной ни была модель,
ошибки измерений переменных отразятся на несоответствии модель-
ных значений эмпирическим данным, что также отразится на величи-
не случайного члена.
5. Ограниченность статистических данных. Зачастую строятся
модели, выражаемые непрерывными функциями. Но для этого ис-
пользуется набор данных, имеющих дискретную структуру. Это несо-
ответствие находит также свое выражение в случайном отклонении.
6. Непредсказуемость человеческого фактора. Эта причина мо-
жет “испортить” самую качественную модель. Действительно, при
правильном выборе формы модели, скрупулезном подборе объяс-
няющих переменных все равно невозможно спрогнозировать поведе-
ние каждого индивидуума.
Таким образом, случайный член является отражением влияния
всех описанных выше причин и не только их. Этот список может быть
дополнен.
Задача построения качественного уравнения регрессии, соответст-
вующего эмпирическим данным и целям исследования, является дос-
таточно сложным и многоступенчатым процессом. Его можно разбить
на три этапа:
1) выбор формулы уравнения регрессии;
2) определение параметров выбранного уравнения;
3) анализ качества уравнения и поверка адекватности уравнения
эмпирическим данным, совершенствование уравнения.
Выбор формулы связи переменных называется спецификацией
уравнения регрессии. В случае парной регрессии выбор формулы

96
обычно осуществляется по графическому изображению реальных ста-
тистических данных в виде точек в декартовой системе координат, ко-
торое называется корреляционным полем (диаграммой рассеивания)
(рис. 4.1).

Y 1 Y 2 Y
•• • 1 1 2
•• ••
•• • •





Х Х Х
а б в
Рис. 4.1

На рис 4.1 представлены три ситуации.
На графике 4.1, а взаимосвязь между X и Y близка к линейной, и
прямая 1 достаточно хорошо соответствует эмпирическим точкам.
Поэтому в данном случае в качестве зависимости между X и Y целе-
сообразно выбрать линейную функцию Y = b 0 + b1X .
На графике 4.1, б реальная взаимосвязь между X и Y, скорее все-
го, описывается квадратичной функцией Y = aX 2 + bX + c (линия 2), и
какую бы мы не провели прямую (например, линия 1), отклонения то-
чек наблюдений от нее будут существенными и неслучайными.
На графике 4.1, в явная взаимосвязь между X и Y отсутствует.
Какую бы мы не выбрали форму связи, результаты ее спецификации и
параметризации (определение коэффициентов уравнения) будут не-
удачными. В частности, прямые 1 и 2, проведенные через центр “об-
лака” наблюдений и имеющие противоположный наклон, одинаково
плохи для того, чтобы делать выводы об ожидаемых значениях пере-
менной Y по значениям переменной X.
В случае множественной регрессии определение подходящего
вида зависимости является более сложной задачей, что будет обсуж-
дено в дальнейшем.
Вопросы определения параметров уравнения (параметризации) и
проверки качества (верификации) уравнения регрессии будут обсуж-
дены ниже.


97
4.3. Парная линейная регрессия
Если функция регрессии линейна, то речь ведут о линейной рег-
рессии. Модель линейной регрессии является наиболее распростра-
ненным (и простым) уравнением зависимости между экономическими
переменными. Кроме того, построенное линейное уравнение может
быть начальной точкой эконометрического анализа.
Например, Кейнсом была предложена формула такого типа для
моделирования зависимости частного потребления С от располагае-
мого дохода I: C = Co +b?I, где Co ? величина автономного потребле-
ния, b (0 < b ? 1) ? предельная склонность к потреблению. Однако при
использовании данной модели при анализе конкретных данных мы
практически всегда будем иметь определенную погрешность, т. к.
строгой функциональной зависимости между этими показателями нет.
Однако никто не будет отрицать, что люди (домохозяйства) с боль-
шим доходом имеют большее в среднем потребление. Данная ситуа-
ция наглядно представлена на рис. 4.2.

С •


• •
• •
• •
• •
• •
• •

• •
• •
• • •
• •
• •
• •





I1 I2 I3 I4 I5 I

Рис. 4.2
Из предыдущих рассуждений ясно, что линейная регрессия (тео-
ретическое линейное уравнение регрессии) представляет собой линей-
ную функцию между условным математическим ожиданием M(Y?X =
= xi) зависимой переменной Y и одной объясняющей переменной X.
M(Y?X = xi) = ?0 + ?1xi. (4.5)
Отметим, что принципиальной в данном случае является линей-
ность по параметрам ?0 и ?1 уравнения.

98
Для отражения того факта, что каждое индивидуальное значе-
ние yi отклоняется от соответствующего условного математического
ожидания, необходимо ввести в соотношение (4.5) случайное слагае-
мое ?i.
yi = M(Y?X = xi) + ?i = ?0 + ?1xi + ?i. (4.6)
Соотношение (4.6) называется теоретической линейной регрес-
сионной моделью; ?0 и ?1 ? теоретическими параметрами (теорети-
ческими коэффициентами) регрессии; ?i ? случайным отклонением.
Следовательно, индивидуальные значения yi представляются в
виде суммы двух компонент ? систематической (?0 + ?1xi) и случай-
ной (?i), причина появления которой достаточно подробно рассмотре-
на в разделе 4.2. В общем виде теоретическую линейную регрессион-
ную модель будем представлять в виде
Y = ?0 + ?1Х + ?. (4.7)
Для определения значений теоретических коэффициентов регрес-
сии необходимо знать и использовать все значения переменных X и Y
генеральной совокупности, что практически невозможно.
Таким образом, задачи линейного регрессионного анализа со-
стоят в том, чтобы по имеющимся статистическим данным ( x i , y i ),
i = 1, 2, …, n, переменных Х и Y:
а) получить наилучшие оценки неизвестных параметров ?0 и ?1;
б) проверить статистические гипотезы о параметрах модели;
в) проверить, достаточно ли хорошо модель согласуется со ста-
тистическими данными (адекватность модели данным наблюдений).
Следовательно, по выборке ограниченного объема мы сможем
построить так называемое эмпирическое уравнение регрессии
)
y i = b 0 + b1x i , (4.8)
)
где y i ? оценка условного математического ожидания M(Y?X = xi); b0
и b1 ? оценки неизвестных параметров ?0 и ?1, называемые эмпири-
ческими коэффициентами регрессии. Следовательно, в конкретном
случае
yi = b0 + b1xi + ei, (4.9)
где отклонение еi ? оценка теоретического случайного отклонения ?i.
В силу несовпадения статистической базы для генеральной сово-
купности и выборки оценки b0 и b1 практически всегда отличаются от

99
истинных значений коэффициентов ?0 и ?1, что приводит к несовпа-
дению эмпирической и теоретической линий регрессии. Различные
выборки из одной и той же генеральной совокупности обычно приво-
дят к определению отличающихся друг от друга оценок. Возможное
соотношение между теоретическим и эмпирическим уравнениями
регрессии схематично изображено на рис. 4.3.
Y
M(Y?X) = ?0 + ?1X
?n
)
en Y = b 0 + b1 X

• •
?i
ei

e1
?1 •





x1 xi xn X
Рис. 4.3
Задача состоит в том, чтобы по конкретной выборке (xi, yi), i = 1,
2, … , n, найти оценки b0 и b1 неизвестных параметров ?0 и ?1 так,
чтобы построенная линия регрессии являлась бы наилучшей в опреде-
ленном смысле среди всех других прямых. Другими словами, постро-
)
енная прямая Y = b 0 + b1X должна быть “ближайшей” к точкам на-
блюдений по их совокупности. Мерами качества найденных оценок
могут служить определенные композиции отклонений ei, i = = 1, 2, … ,
n. Например, коэффициенты b0 и b1 эмпирического уравнения регрес-
сии могут быть оценены, исходя из условия минимизации одной из
следующих сумм:
n n n
)
1) ? e i = ? (y i ? y i ) = ? (y i ? b0 ? b1x i ) ;
i =1 i =1 i =1
n n n
)
2) ? e i = ? y i ? y i = ? y i ? b 0 ? b1x i ;
i =1 i =1 i =1
n n n
)
3) ? ei2 = ? (yi ? yi )2 = ? (yi ? b0 ? b1x i )2 .
i =1 i =1 i =1


100
Однако первая сумма не может быть мерой качества найденных
оценок в силу того, что существует бесчисленное количество прямых
n
(в частности, Y = y ), для которых ? e i = 0 (доказательство этого ут-
i =1
верждения выносится в качестве упражнения).
Метод определения оценок коэффициентов из условия минимиза-
ции второй суммы называется методом наименьших модулей (МНМ).
Все же самым распространенным и теоретически обоснованным
является метод нахождения коэффициентов, при котором минимизи-
n
руется сумма квадратов отклонений ? e i2 . Он получил название ме-
i =1
тод наименьших квадратов (МНК). Этот метод оценки является наи-
более простым с вычислительной точки зрения. Кроме того, оценки
коэффициентов регрессии, найденные МНК при определенных пред-
посылках, обладают рядом оптимальных свойств.
Среди других методов определения оценок коэффициентов рег-
рессии отметим метод моментов (ММ) и метод максимального прав-
доподобия (ММП).
4.4. Метод наименьших квадратов
Пусть по выборке (xi, yi), i = 1, 2, … , n требуется определить
оценки а и b эмпирического уравнения регрессии (4.8).
Y
)
Y = b 0 + b1 X
• en

e5


e3 e4 .....

• e2
e1



x1 x2 x3 x4 x5 xn X
....
Рис. 4.4

В этом случае при использовании МНК минимизируется сле-
дующая функция:


101
n n )2 n
2
= ? (y i ? y i ) = ? (y i ? b0 ? b1x i ) 2 .
Q(b 0 , b1 ) = ? ei (4.10)
i =1 i =1 i =1

Нетрудно заметить, что функция Q является квадратичной функцией
двух параметров b0 и b1 (Q = Q(b0, b1)), поскольку x i , y i ? известные

<< Предыдущая

стр. 17
(из 65 стр.)

ОГЛАВЛЕНИЕ

Следующая >>