Математическое описание связи: регрессия, корреляцияРефераты >> Статистика >> Математическое описание связи: регрессия, корреляция
.
Причем, как не раз мы уже отмечали коэффициенты b0 и b1 в этом уравнении неизвестны. Используя МНК, мы можем найти оценки этих коэффициентов в0 и в1 и записать следующее выражение для у:
.
На приведенном рисунке (Рис.4) изображены фактические значения переменной у, график гипотетической функции регрессии (которая, вообще говоря, нам неизвестна!) и график эмпирической функции регрессии, коэффициенты которой найдены из условия минимума суммы квадратов ошибок.
Рис.4. Графики гипотетической и эмпирической функций регрессии.
Исходя из логики наших действий, возникают два вопроса:
●Можно ли с той или иной вероятностью найти подтверждение, что вид функциональной зависимости (речь пока идет только о линейной функции) выбран корректно.
●Насколько хорошо, со статистической точки зрения, оценки неизвестных параметров, полученные по МНК, приближают неизвестные коэффициенты.
Для ответов на поставленные вопросы нам понадобится, в частности, понятие коэффициента детерминации. Перед тем как ввести это понятие рассмотрим следующую сумму:
.
Покажем, что ее можно представить в виде:
=+.
Действительно,
=
=. (1)
Через обозначена функция регрессии, полученная по МНК: .
Покажем, что последнее слагаемое в (1) равно нулю, для этого запишем его в виде:
- .
Рассмотрим слагаемое
=.
В силу равенства (2), можно утверждать, что оно равно 0. Преобразуем теперь первое слагаемое:
==
=+.
Оба слагаемых равны нулю в силу равенств (2) и (3).
Таким образом, мы показали, что имеет место, следующее представление для рассматриваемой суммы:
=. (2)
Величину еi равную:
будем называть остатком. Следовательно, первое слагаемое в правой части (2) есть сумма квадратов остатков:
.
Ее называют остаточной суммой квадратов и обозначают RSS (residualsumofsquares).
Вторая сумма это сумма квадратов отклонений точек, расположенных на регрессионной прямой от прямой у =. Эту сумму называют суммой квадратов отклонений, объясненной регрессией ЕSS (explainedsumof squares).
В левой части равенства (2) находится сумма квадратов отклонений фактических значений переменной у от прямой у =. Такую сумму называют полной суммой квадратов и обозначают TSS (totalsumofsquares).
Таким образом, полная сумма квадратов TSS разбилась на две составляющие:
TSS= RSS+ ESS. (3)
● ESS- сумму квадратов, обусловленных влиянием основного фактора х;
● RSS – сумму квадратов, обусловленных влиянием других, в том числе и случайных факторов.
Замечание 1. Следует иметь в виду, что в литературе по эконометрике, в частности в [9], эту же систему обозначений используют с точностью до наоборот, давая ей другое объяснение. Сумму, которая выше обозначена как ЕSSобозначают черезRSSи расшифровывают так: regressionsumofsquares. И наоборот, сумму, обозначенную нами как RSSназывают ЕSS: errorsumofsquares. Мы будем придерживаться введенной выше терминологии. ▲
Замечание 2.Рассмотрим два частных случая. Предположим, что x не оказывает никакого влияния на y, тогда выборочное условное среднее совпадает с выборочным средним , в такой ситуации ЕSS =0 и
TSS= RSS.
В том случае, когда на зависимую переменную у не оказывает влияния никакие другие факторы, кроме х, сумма RSS будет равняться нулю и будет выполняться следующее равенство:
TSS= ESS.
В общем же случае, если оценки параметров функции регрессии найдены по МНК, всегда будет иметь место равенство (3).▲
Определение 1. Парным коэффициентом детерминации (выборочным) называют отношение:
. (4)
Говорят, что «коэффициент детерминации показывает, какая доля дисперсии величины y определяется (детерминируется) изменчивостью (дисперсией) соответствующей функции регрессии y от x» [1].
Поясним сказанное. Для этого вернемся к равенству (2) и разделим обе части равенства на n, получим:
=.
Или:
.