Математическое описание связи: регрессия, корреляцияРефераты >> Статистика >> Математическое описание связи: регрессия, корреляция
Тогда выражение для парного коэффициента детерминации можно представить в виде:
. (5)
Следует отметить, что введенный нами парный коэффициент детерминации также относится к выборочным числовым характеристикам и рассчитывается по эмпирическим данным. Теоретический коэффициент детерминации будем обозначать Rxy.
Рассмотрим, в каком диапазоне изменяется значение коэффициента детерминации . Очевидно, что эта величина всегда неотрицательна. Найдем верхнюю границу. Из равенства (3) следует следующее равенство:
.
Следовательно,
.
Отсюда очевидно, что в силу того, что наименьшее значение RSS =0, наибольшее значение коэффициента детерминации равно 1. Таким образом,
.
Отметим, что значение коэффициента детерминации тем ближе к 1, чем меньше остаточная сумма квадратов. В этом случае говорят, что уравнение регрессии статистически значимо и фактор х оказывает сильное воздействие на результирующий признак у (последний тезис справедлив только для модели парной линейной регрессии!).
Покажем, как связаны коэффициент парной детерминации с выборочным коэффициентом корреляции, чтобы аргументировать последнее утверждение.
.
Подставим это выражение в числитель формулы (5):
.
Следовательно, в случае парной линейной регрессии, коэффициент детерминации равен квадрату выборочного коэффициента корреляции:
. (6)
Замечание 1. Из теории вероятностей известно следующее свойство коэффициента корреляции . Коэффициент корреляции двух случайных величин равен 1 или -1 тогда и только тогда, когда случайные величины связаны между собой линейно, т.е. у = ах + в. Классификация силы связи двух случайных величин в зависимости от величины коэффициента корреляции (теоретического!) может производиться следующим образом.
Если то связь между случайными величинами классифицируют как слабую; если то силу связи между двумя случайными величинами классифицируют как среднюю и, наконец, если , то говорят, что имеет место сильная стохастическая зависимость. Причем, если коэффициент корреляции положительный, то связь классифицируют как прямую, то есть значение обеих случайных величин увеличиваются или уменьшаются одновременно. Отрицательное значение коэффициента корреляции говорит об обратной связи, то есть, например, увеличение значений одной случайной величины ведет к уменьшению значений другой. Следует иметь в виду, что использование выборочного коэффициента корреляции для подобной классификации, требует вдумчивого подхода. Эта характеристика является по своей сути случайной величиной и нельзя по ее значению делать категоричные выводы, подобные тем, которые производят, ориентируясь на . Все суждения, должны носить уже в этом случае более осторожный характер.
Тем не менее, и выборочный коэффициент корреляции и парный коэффициент детерминации служат хорошим индикатором, позволяющим нам делать предположение о том, что зависимость между х и у имеет место, и она носит вид линейной функциональной зависимости.
Вернемся к парному коэффициенту детерминации. Если модуль выборочного коэффициента корреляции близок к 1, то из формулы (6) следует, что близок к 1 и . Таким образом, близость коэффициента детерминации или абсолютной величины выборочного коэффициента корреляции к 1, служит ещё одним основанием в поддержку предположения, что функция регрессии линейна.
При анализе модели парной линейной регрессии будем делать следующие предварительные выводы о качестве модели.
●Если Î[0; 0,09], то будем считать, что использование регрессионной модели для аппроксимации зависимости между у и х статистически необоснованно.
●Если Î(0,09; 0,49], то использование регрессионной модели возможно, но после оценивания параметров, модель подлежит дальнейшему многостороннему статистическому анализу.
●Если Î (0,49; 1], то будем считать, что у нас есть основания для использования регрессионной модели, при анализе поведения переменной у.
Пример 1. Вычислим коэффициент детерминации и сделаем предварительный вывод о качестве аппроксимации доходности акций компании Glenwood City Properties моделью линейной регрессии (пример 1).
Решение. Так как значение выборочного коэффициента корреляции нам уже известно, то для нахождения воспользуемся формулой (6):
=(0,593595)2.
И значение , и значение , говорят о слабой зависимости между доходностью рыночного индекса и доходностью акций указанной компании. Такая слабая зависимость обычно характерна для компаний с низкой рыночной капитализацией, которые не участвуют в формировании рыночного индекса. ▲
Так, например, индекс S&P 500 (Standard & Poors Stock Price Index) представляет средневзвешенную величину курсов акций 500 наиболее крупных компаний. Наиболее часто цитируемым рыночным индексом является индекс Доу Джонса (DJIA), основанный на показателях всего 30 акций. Впервые этот индекс был вычислен в 1884 как среднеарифметическое 11 акций, с 1928 для расчета индекса используется 30 ценных бумаг. Состав бумаг, входящих в индекс, периодически меняется.