Лекции по математической статистикеРефераты >> Математика >> Лекции по математической статистике
Двумерное нормальное распределение
Если при исследовании появляется вопрос о связи между двумя переменными для одного и того же объекта (например, рост и интеллект) мы говорим о двумерных связях и результаты эксперимента находят свое отражение в двумерном распределении частот.
Уравнение поверхности называется двумерным нормальным распределением (гладкая непрерывная колоколообразная поверхность)
Характеристики нормального распределения
· Распределение значений x без учета значений y есть нормальное распределение;
· Распределение значений y без учета значений x, тоже нормальное распределение;
· Для каждого фиксированного значения x значение y дают нормальное распределение с дисперсией ;
· Для каждого фиксированного значения y значение x распределяется нормально с дисперсией ;
· Среднее значения y для каждого отдельного значения x ложатся на переменную.
Меры изменчивости
При решении вопроса о наличии взаимосвязи (корреляции) между двумя переменными, руководствуются несколькими коэффициентами. Связь, выраженная графически, называется диаграммной рассеивания, где x – оценка IQ, y – оценка теста по математике.
Положение каждого объекта на диаграмме распределения определяется парой значений xi, yi и выражаются по отношению к мере центральной тенденции величинами , . Если объект имеет высокие показатели по обеим переменным, то эти величины получаются большими и положительными, в противном случае, если xi, yi малы, то разность большой и отрицательной.
В дальнейшем будем говорить о произведении этих разностей и в том случае когда наблюдается прямая связь между этими переменными, произведение будет большим и положительным, следовательно такой же будет и сумма этих произведений .
В случае обратной связи, когда большим значениям yi соответствуют малые значения xi и наоборот, в этом случае произведение разностей будет большим и отрицательным и сумма разностей также будет большой и отрицательной.
Если между переменными не наблюдается какой-либо связи , количество положительных и отрицательных произведений примерно рано и сумма их близка к нулю. Таким образом большая положительная сумма – жесткая прямая зависимость; большая отрицательная сумма – сильная обратная зависимость; близость к нулю – отсутствие зависимости.
Недостатком этой меры является то, что ее величина зависит от числа пар переменных x участвующих в расчетах.
Чтобы избежать связь независимого состояния V групп, мы усредняем эти значения:
- ковариация
Частный случай, ковариация переменной с самой сабой – дисперсия
Чтобы избавить меру связи от отклонений двух групп значений:
- коэффициент кореляции Пирсона или произведение моментов.
Значение коэффициента Пирсона не может выйти за границы интервала (-1; 1).
Влияние линейного преобразования переменных на коэффициент кореляции
Вместо xi вводим в формулу bx+ a, где a, b – коэффициенты, для yi вводим в формулу dy+ c, где c, d – коэффициенты.
Вопрос о кореляции между переменными будучи решен положительно не означает наличия более общего вида связи (заработная плата учителям и количество поступивших в ВУЗы после окончания школы). Если мы проводим идентификацию групп с различным средним, наличие кореляции не исключено, но возможно другое объяснение взаимосвязи, чем вытекающее их эксперимента. Отсутствие связи при нулевом коэффициента Пирсона означает всего лишь отсутствие линейной связи.
Дисперсия суммы и разности переменных
Предсказание и оценивание
Переменная, которую мы хотим оценить называется зависимой переменной или откликом , обозначим ее через y.
Переменная которую мы используем для оценки называется независимой переменной или фактором, ее обозначим через x.
Конкретная характеристика (переменная x) имеющаяся в нашем распоряжении, позволяет получить до проведения эксперимента значение y, зависимой переменной. Мы получаем используя xi и коэффициенты b1 и b0.
Даже при наилучшем линейном предсказании, предсказание будет отличаться от реального yi на какую-то величину, которую мы назовем ошибкой оценки и обозначим ei:
Точность предсказания зависит от того, насколько удачно подобраны коэффициента b1 и b0. Критерием успешности подбора коэффициентов является минимальная величина суммы квадратов всех ошибок оценки – критерий наименьших квадратов
Другой критерий: . Этот критерий приводит к медианой линии регрессии. Из уравнения следует
Исходя из минимизации формулы наименьших квадратов найдем формулы:
;
Наше исследование получается наиболее результативным, если мы предполагаем, что фактор и отклик имеют двумерные нормальные распределения.
Свойства двумерного нормального распределения
1. Выборочные средние отклика (y) для каждого значения x лежат на прямой;
2. Для любого значения x, соответствующие значения y нормально распределены;
3. Для любого значения x, y – имеют одинаковую дисперсию .
При прогнозировании является ли среднее ошибок оценки подходящей мерой для прогнозирования.
Средняя ошибка оценки всегда равна нулю. Один из способов доказать этот факт, это выбрать в качестве меры прогнозирования дисперсию ошибки оценки.