Анализ тестовых материаловРефераты >> Математика >> Анализ тестовых материалов
Обычно ответ на вопрос о существовании связи между двумя наборами данных получают с помощью корреляции.
Корреляция в широком смысле означает связь между процессами.
Формула коэффициента корреляции [1]:
где - доля испытуемых, выполнивших правильно оба задания теста, т.е. доля тех, кто получил 1 по обоим заданиям; -доля испытуемых, правильно выполнивших j-ое задание,
а - т.е. доля испытуемых, неверно выполнивших или невыполнивших j-ое тестовое задание.
Для тематических тестов высокая корреляция между заданиями неизбежна, т.к. задания отражают слабо варьирующее исходное содержание, что вполне оправдано назначением теста.
В итоговых тестах высокой корреляции стараются избежать, поскольку вряд ли имеет смысл включать в итоговый тест несколько заданий, содержащих одинаковые содержательные элементы. В тестах такого типа значения коэффициента корреляции варьируются в интервале (0; 0,3) и каждое задание привносит свой специфический вклад в общее содержание теста.
При наличии больших выборочных совокупностей и так называемого нормального распределения баллов по всему тесту теоретически предпочтительнее рассчитывать другой вариант коэффициента корреляции Пирсона, который называется, point - biserial коэффициентом корреляции [3]
,
где приняты следующие обозначения: - среднее значение индивидуальных баллов, выполнивших верно j-ое задание теста; - среднее значение индивидуальных баллов испытуемых, выполнивших неверно j-ое задание теста; - стандартное отклонение по множеству значений индивидуальных баллов; - число испытуемых, выполнивших верно j-ое задание теста; - число испытуемых, выполнивших неверно j-ое задание теста; N – общее число испытуемых.
Стандартное отклонение характеризует меры изменчивости распределения результатов и выражается формулой:
,
где Dx – дисперсия.
Подсчёт дисперсии основан на вычислении отклонений каждого показателя от среднего арифметического в распределении.
Дисперсия играет важную роль в оценке качества тестов. Слабая вариация результатов испытуемых указывает на низкое качество теста.
Низкая дисперсия индивидуальных баллов говорит о слабой дифференциации испытуемых по уровню подготовки в тестируемой группе.
Излишне высокая дисперсия требует переработки теста. Превышение разумных пределов величины дисперсии приводит к искажению вида распределения, которое начинает существенно отличаться от планируемой теоретически нормальной кривой.
Стандартное отклонение является полезной мерой вариации для случая нормального распределения баллов испытуемых, так как заранее приблизительно известно, какой процент данных лежит внутри одного, двух и трёх стандартных отклонений, откладываемых от центра распределения.
Точечно-бисериальная корреляция является значимой, если:
.
При практических вычислениях считается приемлемым, если коэффициент точечно-бисериальной корреляции имеет значение больше или равное 0,5.
Оценка валидности задания позволяет судить о том, насколько задание пригодно для работы в соответствии с общей целью создания теста. Если эта цель – дифференциация учеников по уровню подготовки, то валидные задания должны чётко отделять хорошо подготовленных от слабо подготовленных учеников тестируемой группы. Чем ближе точечно-бисериальный коэффициент корреляции к 1, тем эффективнее это задание позволяет дифференцировать участников по уровню их подготовленности.
Решающую роль в оценке валидности играет разность , находящаяся в числителе дроби формулы. Чем выше значение этой разницы, тем лучше работает задание на общую цель дифференциации испытуемых, выполняющих тест. Значения, близкие к 0, указывают на низкую дифференцирующую способность теста. В том случае, когда в разности доминирует вклад , а не , то задание следует просто удалить из теста. В нём побеждают слабые ученики, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Таким образом, подлежат выбросу все задания, у которых < 0.
Для увеличения надежности тестов можно использовать способы, рекомендованные в работах В.С.Аванесова, М.Б.Челышковой и других исследователей. Сущность этих способов заключается в следующем:
- необходимо провести анализ каждого тестового задания на соответствие его формы и содержания основам тестовой теории.
- необходимо по возможности стремится к большому числу заданий в тесте, так как это способствует повышению качества теста и его надежности.
- желательно удалить из теста задания, плохо различающие подготовленных и неподготовленных учащихся, плохо сформулированные и вводящие в заблуждение тестируемых.
- предпочтительнее использовать в тесте задания в закрытой форме, что существенно уменьшает влияние случайного угадывания.
Напомним, что под валидностью теста подразумевается его способность измерять именно те характеристики для измерения которых он был разработан. На практике различают несколько видов валидности:
- содержательную валидность;
- критериальную валидность;
- конструктную валидность.
Содержательной валидностью должны обладать все диагностические материалы, применяемые для контроля знаний. Тест обладает содержательной валидностью, если в нем адекватно отображены все основные аспекты исследуемой области содержания. Оценка содержательной валидности осуществляется на основе анализа конгруэнтности и технологических качеств теста. Иногда для оценки содержательной валидности используют метод “дублирования”. Сущность метода заключается в том, что двум группам разработчиков тестов выдаются одинаковые планы области содержания и целей тестирования, одинаковые спецификации тестовых заданий и т.д. Проверка эквивалентности тестов и их содержательной валидности осуществляется путем сравнения результатов тестирования на одной и той же выборке испытуемых. Близость полученных результатов свидетельствует о хорошей содержательной валидности.
Критериальная валидность – это степень соответствия между результатами тестирования и внешними критериями. Примером критериальной валидности может, например, служить корреляция результатов вступительных экзаменов с успехами студентов на первом курсе, т.е. результаты вступительного тестирования являются валидными, если коэффициент их корреляции с успехами студентов высок. Критериальная валидность подразделяется на: