Анализ тестовых материалов
Рефераты >> Математика >> Анализ тестовых материалов

- конкурентную (текущую) валидность;

- прогностическую валидность.

Текущая валидность оценивается по корреляции результатов данного теста с результатами других тестов или других внешних критериев.

Прогностическая валидность теста определяется как корреляция между результатами тестирования и некоторым внешним критерием, например будущими успехами испытуемых в профессиональной деятельности.

Конструктная валидность включает в себя все вышеперечисленные виды валидностей. Однако для ее определения необходимо наиболее точно описать конструкт (переменную), для измерения которой предназначен тест. Для этого необходимо:

- перечислить гипотезы, касающиеся данной переменной, с которыми должен коррелировать данный тест;

- перечислить гипотезы, касающиеся данной переменной, с которыми не должен коррелировать данный тест;

- выявить группы испытуемых, которые должны показывать низкие (или высокие) результаты при тестировании.

Оценка валидности теста является более сложной задачей, чем оценка надежности, поскольку основывается не только на работе с опытными данными, но и теоретическими концепциями построения тестов. При оценке валидности необходимо учитывать две основные характеристики. Первая – конгруэнтность тестового задания элементу содержания (оценка того, в какой степени тестовое задание измеряет элемент или аспект содержания, включенный в спецификацию). Вторая - технологическое качество теста, в том числе и его форма.

Конгруэнтность тестовых заданий. Для оценки данного параметра используется следующая процедура:

1) эксперты по содержанию данной дисциплины присваивают каждому тестовому заданию рейтинг, учитывающий степень соответствия (например, от 1- неудовлетворительная конгруэнтность до 5 - отличная),

2) проводится статистический анализ рейтингов и на его основе выдается заключение о конгруэнтности теста.

Другой метод оценки конгруэнтности тестовых заданий элементам содержания заключается в том, что экспертам выдается два списка – один с заданиями, второй с элементами содержания и целями тестирования. Задачей эксперта является установления соответствия задания элементу содержания из списка. Затем составляется таблица соответствия "задание-элемент содержания" и на основе исследования распределения на независимость данных в этой таблице оценивается степень конгруэнтности.

Оценка технологического качества тестовых заданий производится на основании экспертного заключения специалистов и в процессе непосредственного использования данных тестовых заданий.

Процедура тестирования предполагает анализ ответов на последовательность тестовых заданий определенной трудности. Следует отметить, что тестированиевозможно, если заранее определена трудность тестовых заданий, что предполагает их предварительную апробацию и обработку результатов с использованием методов дисперсионного анализа и теории тестирования для определения надежности, валидности, дифференцирующей способности и трудности. Кроме того, адаптивное тестирование можно проводить в случае, когда искусственно задан некоторый уровень сложности тестового задания Р, равный числу операций, которые надо осуществить для его правильного выполнения. Например, Р может быть равен числу формул необходимых для решения задачи, предлагаемой испытуемому системой тестирования.

В случае тестового контроля можно поступать следующим образом. Если ответ правильный, то предполагается, что уровень подготовки студента выше сложности предъявленной задачи, и он способен решать задачи заданной трудности, в противном случае — неспособен. В данном случае можно использовать следующий подход. Таким образом, функция «уровня знаний» является преобразованием функции «трудности» задачи через «способность решения задач» определенной «трудности». Исходный тест по предложенному модулю может быть предназначен для предварительного тестирования групп учащихся с целью приближенного определения уровня обученности группы по соответствующему модулю курса. Целесообразность контроля определяется оптимизацией процесса тестирования, так как нет необходимости давать легкие задания знающему студенту и сложные задания не достаточно хорошо подготовленному. Использование заданий, соответствующих уровню подготовки позволяет уменьшить время тестирования и повысить точность измерения уровня знаний.

В настоящее время выделяют три варианта контроля [2]:

- пирамидальное тестирование;

- flexi level-тестирование;

- stradaptive тестирование.

При пирамидальном тестировании на первом шаге всем испытуемым выдаются задания одинакового среднего уровня трудности, а затем в зависимости от ответов либо более трудное, либо более простое путем деления шкалы заданий пополам. Например, если банк заданий состоит из 21 упорядоченного по трудности задания, то тестирование начинается с 11 задания, а затем выдается либо шестое, либо шестнадцатое и т.д.

При flexi level-тестировании контроль начинается с любого уровня трудности заданий, а при stradaptive тестировании каждое последующее задание отличается от предыдущего на один шаг по трудности.

В статистической обработке ответов при аттестировании применяют IRT теорию, которая использует для моделирования вероятностей правильных ответов логистическую кривую. Проводя сравнительный анализ логистического и нормального распределений можно показать, что логистическое распределение очень хорошо аппроксимируется нормальным. В свою очередь нормальный закон является предельным случаем биномиального распределения. Этот факт можно формально интерпретировать так, что «уровень знаний» является долей решенных задач, так как число решенных из общего числа задач при заданной вероятности решения подчинено биномиальному распределению.

1.2. IRT – теория моделирования и параметризации

педагогических тестов.

Другая математическая модель контроля исходит из определения уровня обученности учащихся в зависимости от трудности заданий. Теоретической основой в данном случае является теория Item Response Theory (IRT) в сочетании с дидактическим принципом индивидуализации обучения. Целям дифференциации обучаемых служит построение индивидуальных кривых испытуемых по двухпараметрической модели A.Birmbaum.

Принципиальное отличие Item Response Theory от рассматриваемой теории Раша заключается в том, что в данном случае каждое тестовое задание рассматривается, как самостоятельная структурная единица, параметры которой не зависят от параметров других заданий.

В основе всех моделей Item Response Theory лежат так называемые функции успеха, имеющие заранее известный вид и определяющие зависимость верного решения задания от уровня подготовленности испытуемого. Для оценки параметров моделей Item Response Theory используют специальные итерационные методы, что является достаточно сложной задачей, однако эти модели имеют по сравнению с моделью Раша ряд преимуществ. В частности, для нанесения результатов на единую шкалу по различным вариантам теста нет необходимости вводить предположения об их параллельности. Следует отметить, что дисперсия ошибки измерения уровня подготовленности в модели Раша несколько больше, чем в Item Response Theory.


Страница: