Анализ тестовых материаловРефераты >> Математика >> Анализ тестовых материалов
Полезен зарубежный опыт выпуска общественными ассоциациями десятка специализированных журналов по разработке тестов, таких как Journal of Educational Measurement, Educational and Psychological Measurement, Psychometrika и т.п., а также опыт подготовки сотен монографий, учебных пособий, диссертаций по тестам и педагогическим измерениям
Наиболее подходящим для измерения латентных качеств является тест. В западной и российской литературе уделяется мало внимания определению теста. Педагогический тест - система заданий возрастающей трудности, специфической формы, позволяющая эффективно измерить уровень и оценить структуру результатов подготовленности испытуемых. Это определение гомогенного теста,т.е. измеряющего только одно интересующее качество. Из данного определения вытекает, что тест, как система, обладает целостностью, эффективностью (включающей в себя критерии качества результатов измерений), составом и структурой.
Возникла необходимость нового истолкования сущности теста. Во-первых, надо уходить от преднамеренного пересечения тестовой лексики с традиционной педагогической лексикой экзаменов и вопросов. Во-вторых, в определении теста на русском языке надо специально подчеркивать, что тест не только метод, но и результаты измерения. Отсюда и фактическая секретность подлинных данных ЕГЭ – верный признак движения государства к закрытости.
Свойства метода могут переноситься на свойства результатов, а могут, в силу множества источников погрешностей, и не переноситься. К этому необходимо добавить ещё один элемент: педагогический тест – это метод, результаты, и интерпретация результатов.
Такое истолкование сути теста позволяет по-новому взглянуть на перспективы развития тестовой культуры, особенно в связи с попытками создания так называемых «критериально-ориентированных тестов». На самом деле вопрос лучше ставить не о «тестах», а об интерпретации данных тестирования в зависимости от того или иного критерия. Тест может быть один, а интерпретации результатов – разные.
Исходя из этого была поставлена цель: оценить качество тестовых заданий на основе статистических методов анализа данных и методов IRT.
Предметомисследования являются способы и методы диагностики тестовых заданий по результатам тестирования.
Задачи работы:
1. Изучить предметную область по оценке качества тестов;
2. На основе классических методов и однопараметрической модели Раша выполнить исследование результатов тестирования;
3. По итогам исследования провести анализ и интерпретацию результатов
Базой исследования послужили результаты тестирования студентов ТюмГУ ИМиКН 4 курса (группы 323, 324, 325-1, 325-2, 325-3, 325-4; всего 124 человека), полученные в марте – апреле 2006г.
Глава 1. Модели и методы оценки качества тестовых заданий.
Выделяют пять общих требований к тестам контроля знаний [3]:
- валидность;
- определенность (общепонятность);
- простота;
- однозначность;
- надежность.
Валидность теста – комплексная характеристика теста, отражающая его способность измерять именно то, для чего он предназначен. Характеризует возможности генеральной совокупности заданий в тестируемой области знаний несмещенно оценить объект измерений теста. Различают содержательную и критериальную (функциональную) валидность: первая – это соответствие теста содержанию контролируемого учебного материала, вторая – соответствие теста оцениваемому уровню деятельности.
Выполнение требования определенности (общедоступности) теста необходимо не только для понимания каждым учеником того, что он должен выполнить, но и для исключения правильных ответов, отличающихся от эталона.
Требование простоты теста означает, что тест должен иметь все задания примерно одного уровня сложности, т.е. он не должен быть комплексным и состоять из заданий разного уровня сложности.
Однозначность определяют как одинаковость оценки качества теста разными экспертами. Для выполнения этого требования тест должен иметь эталон.
Требование надежности заключается в обеспечении устойчивости результатов многократного тестирования одного и того же испытуемого.
При реализации систем тестирования необходимо придерживаться именно этих пяти требований к создаваемым тестам. Однако реализация описанных выше условий к тестам еще не означает того, что созданный комплекс будет отвечать всем требованиям, предъявляемым к системам тестирования
Одним из ключевых моментов диагностики знаний является необходимость не только оценивать уровень знаний испытуемых, но и анализировать качество диагностических материалов, что необходимо для адекватной оценки знаний.
Понятие качества диагностических материалов включает в себя оценку их надежности и валидности, являющихся одними из важнейших характеристик педагогических измерений. Надежность теста – это характеристика методики, отражающая точность измерения и устойчивость результатов к воздействию посторонних случайных факторов. Надежность теста связана с понятием стандартной ошибки, чем выше надежность, тем меньше стандартная ошибка измерений. Существует несколько различных понятий надежности диагностического теста и соответственно методов ее определения :
- надежность параллельных форм;
- ретестовая надежность;
- надежность расщепленных частей теста.
Надежность параллельных форм – характеристика, получаемая с помощью параллельных форм (вариантов) теста, проведенных на одной и той же выборке испытуемых. Корреляция результатов обоих тестов является показателем надежности. В реальной ситуации доказать параллельность двух форм (вариантов) теста или провести повторное тестирование с соблюдением одинаковых условий не представляется возможным.
Ретестовую надежность определяют при повторном использовании того же самого теста спустя некоторый промежуток времени. Однако, любой испытуемый, проходя тестирование, всегда получает дополнительные знания, анализируя свои результаты. Поэтому, ретестовая надежность так же не может считаться абсолютно объективным показателем.
Надежность расщепленных частей теста исследуется путем анализа устойчивости результатов отдельных совокупностей тестовых заданий при однократном тестировании. По-сути, данный способ является некоторой модификацией способа исследования надежности параллельных форм, однако он более технологичен и поэтому получил более широкое распространение.
1.1. Классические методы оценки качества тестовых
заданий.
Согласно классической теории тестов [8] наблюдаемый тестовый балл X можно представить в виде суммы двух компонент: истинного Т и Е – связанного с угадыванием, неправильным пониманием смысла задания и т.д.
Х = Т + Е
Дисперсия наблюдаемых тестовых баллов состоит из дисперсии истинной компоненты и дисперсии ошибочной компоненты :