Методы и модели интеллектуального автоматизированного контроля знанийРефераты >> Программирование и компьютеры >> Методы и модели интеллектуального автоматизированного контроля знаний
Однако, несмотря на 40-летний опыт применения этой системы тестирования за рубежом во многих областях знания, прежде всего в образовании, медицине и психологии, до сих пор продолжаются дискуссии об истинной ценности и эффективности системы тестирования на основе модели Раша. До сих пор существуют две крайние точки зрения на эту модель тестирования.
Наиболее убежденные сторонники модели Раша утверждают следующее: "Можно ли собрать или построить или сформулировать данные так, чтобы они соответствовали определению измерения (модели Раша)? Если нет, — то такие данные бесполезны".
Их наиболее последовательные оппоненты утверждают следующее: "Данные — это данные, а модель — это конструкция исследователя, которая подвержена ошибкам". Например, при построении регрессии, выбрасывая те или иные данные, можно получить любую зависимость, но мы тем самым ограничиваем реальный мир данных. Таким образом, мы создаем искусственную переменную, о которой мало что знаем.
Для практики одним из наиболее важных критериев является точность оценивания. Поэтому выбор темы в значительной степени обусловлен противоречивой информацией относительно точности системы тестирования на основе модели Раша. Кроме того, не удалось найти работы, в которых проведен всесторонний анализ точности модели Раша. В известных работах только даются те или иные общие рекомендации по использованию этих моделей.
Чем больше точность, тем лучше работает модель. В случае отсутствия ошибок измерения любая модель в смысле точности измерения работает идеально. Но на практике ошибки всегда есть и поэтому важно знать, насколько точные оценки позволяет получать та или иная модель.
На основе имитационного моделирования исследуются точность оценивания уровней знаний и трудностей заданий, а также число итераций, требуемых для вычисления этих оценок (методом наибольшего правдоподобия) в многофакторной ситуации в зависимости от:
· диапазона уровней знаний испытуемых;
· диапазона трудностей заданий;
· степени соответствия диапазонов уровней знаний испытуемых и трудностей заданий;
· числа испытуемых;
· числа заданий;
· степени соответствия данных модели;
· доли пропущенных данных.
Для статистической обработки результатов моделирования используется многофакторный дисперсионный анализ [14].
2.1.6 Абсолютная временная шкала измерения знаний
Знания являются абсолютной субстанцией: они либо есть, либо их нет. По крайней мере, так считается в любой форме традиционного оценивания знаний — как на выпускных экзаменах в школах, так и на вступительных экзаменах в вузы. Поэтому интересно проанализировать возможности абсолютных шкал оценки и при переходе к измерению знаний на основе тестов.
В данных исследованиях изучаются возможности так называемой «абсолютной временной шкалы оценивания знаний». Формулируются ее принципы. Формулируются этапы последовательного перехода от традиционной формы экзаменов к тестовой форме этого подхода, на их основе – требования к созданию тестовых материалов этого подхода.
Анализируется опыт использования данного подхода на вступительных экзаменах в Тверском государственном университете на протяжении 4-х лет.
Изучается диагностический потенциал данного подхода. Формулируется принцип «трехуровнего абстрагирования» для диагностических тестирований. Ниже показана «диаграмма знаний» по математике, полученная в результате обработки данных тестирования выпускников одной из школ г.Твери (75 учащихся).
Здесь цифры по окружности – номера тем по математике, по радиусам отложена «успешность ответов» учащихся по той или иной теме.
Как видно, тестирование с использованием абсолютной шкалы оценки имеет ценность диагностическую даже более, чем для итоговых экзаменов.
Изучается уровень достоверности результатов компьютерного тестирования в данном подходе и соотношение «случайного» и «достоверного» в итоговой оценке. На рисунках приведена зависимость (в данном подходе) итоговой оценки по математике от времени тестирования:
Как видно, за все время тестирования (40 минут) в первые 15 минут (первые 4 задания по математике) оценка менялась наиболее заметно. За последние же 10 минут итоговая оценка изменялась не более чем на 10 баллов — доля «случайного» в итоговой оценке.
Таким образом, при использовании абсолютной шкалы данного подхода существует возможность ответить на вопросы: 1) существует ли предел, к которому сходится итоговая оценка с увеличением времени тестирования (или количества заданий теста); 2) какова погрешность «измерения знаний» если прервать тестирование в некоторый определенный момент, например через 40 минут.
Еще одно очевидное преимущество абсолютной шкалы оценивания – итоговая оценка появляется на экране компьютера сразу же после выполнения теста испытуемым [15].
2.1.7 Методика статистического анализа качества обучения
Предлагаемая методика основывается на том, что учебный процесс является частным случаем технологического процесса и ему должны быть свойственны такие же методы анализа, какие приняты для производственных процессов. Однако слепо перенести подобные методики нельзя, особенно это касается содержательного анализа процесса.
Для того чтобы проанализировать учебный процесс нужно иметь, во-первых, критерий качества обучения, а, во-вторых, проследить его изменение во времени. В качестве наиболее информативного критерия качества обучения следует использовать степень обученности учащихся — СОУ. Этот критерий основан на статистике полученных учащимися оценок за выполнение отдельных заданий или контрольных работ. Оценки входят в СОУ с «весом» равным интегралу вероятности получения данной оценки для некоторого «типового» распределения оценок.
В качестве такого «типового» распределения используется стандартное распределение Гаусса с параметрами: среднее значение оценки — 4 и стандартное отклонение — 1,39 /1/. Такое распределение обладает одним особым свойством: для этого распределения значения СОУ и качественной успеваемости совпадают и составляют 0,64. Это свойство выделяет «типовое» распределение среди других распределений со средней оценкой 4.
Расчеты для «типового» распределения показывают, что если СОУ больше 0,76, то обученность «отличная», если СОУ от 0,5 до 0,76, то обученность «хорошая», если СОУ от 0,24 до 0,5, то обученность «удовлетворительная», если менее 0,24, то «неудовлетворительная».
Для оценки изменения СОУ во времени используется известная в математической статистике методика, связанная с критерием «3 s». Согласно этой методике, если какой либо процесс идет нормально, то отдельные значения должны укладываться в интервал «3s» относительно среднего значения (s — стандартное отклонение) с определенной точностью. Те значения, которые не укладываются в заданный интервал, являются отклонениями от стандартного распределения. Чем меньше таких отклонений, тем больше соответствие анализируемого распределения стандартному. Что касается применения этой методики для технологических процессов, то ее надо скорректировать — следует учитывать только те значения, которые выходят за нижнюю границу интервала.