Загальне
Бахрушин В.Е., Игнахина М.А.
Классический приватный университет, г. Запорожье
Оценивание результатов тестирования при работе в Moodle
Современная методология образовательных измерений предъявляет ряд требований к процедурам разработки тестов [1 - 3]. Однако многие разработчики не задумываются о необходимости их соблюдения. Это может приводить к грубым ошибкам при определении результатов контроля. Вместе с тем, во многих случаях невозможно выполнить требование о предварительной апробации тестовых заданий и включении их в тест с учетом не только тематической группировки, но и предварительно определенных психометрических показателей. Несмотря на то, что в Moodle имеется возможность получить необходимые данные статистического анализа результатов тестирования, нередко задания теста и его композиция систематически корректируются с целью устранения выявляемых недостатков, из-за изменений программ курсов и других причин. В таких случаях психометрические характеристики оказываются не вполне достоверными из-за неоднородности данных или малых объемов выборок, по которым их рассчитывают.
Существуют некоторые методические различия между нормативно и критериально ориентированными тестами, которые сложно учесть при работе в Moodle. В первом случае ставится задача ранжирования тестируемых, а во втором - установления их соответствия одной из групп уровней подготовки, которые формируются в соответствии с заранее заданными критериями. На практике часто решают смешанную задачу, т.е. устанавливают один или несколько порогов успешности, а в рамках полученных классов выполняют ранжирование тестируемых. Примером реализации такого подхода является новая методика определения результатов внешнего независимого оценивания в Украине.
Важным требованием к тестам является обеспечение необходимого уровня качества, как теста в целом, так и отдельных его заданий. Для теста - это его валидность и надежность, а также средний балл, стандартное отклонение среднего балла, статистическое распределение результатов и ряд других характеристик. Валидность теста характеризует соответствие результатов оценивания поставленной цели. Различают несколько ее разновидностей, в т. ч. конструктную, содержательную и прогностическую. Очевидно, что показатели валидности должны приниматься во внимание при определении итоговых оценок за выполнение тестов. Однако, они не могут рассчитываться автоматически в Moodle, поскольку для этого необходимо использование дополнительной информации. Надежность теста характеризует воспроизводимость его результатов при соблюдении одинаковых условий тестирования. Она непосредственно влияет на статистическую погрешность итоговой оценки. В Moodle реализованы расчет надежности (как внутренней согласованности) и оценивание статистической погрешности для наилучшего результата. Просмотр этих данных доступен в режиме редактирования теста при выборе в меню: Управление тестом - результаты - статистики. Потенциально возможно оценивать и т.н. ретестовую надежность, поскольку необходимые для этого данные в базе результатов тестирования имеются. Средний балл и его стандартное отклонение тесно связаны с разрешающей способностью теста, т. е. с его способностью разделять студентов (учащихся) с существенно различными результатами его выполнения. Статистическое распределение результатов влияет на точность оценивания указанных характеристик теста и показателей качества тестовых заданий. Это обусловлено тем, что многие из них рассчитываются в рамках модели нормального распределения. В статистике результатов приводятся средние баллы и медианные оценки, коэффициенты асимметрии и эксцесса распределения, а также гистограмма распределения результатов тестирования.
К основным показателям качества заданий относятся их сложность, коэффициент корреляции и индекс (коэффициент) дискриминации. Соответствующие показатели приводятся в Moodle в статистиках тестов. Сложность задания можно оценить как отношение набранных всеми участниками баллов за выполнение этого задания к максимально возможному результату. Нередко, уже после выполнения теста, оказывается, что часть заданий была слишком легкой, а часть - слишком сложной для тестируемых. В нормативно ориентированных тестах наличие слишком легких заданий нежелательно, т.к. они не влияют на результат ранжирования. В критериально ориентированных тестах такие задания могут служить для установления нижнего порога успешности. Т.е. характеризовать тот необходимый минимум знаний, который должен продемонстрировать каждый из тестируемых. И в том, и в другом случае наличие таких заданий надо учитывать при определении итоговой оценки за выполнение теста.
Сложные задания можно вводить в критериально ориентированный тест для задания верхнего порога успешности, т.е. для выделения наиболее подготовленной части тестируемых. В нормативно ориентированном тесте небольшое число сложных заданий может использоваться для повышения разделительной способности теста в группе лучших студентов (учащихся). Однако в обоих случаях таких заданий не должно быть много. Если в тесте имеются очень сложные задания, которые практически никто не выполняет, то возникает необходимость учитывать это в формуле для расчета итоговой оценки.
Значительная часть тестовых заданий - это задания закрытого типа, для которых имеется вероятность угадывания правильных ответов. В наиболее типичных случаях, когда студентам (учащимся) предлагают выбрать один правильный вариант из 3 - 5 предложенных, эта вероятность варьируется от 20 до 33%. Поэтому возникает необходимость учитывать ее, как при определении итоговой оценки, так и при оценивании психометрических показателей отдельных заданий. В частности, нижний порог успешности выполнения теста не должен быть меньшим, чем среднее число баллов, которые могут быть набраны тестируемыми путем случайного выбора вариантов ответов. На практике ситуация усложняется тем, что часть из них делает выбор из всех имеющихся вариантов, а часть отбрасывает варианты, которые считает неприемлемыми, и делает выбор из оставшихся. Поэтому оценивание успешности выполнения каждого задания требует анализа статистики распределения выбора вариантов ответов. Такие данные можно получить, если в статистике теста выбрать информацию по конкретному заданию. Однако для анализа требуются достаточно большие выборки результатов, полученных в одинаковых условиях, что не всегда возможно при проведении тестирования в Moodle.
Коэффициент корреляции и индекс (коэффициент) дискриминации задания характеризуют связь между результатами его выполнения отдельными тестируемыми и их оценками за тест в целом. При этом для расчета коэффициента корреляции принимают во внимание все имеющиеся результаты, а при расчете показателей дискриминации, как правило, сравнивают результаты 1/3 лучших и худших участников. Обычно считают, что коэффициент корреляции качественных заданий не должен быть меньшим, чем 0,5. С точки зрения смысла показателя, это означает, что примерно 25% наблюдаемой статистической связи определяются реально существующей связью показателей, а остальное - случайными факторами. Однако на практике, даже в тщательно разрабатываемых тестах уровня ВНО встречаются задания с намного меньшими коэффициентами корреляции.
Причинами низких значений коэффициентов корреляции могут быть слишком высокие легкость или сложность задания, несоответствие задания цели тестирования (нарушение содержательной валидности), ошибки в формулировках заданий или вариантов ответов к ним. В связи с этим, при конструировании формулы оценки необходимо анализировать показатели корреляции и дискриминации и причины низких значений этих показателей. Задания, содержащие ошибки, не должны учитываться при определении оценки. Исключением может быть ситуация, когда для исправления ошибки достаточно изменить баллы, которые начисляются за разные варианты ответов, или варианты правильных коротких ответов в заданиях открытого типа. Также необходимо учитывать, что в отдельных случаях низкие коэффициенты корреляции могут быть у качественных заданий, которые успешно выполняют хорошо подготовленные студенты (учащиеся), но плохо выполняют все остальные. В нормативно ориентированных тестах такие задания могут способствовать повышению разделительной способности для группы сильных участников, а в критериально ориентированных - они помогают отделить эту группу от более слабых участников.
Одной из наиболее распространенных ошибок при определении итоговых результатов тестирования является использование т. н. «сырых» тестовых баллов в качестве итоговых оценок. Даже при наличии качественного теста для получения итоговых оценок необходимо шкалирование результатов, т.е. перевод «сырых» баллов в тестовую шкалу. Однако, оценки за выполнение тестов в Moodle - это именно сырые баллы.
Процедура шкалирования применяется для приведения тестовых оценок к стандартизированному виду и обеспечения сопоставимости с другими оценками, которые используются в формуле определения итоговой оценки по дисциплине или модулю. Простейшей является методика, в которой итоговый балл теста определяют как выраженное в процентах отношение набранного «сырого» балла к максимально возможному значению. Это может быть удобно, если формула итоговой оценки предполагает, что все текущие оценки равноценны, и все задания оцениваются в шкале 0 - 100 баллов. Однако, в большинстве случаев такой подход неприемлем. Это связано с тем, что из-за различной сложности заданий, различной корреляции правильных ответов на них с успешностью выполнения теста в целом, различной доли угадывания в результатах ответов на разные задания и других причин «сырые» баллы не эквивалентны между собой. Традиционные методы шкалирования, основанные на Z-преобразовании, эквипроцентильном преобразовании и т. д., предполагают наличие достаточно больших массивов результатов и используются обычно при массовых тестированиях.
В связи с этим нами для использования в Moodle предлагается относительно простая методика шкалирования, основанная на кусочно-линейном преобразовании «сырых» баллов. В этом случае первичная шкала разбивается на несколько участков с помощью пороговых значений, разделяющих качественно разные группы. В частности, нижний порог может разделять положительные и отрицательные оценки. Дополнительно могут быть введены пороги для выделения отличных и хороших результатов. Увеличение числа порогов нецелесообразно, т.к. оно не приводит к существенному улучшению качества шкалирования, но заметно повышает его трудоемкость. Определение порогов может быть осуществлено с учетом вероятности угадывания (для заданий закрытого типа) и психометрических показателей тестовых заданий. Процедуру шкалирования можно выполнять, используя конструктор формул для оценок промежуточного или итогового контроля.
Список использованных источников
- Ким В.С. Тестирование учебных достижений / В.С. Ким — Уссурийск: Издательство УГПИ, 2007. — 214 с.
- Челышкова М.Б. Теория и практика конструирования педагогических тестов / М.Б. Челышкова — М.: Логос, 2002. — 432 с.
- Бахрушин В.Є. Статистичний аналіз тестів ЗНО 2009-2011 / В.Є. Бахрушин, О.М. Горбань, М.О. Ігнахіна // Вища освіта України. Тематичний випуск «Вища освіта України в контексті інтеграції до Європейського освітнього простору». — 2012. — Додаток 2 до № 3, Т. 3 (28). — С. 29-35.