Реферат: К вопросу о компьютерных программах учебного контроля знаний

Б.Х.Кривицкий, Высшая школа факультета психологии Московского государственного университета им. М.В.Ломоносова

Вводные замечания

Вопросы компьютерного контроля представляют большой интерес для преподавателей вузов и создателей средств реализации такого контроля. Интерес в значительной мере побуждается настойчивым внедрением Единого государственного экзамена для выпускников средних школ и зачислением в вуз по результатам этого экзамена. Между тем, вопросы компьютерного контроля недостаточно широко освещены в теоретическом плане, и интерес к ним обычно реализуется в большинстве случаев путем создания очередной программы компьютерного контроля с заранее составленным набором контрольных заданий. Однако, в области компьютерного контроля еще не все так очевидно, как представляется с первого взгляда. Имеются некоторые важные вопросы, которые либо освещены в малодоступной литературе, либо проработаны недостаточно прозрачно. Цель настоящей статьи состоит в привлечении внимания вузовских преподавателей к компьютерному контролю и ознакомлению преподавателей с ключевыми проблемами в этой области.

Рассмотрены три подхода к организации компьютерного контроля: традиционный, основанный на модели Раша и предлагаемый с учетом трудности заданий и случайным выбором. Статья написана на весьма доступном математическом уровне, в расчете на преподавателей различных специальностей, в том числе гуманитарных дисциплин. Также приводятся основные требования, которые желательно предъявлять к компьютерным программам контроля с тем, чтобы обратить внимание разработчиков на дидактические проблемы, связанные с разработкой программ такого назначения.

Особенности и ограничения компьютерного контроля знаний

Известно, что у учебного контроля много педагогических функций. При рассмотрении компьютерных средств контроля имеется в виду только одна из них, а именно, – проверочная (контрольная). Целью контроля является при этом установление уровня знаний контролируемого лица, в упрощенном понимании – выставление отметки за знания. Более широкую оценку знаний с помощью компьютерного контроля произвести затруднительно в силу специфических ограничений, накладываемых компьютером на возможность создания ответа на поставленный вопрос. Речь в дальнейшем пойдет только об обычных системах контроля знаний, без анализа особенностей интеллектуальных программ контроля.

Создание ответа на поставленный в задании при проведении контроля вопрос в обычных системах невозможен путем анализа семантики ответа, выполненного в произвольной речевой форме. Обычные компьютерные программы контроля могут только сопоставлять введенный ответ с кодом, характеризующим правильный ответ. Результатом такого сопоставления является фиксация совпадения или несовпадения. В большинстве программ совпадению приписывают единицу (ответ правильный) или 0 (ответ неправильный) когда совпадения нет. Конечно, возможна также фиксация отказа от ответа. Однако этот отказ является неинформативным и, как правило, не используется.

Нетрудно представить себе, сколь велико и принципиально указанное ограничение. Интеллектуальные программы, в которых возможно реализовать выявление семантики ответа в настоящее время распространения не получили в силу сложности программ и других трудностей, часто принципиального характера.

Перечислю основные типы ответов, которые достаточно просто можно реализовать в рамках проверки кодированного ответа.

Выборочный ответ. Вопрос (задание) формулируется так, что на него можно привести набор вариантов ответов, каждый из которых обозначается кодом (цифрой, символом, набором символов, картинкой и т.п.). Среди предлагаемых вариантов ответов может быть один правильный, хотя бы один верный, несколько верных, причем требуется указать либо все верные, либо их нужное число. Иногда форму выбора ответа усложняют, предлагая контролируемому лицу составить некоторый набор из нескольких групп, в каждой из которых следует выбрать ту или иную компоненту из представленного в каждой группе набора. Программа сопоставляет введенный код с кодом, размещенным в памяти программы компьютера и фиксирует ответ в бинарной системе.

Числовой ответ. Требуется решить задачу или произвести некоторые действия, в результате которых должно получиться число. Компьютер производит сверку введенного числа с числом в памяти компьютера. При этом в ответе удерживается нужно число знаков.

Проверка простой формулы. Ответ требуется ввести в виде не очень сложной формулы, правильность которой можно сверить простым способом, например сопоставлением результатов вычислений по введенной и правильной формулам. Во введенную и првильную формулы программой проверки обычно подставляются случайные числа.

Проверка логической формулы. В ответ на поставленный вопрос вводится некоторая последовательность слов или выражений, проверку наличия или отсутствия которых можно произвести с помощью заранее введенной в программу логической формулы.

Проверка слова, последовательности слов или других символов, вводимых в ответ, сформулированный в виде открытого вопроса с пропуском этих слов, которые требуется ввести испытуемому.

Перечисленные возможности сильно ограничивают дидактические возможности проверки правильности ответа и существенно влияют не выбор тех видов учебной деятельности, в которых можно применять компьютерную форму проверки. Действительно, такого рода проверка допустима (и широко используется) при оперативном или текущем контроле, возможна – при рубежном контроле, а также применяется для предварительного в более значимых видах учебного контроля, например, итоговом. Очевидно, что эти ограничения в значительной мере уменьшают уверенность в том, что результаты контроля адекватно отражают действительные знания контролируемых, что очень важно при выпускном контроле или вступительных экзаменах в вуз. Именно различия в психической деятельности индивидуума при создании им ответа на поставленный вопрос или при выборе нужного ответа из множества предложенных вариантов, не позволяют сделать контролирующему лицу выводы о характерных особенностях мыслительной деятельности и степени сформированности знаний по учебной дисциплине у испытуемых. Недаром многие руководители ведущих вызов страны возражают против такого способа отбора абитуриентов в вузы. Не буду углубляться в обсуждение вопроса о значимости, достоинствах и недостатках Единого государственного экзамена, в котором предполагается широкое применения компьютерных программ проверки знаний. Это отдельный дискуссионный вопрос, который является актуальным и пока не имеет однозначного научно обоснованного ответа.

Подходы к составлению компьютерных программ контроля

Здесь будут рассмотрены особенности подходов к созданию набора контрольных заданий для организации компьютерного контроля знаний. Такие наборы часто именуются тестами (предметно-ориентированными тестами), хотя между набором заданий и тестом имеются существенные отличия. Вопрос о том, при выполнении каких условий набор можно считать тестом, широко обсуждался в журнале «Вопросы тестирования в образовании». В частности, сошлюсь на обстоятельную статью А.И.Самыловского [Самыловский А.И., 2001]. Замечу лишь, что набор заданий, претендующий на наименование теста, должен, по меньшей мере, удовлетворять требованиям валидности и надежности . Для проверки претензий набора заданий на тест, существенную роль играют статистические испытания. Но педагогические статистические испытания почти невозможно производить в однородных условиях. Это обусловлено не только неправомерностью повторных предъявлений одних и тех же заданий одному и тому же составу проверяемых, но и вообще теоретической невозможностью обеспечить статистическую устойчивость (повторяемость) педагогических экспериментов. Тем не менее, выводы и методы теории статистки можно использовать в педагогике. Сошлюсь здесь на известную книгу Дж.Гласса и Дж.Стэнли «Статистические метолы в педагогике и психологии» [Гласс Дж., Стэнли Дж., 1976].

Возможны несколько подходов к составлению наборов тестовых заданий, которые могут быть заложены в компьютерную программу. Рассмотрим два известных и один предлагаемый подходы.

А) Традиционный подход

Этот подход подробно описан в работах В.С.Аванесова [Аванесов В.С., 1989; Аванесов В.С., 1991] и книге Г.А.Атанова [Атанов Г.А., 2002] и И.Н.Пустынниковой [Пустынникова И.Н., 2001]. Для полноты представлений, кратко рассмотрю процедуру составления набора заданий без детального представления математических выкладок. При регистрации результатов выполнения каждого из набора заданий в дихотомической системе (успех – единица, неуспех – ноль) принципиальным является вопрос об одинаковой сложности (трудности) предъявляемых заданий, т.е. о составлении набора равнотрудных заданий. Только такой набор может правильно отражать результаты проверки испытуемых. С точки зрения статистики можно представить, что имеется однородная по трудности гипотетическая генеральная совокупность, из которой произведена невозвратная выборка, составляющая данный набор заданий. Поскольку никакой априорной уверенности в составленном так наборе заданий об однородности нет, нужно произвести некоторую селекцию заданий, исключив из набора те, которые имеют «выпадаюшую из ряда» трудность. Как это сделать? Для этого проводится эксперимент, состоящий из предъявления значительной группе учащихся достаточно большого набора заданий. Очень было бы хорошо, чтобы группа была однородна по подготовке. Поскольку такой уверенности также нет, хорошо бы произвести много повторных испытаний с различными группами. Однако, в традиционном подходе по понятным причинам ограничиваются одной группой. По результатам проверки составляется таблица, в которой имеется столбец списка участников, столбцы с перечнем номеров упражнений и результатами испытаний, т.е. нулями и единицами расставленным по строкам списка. Для удобства таблицу дополняют строкой суммарных отметок по столбцам (по каждому упражнению) и столбцом суммарных результатов по каждому испытуемому. Далее эта таблица подвергается «чистке»: из нее удаляются упражнения, «выпадающие» по трудности из ряда остальных. Первоначально производится простое сопоставление результатов для всех упражнений. Если для какого-либо упражнения ответы почти всех испытуемых были равными единице, т.е. результат явно превосходит результаты испытаний для остальных упражнений, значит это упражнение явно легче остальных, обладает малой селективностью и должно быть удалено из перечня. Аналогично, если суммарный результат испытаний некоторого упражнения близок к нулю (имеет малое значение), упражнение слишком трудное. Оно также не селективно, и его также следует удалить.После этого первоначального этапа производится дальнейшая «чистка» таблицы.

Сравниваются результаты, полученные для каждого упражнения (ряд нулей и единиц каждого столбца) с числами последнего столбца, где записаны суммарные данные. Те упражнения, которые не коррелируют с данными последнего столбца, также следует удалить. Мерой сравнения служит коэффициент корреляции Пирсона, который записывается в добавляемой для этого нижней строке таблицы для каждого упражнения. Отбрасываются те задания, коэффициент корреляции для которых меньше по абсолютному значению 0,3 (такова условная норма). На этом чистка не завершается. Следующий этап состоит в вычислении коэффициентов корреляции Пирсона между столбцами таблицы: каждого задания с каждым из всех остальных, т.е. первого столбца с самим собой (это 1), со вторым, третьим и т.д. Второго с первым, вторым и т.д. По этим коэффициентам строится корреляционная матрица. Она квадратная, симметрична, с единицами по главной диагонали.

Далее вычисляются средние коэффициенты корреляции для каждого из заданий (столбцов), которые сравниваются между собой. Из матрицы удаляются те столбцы, для которых средний коэффициент корреляции «выпадает» из ряда, т.е. значения которых не коррелируют с остальными и их коэффициент корреляции меньше 0,3.

В результате получается новая таблица, по которой строится новая корреляционная матрица,– и так до разумных пределов. Полученная окончательная таблица претендует на наименование теста. Ее нужно только проанализировать на надежность. Для этого проверяют, насколько коррелируют между собой суммарные результаты, полученные по отдельным (равным по размерам) частям «очищенной» таблицы, например четным и нечетным столбцам или левой и правой половинами таблицы. Так складываются результаты испытаний для упражнений с нечетными номерами (один столбец) и четными номерами упражнений (второй столбец) и вычисляется коэффициент корреляции Пирсона между этими столбцами. При значении коэффициента корреляции выше 0,8 (такова условная норма) набор заданий можно считать удовлетворяющим требованию надежности.

Описанная процедура позволяет составить набор приблизительно равнотрудных заданий. Правда, нет уверенности в том, что она сохраниться на другом наборе испытуемых, а повторное предъявление тому же набору испытуемых бессмысленно.

Б) Модель Раша

Датским математиком Рашем в 1957 г была предложена модель контроля знаний, описанная в работе В.С.Аванесова и подвергнутая дальнейшему обстоятельному теоретическому исследованию в работах Ю.М.Неймана [Нейман Ю.М., 2001], где сделаны выводы об основных свойствах модели. Некоторые из них, однако, нуждаются в более прозрачном толковании, например такой «…уровень трудности тестовых заданий, измеренный в рамках модели этой модели, также имеет объективный характер, не зависит от уровня подготовленности того контингента, с помощью которого получены оценки трудности заданий». Или такое заключение: «…если, например, уровень подготовленности какого-нибудь испытуемого в рамках модели Раша измерять многократно с помощью различных педагогических тестов разных трудностей, то различие результатов может быть только за счет неизбежных ошибок измерений, но не за счет различия в тестах» (с. 45 работы [Королев М.Ф., Пашков В.А., 1991]). Прямое прочтение этих утверждений может привести к неоправданным выводам, и здесь необходимы пояснения. Представление о свойствах модели Раша я приведу в таком изложении, которое потребует минимального привлечения математических преобразований, но полностью сохраняет свою строгость и делает выводы более прозрачными.

Пусть вероятность того что некоторое случайное событие (например, некоторый успех или выигрыш) произошло, имеет вероятность Р. Тогда можно говорить о шансе на успех (т.е. реализацию этого события), который описывается отношением этой вероятности к вероятности неудачи Q= 1- Р, т.е. Ш=P/Q. Это удобная мера: она определена на множестве рациональных чисел [0-), равна нулю (шансов нет), когда равна нулю вероятность и шанс бесконечно велик при вероятности Р=1, т.е. наступления события. Это отвечает интуитивному представлению о шансах на успех. Модель Раша исходит из естественного предположения, что отношение вероятности P выполнить упражнение (успеха) к вероятности Q=1-P его не выполнить пропорционально уровню знаний s испытуемого и обратно пропорционально уровню t трудности выполняемых упражнений, т.е. функция успешности – шанс

P/Q=s/t (*)

Коэффициент пропорциональности в модели принят равным единице, хотя в более общем случае, в числитель и знаменатель можно было бы ввести дополнительно свои коэффициенты пропорциональности. В формуле величины s [0-), t [0-) – некоторые безразмерные рациональные числа, характеризующие соответственно знания и трудность упражнения из произвольного набора упражнений. По самому смыслу это положительные числа. Других ограничений на область их существования не накладывается. Понятно, что знания и трудность не должны быть отрицательными. Правда, не совсем ясно, что означает, выражение: знания или трудность равны числу, например 4,2. Много это или мало, с каким эталонным значением это сравнивать. Обращение к сравнению шансев в какой-то степени преодолевает эти трудности. Обсуждение вопросов о том, как измерять успешность и трудность, используя результаты реальных применений набора тестовых заданий (будем условно его называть тестом), рассмотрено ниже.

Не следует обольщаться простотой приведенной формулы (*). Действительно, как можно подсчитать входящие в нее вероятности? Это можно сделать так. Нужно иметь достаточно обширный набор равнотрудных заданий (одинаковой трудностью t), который можно назвать однородной генеральной совокупностью. Затем случайным образом многократно выбирать из них по одному заданию и предъявлять одному и тому же испытуемому (т.е. обладающему одними и теми же знаниями). Каждый раз регистрировать успех или неуспех выполнения задания. Затем подсчитать число успехов nу и неуспехов nн из полного количества заданий n и взять их отношение. Тогда можно ожидать, что отношение nу /n с ростом n будет стремиться к вероятности Р и приближенно это отношение можно отождествить с этой вероятностью: Р~nу /n, входящей в основную формулу (*). Но те же рассуждения приводят к тому, что приближенно можно считать вероятность неуспеха отношением числа невыполненных заданий к общему числу, т.е. Q ~ nн /(n-nу ), где nн – число невыполненных заданий. Отсюда получается приближенное соотношение Ш~nу /nн . Таким образом, если число заданий достаточно велико, то шанс их выполнения каждым испытуемым подсчитывается достаточно просто, как отношение числа успешно выполненных к числу невыполненных равнотрудных заданий. В дальнейшем будем всегда отождествлять вероятность с частотой. В результате подобных испытаний становится известной левая часть равенства (*), которое можно распространить на любое лицо и упражнения любой (но одинаковой) трудности. Обратим внимание на слова: «равнотрудные задания», ибо, если упражнения не одинаковы по трудности, подсчет частоты будет некорректным. Пока оставляем в стороне вопрос о том, как создавать такие однородные по трудности генеральные совокупности и как вычислять значения трудности t и знания s.

Поскольку повторные предъявления одного и того же упражнения должны быть исключены, выборки из гипотетической генеральной совокупности должны являться безвозвратными. Исключаются и повторные предъявления заданий одному испытуемому. Пока оставляем в стороне вопрос о том, как создавать такие однородные по трудности совокупности и как вычислять значения трудности t и знания s. Само по себе определение шанса не представляется задачей интересной, поскольку если даже Ш найдено, для определения знаний s нужно знать еще априори неизвестную величину трудности t или обратно, для определения t нужно знать s.

Простая и естественная формула (*) влечет очень важные последствия и является весьма «сильным» предположением. Ее значимость становится понятной при рассмотрении вопроса о сравнении знаний испытуемых.

--> ЧИТАТЬ ПОЛНОСТЬЮ <--

К-во Просмотров: 196
Бесплатно скачать Реферат: К вопросу о компьютерных программах учебного контроля знаний