в чем заключается нормативно ориентированный подход к измерению результатов обучения
Задания в тестовой форме
3.3. Цели, классы, типы, этапы, свойства тестов и тестирования
Культуру тестирования необходимо возрождать, развивать и в нашей образовательной системе, но при этом совершенно не обязательно копировать все цели, критерии и атрибуты зарубежной культуры тестирования.
Культура педагогического тестирования должна переходить в культуру профессионального тестирования (при приеме на работу, проверке профессиональной пригодности, качества и т.д.).
Культура тестирования важна лишь для тех, кто заинтересован в повышении эффективности обучения, особенно, с использование новых методик и достижений.
Цели и функции тестирования и тестов могут быть различными. Выделим основные цели и функции:
Классификация тестов проводится по различным классификационным признакам.
Есть и другие подходы к классификации тестов.
Выбор класса зависит от вида контроля над учебной деятельностью обучаемых, который может быть вступительным, текущим, рубежным (промежуточным) или итоговым контролем.
Для стандартизации требований к абитуриентам и унификации (единообразия) процедуры вступительных испытаний тестовый контроль абитуриентов должен быть организован централизовано.
Пример. Примеры тестирования различного типа – ЕГЭ для выпускников школ РФ, SAT (Scholastic Assessment Tests – Тест Академического Оценивания) для поступающих и колледжи США.
Тестирование имеет три основных этапа:
Существуют два основных подхода использования педагогически и профессионально наиболее важных аттестационных тестов – нормативно-ориентированный и критериально-ориентированный.
Нормативно-ориентированный подход служит для сравнения учебных или профессиональных достижений отдельных испытуемых по отношению к некоторому эталонному, нормативному образцу, например, исполнению должностных обязанностей.
Критериально-ориентированный подход служит для оценки степени овладения знаниями, умениями и навыками всех испытуемых.
Критериально-ориентированные педагогические тесты используются для интерпретации результатов тестирования ( принятия решений ) и оценки уровня учебных достижений относительно некоторого образа полного или достаточного овладения этими знаниями, умениями и навыками. Критериально-ориентированные тесты ориентированы на определенный критерий оценки испытуемых, на предварительно определенную (тестирующими или администрацией) шкалу измерения, в соответствии с которой каждому тестируемому выставляется оценка.
Тесты обладают следующими основными свойствами.
Валидность – мера соответствия теста измеряемым знаниям, умениям и навыкам, для проверки которых был разработан тест, мера соответствия стандартам и программам обучения, а также результатам тестирования. Это наиболее важная, комплексная характеристика, отражающая «инструментальную» точность тестирования.
Сложность – мера умственных усилий, требуемых для выбора ответа.
Часто эта мера называется весом и определяется как доля правильных или неправильных ответов при ответе на задание в группе тестируемых.
Внутренняя сложность определяется сложностью тестовых заданий (тестов) в тесте (группе тестов).
Эти два вида сложности взаимосвязаны и взаимозависимы (рис. 2). Как правило, внутренняя сложность определяет и внешнюю сложность.
Надежность – мера правильности и адекватности отражения тестом уровня знаний учащихся.
Надежный тест обеспечивает равные права каждой группе обучаемых и каждому обучающемуся в группе. Обычно используемый 95%-ый уровень значимости может служить показателем достаточной надежности (с коэффициентом 0,95).
Устойчивость теста – мера сохранения надежности и валидности при переносе теста в другую, аналогичную среду, мера равнозначности и однородности тестов для различных групп учащихся.
Шкалируемость теста – способность теста отображать результаты учебных достижений в некоторой задаваемой системе (шкале) оценок или баллов.
Репрезентативность теста (банка или базы тестов) – мера полноты охвата заданиями учебного материала, программы, отражения тестами различных уровней обучения.
Значимость теста – мера необходимости, актуальности включения в тест ключевых знаний, надежно свидетельствующих о репрезентативности теста.
Дискриминантность теста – мера дифференциации тестируемых относительно максимального или минимального уровня обучения.
Достоверность, научность, непротиворечивость теста – мера истинности теста, согласованности, соответствия современному состоянию науки и технологии, методике обучения.
Необходимо обеспечить согласованность заданий теста как между собой (внутренняя согласованность), так и с другими тестами (внешняя согласованность).
Под гипотезой тестирования будем понимать некоторое утверждение ( предикат ), подлежащий проверке (на истинность).
Гипотеза может быть детерминированной (выполнено, не выполнено), вероятностной (с задаваемой вероятностью истинности) или нечеткой (формулируемой с помощью аппарата нечеткой логики).
Основная системная цель тестирования – использование потенциальной возможности распространения (анализа и обобщения) данных по выборке на другие выборки или даже на генеральную совокупность, наблюдаемых в тестовых испытаниях ситуаций для данной совокупности тестированных, на другие совокупности или, возможно, – на всю образовательную систему в целом.
Современная типология педагогических тестов
Теория и практика современного педагогического тестирования имеет не более чем столетнюю историю. Развитие психологии и педагогики с конца XIX века до начала первой мировой войны было тесно связано со становлением тестовых технологий. Социальные и научные условия конца XIX и начала XX веков заставляли педагогов и психологов рассматривать результаты тестирования с точки зрения сравнения относительных способностей испытуемый, что стало со временем называться нормативно-ориентированным подходом к интерпретации результатов тестирования.
Они получили в настоящее время широкое применение в образовании, индустрии и вооруженных силах США, Великобритании, Голландии, Японии и в других развитых странах. Они обеспечивают пользователей тестов ценной информацией, причем отличной от той, которая может быть получена в результате проведения нормативно-ориентированных тестов.
Самая общая их характеристика заключается в следующем [3].
Тесты измеряют степень усвоения учебного материала овладения необходимыми знаниями, умениями и навыками уровень профессиональной квалификации кадров. В результате измерения степень проявления какого-либо свойств испытуемых выражается в тестовом балле, представляющем собой определенное число. Тестовые баллы располагайте на специальных шкалах, выбранных разработчиками.
Нормативно-ориентированные педагогические тест используются для того, чтобы получить надежные и нормально распределенные баллы длясравнения тестируемых.
Критериально-ориентированные педагогические тесты применяются для того, чтобы интерпретировать результат тестирования в соответствии уровнем обученности испытуемых на хорошо определенной области содержания.
Хотя различия нормативно-ориентированных и критериально-ориентированных тестов существенны,они имеют много общего. С первого взгляда на сам тест, довольно трудно определить какой из этих двух типов имеет место. Он используют те же формы тестовых заданий и подобные инструкции для испытуемых.
Критериально-ориентированные тесты составлены для того, чтобы аттестовать результаты испытуемого в соответствии с областью определенных знаний, умений и навыков. Результаты критериально-ориентированного тестирования могут быть использованы для:
Результаты критериально-ориентированного тестирования также могут быть использованы для сравнения между собой уровней подготовки студентов, однако в этом случае можно получить сравнительно низкую надежность, если распределение баллов однородно и имеет малую вариацию.
Второе различие этих двух типов тестов состоит в уровне детализации области содержания. От разработчиков обоих типов тестов обычно требуется формирование спецификации его содержания. Создатели критериально-ориентированных тестов должны, в типичных случаях, подготовить значительно более детализированную спецификацию содержания,чем составители нормативно-ориентированных тестов. Это необходимо для того, чтобы пользователи теста были уверены в адекватной интерпретации тестовых баллов.
Третье различие лежит в плоскости проведения статистической обработки результатов тестирования. Обработанные (или шкалированные) баллы по результатам нормативно-ориентированного тестирования базируются на статистических данных нормативной группы, то есть специфической достаточно большой выборке испытуемых. В большинстве случаев для этого типа тестов применяются специальные нормативные шкалы. Каждый индивидуальный балл для данного теста имеет однозначное соответствие с процентильным эквивалентом, определенным на нормативной группе. Если для индивидуального балла данного испытуемого процентильный эквивалент равен 75, то это означает, что у 75% тестируемых из нормативной группы результаты тестирования были такие же или хуже. Обработанные индивидуальные баллы по результатам критериально-ориентированного тестирования не относятся к какой-либо нормативной группе или выборке испытуемых. Индивидуальный балл испытуемого интерпретируется по отношению к доле учебного материала успешно им освоенного. Чаще всего балл студента отражает процент правильно выполненных заданий и выражается в шкале процентов.
Существует и ряд других важных различиймежду ними. Характерные особенности этих двух типов тестов можно свести в таблицу 4.2.
Нормативно-ориентированные тесты
В большинстве тестовых программах за рубежом использовались и используются в настоящее время различные виды шкалированных (обработанных) баллов. В практике массового педагогического тестирования существует более или менее стандартный набор шкалированных баллов, которые информируют пользователей теста об относительных способностях испытуемых [3, 4, 5, б].
К таким шкалированным (обработанным) баллам относятся: процентильные эквиваленты; стандартные линейные шкалы; стандартные нормативные шкалы и другие виды педагогических шкал [4]. Шкалированные баллы помогают пользователям тестов получить информацию о позиции экзаменуемого по отношению к хорошо определенной группе, определенной специфической выборке испытуемых.
Эта специфическая выборка испытуемых часто называется нормативной группой, и так как обработанные баллы ориентированы на баллы в нормативной группе, они называются нормативно-ориентированными баллами.
В основе нормативно-ориентированной интерпретации лежит сопоставление индивидуального тестового балла данного студента с баллами, полученными другими испытуемыми. Самый простой способ провести нормативно-ориентированную интерпретацию тестового балла состоит в том, чтобы сообщить, сколько процентов учащихся из учебной группы, в которой проводилось тестирование, выполнили тест хуже (получили болеенизкий балл) и сколько процентов выполнили тест лучше (получили более высокий балл). Однако при такой интерпретации возникает следующая трудность: оценка индивидуальных учебных достижений оказывается зависимой от уровня подготовленности всей группы студентов, в которой проводилось тестирование. Гипотетически преодолеть эту проблему можно было бы следующим образом [13]: протестировать всю популяцию, для которой разрабатывался тест, и сравнить индивидуальный балл с полученными результатами. Под популяцией понимается все множество учащихся, которые обучаются данной дисциплине и по данное программе. Если тест разрабатывается для применения в каком-либо одном учебном заведении, то в популяцию включают все учебные группы, обучающиеся по одной программе. Если тест разрабатывается для применения в рамках регионе или страны, то популяция принимает весьма внушительные размеры. Протестировать такое количество испытуемых практически невозможно. Поэтому, чтобы получить информацию с том, как выполнили тест все испытуемые, прибегают к формированию так называемой выборке стандартизации. Это специально подобранная группа испытуемых, которая адекватно репрезентирует популяцию, для которой разрабатывается этот тест. В выборке стандартизации пропорционально представляются все возрастные, социальные и другие группы испытуемых, из которых состоит популяция. Результаты проведения теста на образованной таким образом выборке называются тестовыми нормами. Отсюда происходит термин «нормативно-ориентированное тестирование». По нормам судят с том, как выполнили бы тест все испытуемые, для которых он предназначен. Если выборка стандартизации адекватно репрезентирует популяцию, то, сопоставляя индивидуальный балл с нормами, можно получить оценку уровня учебных достижений испытуемого по сравнению с уровнем учебных достижений других учащихся. Такая оценка уже не зависит от группы, в которой проводилось тестирование [3, 4].
Педагогические тесты, специально разработанные для того, чтобы провести нормативно-ориентированную интерпретацию, называются нормативно-ориентированными тестами.
Нормативно-ориентированный подход чрезвычайно полезен, когда необходима информация об испытуемом, связанная с его относительными способностями или относительной обученностью по сравнению с другими испытуемыми. Естественно, потенциальная ценность интерпретации нормативно-ориентированного подхода зависит и от соответствия нормативной группы целям тестирования, и от чистоты и тщательности, с которой была составлена нормативная группа.
Для того чтобы определить способности абитуриента по математике очень важно знать, что нормативная группа является репрезентативной для всей группы абитуриентов. Иногда для принятия важных решений необходимо ориентироваться на более специфическую нормативную группу. Например, нормативная группа абитуриентов на инженерные специальности будет более подходить для интерпретации относительной способности абитуриента на инженерные специальности по результатам нормативно-ориентированного тестирования,чем просто, нормативная группа всех абитуриентов.
Отметим основные недостатки нормативно-ориентированного подхода к педагогическому тестированию. Для большинства педагогических тестов необходимо знать гораздо больше об испытуемом,чем дает нормативно-ориентированный подход. Например, для некоторого абитуриента мы получили 65 процентильных эквивалентов в результате тестирования. Это означает, что данный абитуриент ответил на задания данного теста не хуже, чем 65% испытуемых из всей, достаточно большой нормативной группы. Но мы не знаем,какие именно понятия усвоены данным абитуриентом, икакие задачи он может решать. Требовалось ли в данном тесте от данного абитуриента только легко запоминаемых для решения алгоритмов, или от него требовалось творческое решение, творческий подход для решения заданий. Более того, мы незнаем, какую долю от всей программы твердо усвоил данный испытуемый. Подобного рода вопросы становятся важными тогда, когда намеченное использование теста выходит за рамки определения относительных способностей экзаменующегося. Определение относительных способностей абитуриентов может быть важным для конкурсных экзаменов, но после проведения учебного процесса в течение некоторого времени, преподавателям необходимо узнать какого вида понятия каждый студент усвоил, и какие типы задач может решать данный студент, фактически какую долю от изученного материала он усвоил.
Критериально-ориентированные тесты
Существует, однако, и подход отличный от нормативно-ориентированного, когда обработанные баллы интерпретируются по отношению к подготовленности самого экзаменующегося на данной области содержания, а не сравнительные способности с другими экзаменующимися из нормативной группы. В этом случае говорят о критериально-ориентированном подходе [3,4].
Часто можно встретить довольно узкие определения, подразумевающие только один из видов критериально-ориентированных тестов. Более широкие определения нередко страдают неточностью формулировок. В работе [3] приведено определение, которое, пожалуй, наиболее точно раскрывает сущность и специфику этого типа тестов.
«Критериально-ориентированный педагогический тест представляет собой систему заданий, позволяющую измерить уровень учебных достижений относительно полного объема знаний, умений и навыков, которые должки быть усвоены учащимися».
Мы будем называть областью содержания теста тот полный объем знаний, умений и навыков, которые должны быть усвоены студентами в результате определенного курса обучения и овладение которыми измеряется критериально-ориентированным тестом. Выполнение критериально-ориентированного теста описывается, как правило, в терминах содержания учебной дисциплины. Например, результаты проведения теста позволяют судить о том, какую долю области содержания освоил студент, какие задачи и какого уровня сложности может решать испытуемый, и т.п.
Этот вид используется для классификации испытуемых и разделения их на группы на основании заранее выбранного стандарта оценивания (критериального балла). Чаще всего такие тесты используются для разделения испытуемых на две группы: усвоивших и не усвоивших необходимый навык на базе определенной области содержания. Иногда происходит деление на большее количество групп. Например, на тех, которые полностью овладели навыком, и на тех, которым лучше закрепить его, а также на группу учащихся, которым надо начать изучение материала с самого начала. Для отнесения к определенной группе испытуемый должен достичь необходимого минимального стандарта оценивания. Этот стандарт устанавливается разработчиками теста и является критерием, на основании которого принимается решение относительно испытуемого. В тесте данный стандарт выражается определенным количеством правильно выполненных заданий. Важными элементами разработки таких тестов являются: методы установки стандарта оценивания квалификации по результатам тестирования, оценка уровня ошибки этого стандарта, определение последовательности принятия решения о квалификации или о недостаточной подготовке студента [4].
Характерные особенности нормативно-ориентированных и критериально-ориентированных тестов
Пример использования: конкурсный отбор кандидатов на обучение.
Пример использования: итоговая аттестация уровня обученности студентов, уровня профессиональной подготовки кадров.
3. Распределение индивидуальных баллов: близко к нормальному, в большинстве случаев имеет вид
:
3. Распределение индивидуальных баллов: произвольное, в большинстве случаев асимметричное и имеет вид:
5. Нормативная группа испытуемых обязательна. Обработанные (или шкалированные) баллы по результатам нормативно-ориентированного тестирования базируются на статистических данных нормативной группы, то есть специфической достаточно большой выборке испытуемых. В большинстве случаев применяются специальные нормативные таблицы, где каждый индивидуальный балл для данного теста имеет однозначное соответствие с процентильным эквивалентом, определенным на нормативной группе.
5. Нормативная группа испытуемых не является необходимой. Индивидуальный балл испытуемого интерпретируется по отношению к доле учебного материала успешно им освоенного. Чаще всего балл студента отражает процент правильно выполненных заданий и выражается шкале процентов.
6. Статистический анализ и отбор тестовых заданий. Статистические показатели тестовых заданий (в основном это уровень трудности и различающая способность) играют важную роль в отборе заданий. Выбираются задания со средним уровнем трудности (от 0,3 до 0,7) и высокой различающей способностью (большей 0,3). Существуют ряд других важных статистических показателей качества заданий.
7. Надежность теста. Оценивается либо путем нахождения корреляциимежду результатами двух тестирований, либо методом расщепления теста на две половины при однократном тестировании.
7. Надежность теста. Оценивается степенью постоянства принятия решения «зачет – незачет» при двукратном тестировании.
8. Валидность. Наряду с содержательной валидностью для тестов конкурсного отбора учащихся особое внимание уделяется высоким показателям прогностической валидности.
8. Валидность. Особое внимание уделяется содержательной валидности. В случае принятия важных решений по результатам тестирования исследуются критериальная и конструктная валидность.
Рекомендуемая литература
Источник поступления: Евсигнеев А. Е., Самарский государственный технический университет, Факультет повышения квалификации преподавателей, Проектирование информационных технологий, Информационный бюллетень №1, Самара 2000.
Нормативно-ориентированный подход.
В рамках первого, нормативно-ориентированного, подхода разрабатываются тесты для сравнения учеников по уровню учебных достижений. Сравнимость достигается путем сопоставления результата каждого учащегося с результатами других, выполнявших тот же самый тест. Сообразно двум подходам к интерпретации результатов тестирования выстраиваются два подхода к созданию педагогических тестов. Оба они перспективны и важны, имеют свою сферу применения, свои преимущества и недостатки.
В нормативно-ориентированном подходе при интерпретации результатов возникают определенные трудности, так как относительная позиция испытуемого может быть неточно или даже неправильно определена. Очевидно, что испытуемый будет выглядеть лучше на фоне более слабой, чем более сильной группы. Например, можно высоко оценить знания ученика, выполнившего правильно в тесте всего 30 заданий из 60 в том случае, если группа слабая и 70%, а то и 80% испытуемых группы сделали меньшее число заданий теста. Тот же самый результат ученика, но в другой, сильной группе будет отнесен к категории довольно низких, если только 10—20% испытуемых группы сделали правильно 30 заданий, а все остальные значительно превысили этот результат. В этой связи возникает вопрос об истинной оценке результата каждого учащегося, выполнившего тест.
Многолетние попытки получить ответ на этот вопрос привели к идее установления норм, т. е. системы показателей, отражающих результаты выполнения теста большой группой (выборкой) испытуемых [5]. Нормы нельзя придумать или задать априорно, они устанавливаются эмпирически. Например, для школьных итоговых тестов нормы выбирают сообразно тому, как выполняет тест представительная выборка учеников. К числу наиболее важных показателей обычно относят средний уровень выполнения и вариативность результатов выборки.
Процесс определения норм называется стандартизацией теста. Стандартизация осуществляется на представительной или, как говорят специалисты, репрезентативной выборке испытуемых, процесс формирования которой является обязательным моментом при определении норм теста. По окончании стандартизации у педагога появляется возможность сравнить тестовый балл каждого испытуемого с установленными нормами и таким образом оценить место результата каждого ученика в распределении баллов нормативной выборки по тесту. Подсчет показателей достаточно прост. При наличии определенных навыков и репрезентативной группы учеников определение норм либо их уточнение может быть осуществлено любым разработчиком или пользователем теста. (Примеры подсчета показателей будут рассмотрены дальше в гл. 5.)
В процессе сравнения индивидуальных баллов учеников с нормами выполнения теста первичный результат каждого испытуемого обычно переводится в некий относительный, производный показатель, позволяющий несколько расширить возможности интерпретации результатов выполнения теста.
Таким путем можно повысить сопоставимость баллов и сделать выводы о достижениях испытуемых по набору тестов, имеющих разные нормы их выполнения. Однако здесь легко допустить ошибку. Относительная позиция испытуемого в тестах по различным дисциплинам может быть неверно интерпретирована из-за несопоставимости тестовых норм, возникающей при стандартизации тестов на различных по подготовке выборках. Например, ошибочным будет результат сравнения оценок ученика по курсу химии и по математике, если один из этих тестов проходил стандартизацию на выборке московских школьников, а другой — на выборке школьников Краснодара либо на любой другой по подготовке выборке школьников той же Москвы.
Понятно, что разные выборки дают разные нормы, и потому при сравнении результатов ученика по разным тестам легко получить неправильный ответ. Таким образом, сопоставимость результатов испытуемого по различным тестам или групп испытуемых достигается далеко не всегда, а только в том случае, если для стандартизации тестов использовались сходные нормативные выборки, обеспечивающие сопоставимость норм различных тестов.
Стандартизация предполагает единообразие не только оценок, но и всей процедуры выполнения теста. Помимо норм разработчик должен дать точные указания относительно формы предъявления теста, оптимального времени его выполнения, устных инструкций и ряда других деталей, влияющих на результаты выполнения теста. Необходимо указать состав выборки стандартизации и ее особенности, смещающие представления о нормативных результатах в сторону завышения или занижения.
При этом следует иметь в виду, что тестовых норм, пригодных для интерпретации результатов всех учеников, не существует вообще. Область применимости любой нормы ограничивается конкретной совокупностью испытуемых, для которых она вырабатывалась. Поэтому нормы никоим образом не абсолютны и не постоянны. Они просто отражают результаты выполнения теста испытуемыми из выборки стандартизации на момент создания теста и подлежат систематическому обновлению и перепроверке.
При разработке и применении тестовых норм особое внимание обращается на выборку стандартизации. Для обеспечения стабильности значений норм выборка должна быть достаточно большой и представительной. Например, если хотят установить нормы выполнения теста по химии для школьников Москвы и Московской области, то нужно протестировать не менее 200-300 учащихся в каждой из нескольких школ, расположенных как в Москве, так и в области, а затем объединить в равных пропорциях все результаты. При этом другая выборка из учащихся этих же школ не должна приводить к нормам, заметно отличным от предыдущих. Некоторые различия норм, без сомнения, будут существовать, однако они не должны быть слишком велики. В противном случае объем выборки необходимо увеличивать и определять новые нормы до тех пор, пока не наступит их стабилизация.
С точки зрения интерпретации результатов каждого испытуемого нормы мало чего стоят, если они неустойчивы и определены с большой выборочной ошибкой. Поэтому процесс увеличения объема выборки и переопределения норм необходим, и только по его завершении есть основания считать, что разработчиком создан стандартизованный тест в рамках нормативно-ориентированного подхода. Процесс установления норм занимает довольно длительное время, иногда до нескольких лет. Особенно в тех случаях, когда содержание теста ориентировано на какие-либо специальные знания, степень владения которыми можно проверить одновременно у очень небольшой группы учеников.
Дата добавления: 2018-11-25 ; просмотров: 975 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ


