Технология тестирования
Страница 5

Инфо по психологии » Тестирование » Технология тестирования

ВАЛИДНОСТЬ< НАДЕЖНОСТЬ,

что означает, что валидность не может превышать надежности теста.

Но в отличие от надежности, помимо случайных факторов, на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен.

Например, мы хотим измерять “потенциал обучаемости” (важ­нейший компонент общих интеллектуальных способностей человека), но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством – “стрессоустойчивость”: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны буквально десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый критерий валидности – это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо более валидной) информации об измеряемом свойстве – с критерием.

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т.п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии – показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование. В школе самый типичный критериальный показатель – это успеваемость. Но для социально-психологической адаптации ребенка внешним критериальным показателем может быть уровень популярности в классе.

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников. И после этого сравниваем (коррелируем) результаты теста и экспертный рейтинг учеников по дисциплинированности.

Остановимся чуть подробнее на этом последнем примере. Здесь мы имеем один из самих простых и популярных методов эмпирического (статистического) измерения валидности. Это метод “известных групп”. К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе по критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные, по данным экспертной оценки учителей (“высокая” группа по критерию), и заведомо недисциплинированные (“низкая” группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют.

После проведения теста мы рассчитываем, например, простейшую четырехклеточную корреляцию между тестом и критерием. Для этого заполняется следующая четерехклеточная таблица.

ВЫС. КРИТ.

НИЗ. КРИТ

ВЫС. ТЕСТ

A

B

ВЫС. ТЕСТ

C

D

Элемент “А” в этой табличке – это число испытуемых, попавших в “высокую” группу по тесту и по критерию, элемент В – число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию и т.д.

Очевидно, что при полной валидности теста элементы В и С таблички должны быть равны нулю. То есть тест не должен давать ошибок – говорить о том, что ученик низкодисциплинированный, когда учителя говорят о том, что ученик высокодисциплинированный (случай С).

Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:

При численности протестированной группы в 30 человек (это минимальная выборка для проверки валидности) статистически значимую связь теста с критерием мы можем констатировать, когда Phi>=0,36. Хотя это, конечно, невысокая валидность, но все же тест в этом случае дает значительно лучшие результаты, чем случайное гадание. То есть, если в вашем учебном заведении есть конкурс и вы хотите отобрать не только одаренных, но и дисциплинированных учащихся, вы можете использовать тест, валидность которого вы проверили, и она оказалась значимой.

Страницы: 1 2 3 4 5 6 7 8 9


Старенькая бабушка
Перед игрой несколько детей (8 или 10) делятся на пары, в которых один берет на себя роль бабушки (дедушки), а другой — внука (внучки). Бабушки и дедушки очень старенькие, они ничего не видят и не слышат (можно завязать им глаза). Но их обязательно нужно привести к врачу, а для этого требуется перевести их через улицу с очень оживленным ...

Анализ данных констатирующего эксперимента
Испытуемым была предложена методика Шульте-Горбова, в ходе обработки данных были получены следующие результаты, которые наглядно изображены в диаграмме (рис. 1), количественные же показатели по данной методике представлены в Приложении 4. Рис. 1. Количественные показатели уровня переключаемости внимания среди всех испытуемых (в абс. ...

Определение затруднения межличностного общения
Затруднение в общении (в деятельности) - это субъективно переживаемое человеком состояние «сбоя» в реализации прогнозируемого (планируемого) общения вследствие неприятия партнера общения, его действий, непонимания текста (сообщения), непонимания партнера, изменения коммуникативной ситуации, собственного психического состояния и т.д. Зат ...