Стандартизированной оценки, используемых в американских государственных школах являются недействительными и ненадежными

Американская система государственных школ использует аккумулятор стандартизированных тестов, в качестве средства оценки студентов. Студенты оцениваются по их интеллект, развитие речи, чтение готовности, чтобы назвать несколько из множества испытаний использовались американской системы государственных школ. Шкала интеллекта Векслера для детей-Revised, Wechsler дошкольного и начального Шкала разведки и оценки Кауфман батарей для детей-Revised, Wechsler дошкольного и начального Шкала разведки и оценки Кауфман батареи в интересах детей, три испытания для оценки разведки студентов уровнях. Результаты этих испытаний показали, чтобы быть неточными измерениями студентов разведки из-за ошибок экспертов, по поводу толкования тестов данных, отказ от включения определенных возрастных групп студентов, и на рынке сбыта. Испытание Развитие языка-2 Начальное и испытаний развития языков-2 Промежуточные Было установлено, что не до конца оценили достаточное количество студентов для Испытание считается точной оценки развития языка.

Индекс чтения Повышение оценки было установлено, не достаточно чувствительны, чтобы использоваться в качестве показателя для чтения населения. Шкала интеллекта Векслера для детей-Revised, Wechsler дошкольного и начального Шкала интеллекта, Кауфман оценке батарей для детей, испытаний развития языков-2 начального, испытаний развития языков-2 Intermediate, и индекс Чтение осведомленности являются недействительными и ненадежных средств оценки студентов в американских государственных школах ..

Stephen J. Серебро, в своей статье "Частота расхождений между Отклонение Фактор в профилях детей с более высоким IQ по шкала интеллекта Векслера для детей-Revised", заявил, что консультации врачей таблицы для определения относительной частоте место расхождения между различными факторы, такие как вербального IQ (VIQ), эффективность IQ (PIQ), вербальное понимание (VCDQ), восприятия организация (PODQ), свободу от отвлекаемость (FDDQ), а также сформированная из VC и ПО (FS8DQ) от Wechsler шкала интеллекта для Дети-Revised (WISC-R). Таблицами из этих испытаний были получены из статистических данных за "всего" Стандартизация образца (в среднем ребенок). Серебряный найти таблицы резко преувеличены "редкости расхождений в профилях детей с более высокими фактор". (251) Силвер заявил таких таблиц рекомендуется даже самые осторожные и консервативные врачи на "overidentify необычные расхождения, и, следовательно, над предполагаемым диагнозом изучения проблем или патологии основе предполагаемых редкость расхождения в вопросе.

Серебряный построили стол для оценки происходящих частота указанного расхождения в профилях детей с частных 115 и выше. Стол отличался от других таблиц с вступлением выше фактор, а не на уровне "Полная шкала IQ". (252) Цифры свидетельствуют не только для VIQ-PIQ расхождения, но и в течение пяти различных несоответствий фактор. Данные представлены в пяти пунктов интервалом в десять вместо точки интервалов. Окончательный разница в таблице является ее простота использования.

Серебряный построил таблицу считая "распределения отклонений частных и IQ баллы двумерных нормально без отклонения от ожиданий в хвостах распределения". (252) Из матрицы WISC-R субтестов, серебро коррелированных пар отклонения разница между каждой парой отклонения частных. Серебряный заключил, когда врачи использовали "всех детей", столы, врачи переоценили редкость частных детских выше среднего. столовое серебро было установлено, в значительной степени исправить WISC-R профилей детей с более высоким уровнем IQ.

Ларри C. Ханникатт, в своей статье "Экзаменатор Ошибки на Кауфман оценке батарей для детей: предварительного следствия", заявил экспертов внести существенные ошибки на хорошо зарекомендовавших себя тесты, такие как шкала интеллекта Векслера для детей-Revised (WISC-R) Wechsler и взрослых шкала интеллекта-Revised (WAIS-R). Эти испытания являются двумя наиболее часто учил в программах психологии выпускника. Частые ошибки на эти два испытания включают в себя: "а) трудности в счет словесных ответов, б) неправильная исходной оценкой, в) канцелярской ошибки, г) полная шкала расхождений IQ, и д) performancer субтестов забил ошибки". (271) Ханникатт найдены технические и математические ошибки по обычным Wechsler масштабах даже сертифицированных и лицензированных специалистов оценки. Цель исследования Ханникатт в том, чтобы определить частоту и типы ошибок, допущенных сертифицированных и / или лицензированных специалистов по оценке Кауфмана оценке батарея для детей.

Сорок шесть экспертов были использованы для изучения. Эксперты пришли из центр психического здоровья, системы государственных школ, и частной практики. Испытуемых составлял от 3 лет 9 месяцев до 12 лет 2 месяцев, средний возраст которых составил 6 лет 2 месяцев. Чтобы сохранить конфиденциальность, идентифицирующей информации об испытуемых и экспертов, был исключен из статьи. Минимального обучения для экспертов включены "степень магистра в области психологии, курсы по тестированию, стажировку в управлении и забил психологические тесты, а также обучение в управлении и забил K-ABC. Каждый специалист прошел государственной аттестации и / или лицензирования требований. старший следователь успешно завершили курс, в котором K-ABC учили. старший следователь поручил K-ABC экспертов с целью определения соответствия теста руководства.

Старший следователь проверить результаты экзаменаторов 'на наличие ошибок. Все, кроме одного из шестнадцати субтестов К-ABC были экспертов ошибок. Исследование показало, в среднем 5,8 ошибки на экзаменатора. Наиболее частые ошибки "провал на вопрос, когда это необходимо, как указано в руководстве по эксплуатации (274) Психологи семь раз больше, скорее всего, не на вопрос, когда это требуется. С помощью этого исследования, ученые обнаружили, хотя K-ABC был разработан для более легко осуществима, чем другие тесты интеллекта, половина экспертов ошибки отразились на MPC (IQ) оценка обследованных ..

В своей статье "Критика Школы материалы Психологическая", Алан С. Кауфман заявил, что "первоначальный Wechsler дошкольного и начального Шкала интеллекта (WPPSI) (Wechsler, 1967) было разочарование чуть ли не с момента его опубликования". (387) тест WPPSI ориентирована на 4 до 6 'возрастной год, но Head Start программы принимаются дети в 3-летнего возраста. Кауфман говорит, указаний к применению теста были длинные и громоздкие. Он также утверждал, сложные концепции были представлены для маленьких детей. Испытания, казалось, "принять навсегда дать distractible, импульсивный 4 или 5 лет." (387) пересмотренный Векслера (WPPSI-R) расширил возрастной группе от 3 лет 0 месяцев до 7 лет 3 месяца и дополнительные поправки по-прежнему не принимать во внимание "особые потребности и возможности молодых детей дошкольного возраста", в соответствии с Кауфман.

(388) WPPSI-R включены 148 пунктов тестирования: WPPSI-R включены 149 пунктов. Кауфман считает, что пересмотренные Кроме того был еще достаточно долго для детей в возрасте 4 лет и старше. Едва адекватной Работа цвета, колышки, которые не вписываются в pegboard и головоломки трудно вписать еще три проблемы Кауфман ссылки. Кауфман также найдены элементы сходства фотография предложил слишком много раздражителей и слишком запутанной для детей ..

При осуществлении WPPSI-R, Кауфман заявил испытания не "удобный". (389) Он заявил, что стороны были длинные, многословные и запутанные как эксперт и ребенка. Забил несколько ряда словесных субтестов субъективно заявил Кауфман и забил процедуры геометрический дизайн был "времени кошмар". (390) Кауфман чувствовал discontinue правило Блок Дизайн был "жестокие и необычные наказания", как это требуется от скорости ребенка в ответ на производительности IQ. (390) Кауфман нашел ответа на основные неправильно Завершение Фото пункт 14 (таблица была без ноги, а не часы.) Кроме того, он чувствовал Информация пункта 4 несправедливыми. Один из живописных отвлекает является картина растения. Правильный ответ должен был завод. Так как ответы картины, Кауфман чувствовал различия, чтобы быть неоднозначной.

Кауфман резюмировал свои выводы WPPSI-R в шести областях. Во-первых, он утверждал, направления экспертизы по ряду субтестов, слишком детализированы, что позволяет легко администрации к ребенку. Направлений, также не подходит для развития чувства к ребенку, в соответствии с Кауфман. Во-вторых, он заявил, что испытание на себя ребенком понимали многие основные концепции. Тем не менее, предполагается, эти основные понятия были исследованы весьма затруднено, особенно на психологическом значении этого WPPSI-R Показатели IQ подозреваемого в связи с спешил ребенка с помощью ответов. Балльной системы для геометрический дизайн был чрезвычайно трудоемким и WPPI-R было установлено, он ненадежной по три-летний, а также семь лет. Шестая и последняя область, оказались ненадежными из WPPSI-R был субтестов были относительно нестабильной.

П. К. Штернберга, в своей статье "Способность испытаний, измерений и рынках", заявил тестирования компании требуют огромных накладных расходов. Из-за огромных доходов требуется проверка компаний, Steinberg заявил, что "проверка компаний опустится до почти ничего продавать испытаний". (135) Он нашел испытания рынком. Типичных школьных тестов интеллекта разработана для удовлетворения десять критериев: 1) прогнозирования достижения, 2) тест-повторных или альтернативных форм надежность, 3) точной стандартизации, 4) высокая корреляция с подобным испытаниям, 5) простота управления, 6 ) удобства толкования, 7) объективность забил, 8) воспринимается справедливости, 9) эффективность затрат, и 10), правовой защищенности. Штернберг утверждал эти критерии не справедливой оценки, а лишь отдельные критерии товарной испытаний. Он чувствовал, тест компаниям необходимо рассмотреть, какие школы нужно измерить в будущем.

Он предложил тест компаний пересмотреть испытания включают аналитических стороны личности. Он сказал, что испытания сегодня не измерять отдельные процессы мысли таким образом, что это "время эффективным, а также надежный". (138) Во-вторых, творческая сторона отдельных должен измеряться (только ограниченно сделать уже сейчас.) Есть три уровня творчества, которые требуют решения, в соответствии с Штейнберга. В-третьих, практическая сторона больной нуждается в тестировании. Наконец, П. К. Штернберга чувствовал образ мышления и обучения отдельных требуют проведения анализа. П. К. Штернберга заключил свою статью ", лучшее, что может случиться с тестирования является то, что издатели испытания начнутся вести, а не следить за рынком". (139).

Douglas E. Ларсон, в своей статье "Необходимость сохранность области тестирования интеллекта", заявил в 1920-х годов, издатели нашли IQ тесты будут прибыльными. Инструкция книги для администрирования IQ испытания 60 страниц, не соответствует действительности измерения интеллекта человека. Он обнаружил, психологи не будет управлять испытания, потому что они не только для записи ответа испытуемого, но и их реакция.

Ларсон цитируется как один учитель испытал ребенок, который набрал низкий, взбитые ребенка, а затем повторно ребенка после поставки ребенка с правильными ответами. Другой пример, приводимый Ларсон был первокурсником колледжа, принявших тест IQ и сказали, что его IQ был 96. Экзаменатор сказал инструктор первокурсника в. Инструктор сказал первокурсник. Первокурсник стали сдавать в классах. Первокурсник рассказал советник, который, в свою очередь, узнал результаты IQ теста. Первокурсник ввели в заблуждение его инструктор. Первокурсник был в 96-й процентили. Ларсон также сообщил друга, профессора, у которого было два IQ тестов, с ним. Первый тест забил его идиотом, а второй тест нашли его гения. Ларсон заявил в своей статье, IQ тесты должны быть только в ведении лиц, продемонстрировать свою компетентность в обе управляющие и интерпретации тестов.

Маклейн сообщили в Списке Чтение Повышение оценки (ИРА). ИРА используется для измерения четырех аспектов метапознания при чтении: оценка, планирование, правила и условные знаний. Тест был назначен в качестве предварительного теста и posttest на 783 третьего класса и 801 студентов пятых классов. Каждый класс получил стратегии подготовки кадров до начала испытаний. Результаты тестирования показали заметный рост. Пятиклассников забил больше, чем третьего классов, а девочки забил больше, чем мальчиков, сообщает Париже и Джейкобс, разработчики 20 повестки дня, с несколькими вариантами ИРА.

Автор статьи, стоимость шкалой для измерения Метапознание Чтение осведомленность "в исполнении своей целью изучения сообщили высшего тестов на Париж и Джейкобс. Маклейн испытания 145 студента третьего, четвертого и пятого классов помощью ИРА но разделить 20 с несколькими вариантами ответов на четыре категории: оценки, планирования, регулирования, а также условные знаний. Результаты испытаний показали значительные различия между третьим и четвертым грейдеры, а также между третьим и пятым классов. Тем не менее, четвертого класса забил больше чем у двух других классов испытания. Маклейн считает метапознания в чтении увеличивается с возрастом. С четвертого класса превысив результаты тестирования пятиклассников, Маклейн считает ИРА "недостаточно чувствителен, чтобы точно отразить предлагаемые развития характера метапознания в чтение. "(86) Кроме того, ИРА показали практически никакой информации в прогнозировании понимание прочитанного.

Испытание Развитие языка -2: Primary (РАССКАЗАЛ-2P) и испытаний развития языков -2: Intermediate (РАССКАЗАЛ-2I) являются последние изменения нормы ссылка тестов, используемых для оценки восприимчивым и выразительным языком компоненты для детей в возрасте 4 - от 0 до 8-11 и 8-6 в 12-11, соответственно. Оба образцы тестов по стандартизации тесно соответствует данным переписи населения США за "пол, географическое распространение, социально-экономический уровень, расы, этнической принадлежности и городских / сельских районах. (161) РАССКАЗАЛ-2I было нормы, основанные на 66 8 летний субъектов и только 471 предметов через пять лет на других уровнях. минимальное количество, необходимое для получения достаточно представительной выборки составляет около 100 в возрасте уровне. Целью настоящего исследования было изучение повторных испытаний надежности композиционных материалов и общей оценки на различных возрастных групп "оценить их полезность для принятия решений об обучении." (162) Шестьдесят городских детей, были проверены на Told-2P.

Существовали двадцать детей, для каждой из возрастных категорий: 4-0 в 4-11, 6-0 по 6-11 и 8-0 до 8-11. Все шестьдесят детей были белые и 37% были мужчинами. Семейный доход в диапазоне от $ 35000 до $ 9999 или меньше. Основной язык для всех детей был английский ..

Шестьдесят один дети были обследованы на Told-2I с 92% детей из городских и 8% детей из сельской местности. Семьдесят пять процентов были женщины: 85% были белыми, 7% черного, а 8% были из других расовых групп. Семейный доход в диапазоне от $ 35000 до $ 9999 или меньше. Английский является основным языком всех детей.

Все семь испытаний РАССКАЗАЛ-2P вводили детям. Фото Словарь, Oral лексика, Грамматический завершения, Word дискриминации и Word Артикуляция вводили от 40-60 минут. РАССКАЗАЛ-2I состояла из шести субтестов: Приговор Объединение, лексика, Word заказа, генералы, Грамматический Понимание и Malapropisms. Администрация время испытаний составляла от 30-45 минут. Испытания были назначены две женщины на экзаменаторов, используя процедуры, как указано в протоколе испытания пособий. Испытания были повторены с детьми после 1216 дней одним и тем же экспертом. Guildord и формула Фрачтер был использован для корректировки результатов, поскольку некоторые из обследованных детей с низким уровнем функционирования. Коэффициенты .85 и выше были рассмотрены минимальная оценка, адекватной надежности в зависимости от Айкен. (163)

Таким образом, шкала интеллекта Векслера для детей-Revised (WISC-R), Wechsler дошкольного и начального Шкала интеллекта (WPPSI), Кауфман оценке батарей для детей (K-ABC), испытаний развития языков-2 Intermediate, и индекс чтения Повышение испытаний были проверены и признаны недействительными и ненадежные методы оценки для детей в американских школах. WISC-R, WPPSI и K-ABC не удалось измерить IQ студентов точно. WISC-R не удалось оценить детей с частных 115 или более точно, они были завышенными клиницистов. Серебряный разработали таблицы с интервалом 5 между интервалами в результате чего более точную оценку. WISC-R и WAIS-R в результате неточной оценки IQ из-за ошибок экспертов. Даже тогда, когда эксперты прошли обучение равномерно, их ошибки отразились IQ испытуемых 'очков.

Оба WPPSI и WPPSI-R были признаны недействительными средств оценки IQ. WPPSI-R был разработан с целью исправить неточности WPPSI, пропуск возрастной группе, исчерпав инструкции и сложные концепции. WPPSI-R не устраняет последние два прежде чем упомянутые неточности. П. К. Штернберга и Ларсон согласился, IQ тесты, опубликованных за один главная причина-товарный, а не точного тестирования оценки. Результаты ИРА пропустил уровням в опубликованных докладах, давая иллюзию точные средства для оценки навыков чтения. Даже РАССКАЗАЛ-2П и РАССКАЗАЛ-2I удалось надежной для целых возрастных групп. IQ, развитие речи, чтение оценки тестов, используемых в американской системе государственных школ были признаны недействительными и ненадежные методы оценки ..

Ссылки

Fodness, Рут Wechnick. "Тест-Повторное тестирование надежности испытаний развития языков-2: первичные и испытаний развития языков-2 Intermediate." Журнал педагогической психологии. Том 29, с. 161-165.

Ханникатт, Джерри C. "Экзаменатор Ошибки на батареи Кауфман оценке для детей: предварительного расследования". Журнал педагогической психологии. Том 28. с. 271-278.

Кауфман, Алан С. "вы не можете судить испытаний по цвету". Журнал педагогической психологии. Том 28, с. 387-394, 1990.

Лоусон, Douglas E. "Потребность в охране области тестирования интеллекта". Журнал педагогической психологии. Том 28, с. 131-133.

Маклейн, К. Виктория Майер. "Значение шкалой для измерения метакогнитивные Повышение Чтение". Журнал педагогической психологии. Том 85, с. 81-84.

Серебро, Stephen J. "Частота расхождений между Отклонение Фактор в профилях детей с более высоким IQ, на шкале интеллекта Векслера для детей-Revised. Журнал педагогической психологии. Vol. 28, с. 251-256.

П. К. Штернберга, Роберт Дж. "Способность Тесты, измерения, и рынки". Журнал педагогической психологии. Том 84, с. 134-140.

Hosted by uCoz