Воздействие на размер выборки приравнивания тестовых заданий

Введение и история вопроса

Испытание строительства и управления стали частью нашей повседневной жизни. Создание, администрирование и нормирование тесты не ограничены в работе психологов и педагогов, но распространить на широкий спектр специальностей и интересов. Тестирование служб и других учреждений уже на протяжении более 50 лет сделал важные исследования в методы испытаний, проекты и результаты анализа для различных целей, включая (1) определения права обучающихся в университетах (2) компетенций для конкретных рабочих мест и (3) направление информации для государственной политики . Многие успехи были описаны в литературе и психометрических методов, описанных в литературе психометрических используются для сравнения результатов по различным тесты, такие как СБ пробы, взятые в разное время (Kolen и Бреннан, 1995) ..

В образовательных учреждениях, достижение является одним из наиболее важных факторов для оценки эффективности деятельности образовательных учреждений, что является критерием для оценки работы отдельных лиц и учреждений. Результат, полученный от достижения испытаний предусматривает в основном два вида информации: один является степень, в которой студент достигла критерия производительности, например, может ли он решить ряд проблем, в то время как другие относительная заказа лиц с в отношении их испытания на эффективность. Использование оценка себя в тест интерпретация зависит от количества и сложности вопросов. Тем не менее, оценки должны быть точными и справедливыми, поскольку они обеспечивают основную информацию для всех других видов оценки (Grolund, 1998) ..

Однако, как Есть два отделения в психометрические теории - классической теории теста (КТТ), а в последнее время теории пункта ответ (КСП) Есть, кроме того, два вида испытаний приравнивая: горизонтальные и вертикальные приравнивая приравнивая (Kolen

Харрис

В той же линии, де Шамплейн (1996) оценили размерности двух форм крупномасштабных стандартизованный тест, отдельно для трех этнических групп испытуемых. Исследовал ли различия в их смесей скрытая черта оказывать воздействие на одномерной теории пункта ответ истинного равенства оценка функций. Результаты мнение, что есть значительное влияние различий в композиционных скрытая черта на одномерной теории пункта ответ истинного равенства оценка функций. Тем не менее, нет общего согласия не достигнуто, и различные результаты, полученные в разных исследованиях, в частности от того, разница будет увеличиваться или уменьшаться, когда класс увеличивается. В частности, Есть серьезные от уровня эффектов при вертикально приравнивается студентов с очень разных марок, например, один сорт через шесть.

Многие исследования рекомендовали, что характеристики теста должна быть связана с образцом и общих предметов и уровень способности образца о градации элементов соединения (Господа и Wingersky, 1985). Доранс (1986) показано, как последствия пункта характеристики, испытания свойств индивидуальных ответов испытуемого, а также правила округления объединяются, чтобы произвести эффект удаления пункта о приравнивании / масштабирования функций и оценки кандидатов. Эмпирической части доклада, которая иллюстрирует последствия пункта удаления на сообщило распределения очков. Дорон (1986) рассматривает в среднем System, альтернативные процедуры Rasch Модель для приравнивания тестов. Этот метод не требует компьютера и может быть легко используемых школьных преподавателей.

Kadem (1988), в Кувейте в университет, изучить макро пор отношения между выбрали образцы "ступеней и уровней использовать тесты, с одной стороны, и уверенность в вертикальном приравнивая градации с другой стороны. Результаты исследования показали, что возможность увеличения доверия в вертикальном приравнивая процесс калибровки два испытания.

Последствия испытаний пункта раскрытия информации о результирующей оценки и приравненных населения прохождения номера изучались на 5000 обследованных принимая профессиональный экзамен лицензирования Гилмер (1989). Результаты предложил, что последствия раскрытия зависит от характера выпустила пунктов.

До сих пор мы обсуждали только вопрос как трудности могут быть связаны с скоринга. Некоторые версии КСП использовать дополнительные характеристики вопрос забил. Некоторые версии учитывать, в какой степени деятельность по этому вопросу отличается для знающих и takers начинающих испытания. В некоторых версиях также включать, насколько вероятно с очень низким уровнем забил этот тест должны ответить на этот вопрос правильно угадать.

В реализации, определенной версии КСП определяется математическую функцию, которая описывает, как вопрос характеристики относятся к оценке учреждения-тест по этому вопросу. Вопрос характеристики определяются статистически авансом от образца испытания учреждений. Это вопрос статистики которые затем используются для оценки испытания счетчиков, с учетом результатов работы по каждому вопросу. Какую версию КСП выбирается в зависимости от характера вопросов, размер выборки для анализа вопросов, и другие соображения.

Потому что КСП предоставляет лучшие решения для многих строительных испытаний и забил вопросов, чем предыдущие методы (например, в классической теории теста), многие программы тестирования приняли КСП методы построения испытаний и / или забил. Примеры включают крупномасштабных приема тестов, таких как СБ, в интеллектуальных испытаний, экзамен для поступающих в колледж США, и лицензирования тесты, такие как NCLEX, экзамен использованы для сертификации медсестер в Соединенных Штатах (Господи, 1980 )

Rasch Модель:

Модели Rasch является Вероятностный вариант scalogram, представил в 1960 году датской статистики Георг Rasch. Как отправную точку, мы принимаем функция / в уравнение, которое характеризует scalogram. эта функция:

[Y.sub.pi] = F ([T.sub.p], [D.sub.i]) = 1, если [T.sub.p]> [D.sub.i]

= 0, если [T.sub.p] <[D.sub.i]

Scalogram является детерминированной модели, поскольку, дать тр и Ди, ответ (IC, правильно или неправильно) является фиксированной. Вероятностный вариант предполагает, что scalogram для данного тр и Ди, вероятность правильного ответа указано. Иными словами, scalogram характеризуется функция /, которая Ypi (правильно / неправильно), как результат, в то время как модели Rasch характеризуется функцией, которая определяет вероятность события Ypi = 1. Эта вероятность обозначим Р (Ypi = 1).

Значение P (Ypi = 1) (число от 0 до 1) определяется тр и Di. В отличие от scalogram, для которых размер разницы между Т и Di не имеет значения (если оно будет положительным, то правильный ответ дается, и если он отрицательный, неправильный ответ), размер это различие значение для модели Rasch: Чем больше разница между Т и Ди, тем больше вероятность правильного ответа. Таким образом, вероятность правильного ответа велик для лиц, которые являются намного больше возможностей, чем трудности, если предмет, а вероятность мала для лиц, для которых имеет место обратное. Эти вероятности получаются путем конкретной функции разности (Т-ди).

[Математическое выражение, просто непередаваемы В ASCII] (3)

Это и есть формула модели Rasch.

Числителе и знаменателе правой части уравнения 3 включает в себя власть по основанию е (е = 2,718). Функции в уравнении 3 называется логистической функции и ее курс на рисунке 1. Функция стремится к 1, как (ТР-ди) увеличивается (человека гораздо больше возможностей, чем сложность этого пункта), и она стремится к 0, если (Tp-Di) уменьшается (пункт гораздо сложнее, чем способность человека) .

[Рисунок 1 опущены]

Потому что только два события могут произойти, правильный (Ypi = 1) или неправильный (Ypi = 0) ответ, он считает, что P (Ypi = 1) P (Ypi = 0) = 1, из которого следует, что

[Математическое выражение, просто непередаваемы В ASCII] (4)

Таким образом, общая сумма вероятностей "(по определению, равна 1) распределяется на два события: одна часть на правильный ответ (равно правой части уравнения 3), а другая часть за неверный ответ (равное право стороне уравнения 4). Вот почему мы называем его распределения вероятностей. (Wright

Модели Rasch строит линии измерения с предметами иерархически и предоставляет статистические данные подходят для обозначения того, как хорошо описывают различные элементы группы испытуемых, и насколько хорошо подходят отдельных предметов группы (Wright

Тем не менее, Камата (1998, 2001) предложил модель многоуровневой пункта ответ через иерархические линейные модели (ЭМ) (Брык

Чу и Камата (2000) рассмотрел тест приравнивая свойство иерархической модели Rasch под неэквивалентные группы общей повестки дня ситуациях испытания. Чу (2002) использовали иерархическую модель Раша для корректировки DIF в силу в ходе испытаний и приравнивая возможность оценки параметров процедуры при эквивалентных ситуации группу. Заметим, что исследование Чу считает влиятельных факторов, как прямое воздействие на пункт оценки параметра, тем самым увеличивая факторы, как линейных ограничений для предметов, которые не затрагиваются. Модели с предсказателем лицо уровне, как это предлагается Камата, считает, что эти факторы, как прямое воздействие на ответы лиц и добавляет их в виде линейных ограничений для оценки параметров лица. Методы 3-уровневая иерархическая модель Rasch используется в данном исследовании построить неэквивалентные группы одновременно приравняв модели.

Две другие модели, несколько групп одновременно приравняв, что заменить DIF пунктов с не-DIF пунктов (базовая модель), и один, который включает DIF пунктов, рассматриваются в качестве сравнения. Бывший предоставляет информацию о тест, который свободен от DIF, а эта организация предоставляет информацию о игнорируя DIE целью уравнивания является размещение оценки различных форм тест на общие масштабы и, следовательно, множественным формам испытания требуются в приравнивая дизайна. С другой стороны, конструкция требует анализа DIF различных групп иметь ту же форму, чтобы испытания групповых различий будет отображаться на тестовых заданий. Для того, чтобы удовлетворить как приравнивание и DIF требованиям, мы предполагаем, что две формы испытаний, связанных общими-элементов, форма и форма X Y, находятся в ведении двух групп студентов.

Обе формы X и Y форме даются ссылки группы и координационные группы. Внутри каждой группы две формы испытания случайным управлением. В результате, предполагается, что половина из контрольной группы принимают форму X, а другая половина сдавать вариант Y, а также с координатором группы. Способности обеих групп, как предполагается, нормальное распределение, но с другой группой средств. Кроме того, предполагается, что только форма X показывает лицо уровне DIF и форма Y является свободным DIF ..

Пункт Banking:

В Кувейте как и во многих других местах, различные школьные округа использовать стандартные тесты, как способ определения успеваемости. Как правило, эти районы необходимо пересмотреть испытания с определенной частотой, чтобы избежать управляющей том же году испытания в год. К сожалению, создание новых тестов может быть очень много времени работе. Мало того, что испытания писателей нужно составить тестовых заданий, они должны также определить трудности каждого элемента, с тем чтобы обеспечить, что тест не будет ни слишком сильно и не слишком легко.

Использование пункта банки, тест лица могут избежать этого процесса. Пункт банки файлы различных подходящих пунктов испытаний, которые являются "кодируется предметной области, учебных уровне, учебные цели измерения и различных соответствующий пункт характеристики (например, пункт трудности и дискриминацию власти)" (Гронлунд, 1998, p. 130).

Преимущество Пункт Banking:

Основное преимущество пункта банковской находится в разработке тестов. Использование метода теории пункта ответ, например, модели Rasch, изделия из нескольких тестов размещены на общей шкале, в одном масштабе вопроса. Шкала указывает на относительную трудность пунктов. Пункты могут быть размещены на шкале, т. е. в пункт банка, без тщательного тестирования. Новые субтестов и испытаний, с предсказуемыми характеристиками, могут быть разработаны рисунок пунктов из банка. Например, предположим, что вы заинтересованы в развитии новых субтестов для покрытия фракций в седьмом классе. Вы можете перейти к пункту банке, определить вопросы, связанные с вашим целям и прогнозировать характеристики субтест состоит из таких предметов.

Еще одно преимущество пункта банка является то, что это позволит вам "депозит" дополнительные элементы должны быть выведены по мере необходимости. В зависимости от размера программы испытаний, не может быть и два практических подходов для принятия депозитов. Вы можете сделать "большие вклады" путем слияния ваш предмет банк один из другого района. Вы также можете сделать "мелких месторождений", добавив несколько пунктов, разработанных на местах одновременно. Большой выбор депозит будет включать покупку или торговых пунктов в другой район, а затем приравнивая их масштаб с вами. Маленький вариант предполагает хранение пилотирования меньшее количество пунктов с испытуемых в нескольких классах. Это легко достигается путем добавления дополнительной страницы, содержащий экспериментальные элементы будут использоваться вместе с буклетом из школьной системы ..

Пункт банковских обеспечивает значительную экономию времени и энергии, по сравнению с обычными критерием развития. В традиционных развития испытания пунктов может быть охарактеризована только по отношению к другим элементам в рамках испытаний, и для которых они были предоставлены. То есть, пункт характеристики чрезвычайно группы и конкретных испытаний. С пунктом банковских пунктов описаны их относительной трудности по классам. В целях разработки новых испытаний или субтестов, не нужно пройти трудоемкий процесс разработки большой набор элементов для проверки и оценки. Вместо этого, одна только извлекает из банка. Кроме того, рисунок из банка позволяет сделать достаточно точные предсказания о сложном тесте характеристики ..

Еще одно преимущество пункта банковской что она помогает установить язык для обсуждения программы целей и задач. Пункты описывают отдельные задачи, студенты способны или неспособны. Расположение элементов на градуированная круглая шкала позволяет определить относительную трудность конкретных задач. Это дает возможность обсудить возможные обучения иерархии и пути совершенствования структуры программы.

Если существующий пункт банк был КСП откалиброван, то его необходимо управлять подмножество штук (по содержанию территории) с новым банком вместе с вопросов, которые уже в пункте банка. Каждый элемент банк использует свои собственные якорь пунктов и позволило уравнять весы. (Хамблтон

Приравняв испытаний:

Приравняв испытаний марок прийти идея после появления (КСП) теория, из которой также пришли к идее сделать Пункт банков (сочетание различных элементов тестов, которые организованы с использованием образцов ответ на один пункт общей договоренности) в различных областях научных исследований (Alla'm, 1989, 157), (Kadem, 1988, 108) и (Wright

По внешнему виду эти пункта банков, многие проблемы, связанные с традиционных тестов, и продолжалась по времени без контроля точные научные стандарты, были преодолены.

Эти банки содержат большое количество элементов калибровки на один общий измерения с одним общим Zero. Таким образом, основной способ калибровки большого количества элементов на одной переменной, является объединение пунктов два испытания, измерения различных уровнях этой переменной, используя группу из общих пунктов, которые работают между ними, а разъемы и соединить их в один общий калибровки. Частота этих соединений между различными испытаний делает огромное количество предметов - которые охватывают широкий диапазон переменной по общей калибровки, с одним общим нулю.

Различные Приравнивая образцов:

Один из следующих проектов методы могут быть использованы присоединиться к пунктам различных тестов:

- Общие Приравнивая лицо.

- Общие Пункты Приравнивая.

- Equivelant Design Group (Kadem, 1988, 109; Райт

1. Обычного человека приравнивая:

1. Эта конструкция используется в приравнивания двух тестов, которые измеряют два разных уровнях измеряется величина (один легко, другим трудно) при условии, что элементы этих двух испытаний должен быть откалиброван в соответствии с Раш модели. Для того, чтобы достичь этого, два испытания применяются к одному образцу. Примеры исследований, которые после действия включают Kadem, (1988: 109) и Райт

2. Общий пункт приравнивая ДИЗАЙН

1. Эта конструкция используется, когда есть необходимость является объединение пунктов два испытания, которые представляют два разных уровнях измеряется величина (один содержит легко пунктов и других содержит сложных элементов). В один общий калибровки, где одна группа предметов общего между двумя испытаниями может быть использован как разъем или мост между двумя испытаниями, общие элементы добавляются элементы из двух тестов, которые калибровки в соответствии с образцом в Rasch.

3. ЭКВИВАЛЕНТНОГО проектной группы:

Тем не менее, это конструкция похожа на обычного человека равенства, в общем человек приравнивая; два испытания - легко и сложно - применяются на одну группу лиц. Хотя в эквивалентные проектной группы два испытания - легко и сложно - применяются на две эквивалентные группы лиц (с возможностью распределения), и те же действия (из общего дизайна человек) используются.

Экспериментальное исследование:

Проблема

Скрытое черта модели (КСП) используются чаще, чем сегодня классической теории теста (КТТ), о чем свидетельствует существующий объем научных исследований на первой. Эти модели используются приравнять испытания формы и развитых пунктов испытаний, а. Идея равенства испытаний марок пришел после появления (КСП) теория, из которой также возникла идея банковских пунктов в различных областях исследований. На основе результатов и рекомендаций в некоторых исследованиях, (Harris

Это исследование стремится восполнить этот пробел и в предыдущих исследованиях, сделали для изучения влияния объема выборки на приравнивая пункта оценки теста. Проблема исследования можно перефразировать в следующие вопросы исследования:

1. Каково влияние объема выборки на общую приравнивая человека?

2. Что такое эффект объема выборки по аналогичной конструкции группы?

3. Каково влияние объема выборки на общий пункт приравнивая?

Гипотеза исследования

Исследователь может служить следующие гипотезы:

1. Существуют значительные различия в этих двух тестов пункт калибровки (с использованием обычного человека приравнивая дизайн) между ссылками и общей калибровки размера выборки, время в различных простой тест из этой сложной один.

2. Существуют значительные различия в калибровке пунктов из двух тестов, которые необходимо вступил между ссылками и общей калибровки кроме как в случае использования аналогичной конструкции группы с различными размерами образца.

3. Есть статистически значимых различий в пункт калибровки испытаний, которые необходимо приравнивать между ссылками и общей калибровки при общей пункта дизайн использоваться с различными размерами образца.

Методология

Инструменты:

Основные испытания: тест по математике для кувейтских учащихся средних школ (второкурсники), состоящая из 120 пунктов представляют объекты в этой теме. Пункты были созданы в нескольких способ выбора, так как каждый элемент содержит пять альтернатив среди них один правильный альтернативы, и эти предметы были откалиброван в соответствии с моделью Rasch в. Этот тест используется для формирования ссылки калибровки, которая используется для сравнения индексов трудности из вопросов, которые возникли в процессе присоединения (основные уравнения) двух калибровок два суб-тестов, полученных от общего критерия, является легко и других трудно.

Два субтестов: главный тест состоит из двух суб-тестов, каждый из которых содержит группу из основных пунктов испытания и ряд общих элементов, которые работают как разъемы, а именно:

A) Easy испытаний: это содержит группу 40 легкий элемент и 15 общих элементов (разъемы)

B) трудное испытание: это трудно содержит 40 пункта и 15 разъемы (общие вопросы).

Участники исследования:

Исследователь использовал образца 1500 студентов для подготовки базовых испытаний (основной тест) по математике и разделить этот образец в:

А. образца 1000 темы для простой тест образца 500 тем для трудного испытания.

B. образец 500 предметов для простого испытания образца 1000 темы для трудного испытания.

C. двух эквивалентных образцов размер каждого из них 200 предметов.

D. двух эквивалентных образцов размер каждого из них 400 предметов.

Е. двух эквивалентных образцов размер каждого из них 800 предметов.

Процедуры:

Следующие процедуры используются для проверки гипотез исследования:

1. Общий анализ тест с программой Микромасштабные, которая основывается на модели Rasch анализа для достижения указанного калибровки.

2. Разделение субтестов, легко и трудно, с указанной калибровки, где предметы отрицательными индексами трудность будет в простой тест, а также предметы положительными показателями трудности будут в трудное испытание. И общие вопросы будут выведены из этих двух групп условного быть в центре легко и трудных вопросов.

3. Использование программных Микромасштабные в анализе реакции (1000 человек) образца в простой тест, то по той же программе в анализе реакции (500 человек) образца в трудное испытание.

4. Запуск приравнивая процесс, используя общие элементы для получения (новый) общей калибровки.

5. Поиск среднем новые калибровки и вычитая его из-за трудности ставки по всем пунктам же калибровки. Таким образом, мы можем достичь новых общих калибровка в среднем = Zero и это же ссылки калибровки.

6. Использование программы Miccroscale в анализе (1000) образца ответ в трудных испытаний, а затем изучить (500) образца ответ на простой тест.

7. Ведение основного уравнения помощью группы из общих пунктов, чтобы найти новые, общие калибровки.

8. Изменение среднего новой калибровки, пока он равен нулю прежний образ.

9. Определение точности спектр процесс подключения (основные уравнения) в обоих предыдущих двух случаях, когда эта точность представленных в масштабах эквивалентности калибровки пунктов ставки в один общий калибровки выходе из процесса присоединения (в двух предыдущих случаях ) со ставками различных предметов (Это оцениваются по указанной калибровки и это калибровки два испытания пункты вместе, так как они один тест, используя способ Рашс) следующим образом:

10. Когда разница между этими двумя оценками сложности каждого элемента на разных калибровки меньше, чем вся ошибка критерии и учитывая это различие Zero (Kadem, 1988: 409). Но если противоположная произойдет, то будет существенная разница. При нулевой рост различий, это свидетельствует о эффективности процесс подключения.

11. Расчет доли согласия градуированных пунктов, новое, общей калибровки и указанного калибровки в каждом случае.

12. Расчет критических процент, что свидетельствует о превосходстве часть соглашения в два калибровки (новые и ссылки), следовательно, это можно быть уверенным в правильности гипотезы, которые связаны с этой стороны.

13. Использование программы Микромасштабные в анализе ответа два эквивалентных образцов в обоих из двух тестов, легко и трудно, когда размер обоих образцов составляет: 200, 400, 800 предметов.

14. Ведение уравнения (присоединения) с использованием эквивалента проектной группы.

15. Определение точности изготовления присоединения к нему в упомянутом выше методов.

16. Использование программы Микромасштабные в анализе ответ из двух образцов, анализ общего пункта проекты в следующих случаях:

* При анализе образцов два различных по размеру.

* При анализе образцов два эквивалентных размеров.

Надлежащие процедуры для общих элементов дизайна:

Исследователь приспособленные статистики подходят испытание использовать общие элементы процедуры тестирования первой гипотезы, так как количество этих предметов было 15 лет. Результаты показали, что:

- Критерий остаточного средняя = -0,001, и она близка к нулю.

- Критерий отклонения по критерию остаточного = 0,793 и близок к единице, следовательно, она не подходила для этих пунктов.

Но использовать общие элементы в оформлении третьей процедуры в тестировании третьего испытания было: среднее стандартных остаточной = -0,0001, близкой к нулю, критерий отклонение стандартной остаточной = 1,001 и близок к единице, следовательно, подходящих условиях эти элементы нашли.

Результаты обучения:

Первый: Что касается общего анализа теста:

Анализ основных (ссылка) тест показал обоснованность 50 предметов из 120 и непригодным пунктов отложить в соответствии с infit-снаряжение показателем того, что прошло ограниченной скоростью (2,5) для каждого из них. Анализ показал, за исключением лиц непригодным соответствии с теми же показателями.

Второе: Что касается результате первой гипотезы:

А) в случае использования (1000 человек) образца в трудное испытание, и (500 человека) образца в простой тест: это показало, что Есть никаких существенных различий в сложности ставка по две калибровки (ссылки и новое в среднем = ноль), как он показал, что процент значимости различий была нулевой отношение, в котором говорится о разработке эффективности в процессе вступления в два испытания элементов.

Б) в случае использования (1000 человек) образца с простой тест, и (500 человек) образца с трудным испытанием: результаты показали, что Есть 2 существенных различий между трудности индекс как две калибровки ( ссылками и новый средний балл, что = ноль), где доля этих различий значение составило 3% от общего пункта и принимается процент, он не прошел 5%, что не допускается. Речь идет о возможности использования данной конструкции в приравнивая два испытания элементов.

Результаты расчетов критических процент превосходства infit среди различных номера сложности на каждого из двух калибровок (ссылки и новый) не показал статистическую значимость, как с трудностью индекс указанного калибровки (в обоих предыдущих случаях) (Z) доля достигла 1,501, таким образом, не имеющие значимость на уровне .05 значимости.

Очевидно, по предыдущим результатам, Есть никаких существенных различий в эффективности и точности присоединения пунктов два испытания - легко и трудно, как и проектирование случае использования двух различных размеров (1000,500 ) образцов, хотя использование (1000 человек) с трудным испытанием и (500 человек) с легкой пример лучше, чем использование (1000 человек) образца с простой тест и (500 человека) образца трудного испытания.

Третье: в результате второй гипотезы:

Установлено, что:

A) в случае использования двух эквивалент 200 предметов, результаты показали существование (23) существенные различия в различных номера снаряжение на две калибровки (ссылки и новые). Доля этого различия достигает 31%, что прошло ограниченный процент, что на 5%, что означает неэффективность присоединения с помощью этого номера вопросов, на которые эти две формы образцов.

Б) в случае использования двух эквивалентных групп числа (400 человек), результаты свидетельствуют о наличии (24) существенные различия в различных номера снаряжение на обоих (ссылки и новый) калибровок, где она достигла 32% , который проходил ограниченная часть 5%. Речь идет о неэффективности этой процедуры с помощью этой выборки.

C) в случае использования двух эквивалентных групп размера (800 человек), результаты указывают на существование (29) существенные различия в 39%. Это относится к неэффективности этих процедур с использованием этой выборки в обоих два эквивалентных образцов.

Согласно таблице (1), Есть никаких статистических различий между трудности индексов процентах пунктов снаряжение на две калибровки (новые и ссылки) в каждом из трех предыдущих случаях.

Таким образом, из таблицы (1) и (2) и предыдущих объяснений объединения двух испытаний элементов в этих трех случаях выясняется, что неэффективность использования аналогичной конструкции две группы в участии в двух различных элементов на один калибровки ясны достаточно, чтобы опровергнуть предыдущие преимущества заявил в некоторых из литературы. Кроме того, нет повышения эффективности за счет увеличения размера выборки, эквивалентных групп.

Четвертое: за результат третьей гипотезы:

Установлено, что:

А) для первой части гипотезы (в случае использования образцов разных размеров (1000, 500), результаты исследования первой гипотезы, показало, что разница в два размера образцов анализа (500, 1000) обмениваясь легко и трудных испытаний, дал те же хорошие результаты, где значительный процент разницы в два калибровки (ссылки и новые), не превышает ограниченный процент в обеих этих двух случаях.

B) на вторую часть гипотезы (в случае использования двух эквивалентных групп, каждая содержит по 800 человек), результаты упомянутых существование 4 значения различия в процентах от 5%, что является ограниченный процент. Это указывает на возможность использования общего пункта дизайн в соединении двух разных (легко - трудно) тестов.

Таблицы (3, 4) показал наличие статистических различий в пригодности снаряжения ставки процента на два калибровки, если сравнить ее в обоих случаях за счет использования двух эквивалентных групп в присоединении два испытания элементов и использования образцов: 1000 с трудным испытанием и 500 с легким.

Таблица (4) показывает наличие статистических разногласия путем с использованием выборки (1000 человек) для трудных испытаний, и (500 человек) для простой тест и использование (500) для каждого из легко и трудно. Это свидетельствует о большей эффективности объединения двух различных тестов (легко и трудно), которые за счет использования двух различных выборок по размеру, чем с помощью двух эквивалентных образцов.

Резюме

Результаты исследования показали, ...

1 - эффективность и точность общего дизайна, с использованием различных размеров анализа проб и разного уровня сложности из двух тестов.

2 - неточность аналогичной конструкции группы с помощью любого предложил размеров - 200, 400 и 800 - из этого исследования.

3 - обоснованности использования общих элементов конструкции с двумя эквивалентными образцов в размерах.

Заключительные замечания

Это может подразумевать, что необходимо использовать общие элементы дизайна с двумя различными образцами размером проще, чем использование двух эквивалентных образцов; где присоединения тесты - просто и сложно - может быть применена на двух различных образцах без относительно к выбору условий два эквивалентных образцов (Эль Shafe'i, 1996). Таким образом, можно присоединиться к пунктам два испытания, которые применяются в школьные годы разделения времени в одном классе, вне зависимости от размера образцов, на которых эти испытания были применены. Кроме того, аналогичные значение имеет недопущение использования аналогичной конструкции группы в зависимости от его результатов, которые не могут быть путем зависит от состояния приложения ..

Однако в литературе, особенно в нашем арабском мире по-прежнему страдает из-за отсутствия исследований в ряде областей, связанных с этим исследования; необходимо исследуемый эффект от использования анализа образцов, больших размеров (больше, чем размеры этого исследования) , на точность и эффективность процесса присоединения пунктов испытаний - различных по сложности - на одной общей градации с использованием эквивалента проектной группы. Кроме того, необходимо исследовали является следствием изменения в уровне две эквивалентные проб на точность и эффективность процесса присоединения пунктов два различных тестов (от уровня сложности), с одной общей калибровки с использованием эквивалента проектной группы.

Ссылки

(1.) Alla'm, С. (1989). Критическое исследование параллельно в моделях скрытые черты, и классические модели, в области образования и психологические измерения. Арабский журнал наук о человеке 5, с. 9-40.

(2.) Брик, А.,

(3.) Чу, К.

(4.) Крокер, Л.

(5.) De Шамплейн, F. (1996). Влияние на Многомерность КСП True-Оценка Приравнивая подгрупп испытуемых. Журнал образования измерений 33 (2), с. 181-201.

(6.) Доранс, J. (1986). Распределение влияния на удаление Пункт Приравнивая преобразование и сообщений Оценка. Журнал образования измерения 23 (3), с. 245-264.

(7.) Дорон, Р.: "Средняя Система" - Новые способы Приравнивая Счета на различные тесты, построенные из Пункт банка. Исследования по оценке образования 12 (2), с. 169-175.

(8.) Эль-Shafe'i, M. (1989). Влияние конструкции уравнивания испытаний изделий и образцов критерии выбора по калибровке пунктов банка (Rasch Model). Неопубликованные кандидат Исследования, педагогический факультет, университет Мансура, Египет.

(9.) Gilmer, С. (1989). Воздействие испытаний Раскрытие информации о приравнивается Счета и выдачи пропусков Цены. Прикладного психологического измерения. 13 (3), с. 245-255.

(10.) Grolund, Н. (1998). Оценка успеваемости учащихся. Шестое издание. Needham Heights, М.: Аллин и Бэкон.

(11.) Хэмблтон, Р. К.

(12.) Харрис, D.

(13.) Kadem, А. (1988). Использование модели Раша в области разработки достижения тестирования и обеспечения объективности объяснения полученных результатов. Кувейт, Кувейт университета, публикации Кувейтского университета.

(14.) Kadem, А. (1988). Критической теоретическое исследование о объективное объяснение поведения (модель Рашс). 2-е издание, Кувейт учреждение для развития науки.

(15.) Камата, A. (2001). Пункт Анализ по иерархической обобщенной линейной модели. Журнал образования Измерение 38, с. 79-93.

(16.) Kolen, М. J.

(17.) Господа, Ф. М.

(18.) Господа, Ф. М.

(19.) Господа, Ф. М. (1980). Применение пункта теории реагирования для решения практических задач тестирования. Хилсдейл, NJ: Лоренс Erlbaum.

(20.) Luppescu, S. (2002). DIF обнаружения в СВУ Пункт анализа. Документ, представленный на ежегодной встрече Американской ассоциации исследований в области образования, Новый Орлеан.

(21.) Raudenbush, С. В. (1995). Задняя Модальная оценка для иерархической обобщенных линейных моделей с применением к дихотомических и данных подсчета. Неопубликованные рукописи. Университет штата Мичиган.

(22.) Шульц, Е. Матфея

(23.) Самуэль, Л. (1989). Какую комбинацию отбора проб и методы работы приравнивая лучше? Документ, представленный на ежегодной встрече Американского исследований в области образования ассоциирование, Сан-Франциско, штат Калифорния, (ERIC Документ Воспроизведение ED30820 службы №).

(24.) Уильямс, Валери S.L., Pommerich, Мэри

(25.) Райт, B.

(26.) Райт, B.

(27.) Йена, Венди М.

Гада К. EID (PHD)

Доцент

Измерение, оценка, исследования,

Департамент образования Психология

Педагогический колледж

Кувейтский университет

ОБРАЗОВАНИЕ - статьи, новости, рефераты, переводы

Воздействие на размер выборки приравнивания тестовых заданий