Улучшение кривой с наименьшим абсолютное отклонение

Обзор

В более ранней статье в Национальном форуме прикладных исследований в области образования Journal, Тейлор (1989) показали, что наименее абсолютное отклонение (LAD) предоставил более представительным линия наилучшего соответствия, по сравнению с наименьших квадратов регрессии (ЛСК) в линейном случаях и при Данные включают выбросы. В частности, в тех случаях, без выбросов, линия "ЛАД и ЛСР линии были почти идентичны. Но, как один или несколько выбросов были представлены и переехал подальше от данных кластера, ЛСР преследовали выбросов более чем Лад ". Это следовало ожидать, так ЛСР использует квадратуры удалить признаки остатков, где ЛАД удаляет знак, приняв его абсолютное значение. Нетипичные, следовательно, будет способствовать гораздо больше образцов остатков в ЛСР, чем они будут в ЛАД.

Абсолютное отклонение методов, являются ли они применяться к процедурам измерения изменчивости и корреляции, как правило, относятся с неодобрением, потому что они не являются алгебраическими в природе. Однако, как линейного программирования, начинают лучше понимать и доступна на микрокомпьютер, некоторые без алгебраических операций, включая абсолютное отклонение методы могут быть более широко используются. Шраге (1991), например, объясняется как "Лад привлекательным способом решения проблемы выпадающих в регрессии в своей популярной линейного программирования учебника.

Это было обосновано автором, что если "Лад улучшает посадку линии регрессии в сложных линейных задач, то, возможно, было бы внести еще больший вклад в установку линии регрессии в криволинейных проблем, особенно в тех случаях, когда общая формула для кривой трудно различить. Для того, чтобы продолжить эту линию рассуждения, следующие шаги были предприняты:

1. Тридцать два (32) двумерные (X, Y) данные пункты были созданы такие, что они разбросаны по S-образной кривой.

2. Использование популярных программ для установки условно кривых LSR (CURVEFIT, 1988), изогнутая линия наилучшего соответствия не найдено.

3. Нелинейных оптимизатор (2,25 GAMS, 1992) была настроена на поиск изогнутые линии наилучшего соответствия на основе ЛАД. Проблема была вынуждена потребовать использования одного и того же общего вида кривой выбран CURVEFIT.

4. Использование каждой из двух линий наилучшего соответствия, прогнозных значений Y (| Y.sup.1 ~) были найдены для каждого целого значения X в исходной области X.

5. | R.sup.2 ~ были вычислены для каждого из двух наборов | Y.sup.1 ~ по сравнению с фактическими значениями Y, для определения наличия или ЛАД ЛСР подготовила лучше подходят.

6. Две из точек данных были изменены, то менять их на выбросы.

7. Весь процесс оценки, шаги с 1 по 5 выше, был повторен. Опять же, ЛАД и ЛСР линии были сопоставлены.

8. Наконец, новый набор данных, с рисунком в общем виде положительной экспоненты был создан, и весь процесс оценки, с учетом и без выбросов, был повторил (шаги 1 выше).

В любом случае, "ЛАД" подготовил начальник линия наилучшего соответствия, хотя степень улучшения в целом невелика.

Подробная информация о эксперимент

Подробности эксперимента объяснить, используя указанные выше действия, как структуры.

1. Создание первого набора данных. Набор из 32 (X, Y) точек данных был создан домен для X от 1 до 15, и домен для Y от 2 до 11, а именно:

ТАБЛИЧНЫЙ DATA опущен

2. Монтаж ЛСР линии. Использование популярной программы Shareware (CURVEFIT, 1988), данные в таблице 1, были установлены на кривой с помощью наименьших квадратов регрессии. Лучшее соответствие было получено с применением кумулятивных нормальная кривая с коэффициентами, как указано ниже:

| Математические выражения пропущен ~

3. Монтаж линии ЛАД. Стандартных нелинейных оптимизатор, GAMS 2,25 с MINOS5) был использован, чтобы поместить линию "Лад к данным в таблице 1 (GAMS, 1992). Для того, чтобы найти "ЛАД", это уравнение приводится к оптимизатору, как набор ограничений. Каждый член набора, имеет переменную (а, б, в), заменить на коэффициенты предоставляемый CURVEFIT, как показано ниже.

| Математические выражения пропущен ~

Есть столько ограничениями в множестве, как Есть точек данных. Каждое ограничение есть X и Y значения точки данных заменить в формуле. Потому что это крайне маловероятно, что каждая точка данных ляжет на линии наилучшего соответствия, каждый ограничение включает в себя учет отклонений. Оптимизатор рассказал свести к минимуму суммы отклонений. Таким образом, значения переменных, б, в окончательном решении представляют собой оптимальные коэффициенты.

Например, ограничения на первой точки данных (1,2) и, наконец, или тридцать втором, данные точки (15,11) задаются следующим образом:

| Математические выражения пропущен ~

и

| Математические выражения пропущен ~

где U и V указать степень, в которой точки падения "до" (U) или "над" (V) линии.

Полная формулировка задачи нелинейного программирования, то это объявить, б, в, как неограниченный переменных (т. е. они могут быть положительными или отрицательными), объявить 32 положительных переменных U, | U.sub.1 ~, | U . sub.2 ~,...| U.sub.32 ~ и 32 положительных переменных V указать 32 ограничений, как описано выше, а затем указать целевой функции, которая минимизирует:

ТАБЛИЧНЫЙ DATA опущен

| Суммирование я ~ (| U.sub.i ~ | V.sub.i ~)

где я = 1,2, ... 32.

Когда эта стратегия была применена к данным в таблице 1, коэффициенты, б, были немного другими, чем те, производства ЛСР

| Математические выражения пропущен ~

4. Получение два набора прогнозов. Значение X (X = 1,2, ... 15) был заменен в каждой из двух прогнозирования формулы приведены в пункты 2 и 3 выше. Результаты представлены в таблице 2.

5. Тестирование прогнозов. Два значения | R.sup.2 ~ были произведены. Первый указал на соответствия между фактическими значениями Y и предсказываемых ЛСР ". Второй указал соответствия между фактическими и Y предсказаниями ЛАД ".

| R.sup.2 ~ (Фактические, ЛСР) = .898

| R.sup.2 ~ (Фактические, "ЛАД") = .910

Хотя "Лад подходит лучше, разница невелика, однако, данные были свободны от выбросов, и это наличие выпадающих в линейном случае, что отличает подход ЛАД. Таким образом, эксперимент продолжается того выбросов.

6. Представляя выбросов в наборе данных. См. Таблицу 1. Данные точки 2, первоначально (1,2) была изменена на (1,5). Данные точки 13, первоначально (6,7), была изменена на (10,7). Эти изменения генерируются выпадающих визуализируются в график 1 ниже.

7. Повторяя процесс оценки с выбросами. CURVEFIT определены различные основной кривой, когда он столкнулся с новой выбросов. Вместо установки линии по кривой нормального распределения, как и в пункте 2, он подошел данных второго порядка гиперболической кривой. Таким образом, лучшие ЛСР уравнение:

| Y.sup.1 ~ = 14.270-49.311 / X 38,770 / | ~ X.sup.2

Нелинейных оптимизатор был бежать, чтобы найти лучшие коэффициенты для той же кривой, что соответствует методу ЛАД:

| Y.sup.1 ~ = 14,350 - 46,400 / 37,050 X / | ~ X.sup.2

На основании этой кривой, | ~ Y.sup.1 значения были вычислены при Х = 1,2, ... 15 для обоих уравнений. Эти значения то каждый коррелируют с фактическими значениями Y производить R, которые используются для сравнения выше ЛСР метод с ЛАД. Результаты таковы:

| R.sup.2 ~ (Фактические, ЛСР) = .832

| R.sub.2 ~ (Фактические, "ЛАД") = .839

Опять же, эти два метода не дали результатов, которые заметно отличаются, однако, иметь в виду, что метод ЛСР включен кривых в связи с добавлением двух выбросов. Такое поведение возникает вопрос о том, как выбросы бы осуществляться ЛСР и "ЛАД если кривая не был включен. Обоснование для проверки это вытекает из предположения, что оригинал (левой стороны от нормали) кривой установлены неискаженной данных лучших, и, следовательно, представляет собой модель, против которого влияния выбросов должна быть проверена.

Здесь было несколько сюрпризов. Метод "Лад не гнаться за выбросы на всех. Коэффициентами, и, таким образом, предсказанных значений, | Y.sup.1 ~, были неизменны в течение ЛАД. Метод ЛСР, однако, были получены следующие уравнения прогноз:

| Математические выражения пропущен ~

Опять же, после обнаружения Y для ЛСР и "ЛАД уравнений по всему спектру X, мера добра" подгонки "с целью:

| R.sup.2 ~ (Фактические, ЛСР) = .815

| R.sup.2 ~ (Фактические, "ЛАД") = .873

В этих условиях представляется ЛАД подходят значительно лучше, что ЛСР ".

8. Репликация всего эксперимента с другим типом кривой. Весь эксперимент был повторен для набора данных, тридцать две точки, разбросанные по положительной экспоненте. CURVEFIT использовать геометрические кривой соответствуют пунктам:

| Математические выражения пропущен ~

Опять же, коэффициенты для ЛСР и "ЛАД были найдены, и | Y.sup.1 ~ ценностей, основанных на каждом были рассчитаны. Результат еще раз отметил, что "Лад подготовила несколько лучше подходят.

Заключение

Хотя настоящего исследования является далеко не исчерпывающим - Есть много типов кривых и каждый тип имеет неограниченное число комбинаций коэффициент - казалось бы, "Лад обеспечивает по крайней мере чуть лучше подходит, чем ЛСР". Если Есть нет выбросов или где ЛСР имеет право преследовать выбросов путем переключения наиболее подходят кривые, преимущества ЛАД скромны и, вероятно, не стоит вычислений, однако, когда кривая типа устанавливается, добавив, выпадающих причины качества линии наилучшего соответствия ухудшаться гораздо больше, чем с ЛСР с ЛАД. Таким образом, при таких обстоятельствах, "ЛАД" должны быть серьезно рассмотрены в качестве альтернативного метода.

Легко вычислить коэффициенты ЛСР Есть очень много недорогих компьютерных программ, которые обрабатывать ЛСР даже при больших наборов данных, обычным пользователям. К сожалению, не существует простой способ вычисления коэффициентов Лад ". Нужно освоить нюансы нелинейной оптимизации таких программ, как один использованы здесь. Трудность расчета коэффициентов ЛАД основная причина, почему автор настоящей статьи рекомендует средство с осторожностью. Только при обстоятельствах, описанных в предыдущем пункте, и только тогда, когда анализ предназначается для поддержки важных решений, является "Лад оправдано. Может быть, когда-нибудь будут рынке легкой в использовании "Лад вычислительных средств, так как для LSR, но до этого времени," ЛАД "будет отдаваться предпочтение только при определенных ограниченных обстоятельствах.

Ссылки

CURVEFIT (1988). Shareware можно получить Томас С. Кокс, 102 Эвергрин-стрит, Исли, SC, 29640

GAMS (версия 2.25) (1992). Имеющиеся в продаже программного обеспечения, GAMS корпорация развития, 1217 Потомак Street, Washington, DC 20007.

Shrange, Линус (1991). Линда: Оптимизация системы моделирования (4 изд.). South San Francisco, CA: Научные Press.

Тейлор, Р. (1989). Наименее абсолютное отклонение: Решение задачи в нетипичных наименьших квадратов регрессии. Национальный форум прикладных исследований образовательный журнал, 2 (2).

Цитадель GEAR-UP программы и личностно-ориентированного образования: вместе, рамки для успеха учеников

Учитель кадетской: уникальные личностно-ориентированного высокой школьный курс

Личностно-ориентированные условия, обеспечивающие успех студентов в процессе обучения

Встречи в киберпространстве

Как это вместе: эффективные стратегии для университета и партнерство школы

Множественного интеллекта в классе

Студенческие управления: учитель стажеров борьбе с предположениями

Институциональные факторы, влияющие на удержание студентов

Учитель участие оценить достижения

Школа финансов реформы: нерешенный вопрос по всей стране

Hosted by uCoz