Иллюстрация из наименее средней квадратов регрессии с использованием прогресса
Классическая регрессионного анализа были основаны на наименьших квадратов (DS) методы, которые к минимуму суммы квадратов остаточных в линейной регрессии (Каселла
2), они также признали, что "если набор данных имеет более чем один посторонний, дела могут маскировать друг друга, что делает поиск выпадающих трудных" (Вайсберг, 1985, стр. 117) ..
Кроме того, Вайсберг (1985) утверждал, "мы можем рассматривать с помощью статистических методов, которые могут допускать или разместить определенную долю плохих или удаленных данных" (стр. 116). Биркс и Dodge (1993) предположил, что "LMS [наименее Средний Площади] оценка просто описать и очень устойчив к выбросы" (стр. 207). До сих пор подход LMS была разработана в компьютер программное обеспечение озаглавленный Программа для универсальной регрессии (прогресса), и в соответствии с Rousseeuw (1984), "в результате оценки могут устоять перед влияние почти на 50% загрязнения в данных" (р . 871). Это событие определило границы в области статистики (Carroll
Обзор литературы
Метод наименьших квадратов подготовила наилучших линейных объективной оценки (BLUE) при нормальном распределении ошибок (Биркс
Некоторые процедуры для
выявление одного особняком в линейных
регрессии. Эти процедуры обычно
Предположим, что существует не более одного
выпадающих в той или иной набор данных и требуют
, что на этикетке из отдаленных наблюдений
неизвестно. (Стр. 80)
Для устранения данных загрязнения в больших размерах, надежные подходы были разработаны для "подгонки регрессии, что делает правосудие к большинству данных" (Rousseeuw
Надежности оценки в отношении
тяжелые загрязнения измеряется
им точке пробоя, которая является
мере доля выбросов, которые могут
место в образце без сопутствующих
возможность сколь угодно большого
смещения. (Стр. 207)
По оценке Л. С., "единую точку вдали от других точек данных может быть почти так же сильно влияют на результаты регрессии как и все другие точки комбинированного (Ролингс, 1988, p. 241). Таким образом, оценка ЛС может быть серьезно обеспокоен данных загрязнения из-за нулевой точке пробоя в Л.С. моделирование (Rousseeuw
Выше точке пробоя в прочном регрессии представляет собой важный аспект смягчения слабость в выпадающих диагностики. Кук и Вайсберг (1982) признал, "использование надежных методов не отменить полезности диагностики в целом, хотя это может сделать некоторые из них ненужные" (стр. 2). По Rousseeuw и Лерой (1987),
Диагностика некоторых величин
вычисляется из данных с целью
определять область влиятельных
точки, после чего эти выбросы можно
быть удалены или исправлены, а затем
на основе анализа ЛС по остальным
случаев. При наличии только одного
посторонний, некоторые из этих методов работы
хорошо, глядя на эффект
удаления одной точке времени.
К сожалению, это гораздо сложнее,
для диагностики выбросов когда же
некоторые из них. (Стр. 8)
В нескольких случаях выброса, Rousseeuw и Сгоих (1993) отметил, что "средний имеет точке пробоя составляет 50% (что является самым высоким возможным), потому что оценка остается ограниченным, когда менее 50% от данных точек заменяются произвольной число "(стр. 1273). Биркс и Dodge (1993) согласился:
Максимально возможного пробоя
точки составляет 50%. Это достигается путем
наименее медианы квадратов (LMS) оценка,
эта оценка, что
минимизирует медиана
квадратов невязок [e.sub.i] [2] (или,
то же самое, сводит к минимуму медиана
абсолютное остатков | [e.sub.i] |). (Стр. 207)
Эволюция от Л. LMS для оценки зависит от развития вычислительной техники модема. Rousseeuw и Лерой (1987) вспоминал:
В то время ее оценки [Л.]
Изобретение (около 1800) было
не было компьютеров, а также тот факт, что
Л. оценки могут быть вычислены
прямо из данных (с помощью
некоторой матрицы алгебры) сделал это
единственный возможный подход. Даже сейчас,
большинство статистических пакетов по-прежнему использовать
же технику из-за традиции
и скорости вычислений. (Стр. 2)
Между тем, Ролингс (1988) отмечал: метод наименьших квадратов дает равный вес каждого наблюдения. Тем не менее, каждое наблюдение не имеет себе равных влияние на различные наименьших квадратов результатов. (Стр. 241)
Исследование неравный вес данные могут быть датированы (1777) статьи Бернулли. Тем не менее, Rousseeuw и Лерой (1987) указывал, что "без помощи компьютера, он никогда бы не удалось вычислить оценки высокой пробой регрессии" (стр. 29).
Созданная на основе персонального компьютера и мейнфреймов интерфейсов, программного обеспечения прогресса эффективный инструмент для регрессии LMS, и было сделано "для повседневной статистической практики" (Rousseeuw
Мы выступаем как минимум медиана
методом наименьших квадратов (Rousseeuw 1984)
потому что она апеллирует к интуиции
и прост в использовании. Нет фоне
знаний или выбора настройки констант
для того чтобы: Просто введите
данных и интерпретации результатов. Это
надеется, что надежных методов этого
типа будут включены в основной
статистические пакеты, которые будут
сделать их легко доступными.
(Rousseeuw
Руководство пользователя программного обеспечения была опубликована John Wiley
Выбор данных
Национальный центр статистики образования (NCES) является федеральным учреждением в вопросах сбора национальных данных об образовании. В середине 1990-х годов, основное положение было разработано NCES (1996) требует пользовательских лицензий для доступа к ограниченным национальными базами данных. Среди лицензии требование подписи генерального прокурора в каждом штате. Следовательно, большинство исследователей с небольшой связи на государственном уровне, не может получить доступ к ограниченной базе данных на NCES.
С другой стороны, Национальный научный фонд финансировал продольного исследования американских молодежи (LSAY) проекта в течение 1987-1992 годы. LSAY данные были распространены в Чикаго академии наук, не ограничение лицензии. До середины 1997 года проект был упомянут 22 статей в базе данных ERIC, и тренировки по использованию LSAY данных была предложена в 1997 году на ежегодной встрече Американской ассоциации исследований в области образования (AERA). Для облегчения эмпирических подтверждение результате LSAY данные были заняты в данной работе для иллюстрации использования ПРОГРЕСС в регрессии LMS.
Методика
Rousseeuw и Zomeren (1990) заметил: "Нетипичные в многомерных помутнения может быть трудно обнаружить, особенно тогда, когда размерность р превышает 2, потому что тогда мы не можем больше полагаться на визуальное восприятие" (стр. 633). Для упрощения на рисунке, две переменных были выбраны из LSAY данных принципе файл, один измерения школу (LSAY имени переменной: EK2A) и другие оценки общего числа классов в школе (LSAY имени переменной: EK1A). В реальной школьной, ни регистрация, ни школы классов. Таким образом, отношения могут быть смоделированы в линейное уравнение без определенного влияния перехвата:
EK2A = [Beta] (EK1A) [Эпсилон] 1, где [Эпсилон] является регрессия и [Beta] может быть оценена либо через ЛС или LMS регрессии.
ХОД ПО было использовано для расчета ЛС и коэффициенты регрессии LMS. Сравнение модели на основе средней остаточной различия между ЛС и LMS оценки. Попарно-теста была использована для дальнейшего изучения реальных отклонение данных от припадке ЛС и LMS моделей. Коэффициент детерминации ([R.sup.2]), также вычисляется для каждой модели для оценки изменчивости перекрытия между независимыми и зависимыми переменными.
Результаты
Результаты ЛС и LMS оценки были собраны в таблице 1. Л. оценки были перепроверены прогрессом и SAS распечатку для обеспечения надлежащей обработки данных в эмпирический анализ данных.
Исследователи обнаружили, что большинство реальных данных не соответствует нормальной предположение оптимизировать Л. оценок (Cook
Кроме того, в программном обеспечении ВМОР, Махаланобиса Расстояние была использована для выявления выбросов. Стивенс (1992) выступали:
К счастью, однако, есть статистика
(Так называемый Махаланобиса расстояние)
которая приближенных хи-квадрат
распределения для больших N,
которые могут быть использованы для обнаружения многомерных
выбросов любого типа. (П. 17-18)
Rousseeuw и Zomeren (1990) предупредил, что "Хорошо известно, что этот подход [Махаланобиса метод Distance] страдает от маскирующий эффект, в которой несколько выбросов, не обязательно иметь большой MDI [Махаланобиса Distance]" (стр. 633).
С максимально возможной точки пробоя, оценка LMS был нечувствителен к воздействию нескольких выбросов. Напротив, "выбросы находятся далеко друг от надежной форме и, следовательно, могут быть обнаружены по их больших остатков от нее" (Rousseeuw
Ссылки
Бернулли, D. (1777). Наиболее вероятный выбор между несколькими противоречивые замечания и образования, скорее всего, индукции. В разделе "С. Г. Аллен (1961), Biometrika, 41, 3-13.
Биркс, D.
Кэрролл, Р. J.
Каселла, G и Бергер, Р. Л. (1990). Статистические выводы. Pacific Grove, CA: Brooks / Кол.
Чаттерджи, С.
Кук, Р.
Макгиннис, J. (1991, апрель). Сравнение шесть различных диагностических процедур, используемых для проверки сырья количественные данные по выпадающим в общем исследовании естественно-научного образования. Документ, представленный на ежегодной конференции Национальной ассоциации по исследованиям в области преподавания науки, Женевское озеро, WI.
Монтгомери, D.
NCES (1996). Ограниченные данные об использовании руководства по процедурам (NCES 96-860). Washington, DC: У. С. Департамент образования.
Ролингс, J. О. (1988). Прикладной регрессионный анализ: исследовательский инструмент. Pacific Grove, CA: Уодсворт.
Rousseeuw, П. J.
Rousseeuw, П. J. (1984). Наименее средней квадратов регрессии. Журнал Американской статистической ассоциации, 79 (388), 871-880.
Rousseeuw, П. J.
Rousseeuw, П. J.
Стивенс, J. (1992). Прикладная многомерного статистического анализа в области социальных наук (2-е изд.). Хилсдейл, NJ: Лоренс Erkbaum.
Вайсберг, С. (1985). Прикладная линейной регрессии. New York, NY: Wiley.
[2] Jianjun Ван является доцентом статистики в области образования и научных исследований, Департамент педагогическое образование, California State University, 9001 Стокдейл шоссе, Бейкерсфилд, CA 93311-1099.