Реферат: Современное состояние математического и программного обеспечения квантильно-регрессионных мод
Множество работ Коенкера (Koenker) по оценке линейной квантильной регрессии представлено в качества отрытого кода на языке R (http://cran.r-project.org) и в виде функции на языке S для пакета S-PLUS (http://econ.uiuc.edu/roger).
Специализированный статистический пакет STATA имеет команду «qreg» для оценки квантильной регрессии. Библиотека подпрограмм, реализующих команды STATA постоянно расширяется и пользовательские версии доступны на http:/jstor.org.
В специальном математическом ПО XploRe имеется возможность оценки параметров квантильной функции и ряд сервисных процедур по проверке гипотез и построения графиков.
Также известны специальные прикладные реализации некоторых алгоритмов квантильной регрессии – пакет VGAM, разработанный T.W.Yee (http://www.stat.auckland.ac.nz), реализующий LMS-метод, оценку квантилей при исходном гамма распределении значений и модификация трансформации Бокса-Кокса для положительных и отрицательных значений.
и GLMS-проект
Ввиду значительной вычислительной сложности квантильной регрессии самым первым подходом к получению функций условных квантилей было соединение эмпирических квантилей ровной линией «на глаз», т.е. применение неформализованного сглаживания.
Применение подхода на основе сглаживания предполагает, что для каждого фиксированного значения переменной осуществляется выборка соответствующих значений зависимой переменной
, по которой вычисляется выборочная квантиль заданного порядка. Упорядоченные по фиксированным значениям
квантили одного и того же порядка интерполируются гладкой непрерывной функцией. Поскольку подобная задача решается в два этапа:
1) расчет эмпрического квантиля заданного порядка по выборке;
2) сглаживание множества эмпирических квантилей по независимой переменной, зафиксированной для каждого рассчитанного квантиля.
То соответствующий подход принято считать двухступенчатым.
На сегодняшний день наиболее известна реализация двухступечатого подхода при обработке исследований Американского центра по контролю за питанием (CDC) для построения справочных диаграмм развития детей. Для измеренных значений были получены первоначальные сглаженные кривые выбранных главных процентилей и на втором этапе получены параметры, которые были использованы для построения финальных сглаженных кривых и дополнительные процентилей. В качестве сглаживающих функций были использованы полиномиальная 5-й степени, локально взвешенная регрессия (locally weighted regression). Подгонка модели, основывалась на минимизации остаточного среднего квадрата ошибок (RMSE), коэффициента детерминации (R2). Подробное описание вычислительных процедур можно найти на http://www.cdc.gov/growthcharts.
В работе [Ошибка! Источник ссылки не найден. ] представлена двухступенчатая процедура с использованием метода k-ближайших соседей для вычисления квантильных функций и ядерной сглаживание для финальных квантильных регрессий.
Эти ступени легко могут быть реализованы в любом статистическом и математическом ПО, поскольку решение двух задач – вычисления квантилей и сглаживание могут выполняться раздельно. На сегодняшний день практически все статистические пакеты и электронные таблицы имеют встроенные функции вычисления квантилей заданного порядка или процентилей, и обладают широким спектром различных процедур сглаживания, которые могут применены к различным типам данным, в частности выборочным квантилям.
Литература.
1. Buchinsky M. Quantile regression, Box-Cox transformation model, and U.S. wage structure, 1963-1987. – J.Econometr. – 1995. – V. 65 – P. 109-154.
2. Cizek P. Quantile Regression/ XploRe Application Guide, ed. by W. Härdle, Z. Hlavka, and S. Klinke. – Springer, Berlin. – 2003:– P. 19–48.
3. Cole TJ Smoothing reference centile curves: the LMS method and penalized likelihood/ TJ Cole, PJ. Green//Statistics in Medicine.– 1992. –Vol. 11. –P. 1305-1319
4. Guo S, Roche AF, Baumgartner RN, et al. Kernel regression for smoothing percentile curves: reference data for calf and subscapular skinfold thicknesses in Mexican Americans. American Journal of Clinical Nutrition 1990; 51: 908S-916S
5. He X. Quantile curves without crossing./American Statistician. – 1997. – V. 51. – P. 186-192.
6. Koenker R. Quantile smoothing splines.//R. Koenker, Ng, P., Portnoy, S. –Biometrika, –1994, V.81. – P. 673-680.
7.Koenker R. Quantile Regression/ R. Koenker, K. F. Hallock //Journal of Economic Perspectives – 2001. – Vol. 15. – P. 143–156.
8. Rigby RA Generalized additive models for location, scale and shape./ RA Rigby, DM Stasinopoulos//Journal of the Royal Statistical Society, Series C – Applied Statistics. –Vol. 54. –P. 507–544.
9. Rigby RA. Smooth centile curves for skew and kurtotic data modelled using the Box-Cox power exponential distribution./ RA Rigby, DM Stasinopoulos// Statistics in Medicine. – 2004. – V. 23. – P.3053–3076.
10. Yee T.W. On an alternative solution to the vector spline problem. – Journal of the Royal Statistical Society, Series B, Methodological – V. 60. – P. 183-188.
11. Yu. K. Quantile regression using RJMCMC algoritm// Comput. Statist. Data Anal. – 2002. V.40. – P.303–315.
12. Hjort NL, Walker SG (2009). Quantile pyramids for Bayesian nonparametrics. The Annalsof Statistics, 37: 105{131