Реферат: Структура статистики объектов нечисловой природы
Оценивание центра распределения проводят обычно с помощью медианы Кемени [42, 24]. Состоятельность вытекает из закона больших чисел [1]. Вычислительные процедуры нахождения медианы Кемени обсуждаются в работе [30].
Методы проверки гипотез развиты отдельно для каждой разновидности бинарных отношений. В области статистики ранжировок, или ранговой корреляции, классической является книга Кендалла [78]. Современные достижения отражены в статье Ю. Н. Тюрина и Д. С. Шмерлинга [79]. Статистика случайных разбиений развита А. В. Маамяги [80]. Статистика случайных толерантностей (рефлексивных симметричных отношений) изложена в работе [1]. Многие ее задачи являются частными случаями задач теории люсианов.
2. 5. 6. Теория люсианов (бернуллиевских векторов)
Люсиан (бернуллиевский вектор) - это последовательность испытаний Бернулли с, вообще говоря, различными вероятностями успеха [81, с. 232]. Реализация люсиана (бернуллиевского вектора) - это последовательность из 0 и 1. В работе [1] люсианы (бернуллиевские вектора) рассматривались как случайные множества с независимыми элементами, а в исследовании [82] - как результаты независимых парных сравнений. Последовательность результатов контроля качества единиц продукции по альтернативному признаку - также реализация люсиана (бернуллиевского вектора). Случайная толерантность может быть записана в виде люсиана. Поскольку один и тот же объект применяется в различных областях, естественно для его наименования применять специально введенный термин "бернуллиевский вектор". Используется также термин "люсиан"[2].
В рассматриваемой теории изучают методы проверки согласованности (одинаковой распределенности), однородности двух выборок, независимости люсианов. Изучение этих задач в асимптотике А. Н. Колмогорова начато в работах [1, 82, 83] и продолжено Г. В. Рыдановой [117], Т. Н. Дылько [84], Г. В. Раушенбахом и А. А. Заславским [85]. Имеется также и обзор [33].
Методы проверки указанных гипотез нацелены на ситуацию, когда число бернуллиевских векторов фиксировано, а их длина растет. При этом число неизвестных параметров возрастает пропорционально объему данных, т. е. теория построена в асимптотике растущего числа параметров. Ранее эта асимптотика под названием асимптотики А. Н. Колмогорова использовалась в дискриминантном анализе, но там применялись совсем другие методы [86].
Непараметрическая теория парных сравнений (в предположении независимости результатов отдельных сравнений) - часть теории бернуллиевских векторов [82]. Параметрическая теория связана в основном с попытками выразить вероятности того или иного исхода через значения гипотетических или реальных параметров сравниваемых объектов [87]. Известны модели Терстоуна, Бредли-Терри-Льюса и др. [88]. В СССР построен ряд новых моделей парных сравнений [89, 4]. Существенные результаты в этой области принадлежат Д. С. Шмерлингу [90]. Имеются модели парных сравнений с тремя исходами (больше, меньше, неразличимо), модели зависимых сравнений, сравнений нескольких объектов (сближающие рассматриваемую область с теорией случайных ранжировок) и т. д. [4, 90, 91].
Статистика случайных и нечетких множеств
Давнюю историю имеет статистика случайных геометрических объектов (отрезков, треугольников, кругов и т. д.) [92]. Как сказано в монографии [93], современная теория случайных множеств сложилась "при изучении пористых сред и объектов сложной природы в таких областях, как металлография, петрография, биология". Различные направления внутри этой теории рассмотрены в работе [1, гл. 4]. Остановимся на двух.
Случайные множества, лежащие в евклидовом пространстве, можно складывать: сумма множеств и - - это объединение всех векторов , где , . Н. Н. Ляшенко получил аналоги законов больших чисел, центральной предельной теоремы, ряда методов прикладной статистики, систематически используя подобные суммы [94].
Для статистики объектов нечисловой природы интереснее подмножества пространств, не являющихся линейными. В работе [1] рассмотрены некоторые задачи теории конечных случайных множеств. Ряд интересных результатов получил С. А. Ковязин [95], в частности, он доказал гипотезу [37] о справедливости закона больших чисел при использовании расстояния между множествами
, (15)
где. - некоторая мера;. - знак симметрической разности. Прикладники также делают попытки развивать статистику случайных множеств [43, 96].
С теорией случайных множеств тесно связана теория нечетких множеств, начало которой положено статьей Л. А. Заде [97]. Это направление прикладной математики получило бурное развитие - к настоящему времени число публикаций измеряется десятками тысяч, имеются международные журналы, постоянно проводятся конференции, практические приложения дали ощутимый технико-экономический эффект [98, 118]. При изложении теории нечетких множеств [99-101] обычно не подчеркивается связь с вероятностными моделями. Установлено [1], что теория нечеткости в определенном смысле сводится к теории случайных множеств, хотя эта связь и имеет лишь теоретическое значение. Общее введение в прикладные вопросы теории нечеткости дано в работе [102].
С точки зрения статистики объектов нечисловой природы нечеткие множества - лишь один из видов объектов нечисловой природы. Поэтому к ним применима общая теория в пространствах произвольной природы [103]. Имеются работы, в которых совместно используются соображения вероятности и нечеткости [104, 105].
2. 5. 8. Многомерное шкалирование и аксиоматическое введение метрик
Многомерное шкалирование имеет целью представление объектов точками в пространстве небольшой размерности (1-3) с максимально возможным сохранением расстояний между точками [24, 106]. Оригинальные подходы разработаны, в частности, В. О. Мазуром и А. Ю. Юровским [107], В. Т. Перекрестом [108]. Состоятельность одной оценки размерности искомого пространства установлена в работе [4].
Из сказанного выше ясно, какое большое место занимают в статистике объектов нечисловой природы метрики (расстояния). Как их выбрать? В работах [41, 42] предложено выводить вид метрик из некоторых систем аксиом. Аксиоматически получена метрика в пространстве ранжировок, которая оказалась линейно связанной с коэффициентом ранговой корреляции Кендалла [42]. Метрика (15) в пространстве множеств получена в работе [1, §4. 3] также исходя из некоторой системы аксиом. Г. В. Раушенбахом [109] дана сводка по аксиоматическому подходу к введению метрик в пространствах нечисловой природы. К настоящему времени практически для каждой используемой в приложениях метрики удалось подобрать систему аксиом, из которой чисто математическими средствами можно вывести именно эту метрику.
Применения статистики объектов
нечисловой природы
Идеи, подходы, результаты статистики объектов нечисловой природы оказались полезными и в классических областях прикладной статистики. Статистика в пространствах общей природы позволила с единых позиций рассмотреть всю прикладную статистику [8], в частности, показать, что регресионный, дисперсионный и дискриминантный анализы являются частными случаями общей схемы регрессионного анализа в пространстве произвольной природы [110]. Поскольку структура модели - объект нечисловой природы, то ее оценивание, в частности, оценивание степени полинома в регрессии, также относится к статистике объектов нечисловой природы (см. например, [111, 112]). Если учесть, что результаты измерения всегда имеют погрешность, т. е. являются не числами, а нечеткими множествами, то приходим к необходимости пересмотреть некоторые выводы теоретической статистики [113]. Например, отсутствует состоятельность оценок, нецелесообразно увеличивать объем выборок сверх некоторого предела.
Технико-экономическая эффективность от применения методов статистики объектов нечисловой природы достаточно высока. Только 5 работ по внедрению методов статистики объектов нечисловой природы дали 1 млн. 352 тыс. руб. в год [114] (по ценам середины 80-х годов; поскольку на 30 июня 1996 г. индекс инфляции составляет примерно 12000, то в современных ценах этот эффект оценивается как 16, 2 миллиарда руб.).
Так, методы "согласованного с преобразованиями усредняющего сжатия данных", основанные на теории средних величин, согласованных со шкалами измерений [1, 66, 68], внедрены в АСУ ТП доменной печи N5 Череповецкого металлургического комбината с экономическим эффектом 33 тыс. руб. [120]. Применение одного из методов статистики объектов нечисловой природы - качественного факторного анализа матриц связи - при оптимизации гаммы агрофизических приборов, производимых в НПО "Агроприбор", дало экономический эффект 850 тыс. руб. [115]. Использование статистике бинарных отношений для формирования классификатора основных показателей качества труда на цементных заводах принесло 88, 5 тыс. руб. [116].
В качестве примера рассмотрим задачу диагностики (в других терминах - распознавания с учителем, дискриминации) в пространстве разнотипных признаков. Классические непараметрические методы диагностики, основанные на ядерных оценках плотности, пригодны только в случае, когда все признаки - количественные. Во многих практических ситуациях часть признаков принимает дискретные значения. Мы рекомендуем применять методы, основанные на непараметрических оценках (10) плотности в пространствах общей природы. Введение расстояния между точками в пространстве разнотипных признаков, необходимое для применения этой рекомендации, может быть осуществлено, например, путем суммирования расстояний между значениями отдельных признаков. Проведенные в Институте медицины труда РАМН расчеты (1989 -1990 гг.) показали преимущество описанного алгоритма над ранее известными.
Литература
1.Орлов А.И. Устойчивость в социально-экономических моделях.-М.Наука,1979.-296 с.
2.Орлов А.И. Экспертные оценки / Вопросы кибернетики. Вып.58.-М.: Научный Совет СССР по комплексной проблеме "Кибернетика", 1979.С.17-33.
3.Орлов А.И. / Тезисы докладов Четвертой международной Вильнюсской конференции по теории вероятностей и математической статистике: Том 2.-Вильнюс, Вильнюсский госуниверситет, 1985.С.278-280.
4.Орлов А.И. / Анализ нечисловой информации в социологических исследованиях.-М.Наука, 1985.С.58-92.
5.Орлов А.И. / Статистика. Вероятность. Экономика.-М.Наука,1985. С.99-107.
6.Орлов А.И. / Заводская лаборатория. 1987.Т.58. N3.С.90-91.
7.Орлов А.И. /Надежность и контроль качества. 1987.N6.С.54-59.
8.Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и характеристики.- М.:ВНИИС,1987.-64 с.
9.Кривцов В.С., Фомин В.Н., Орлов А.И. / Стандарты и качество. 1988.N3.С.32-36.
11.Колмогоров А.Н. Статистический приемочный контроль при допустимом числе дефектных изделий, равном нулю. - Л.: ДНТП, 1951. - 22 с.