Доклад: Объекты нечисловой природы
Напомним, что любое бинарное отношение на конечном множестве может быть описано матрицей из 0 и 1.
Дихотомические данные.
Это данные , которые могут принимать одно из двух значений (0 или 1), т.е. результаты измерений альтернативного признака. Как уже было показано, измерения в шкале наименований и порядковой шкале приводят к бинарным отношениям, а те могут быть выражены как результаты измерений по нескольким альтернативным признакам, соответствующим элементам матриц, описывающих отношения. Дихотомические данные возникают в прикладных исследованиях и многими иными путями.
В настоящее время в большинстве стандартов на конкретную продукцию предусмотрен контроль по альтернативному признаку. Обширные теоретические исследования проблем статистического приемочного контроля по альтернативному признаку [57,58]. Основополагающими в этой области являются работы А.Н.Колмогорова [59,60]. Подход советской вероятностно-статистической школы к проблемам качества продукции по альтернативному признаку означает, что единица продукции относится к одной из двух категорий - "годных" или "дефектных", т.е. соответствующих или не соответствующих требованиям стандарта.
Дихотомические данные - давний объект математической статистики (см., например, [62, гл.33]) Особенно большое применение они имеют в медико-биологических [46] и социологических [63] исследованиях, в которых большинство переменных, интересующих специалистов, не может быть измерено ( в настоящее время!) по количественным шкалам. При этом дихотомические данные зачастую являются более адекватными, чем результаты измерений по методикам, использующим большее число градаций. В частности, психологические тесты типа MMPI [45] используют только дихотомические данные. На них опираются и методы парных сравнений [64].
Элементарным актом в методике парных сравнений является предъявление эксперту для сравнения двух объектов ( сравнение может проводиться также прибором). В одних постановках эксперт должен выбрать из двух объектов лучший по качеству, в других - ответить, похожи объекты или нет. В обоих случаях ответ эксперта можно выразить одной из двух цифр - 0 или 1. В первой постановке: 0, если лучшим объявлен первый объект; 1 - если второй. Во второй постановке: 0, если объекты похожи, схожи, близки; 1 - в противном случае.
Подводя итоги изложенному, можно сказать, что рассмотренные выше данные представимы в виде векторов из 0 и 1 ( при этом матрицы, очевидно, могут быть записаны в виде векторов). С.А.Айвазян [65] предлагает "унифицированную форму записи наблюдений", в которой любые виды результатов записываются в виде векторов из 0 и 1. Представляется, что это предложение имеет скорее академический интерес, но во всяком случае можно констатировать, что анализ дихотомических данных необходим во многих прикладных постановках.
Множества
Совокупность векторов X = () из 0 и 1 размерности n находится во взаимно-однозначном соответствии с совокупностью всех подмножеств множества N = {1, 2, ..., n}. При этом вектору X = () соответствует подмножество N(X)N, состоящее из тех и только из тех i, для которых = 1. Это объясняет, почему изложение вероятностных и статистических результатов, относящихся к анализу данных, являющихся объектами нечисловой природы перечисленных выше видов, велось [37, гл.4] на языке конечных случайных множеств.
Множества как исходные данные появляются и в иных постановках. Из геологических реалий исходил Ж.Матерон [66], из электротехнических - Н.Н.Ляшенко [67] и др. Случайные множества применялись для описания процесса случайного распространения, например распространения эпидемии или пожара[68, 69, 70] , а также в математической экономике [71]. Много работ связано с изучением случайных геометрических объектов - точек, прямых, кругов, мозаик и т.д. (обзор по состоянию на 1969г. дан а работе [72]). В работе [37, §4.6, §5.6] рассмотрены приложения случайных множеств в теории экспертных оценок и в теории управления запасами и ресурсами.
Отметим, что реальные объекты можно моделировать случайными множествами как из конечного числа элементов, так и из бесконечного, однако при расчетах на ЭВМ неизбежна дискретизация, т.е. переход к первой из названных возможностей.
Нечеткие множества
Пусть A - некоторое множество. Подмножество B множества A характеризуется своей характеристической функцией
(4)
Нечеткое подмножество множества характеризуется своей функцией принадлежности .. имеет вид (4) при некотором , то есть обычное (четкое) подмножество A.
Обычное подмножество можно было бы отождествить с его характеристической функцией. Этого не делают, поскольку для задания функции (в ныне принятом подходе) необходимо сначала задать множество. Нечеткое же подмножество с формальной точки зрения можно отождествить с его функцией принадлежности. Однако термин "нечеткое подмножество" предпочтительнее при построении математических моделей реальных явлений.
Начало современной теории нечеткости положено статьей Л.А.Заде в 1965г [73]. К настоящему времени по этой теории опубликованы тысячи книг и статей, издается несколько международных журналов, выполнено достаточно много как теоретических, так и прикладных работ. Из публикаций на русском языке, кроме перевода монографии Л.А.Заде, назовем книги С.А.Орловского [75], В.Б.Кузьмина [76], а также работы [77-80].
Л.А.Заде рассматривал теорию нечетких множеств как аппарат анализа и моделирования гуманистических систем, т.е. систем, в которых участвует человек [81, с.6]. Его подход "опирается на предпосылку о том, что элементами мышления человека являются не числа, а элементы некоторых нечетких множеств или классов объектов, для которых переход от "принадлежности" к "непринадлежности" не скачкообразен, а непрерывен " [81, с.7]. В настоящее время методы теории нечеткости используются почти во всех прикладных областях, в том числе при управлении качеством продукции и технологическими процессами. Популярный обзор прикладных возможностей теории нечеткостей дан в работах [43, 82].
Пусть и - два нечетких подмножества с функциями принадлежности и соответственно. Пересечением , произведением , объединением , отрицанием , суммой называются нечеткие подмножества с функциями принадлежности
соответственно.
Свойства введенных операций над нечеткими множествами и их связь с операциями над обычными множествами обсуждаются в работах [37,43].
Объекты нечисловой природы как статистические данные
В математической статистике наиболее распространенный объект изучения - выборка т.е. совокупность результатов наблюдений. В различных областях статистики результат наблюдения - это или число, или конечномерный вектор, или функция... Соответственно проводится деление математической статистики: одномерная статистика, многомерный статистический анализ, статистика временных рядов и случайных процессов... В статистике объектов нечисловой природы в качестве результатов наблюдений рассматриваются объекты нечисловой природы, в частности, перечисленных выше видов - измерения в шкалах, отличных от абсолютной, бинарные отношения, вектора из 0 и 1, множества, нечеткие множества. Выборка может состоять изранжировок и толерантностей, или множеств, или нечетких множеств и т.д.
Отметим необходимость развития методов статистической обработка "разнотипных данных", обусловленную большой ролью в прикладных исследованиях "признаков смешанной природы" [83]. Речь идет о том, что результат наблюдения состояния объекта зачастую представляет собой вектор, у которого часть координат измерена по шкале наименований, часть - по порядковой шкале, часть - по шкале интервалов и т.д. Статистические методы ориентированы обычно либо на абсолютную шкалу, либо на шкалу наименований (анализ таблиц сопряженности), а потому зачастую непригодны для обработки разнотипных данных. Есть и более сложные модели разнотипных данных, например, когда некоторые координаты вектора наблюдений описываются нечеткими множествами [43].
Для обозначения подобных неклассических результатов наблюдений в 1979 г. [84] предложен собирательный термин - объекты нечисловой природы. Термин "нечисловой" означает, что структура [85] пространства, в котором лежат результаты наблюдений, не является структурой действительных чисел, векторов или функций, она вообще не является структурой линейного (векторного) пространства. При расчетах объекты числовой природы, разумеется, изображаются с помощью чисел.
С целью "стандартизации математических орудий" [85, с.253] целесообразно разрабатывать методы статистического анализа данных, пригодные одновременно для всех перечисленных выше видов результатов наблюдений. Кроме того, в процессе развития прикладных исследований выявляется необходимость использования новых видов объектов нечисловой природы, отличных от рассмотренных выше, например, в связи с развитием статистических методов обработки текстовой информации [86].Поэтому целесообразно ввести еще один вид объектов нечисловой природы - объекты произвольной природы, т.е. элементы множества, на которые не наложено никаких условий (кроме "условий регулярности", необходимых для справедливости доказываемых теорем). Другими словами, в этом случае предполагается, что результаты наблюдений (элементы выборки) лежат в произвольном пространстве . Для получения теорем необходимо потребовать, чтобы удовлетворяло некоторым условиям, например, было топологическим пространством. Как известно, ряд результатов математической статистики получен именно в такой постановке. Так, при изучении оценок максимального правдоподобия элементы выборки могут лежать в пространстве произвольной природы. Это не влияет на рассуждения, поскольку в них рассматривается лишь зависимость плотности вероятности от параметра. Методы классификации, использующие лишь расстояние между классифицируемыми объектами, могут применяться к совокупностям объектов произвольной природы, лишь бы в пространстве, где они лежат, была задана метрика. Цель статистики объектов нечисловой природы состоит в том, чтобы систематически рассматривать методы статистической обработки данных как произвольной природы, так и представляющих собой указанные выше конкретные виды объектов нечисловой природы, т.е. методы описания данных, оцениванию и проверки гипотез. Взгляд с общей точки зрения позволяет получить новые результаты и в других областях математической статистики.
Использование объектов нечисловой природы при формировании математической модели реального явления.
Использование объектов нечисловой природы часто порождено желанием обрабатывать более объективную, более освобожденную от погрешностей информацию. "Как показали многочисленные опыты, человек более правильно ( и с меньшими затруднениями) отвечает на вопросы качественного например, сравнительного, характера, чем количественного. Так, ему легче сказать, какая из двух гирь тяжелее, чем указать их примерный вес в граммах" [87,с.3]. Другими словами, использование объектов нечисловой природы - средство повысить устойчивость математических моделей реальных явлений. Сначала конкретные области статистики объектов нечисловой природы (а именно, прикладная теория измерений, нечеткие и случайные множества) были рассмотрены как частные постановки проблемы устойчивости математических моделей реальных явлений к допустимым колебаниям исходных данных и предпосылок модели [37,гл.3,4], а затем была понята необходимость проведения работ по развитию статистики объектов нечисловой природы как самостоятельного научного направления [84].
Начнем со шкал измерения. "Науку о единстве мер и точности измерений называют метрологией" [88,с.5].Таким образом, репрезентативная теория измерений - часть метрологии [89]. "Методы обработки данных должны быть адекватны относительно допустимых преобразований шкал измерения в смысле репрезентативной теории измерений" [90 §4.1]. Однако установление типа шкалы, т.е. задания группы - дело специалиста соответствующей прикладной области. Так, оценки привлекательности профессий мы считали измеренными в порядковой шкале. Однако отдельные социологи не соглашались с этим, считая, что выпускники школ пользуются шкалой с более узкой группой допустимых преобразований, например, интервальной шкалой. Очевидно, эта проблема относится не к математике, а к наукам о человеке. Для ее решения может быть поставлен эксперимент (достаточно трудоемкий), описанный в работе [38]. Пока же он не поставлен, целесообразно принимать порядковую шкалу, так как это гарантирует от возможных ошибок.
"Другими известными примерами порядковых шкал являются: в медицине - шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско-Василенко-Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии - шкала Мооса (тальк - 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10), по которому минералы классифицируются согласно критерию твердости; в географии - бофортова шкала ветров ("штиль", "слабый ветер", "умеренный ветер" и т.д.) [91, с. 329].
По шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой, на которой не отмечены ни начало, ни единица измерения; по шкале отношений - большинство физических единиц: массу тела, длину, заряд, а также цены в экономике. Время измеряется по шкале разностей, если год принимаем естественной единицей измерения, и по шкале интервалов в общем случае. В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее), затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра) и, наконец, после открытия абсолютного нуля температур - по шкале отношений (шкала Кельвина) [89]. Следует отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины [37, 39, 40, 63, 89]. Термин "репрезентативная" разъяснен в работах [37, 39, 40]. Он использовался, чтобы отличить рассматриваемый подход к измерениям от классической метрологии [88], от работ А.Н.Колмогорова и А.Лебега, связанных с измерением геометрических величин (например, [92])., от "алгоритмической теории измерения" [93] и др.
Необходимость использования в математических моделях реальных явлений таких объектов нечисловой природы, как бинарные отношения, множества, нечеткие множества, кратко была показана выше. Здесь же обратим внимание, что используемые в классической статистике результаты наблюдений также "не совсем числа". Именно любая величина измеряется всегда с некоторой погрешностью и результатом наблюдения является