Реферат: Интерактивное исследование неколичественных данных: методика и инструментарий
исследовать пересечение полученных кластеров и подмножеств, задаваемых значениями "трудовик" и "кадет".
При решении этой задачи мы должны очевидно следовать второму сценарию, поскольку здесь мы имеем дело с априорной классификацией, задаваемой фракционной принадлежностью, которую мы должны сопоставить с классами, получаемыми по совокупности других свойств объектов.
Выполнить первый шаг - означает найти два кластера свойств, близких (сильно коррелирующих) к свойствам "трудовик" и "кадет" (являющихся в этом случае эталонными). Поскольку нашей целью является нахождение свойств, характерных для каждой из фракций и только для нее, то разумно использовать симметричную близость. В принципе, можно использовать и пару асимметричных близостей. При выборе типа классификации мы остановимся на покрытии, поскольку нам необходимо видеть, пересекаются ли два искомых класера (делят ли они некоторые свойства). Таблица 1 представляет результаты классификации при нижнем пороге равном 0.2 и верхнем - 1. Все показанные свойства, кроме "русский", характерны только для одной фракции.
Таблица 1. Близости основных свойств до эталонных.
Эталоны | Свойства | Трудовик | Кадет |
трудовик | трудовик | 1.000 | 0.000 |
русский | 0.199 | 0.242 | |
общее образ. | 0.242 | 0.072 | |
начальое образ. | 0.247 | 0.053 | |
крестьян.происх. | 0.305 | 0.096 | |
крестьянин | 0.296 | 0.071 | |
"земледелец" | 0.223 | 0.070 | |
кадет | зарплата | 0.172 | 0.351 |
русский | 0.199 | 0.242 | |
юридич. образ. | 0.037 | 0.219 | |
высшее образ. | 0.068 | 0.438 | |
дворянин | 0.005 | 0.307 | |
дворянское происх. | 0.015 | 0.226 | |
кадет | 0.000 | 1.000 |
Две колонки цифр дают нам предварительную информацию о том, что такое "типичный трудовик" и "типичный кадет". Следует отметить, что две группы свойств не так тривиальны, как это кажется на первый взгляд. Дело в том, что рассматриваемая база данных воспроизводит неоднозначную терминологию своих источников. Например, слово "крестьянин" в действительности может обозначать различные свойства в зависимости от того, используется ли оно для указания сословия, происхождения или занятия. Корреляция между последними тремя свойствами может быть невысокой. Реальный крестьянин определяется лишь целым набором свойств, и это как раз тот набор, который мы встречаем в кластере свойства "трудовик".
На втором шаге мы переключаемся на представление объектов данных и находим двух лиц: одного, обладающего свойствами класса "типичный трудовик" (общий профиль и начальный уровень образования, крестьянин из крестьян, земледелец), другого - со свойствами "типичного кадета" (высшее юридическое образование, дворянин из дворян, жалование как источник дохода). Затем (третий шаг) мы находим лиц, группирующихся вокруг двух выбранных эталонов. В этом случае должна использоваться асимметричная близость к эталону, поскольку большинство лиц описано более детально, чем эталонные, а следовательно, должно быть устранено влияние "излишних" характеристик. Классификация должна быть типа разбиение с ограничениями, поскольку наша задача - извлечь из набора данных две четко разграниченные группы депутатов.
Таблица 2а. Распределение фракционной принадлежности среди кластеров "Типичный кадет" и "Типичный трудовик".
Фракции | Типичные кадеты | Типичные трудовики | Остальыне |
трудовики | 0.023 | 0.323 | 0.172 |
беспартийные | 0.045 | 0.423 | 0.144 |
правые | 0.114 | 0.054 | 0.072 |
Дем. реформ | 0.045 | 0.000 | 0.017 |
националисты | 0.000 | 0.000 | 0.052 |
кадеты | 0.705 | 0.100 | 0.412 |
соц.-дем. | 0.203 | 0.062 | 0.027 |
польск. фракц. | 0.045 | 0.015 | 0.093 |
Таблица 2б. Распределение кластеров "Типичный кадет" и "Типичный трудовик" среди различных фракций.
Фракции | Типичный кадеты | Типичные трудовики | Остальные |
трудовики | 0.011 | 0.452 | 0.538 |
беспартийные | 0.020 | 0.556 | 0.424 |
правые | 0.152 | 0.212 | 0.636 |
Дем. реформ | 0.286 | 0.000 | 0.714 |
националисты | 0.000 | 0.000 | 1.000 |
кадеты | 0.189 | 0.079 | 0.732 |
соц.-дем. | 0.059 | 0.471 | 0.471 |
польск. фракц. | 0.065 | 0.065 | 0.871 |
Для того, чтобы оценить результаты классификации (четвертый шаг), мы должны изучить распределение фракционной принадлежности внутри каждого кластера (таблица 2а) и комплементарные (дополнительные к ним) данные - доли "типичных трудовиков" и "типичных кадетов" среди членов различных фракций (таблица 2б). Две таблицы показывают, что около трех четвертей "типичных кадетов" являются в действительности кадетами, но доля первых среди вторых невысока. Таким образом, "типичные кадеты" являются небольшой, но очень однородной группой в своей фракции. Доля "типичных кадетов" достаточно высока и в двух других фракциях - правых и партии демократических реформ - политических соседей кадетов. Случай "типичных трудовиков" несколько более сложен. Они составляют около 1/2 трудовиков, социал-демократов и беспартийных членов Думы; с другой стороны, лишь треть из них являются членами фракции трудовиков, в то время, как их относительное большинство являются беспартийными. Последнее означает, что "типичный трудовик" (или по сути типичный крестьянин) обладал низкой политической самоидентификацией. Тем не менее, доля трудовиков среди тех, кто уже примкнул к какой либо фракции, достаточно высока - более 2/3.
Цифры в колонке "Остальные" в таблице 2б подсказывают нам, что необходимо проделать еще значительную работу - большинство членов обеих из рассматриваемых фракций не принадлежат ни к одному классу. Итак, мы выделяем "остальных" в отдельный набор данных и начинаем на нем второй цикл исследования. Классификация свойств в новом наборе данных позволяет увидеть (таблица 3), что в группе лиц, принадлежавших к фракции кадетов, имеются две пары взаимоисключающих свойств.
Таблица 3. Кластеры "Нетипичные кадеты" и "Нетипичные трудовики".
Эталоны | Свойства | Трудовик | Кадет | Жалование | Землевладелец |
трудовик | жалование | 0.238 | 0.339 | 1.000 | 0.000 |
трудовик | 1.000 | 0.000 | 0.238 | 0.023 | |
крест.происх. | 0.302 | 0.101 | 0.230 | 0.043 | |
крестьянин | 0.271 | 0.061 | 0.161 | 0.055 | |
кадет | жалование | 0.238 | 0.339 | 1.000 | 0.000 |
русский | 0.176 | 0.226 | 0.258 | 0.209 | |
происх. не указ. | 0.060 | 0.252 | 0.271 | 0.114 | |
высшее образ. | 0.092 | 0.420 | 0.420 | 0.334 | |
дворянин | 0.000 | 0.248 | 0.124 | 0.455 | |
землевладелец | 0.023 | 0.217 | 0.000 | 1.000 | |
TD>происх. не указ. | 0.133 | 0.361 | 0.432 | 0.099 | |
кадет | 0.000 | 1.000 | 0.339 | 0.217 |
Это - значения источника дохода "жалование" и "землевладение" и такие значения сословной принадлежности, как "не указано" и "дворянин". Этот факт позволяет полагать, что в рассматриваемом подмножестве кадетов существовали две различные группы лиц. Для того, чтобы проверить наше предположение добавим жалование и землевладение к набору эталонных свойств. И действительно, мы видим, что землевладение тесно коррелирует с "дворянством" (0.455) и жалование - с неуказанной сословной принадлежностью (0.432). Второй слой трудовиков является одномодальным, совпадая с первым по сословному происхождению и принадлежности и отличаясь по источнику дохода (который здесь преимущественно жалование). Вероятно, эту группу можно назвать сельским средним классом. В терминах того времени эту группу можно назвать демократической интеллегенцией, что отчасти совпадает с понятием сельского среднего класса.
Таким образом, мы должны выбрать одно эталонное лицо для трудовиков и два для кадетов и следовать дальше по описанному сценарию. По оканчанию второго цикла анализа данных мы располагаем пятью относительно однородными классами лиц, которые могут быть поименованы в соответствии с содержательной интерпретацией их свойств: Землевладельцы ("кадеты- землевладельцы"), Интеллегенция(I) ("типичные кадеты" первого цикла), Интеллегенция(II) ("кадеты на жаловании"), Интеллегенция(III) ("демократическая интеллегенция") и Крестьяне ("типичные тредовики" первого цикла).
Размытый социальный профиль Интеллегенции(II) может представляться неудовлетворительным. Однако, неуказанное сословное происхождение и/или сословная принадлежность не есть лишь отсутствие данных. Мы можем обратиться к представлению близостей и выявить от факт, что "высшее образование" близко дворянскому происхождению и принадлежности, с одной стороны, и к неуказанным значениям этих свойств, с другой. Это позволяет нам предположить, что тенденция не указывать сословные характеристики была свойственна образованному дворянству, т.е. высшему слою интеллегенции. Это станет более ясным, если мы примем во внимание, что либералы того времени рассматривали само понятие сословия как анахронизм. Более детальное исследование показывает также, что среди "кадетов на жаловании" в свою очередь могут быть выделены две однородные подгруппы. Первая из них в целом близка по профилю к Интеллегенции1, выделенной на первом цикле исследования. Вторая - меньшая и более специфичная - группа образованных евреев.
Результаты этого исследования могут быть сведены в двух диаграммах (см. рис. 6-а и 6-б), отображающих распределение лиц из пяти найденных кластеров среди различных фракций и обратное распределение - партийные принадлежности в каждом из кластеров. Вторая диаграмма построена в предположении, что пять кластеров могут быть ранжированы в традиционном порядке слева-направо в соответствии с их социальным статусом. Области на заднем плане показывают доли беспартийных и членов польской фракции в каждом кластере. Такое отображение позволяет нам соотнести социальные профили этих двух групп членов Думы, оставшихся за пределами нашего исследования, с построенной классификационной схемой.
Возвращаясь к той постановке задачи, которая была дана в начале рассмотренного примера исследования, мы можем сказать, что существовало соответствие между принадлежностью к фракции и социальным профилем депутата, хотя оно не является однозначным и четким. В формальных терминах нами были выявлены пять достаточно однородных групп объектов, принадлежность к которым хорошо согласуется с их принадлежностью к априорным классам.
Полученные результаты следут рассматривать как предварительные. Целью второй части статьи было не столько представить исчерпывающее решение конкретной исторической проблемы, сколько показать в действии подход, реализованный в программе QualiDatE. Здесь была сделана попытка продемонстрировать, что несмотря на простоту формального аппарата, лежащего в основе описываемого подхода, использование гибко управляемых процедур классификации, плюс возможность рассматривать набор данных с различных точек зрения, позволяет исследователю построить свою собственную стратегию анализа, ведущую к получению легко интепретируемых результатов различного уровня детализации.
Рисунок 6 а Распределение фракционной принадлежности внутри кластеров.
На графике: A - крестьяне, B - Интеллегенция III, C - Интеллегенция II, D - Интеллегенция I, E - землевладельцы
Рисунок 6 б. Распределение фракционной принадлежности внутри кластеров.
Список литературы
1.Е.Белова, "Анализ качественных данных исторических источников: альтернативный подход"//Компьютер и историческое знание, Барнаул, 1994
2.Симметричная и асимметричная меры близости совпадают, когда обекты имеют равное число свойств (например, в случае файла простой табличной структуры).
3.Аналогом такой классификации может служить хорошо известный метод разбиения по критерию "ближайшего соседа".
4.В действительности, это лишь фрагмент большой базы данных, составленной и исследованной Н.Б.Селунской, Л.И.Бородкиным и Ю.Григорьевой. Более подробно о материалах, на основе которых была создана рассматриваемая база данных, можно узнать в диссертационной работе Ю.Г.Григорьевой "Источниковедческие проблемы изучения материалов истории создания I Государственной Думы и первых выборов".