Реферат: Интерактивное исследование неколичественных данных: методика и инструментарий

исследовать пересечение полученных кластеров и подмножеств, задаваемых значениями "трудовик" и "кадет".

При решении этой задачи мы должны очевидно следовать второму сценарию, поскольку здесь мы имеем дело с априорной классификацией, задаваемой фракционной принадлежностью, которую мы должны сопоставить с классами, получаемыми по совокупности других свойств объектов.

Выполнить первый шаг - означает найти два кластера свойств, близких (сильно коррелирующих) к свойствам "трудовик" и "кадет" (являющихся в этом случае эталонными). Поскольку нашей целью является нахождение свойств, характерных для каждой из фракций и только для нее, то разумно использовать симметричную близость. В принципе, можно использовать и пару асимметричных близостей. При выборе типа классификации мы остановимся на покрытии, поскольку нам необходимо видеть, пересекаются ли два искомых класера (делят ли они некоторые свойства). Таблица 1 представляет результаты классификации при нижнем пороге равном 0.2 и верхнем - 1. Все показанные свойства, кроме "русский", характерны только для одной фракции.

Таблица 1. Близости основных свойств до эталонных.

Эталоны Свойства Трудовик Кадет
трудовик трудовик 1.000 0.000
русский 0.199 0.242
общее образ. 0.242 0.072
начальое образ. 0.247 0.053
крестьян.происх. 0.305 0.096
крестьянин 0.296 0.071
"земледелец" 0.223 0.070
кадет зарплата 0.172 0.351
русский 0.199 0.242
юридич. образ. 0.037 0.219
высшее образ. 0.068 0.438
дворянин 0.005 0.307
дворянское происх. 0.015 0.226
кадет 0.000 1.000

Две колонки цифр дают нам предварительную информацию о том, что такое "типичный трудовик" и "типичный кадет". Следует отметить, что две группы свойств не так тривиальны, как это кажется на первый взгляд. Дело в том, что рассматриваемая база данных воспроизводит неоднозначную терминологию своих источников. Например, слово "крестьянин" в действительности может обозначать различные свойства в зависимости от того, используется ли оно для указания сословия, происхождения или занятия. Корреляция между последними тремя свойствами может быть невысокой. Реальный крестьянин определяется лишь целым набором свойств, и это как раз тот набор, который мы встречаем в кластере свойства "трудовик".

На втором шаге мы переключаемся на представление объектов данных и находим двух лиц: одного, обладающего свойствами класса "типичный трудовик" (общий профиль и начальный уровень образования, крестьянин из крестьян, земледелец), другого - со свойствами "типичного кадета" (высшее юридическое образование, дворянин из дворян, жалование как источник дохода). Затем (третий шаг) мы находим лиц, группирующихся вокруг двух выбранных эталонов. В этом случае должна использоваться асимметричная близость к эталону, поскольку большинство лиц описано более детально, чем эталонные, а следовательно, должно быть устранено влияние "излишних" характеристик. Классификация должна быть типа разбиение с ограничениями, поскольку наша задача - извлечь из набора данных две четко разграниченные группы депутатов.

Таблица 2а. Распределение фракционной принадлежности среди кластеров "Типичный кадет" и "Типичный трудовик".

Фракции Типичные кадеты Типичные трудовики Остальыне
трудовики 0.023 0.323 0.172
беспартийные 0.045 0.423 0.144
правые 0.114 0.054 0.072
Дем. реформ 0.045 0.000 0.017
националисты 0.000 0.000 0.052
кадеты 0.705 0.100 0.412
соц.-дем. 0.203 0.062 0.027
польск. фракц. 0.045 0.015 0.093

Таблица 2б. Распределение кластеров "Типичный кадет" и "Типичный трудовик" среди различных фракций.

Фракции Типичный кадеты Типичные трудовики Остальные
трудовики 0.011 0.452 0.538
беспартийные 0.020 0.556 0.424
правые 0.152 0.212 0.636
Дем. реформ 0.286 0.000 0.714
националисты 0.000 0.000 1.000
кадеты 0.189 0.079 0.732
соц.-дем. 0.059 0.471 0.471
польск. фракц. 0.065 0.065 0.871

Для того, чтобы оценить результаты классификации (четвертый шаг), мы должны изучить распределение фракционной принадлежности внутри каждого кластера (таблица 2а) и комплементарные (дополнительные к ним) данные - доли "типичных трудовиков" и "типичных кадетов" среди членов различных фракций (таблица 2б). Две таблицы показывают, что около трех четвертей "типичных кадетов" являются в действительности кадетами, но доля первых среди вторых невысока. Таким образом, "типичные кадеты" являются небольшой, но очень однородной группой в своей фракции. Доля "типичных кадетов" достаточно высока и в двух других фракциях - правых и партии демократических реформ - политических соседей кадетов. Случай "типичных трудовиков" несколько более сложен. Они составляют около 1/2 трудовиков, социал-демократов и беспартийных членов Думы; с другой стороны, лишь треть из них являются членами фракции трудовиков, в то время, как их относительное большинство являются беспартийными. Последнее означает, что "типичный трудовик" (или по сути типичный крестьянин) обладал низкой политической самоидентификацией. Тем не менее, доля трудовиков среди тех, кто уже примкнул к какой либо фракции, достаточно высока - более 2/3.

Цифры в колонке "Остальные" в таблице 2б подсказывают нам, что необходимо проделать еще значительную работу - большинство членов обеих из рассматриваемых фракций не принадлежат ни к одному классу. Итак, мы выделяем "остальных" в отдельный набор данных и начинаем на нем второй цикл исследования. Классификация свойств в новом наборе данных позволяет увидеть (таблица 3), что в группе лиц, принадлежавших к фракции кадетов, имеются две пары взаимоисключающих свойств.

Таблица 3. Кластеры "Нетипичные кадеты" и "Нетипичные трудовики".

Эталоны Свойства Трудовик Кадет Жалование Землевладелец
трудовик жалование 0.238 0.339 1.000 0.000
трудовик 1.000 0.000 0.238 0.023
крест.происх. 0.302 0.101 0.230 0.043
крестьянин 0.271 0.061 0.161 0.055
кадет жалование 0.238 0.339 1.000 0.000
русский 0.176 0.226 0.258 0.209
происх. не указ. 0.060 0.252 0.271 0.114
высшее образ. 0.092 0.420 0.420 0.334
дворянин 0.000 0.248 0.124 0.455
землевладелец 0.023 0.217 0.000 1.000
TD>происх. не указ. 0.133 0.361 0.432 0.099
кадет 0.000 1.000 0.339 0.217

Это - значения источника дохода "жалование" и "землевладение" и такие значения сословной принадлежности, как "не указано" и "дворянин". Этот факт позволяет полагать, что в рассматриваемом подмножестве кадетов существовали две различные группы лиц. Для того, чтобы проверить наше предположение добавим жалование и землевладение к набору эталонных свойств. И действительно, мы видим, что землевладение тесно коррелирует с "дворянством" (0.455) и жалование - с неуказанной сословной принадлежностью (0.432). Второй слой трудовиков является одномодальным, совпадая с первым по сословному происхождению и принадлежности и отличаясь по источнику дохода (который здесь преимущественно жалование). Вероятно, эту группу можно назвать сельским средним классом. В терминах того времени эту группу можно назвать демократической интеллегенцией, что отчасти совпадает с понятием сельского среднего класса.

Таким образом, мы должны выбрать одно эталонное лицо для трудовиков и два для кадетов и следовать дальше по описанному сценарию. По оканчанию второго цикла анализа данных мы располагаем пятью относительно однородными классами лиц, которые могут быть поименованы в соответствии с содержательной интерпретацией их свойств: Землевладельцы ("кадеты- землевладельцы"), Интеллегенция(I) ("типичные кадеты" первого цикла), Интеллегенция(II) ("кадеты на жаловании"), Интеллегенция(III) ("демократическая интеллегенция") и Крестьяне ("типичные тредовики" первого цикла).

Размытый социальный профиль Интеллегенции(II) может представляться неудовлетворительным. Однако, неуказанное сословное происхождение и/или сословная принадлежность не есть лишь отсутствие данных. Мы можем обратиться к представлению близостей и выявить от факт, что "высшее образование" близко дворянскому происхождению и принадлежности, с одной стороны, и к неуказанным значениям этих свойств, с другой. Это позволяет нам предположить, что тенденция не указывать сословные характеристики была свойственна образованному дворянству, т.е. высшему слою интеллегенции. Это станет более ясным, если мы примем во внимание, что либералы того времени рассматривали само понятие сословия как анахронизм. Более детальное исследование показывает также, что среди "кадетов на жаловании" в свою очередь могут быть выделены две однородные подгруппы. Первая из них в целом близка по профилю к Интеллегенции1, выделенной на первом цикле исследования. Вторая - меньшая и более специфичная - группа образованных евреев.

Результаты этого исследования могут быть сведены в двух диаграммах (см. рис. 6-а и 6-б), отображающих распределение лиц из пяти найденных кластеров среди различных фракций и обратное распределение - партийные принадлежности в каждом из кластеров. Вторая диаграмма построена в предположении, что пять кластеров могут быть ранжированы в традиционном порядке слева-направо в соответствии с их социальным статусом. Области на заднем плане показывают доли беспартийных и членов польской фракции в каждом кластере. Такое отображение позволяет нам соотнести социальные профили этих двух групп членов Думы, оставшихся за пределами нашего исследования, с построенной классификационной схемой.

Возвращаясь к той постановке задачи, которая была дана в начале рассмотренного примера исследования, мы можем сказать, что существовало соответствие между принадлежностью к фракции и социальным профилем депутата, хотя оно не является однозначным и четким. В формальных терминах нами были выявлены пять достаточно однородных групп объектов, принадлежность к которым хорошо согласуется с их принадлежностью к априорным классам.

Полученные результаты следут рассматривать как предварительные. Целью второй части статьи было не столько представить исчерпывающее решение конкретной исторической проблемы, сколько показать в действии подход, реализованный в программе QualiDatE. Здесь была сделана попытка продемонстрировать, что несмотря на простоту формального аппарата, лежащего в основе описываемого подхода, использование гибко управляемых процедур классификации, плюс возможность рассматривать набор данных с различных точек зрения, позволяет исследователю построить свою собственную стратегию анализа, ведущую к получению легко интепретируемых результатов различного уровня детализации.

Рисунок 6 а Распределение фракционной принадлежности внутри кластеров.

На графике: A - крестьяне, B - Интеллегенция III, C - Интеллегенция II, D - Интеллегенция I, E - землевладельцы

Рисунок 6 б. Распределение фракционной принадлежности внутри кластеров.

Список литературы

1.Е.Белова, "Анализ качественных данных исторических источников: альтернативный подход"//Компьютер и историческое знание, Барнаул, 1994

2.Симметричная и асимметричная меры близости совпадают, когда обекты имеют равное число свойств (например, в случае файла простой табличной структуры).

3.Аналогом такой классификации может служить хорошо известный метод разбиения по критерию "ближайшего соседа".

4.В действительности, это лишь фрагмент большой базы данных, составленной и исследованной Н.Б.Селунской, Л.И.Бородкиным и Ю.Григорьевой. Более подробно о материалах, на основе которых была создана рассматриваемая база данных, можно узнать в диссертационной работе Ю.Г.Григорьевой "Источниковедческие проблемы изучения материалов истории создания I Государственной Думы и первых выборов".

К-во Просмотров: 443
Бесплатно скачать Реферат: Интерактивное исследование неколичественных данных: методика и инструментарий