УДК 811.111+51-7
КЛАССИФИКАЦИЯ СТИХОТВОРНЫХ ТЕКСТОВ МЕТОДОМ ДИСКРИМИНАНТНОГО АНАЛИЗА
© 2003 г. В. С. Андреев
Данная статья посвящена классификации стихотворных текстов американских поэтов-романтиков на основе 43 разноуровневых признаков при помощи дискриминантного анализа. Получены данные о степени сходства и различия классов текстов различных авторов, выявлены релевантные для их дифференциации признаки. Проводится сопоставление роли признаков различных языковых уровней и различной локализации для дискриминации естественных классов текстов, В работе также делается предположение о факторах, определяющих различия между индивидуальными стилями различных авторов.
Целью данной статьи является классификация стихотворных текстов. Этот вид текста характеризуется особым способом структурной организации. Стихотворный текст обладает внутренней мерой – метром – и дробится на сопоставимые между собой единицы (строки, строфы). Соизмеримость (сопоставимость) стиховых отрезков соотносит образующие их слова не только по горизонтали, как в прозе, но и по вертикали [Гаспаров 1974], что приводит к предельной интенсификации семантической и структурно-формальной сторон лингвистических единиц.
В данной работе ставится задача установить соотношения между стихотворными текстами, принадлежащими различным американским поэтам-романтикам Генри Лонгфелло, Вильяму Брайенту, Ральфу Эмерсону и Эдгару По. Выбор данных авторов обусловлен тем, что они являются наиболее видными представителями американской поэзии 19 века, в частности, американского романтизма и его основных направлений. В нашем исследовании к анализу привлекаются лирические стихотворные тексты. Это объясняется тем, что именно в лирике в наиболее полной мере проявляется своеобразие творческой манеры поэта.
Признаковое пространство формируется путем привлечения к исследованию 43 признаков, выделяемых на фонетическом, морфологическом, синтаксическом, метро-ритмическом, рифменном и строфическом уровнях.
При формировании признакового пространства за основу были взяты характеристики, описанные в работах В.С.Баевского [Баевский 1993, 2001], однако добавлен целый ряд признаков, показавших свою релевантность.
Основными методами исследования являются многомерные статистические процедуры в рамках дискриминантного анализа, реализованные в программе Statistica 5.5 for Windows. Данная методика применялась для решения сходных задач [Андреев 1999]. Имеется успешный опыт применения математических процедур анализа на языковом и текстовом материале [Пиотровский 1988; Тулдава 1987], а также в ряде эмпирических наук (биологии, социологии, экономике и др.) и активно применяются в них, позволяя получать ценные результаты. Выделение признаков осуществляется при помощи соответствующих лингвистических процедур и методов анализа.
Более 80% привлекаемых к анализу признаков (35 из 43) оказались релевантными для дискриминации текстов различных авторов. Эти признаки сформировали модель, определяющую признаковое пространство для дальнейшего исследования. В нее вошли следующие характеристики: количество слогов в слове, замещающем первую и последнюю сильную позицию в строке; количество существительных, замещающих первую сильную позицию в строке; количество глаголов, замещающих первую и последнюю сильную позицию в строке; количество прилагательных, замещающих первую и последнюю сильную позицию в строке; количество наречий, замещающих первую и последнюю сильную позицию в строке; количество местоимений, замещающих первую и последнюю сильную позицию в строке; количество подлежащих, замещающих первую и последнюю сильную позицию в строке; количество сказуемых в первой сильной позиции в строке ; количество дополнений, замещающих последнюю сильную позицию в строке; количество определений, замещающих последнюю сильную позицию в строке; количество обстоятельств, замещающих первую сильную позицию в строке; количество в первой сильной позиции в строке слов, не являющихся членами предложения; количество подчинительных связей; количество сочинительных связей; количество стилистически маркированных строк; количество переносов; количество строк, разорванных синтаксической паузой; количество полных и неполных инверсий; количество точных рифм; количество мужских рифм; длина строки в стопах, то есть размер, которым написана строка; количество видов размеров, задействованных в произведении; количество слогов в анакрусе; количество сверхсхемных ударений на анакрусе; количество пропусков первого икта; количество пропусков второго икта; количество строф; количество видов строф.
В полученном признаковом пространстве определены расстояния (мера Махаланобиса) между центроидами четырех классов текстов (Таблица 1). Под центроидом понимается точка в пространстве с координатами, являющимися средними значениями переменных всех объектов в данном классе [Клекка 1989, 88]. Проверка результатов показывает их высокую статистическую значимость.
Наиболее близкими (сходными) являются классы 1 и 2 (произведения Брайента и Лонгфелло), а наиболее далекими, т.е. наиболее различными, классы 1 и 4 (произведения Брайента и По). Класс произведений Лонгфелло занимает “центральное” положение, он относительно близок к любому другому. Напротив, группа, образованная произведениями По, несколько удалена от остальных.
Таблица 1
Расстояние между центроидами классов
Классы текстов |
Класс 1 (Брайент) |
Класс 2 (Лонгфелло) |
Класс 3 (Эмерсон) |
Класс 4 (По) |
Класс 1 (Брайент) | 0,00 |
9,11 |
23,39 |
29,06 |
Класс 2 (Лонгфелло) | 9,11 |
0,00 |
16,15 |
19,61 |
Класс 3 (Эмерсон) | 23,39 |
16,15 |
0,00 |
22,90 |
Класс 4 (По) | 29,06 |
19,61 |
22,90 |
0,00 |
Проверка на статистическую значимость результатов производится при помощи показателей уровня значимости [Клекка 1989; Дженнрич 1986]. Значения этого показателя приводятся в таблице 2.
Таблица 2
Уровень значимости
Классы Текстов |
Класс 1 (Брайент) |
Класс 2 (Лонгфелло) |
Класс 3 (Эмерсон) |
Класс 4 (По) |
Класс 1 (Брайент) | х |
0,00 |
0,00 |
0,00 |
Класс 2 (Лонгфелло) | 0,00 |
х |
0,00 |
0,00 |
Класс 3 (Эмерсон) | 0,00 |
0,00 |
х |
0,00 |
Класс 4 (По) | 0,00 |
0,00 |
0,00 |
х |
Как видно из таблицы, уровень значимости во всех случаях меньше допустимого (как известно, пороговым значением обычно признается р = 0,05). Следовательно, данные таблицы 1 о степени удаленности друг от друга центроидов классов 1-4 являются статистически значимыми.
Кроме того, диагностическую силу выделенной модели можно проверить, проведя разбиение текстов на группы, основываясь только на вошедших в модель признаках.
В таблице 3 приводятся данные о распределении произведений четырех классов в признаковом пространстве, образованном признаками модели. По горизонтали указаны классы, согласно естественной группировке (принадлежности текстов данному автору). По вертикали классы даны так, как они образуются в результате группировки текстов в пространстве признаков модели. Произведения рассматриваются как принадлежащие тому классу, расстояние до центроида которого минимально.
Сопоставление полученной группировки с исходной классификацией позволяет определить степень диагностической точности модели в целом. Как видно из таблицы, выводимая по признакам модели классификация в достаточно большой степени соответствует естественной группировке – модель классифицирует правильно более 95% всех произведений. Иными словами, в пространстве вошедших в модель признаков тексты расположены ближе к центроиду своего класса, чем к центроидам чужих классов. Это говорит о достаточно хорошем выборе признаков, сформировавших признаковое пространство.
Таблица 3
Распределение текстов четырех классов в пространстве признаков модели
Исходные
классы текстов |
Процент правильного распределения |
Классы текстов согласно признаковой модели |
|||
Класс 1 (Брайент) |
Класс 2 (Лонгфелло) |
Класс 3 (Эмерсон) |
Класс 4 (По) |
||
Класс 1 (Брайент) | 96,77 |
30 |
1 |
0 |
0 |
Класс 2 (Лонгфелло) | 90,57 |
3 |
48 |
1 |
1 |
Класс 3 (Эмерсон) | 97,06 |
0 |
1 |
33 |
0 |
Класс 4 (По) | 100,00 |
0 |
0 |
0 |
23 |
Всего | 95,04 |
33 |
50 |
34 |
24 |
Полученные данные позволяют также оценить степень диагностируемости отдельных классов. Наиболее диагностируемой является группа произведений По (100%). Несколько хуже определяются классы текстов Эмерсона (97,06%), Брайента (96,77%) и Лонгфелло (90,57%). Однако и они диагностируются достаточно хорошо.
Соотношение классов, представленное в таблице 1, можно отобразить на плоскости в виде схемы, которая изображена на рисунке 1. В ней отражено расстояние между центроидами классов текстов в пространстве вошедших в модель признаков. Чем больше расстояние между центрами классов, тем больше различаются эти классы.
Рис. 1. Схема взаимного расположения центроидов классов
Для определения того, как противопоставлены группы объектов (классы текстов) и какие признаки являются наиболее релевантными для их дифференциации, были найдены дискриминантные функции, разделяющие классы текстов в пространстве признаков. Каждый признак является переменной этих функций и имеет собственный коэффициент. Чем больше значение коэффициента признака по модулю, тем более релевантным является этот признак для дискриминации.
В результате анализа было получено три дискриминантные функции, осуществившие три разбиения четырех классов (Рисунок 2). Основное противопоставление наблюдается между кластерами, включающими по два класса текстов. В первый кластер входят группы текстов Брайента и Лонгфелло, во второй – Эмерсона и По.
Эти результаты соответствуют мнению ряда исследователей о взаимной близости творческой манеры Брайента и Лонгфелло и ее противопоставленности творческой манере Эмерсона и По.
Вместе с тем, наши данные позволяют дополнить и в ряде случаев уточнить имеющиеся оценки соотношения творчества поэтов.
Как видно на рисунках 1 и 2, наш анализ показывает, что Брайент максимально противопоставлен Эмерсону и По, а класс текстов Лонгфелло занимает центральное положение относительно остальных и удален от них приблизительно на одинаковое расстояние. Эмерсон и По оказываются достаточно удаленными друг от друга и объединяются в один кластер благодаря противопоставлению Брайенту. В целом, структура соотношения лирических текстов рассматриваемых поэтов имеет более сложный и диверсифицированный характер, чем простое противопоставление “американских” традиций Эмерсона и По и “неамериканских” Брайента и Лонгфелло.
Рис. 2. Схема разбиения классов текстов дискриминантными функциями
1 – Центроид класса Брайента 2 – Центроид класса Лонгфелло 3 – Центроид класса Эмерсона 4 – Центроид класса По |
А - Разбиение на классы, проводимое первой (основной) дискриминантной функцией Б – Разбиение на классы, проводимое второй дискриминантной функцией В - Разбиение на классы, проводимое третьей дискриминантной функцией |
Как указывалось выше, творчество Лонгфелло занимает центральное положение относительно классов текстов основоположников американского романтизма. В связи с этим интересным представляется рассмотреть группу произведений Лонгфелло более подробно.
Творчество Лонгфелло неоднородно и может быть разбито на 2 периода. 1-й период, который включает произведения, которые написаны им на раннем и среднем этапе творчества, характеризуется бульшим единством формы и меньшей вариативностью, чем 2-й период. Поздние произведения Лонгфелло расположены дальше от центроида своего класса. Среднее расстояние до центроида класса составляет для них около 37, а для более ранних произведений оно значительно меньше – около 27 (расстояния произведений до центроида класса Лонгфелло приведены в таблице 4).
Любопытно отметить, что эти различия коррелированы с различиями в образной структуре произведений.
Таблица 4
Расстояния Махаланобиса (D2) текстов Лонгфелло до центроида своего класса
Произведение |
Расстояние до центроида |
|
Первый период |
An April Day | 23,4165 |
Autumn | 32,4971 |
|
Woods in Winter | 25,0189 |
|
Sunrise on the Hills | 22,8778 |
|
Burial of the Minnisink | 14,8466 |
|
The Spirit of Poetry | 26,0709 |
|
Autumnal Nightfall | 25,2720 |
|
The Venetian Gondolier | 19,2269 |
|
Dirge over a Nameless Grave | 26,9032 |
|
A Song of Savoy | 23,1596 |
|
Jeckoyva | 22,7907 |
|
The Sea Diver | 20,6947 |
|
Musings | 21,9209 |
|
Song | 52,1448 |
|
Hymn to the Night | 19,8445 |
|
The Reaper and the Flowers | 20,8839 |
|
The Light of Stars | 23,3680 |
|
The Beleaguered City | 15,8455 |
|
L'Envoi | 54,0413 |
|
The Slave's Dream | 25,5804 |
|
The Good Part that shall not be taken away | 22,1189 |
|
The Slave in the Dismal Swamp | 16,8165 |
|
The Witnesses | 34,4936 |
|
The Quadroon Girl | 15,1760 |
|
The Warning | 31,9981 |
|
Twilight | 22,4878 |
|
Sir Humphrey Gilbert | 29,1765 |
|
The Lighthouse | 19,7491 |
|
The Fire of Drift-wood | 22,3407 |
|
Resignation | 32,7216 |
|
Sand of the Desert in an Hour-glass | 24,1385 |
|
Birds of Passage | 19,8066 |
|
The Open Window | 50,1064 |
|
The Singers | 31,9176 |
|
Hymn for my Brother's Ordination | 31,2226 |
|
King Witlaf's Drinking Horn | 35,0413 |
|
Suspiria | 56,6923 |
|
Второй период |
Dedication | 18,2096 |
The Chamber over the Gate | 28,5046 |
|
From my Arm-chair | 20,5930 |
|
Robert Burns | 11,6930 |
|
Becalmed | 47,1462 |
|
Auf Wiedersehen | 36,3811 |
|
The City and the Sea | 48,5837 |
|
Sundown | 52,0952 |
|
President Garfield | 53,4262 |
|
Decoration Day | 25,2775 |
|
Chimes | 46,2594 |
|
Four by the Clock | 62,5398 |
|
The Four Lakes of Madison | 27,4601 |
|
Moonlight | 15,2021 |
|
To the Avon | 37,8480 |
|
A Fragment | 65,9540 |
Так, на позднем этапе творчества автор все более обращается к теме смерти, которая зачастую связана с образом вечности, бессмертия в памяти потомков. Через все позднюю лирику Лонгфелло проходит мотив остановки, привала на пути к недостижимой цели. Смерть становится временным пристанищем поэта на пути к вечности.
В этом и ряде других случаев были выявлены элементы корреляции между степенью удаленности текстов от центра и содержательной стороной текстов (Лонгфелло, Брайент, По). Так, в классе Брайента наиболее удалены от центроида произведения, в которых тема природы не является главной. У Лонгфелло, как упоминалось ранее, более удаленными являются произведения заключительного этапа его творчества, в которых поэт все более обращался к теме смерти. Напротив, в творчестве По на периферии находятся тексты, в которых центральным является образ живой героини, судьба которой если и печальна, то определяется не нависшим над ней роком, а вполне земными обстоятельствами.
Ни один из вошедших в модель 35 признаков по отдельности не может дискриминировать рассматриваемые классы произведений. Используемый метод позволяет установить, какие комплексы признаков разграничивают четыре класса текстов, уточнить вклад каждого признака в рамках этих комплексов.
Первый комплекс признаков (первая дискриминантная функция) разграничивает кластеры Брайента-Лонгфелло, с одной стороны, и Эмерсона-По – с другой. Здесь более важную роль играют стиховые характеристики (рифменные, ритмические, строфические), хотя имеются и признаки других уровней (все наиболее значимые параметры указаны в таблице 5).
Разграничение внутри кластеров, то есть между Брайентом и Лонгфелло, и между Эмерсоном и По проводится, как видно на рисунке 2, дискриминантными функциями 2 и 3.
Таблица 5
Признаки, вносящие максимальный вклад в дискриминантные функции
(наиболее релевантные для разграничения соответствующих классов текстов)
1 функция |
2 функция |
3 функция |
среднее количество
подлежащих в первой сильной позиции; среднее количество типов строф; среднее количество мужских рифм; среднее количество внесхемных ударений на анакрусе. |
среднее количество
существительных в последней сильной позиции; среднее количество глаголов в последней сильной позиции; среднее количество прилагательных в последней сильной позиции; среднее количество наречий в последней сильной позиции; среднее количество местоимений в последней сильной позиции. |
среднее количество
наречий в последней сильной позиции; среднее количество местоимений в последней сильной позиции; среднее количество сказуемых в первой сильной позиции; среднее количество слов, не являющихся членом предложения, в первой сильной позиции; среднее количество строк, разорванных синтаксической паузой. |
В отличие от первой функции, при дискриминации между классами внутри кластеров более релевантными являются морфологические и синтаксические признаки.
Роль различных уровней для дискриминации классов текстов представлена на рисунке 3.
Рис. 3. Вклад разноуровневых признаков в дискриминацию классов текстов
Одним из важных вопросов лингвистики является определение информационного веса начальных и конечных элементов единиц языка и речи. В нашей работе мы провели сопоставительное исследование релевантности инициальных и финальных элементов строки по их роли в дискриминации текстов. В результате получены следующие выводы, которые можно рассматривать как в определенной степени неожиданные.
Они отражены на рисунке 4. Здесь показана роль признаков инициальной, центральной и финальной частей строки для дискриминации классов текстов.
Обычно не подвергается сомнению важность учета признаков, выделяемых у слов в последней сильной позиции в строке. В этой позиции слово исследовалось на фонетическом, рифменном, морфологическом, синтаксическом, семантическом и других уровнях. Первой сильной позиции уделяется намного меньше внимания. Вместе с тем, наши данные показывают, что на синтаксическом и ритмическом уровнях несколько большей диагностической силой обладают признаки инициальной части стихотворной строки. В то же время, на морфологическом уровне инициальные компоненты в строке оказались менее значимы, чем финальные.
Рис. 4. Вклад признаков начала, середины и конца строки
в дискриминацию классов текстов
Представляется интересным выяснить, существуют ли скрытые от непосредственного наблюдения факторы, определяющие различия у исследуемых классов, и если существуют, то какие. Для этого выясняется корреляция каждой переменной, участвующей в дискриминации текстов, со значением дискриминантной функции.
Основным скрытым фактором, лежащим за первой дискриминантной функцией, исходя из анализа таких корреляций, по нашему мнению, может быть признана степень вертикальной интегрированности стихотворного текста. Признаки, обеспечивающие соотносимость строк, то есть вертикальную интеграцию (точная рифма, перенос - enjambement), более характерны для кластера Брайента-Лонгфелло, а признаки, ослабляющие соотносимость строк (использование различных размеров и видов строф в рамках одного текста), напротив, более характерны для кластера Эмерсона-По.
Творчество По и творчество Эмерсона также различаются по степени вертикальной интегрированности текста, но приобретает значение и горизонтальный аспект стихотворного текста – структура строки.
Наиболее схожие классы из привлекаемых к исследованию – группы произведений Лонгфелло и Брайента – различают закономерности, проявляющиеся только в рамках строки: степень горизонтального единства стиха (среднее количество разрывов стиха синтаксической паузой и др.)
При проведении многомерного анализа желательным является модификация материала с тем, чтобы исключить переходные, “спорные” случаи, которые могут “затушевать” проявление основных закономерностей.
Для проверки степени устойчивости полученных выводов на втором этапе исследования был исключен занимающий центральное положение класс текстов Лонгфелло. Взаимное расположение оставшихся классов, набор релевантных для их дискриминации признаков и точность дискриминации практически не изменились. Это свидетельствует о высокой степени устойчивости результатов анализа. Неизбежные незначительные модификации выразились в некотором сокращении числа признаков, вошедших в модель.
Таким образом, проведенное исследование позволило установить дифференциальные признаки лирических произведений четырех известных американских поэтов, заложивших основы американского романтизма, а также провести группировку этих текстов.
В результате были выделены два основных кластера, отражающих базовую схему направлений американского романтизма. К первому кластеру относятся произведения Брайента и Лонгфелло, ко второму – Эмерсона и По. Используемая в работе методика сделала возможным количественно оценить взаимное расположение исследуемых классов текстов в пространстве дискриминантных признаков. Относительно более удаленным от других является класс произведений По, центральное положение занимает класс текстов Лонгфелло.
Точность дискриминации текстов различных авторов, достигаемая при использовании этого комплекса признаков, оказалась очень высокой и приближается к 100%.
В ходе исследования были выявлены вклады признаков в дискриминацию классов и их роль в разграничении текстов конкретных авторов. В группу наиболее релевантных вошли такие признаки текста, как количество переносов, количество разрывов строк синтаксической паузой, количество подлежащих, сказуемых и обстоятельств в первой сильной позиции в строке, количество существительных, глаголов и местоимений в последней сильной позиции, количество пропусков первого и второго иктов, количество точных рифм и др.
В целом, наиболее значимыми из них являются морфологические признаки конца строки и синтаксические признаки начала строки.
Используемый в диссертации подход может быть применен для решения таких задач, как выделение периодов в творчестве автора или ряда авторов, типологические сопоставления лексико-грамматической структуры текстов различных жанров, выявление степени сходства и различия оригинала и переводов, а также для решения задач атрибуции текстов.
ЛИТЕРАТУРА
CLASSIFICATION OF VERSE TEXTS BY MEANS OF DISCRIMINANT ANALYSIS
V. S. Andreev
The paper deals with classification of verse texts by means of multivariate (discriminant) analysis. The degree of similarity of texts written by different authors is established. The differentiating force of 43 characteristics in discrimination of the text clusters is compared. Factors determining the differentiation in style of different authors are proposed.
Кафедра иностранных языков
Смоленский государственный педагогический университет
Поступила в редакцию 24.02.2003.