Кластерный анализ, введение
Каждый слышит то, что понимает. Гете Трудных наук нет, есть только трудные изложения. А.И. Герцен. Часть материалов сайта доступна только подписчикам. На период подписки они имеют возможность оперативной консультации по статистическому анализу биомедицинских данных. Запрос на подписку направляйте редактору БИОМЕТРИКИ.
Дисперсия жизни...
;Регистрационный код (если есть) 
; Открывать в новом окне?  ;Имя нового окна 
; Разрешение (1-8)  ; Скорость смены (1-255)  ; Задержка (миллисекунд)  ; Смена рисунков со спецэффектами ("YES" или "NO")  ;Произвольный рисунок поверх апплета  ;X смещение наложенного рисунка  ;Y смещение наложенного рисунка  ;Задержка освобождения памяти  ;Приоритет задачи (1..10)  ; Мин. время синхр. кадра (мс); Sorry, your browser doesn't support Java ; Сообщение для браузеров без поддержки Java (tm) 

Кликните по фотографии,
и вы сможете ...
ВВЕДЕНИЕ

"Кластерный анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя." Такое определение кластерного анализа дано в последнем издании "Статистического словаря" (М.: Финансы и статистика, 1989. - 623с). Фактически "кластерный анализ" - это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий.

Анализ отечественных и зарубежных публикаций показывает, что кластерный анализ находит применение в самых разнообразных научных направлениях: биология, медицина, археология, история, география, экономика, филология и т.д. В прекрасной книге В.В.Налимова "Вероятностная модель языка" [42] описано применение кластерного анализа при исследовании восприятия живописи. Большая часть литературы по кластерному анализу появилась в течение последних трех десятилетий, хотя первые работы, в которых упоминались кластерные методы, появились достаточно давно [1]. Польский антрополог К.Чекановский выдвинул идею "структурной классификации" [1], содержавшую основную идею кластерного анализа - выделение компактных групп объектов.

В 1925 г. советский гидробиолог П.В. Терентьев разработал так называемый "метод корреляционных плеяд" [22], предназначенный для группировки коррелирующих признаков. Этот метод дал толчок развитию методов группировки с помощью графов. Термин "кластерный анализ" впервые был предложен Трионом [2-3]. Слово "cluster" переводится с английского языка как "гроздь, кисть, пучок, группа". По этой причине первоначальное время этот вид анализа называли "гроздевым анализом". В начале 50-х годов появились публикации Р.Люиса, Е.Фикса и Дж. Ходжеса по иерархическим алгоритмам кластерного анализа. Заметный толчок развитие работ по кластерному анализу дали работы Р.Розенблатта по распознающему устройству (персептрону), положившие начало развитию теории "распознавания образов без учителя".

Толчком к разработке методов кластеризации явилась книга "Принципы численной таксономии"[4], опубликованная в 1963г. двумя биологами - Робертом Сокэлом и Питером Снитом. Авторы этой книги исходили из того, что для создания эффективных биологических классификаций процедура кластеризации должна обеспечивать использование всевозможных показателей характеризующих исследуемые организмы, производить оценку степени сходства между этими организмами и обеспечивать размещение схожих организмов в одну и ту же группу. При этом сформированные группы должны быть достаточно "локальны", т.е. сходство объектов (организмов) внутри групп должно превосходить сходство групп между собой. Последующий анализ выделенных группировок, по мнению авторов, может выяснить, отвечают ли эти группы разным биологическим видам. Иными словами, Сокэл и Снит предполагали, что выявление структуры распределения объектов в группы, помогает установить процесс образования этих структур. А различие и сходство организмов разных кластеров (групп) могут служить базой для осмысления происходившего эволюционного процесса и выяснения его механизма.

В эти же годы было предложено множество алгоритмов таких авторов, как Дж. Мак-Кин, Г. Болл и Д. Холл по методам k-средних; Г. Ланса и У. Уильямса, Н. Джардайна и др. - по иерархическим методам. Заметный вклад в развитие методов кластерного анализа внесли и отечественные ученые - Э.М.Браверман, А.А.Дорофеюк, И.Б.Мучник, Л.А,Растригин, Ю.И.Журавлев, И.И.Елисеева и др. В частности, в 60-70 гг. большой популярностью пользовались многочисленные алгоритмы разработанные новосибирскими математиками Н.Г.Загоруйко, В.Н.Елкиной и Г.С.Лбовым. Это такие широко известные алгоритмы, как FOREL, BIGFOR, KRAB, NTTP, DRET, TRF и др. На основе этих пакетов был создан специализированный пакет программ ОТЭКС [26]. Не менее интересные программные продукты ППСА и Класс-Мастер были созданы московскими математиками С.А.Айвазяном, И.С.Енюковым и Б.Г.Миркиным[27].

В том или ином объеме методы кластерного анализа имеются в большинстве наиболее известных отечественных и зарубежных статистических пакетах: SIGAMD, DataScope, STADIA, СОМИ, ПНП-БИМ, СОРРА-2, СИТО, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS, GENSTAT, S-PLUS и т.д. Достаточно подробный сравнительный анализ многочисленный статистических пакетов заинтересованный читатель найдет в [28]. Конечно, спустя 10 лет после выхода этого обзора, изменилось достаточно много, появились новые версии многих статистических программ, появились и абсолютно новые программы, использующие как новые алгоритмы, так и сильно возросшие мощности вычислительной техники. Однако большинство статистических пакетов используют алгоритмы предложенные и разработанные в 60-70 гг.

По приблизительным оценкам специалистов число публикаций по кластерному анализу и его приложениям в различных областях знания удваивается каждые три года. Каковы же причины столь бурного интереса к этому виду анализа? Объективно существуют три основные причины этого явления. Это появление мощной вычислительной техники, без которой кластерный анализ реальных данных практически не реализуем. Вторая причина заключается в том, что современная наука все сильнее опирается в своих построениях на классификацию. Причем этот процесс все более углубляется, поскольку параллельно этому идет все большая специализация знания, которая невозможна без достаточно объективной классификации.

Третья причина - углубление специальных знаний неизбежно приводит к увеличению количества переменных, учитываемых при анализе тех или иных объектов и явлений. Вследствие этого субъективная классификация, которая ранее опиралась на достаточно малое количество учитываемых признаков, часто оказывается уже ненадежной. А объективная классификация, с все возрастающим набором характеристик объекта, требует использования сложных алгоритмов кластеризации, которые могут быть реализованы только на базе современных компьютеров. Именно эти причины и породили "кластерный бум"[12-47]. К сожалению, в среде медиков и биологов кластерный анализ еще не стал достаточно популярным и обыденным методом исследования. Причины этого мы уже рассматривали в своих предыдущих публикациях [48-50] и в статьях раздела "Биометрика" :

  1. Леонов В.П. Долгое прощание с лысенковщиной.
  2. Леонов В.П. Общие проблемы применения статистики в биомедицине, или что разумнее: ДДПП или ДППД?

Данная статья имеет своей целью дать нашим читателям начальные знания по этому интересному методу анализа данных, познакомить с используемой терминологией и привести некоторые примеры использования этого анализа к реальным данным. В изложении этих сведений мы будем ориентироваться на самый минимальный уровень наших читателей. По этой причине часть материала может кому-то показаться достаточно тривиальной, поэтому такие разделы они могут пропускать и сразу же переходить к более содержательным разделам

Основные понятия и термины


Наш адрес:
1998 - 2006.© Василий Леонов 

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ.
Rambler's Top100