Дисперсия жизни...
Кликните по фотографии,
и вы сможете ... |
ЗАКЛЮЧЕНИЕ |
Автор не хотел бы, чтобы у
наших читателей сложилось ложное представление о том, что "кластерный
анализ - это просто!". Краткая статья не может заменить десятки и сотни
книг и статей, в которых описываются эти методы. Более того, никакими
книгами и статьями нельзя заменить реальный опыт использования тех или
иных методов, который приходит, как и врачебный опыт, только с годами и
приобретается упорным и нелегким трудом. Вместе с тем, мне хотелось бы,
чтобы те, кто благодаря статье познакомился с этим видом анализа
данных, почувствовали некоторую красоту и мощь метода, его
потенциальные возможности и планировали бы его использование в
собственных исследованиях. При этом всегда необходимо осознавать, что
полученный при использовании кластерного анализа результат является
одним из возможных. Этот результат необходимо сравнить с аналогичными
результатами, полученными с применением других комбинаций метрик,
алгоритмов объединения и т.д., а также с результатами использований и
других методов анализа данных.
Следует убедиться самому и суметь убедить в этом и своих оппонентов (а
если их нет, то это уже не Наука), что данный результат является
оптимальным. А это означает, что результат должен не только "объяснять"
то-то и то-то, но также иметь и предсказывающую способность. Далее,
такой результат должен и помогать исследователю генерировать новые
вопросы, ответы на которые нередко можно найти в том же самом массиве
данных. Если же применение кластерного анализа не будет сопровождаться
перечисленными выше атрибутами, то полученные в этом случае результаты
будут не более чем "статистическими гитиками" [51]. (Пользуясь случаем хочу обратить
внимание наших читателей на эту интересную статью [51] главного
редактора "Международного журнала медицинской практики" из которой
следует, что наконец-то и редакторы медицинских журналов начали
признавать наличие кризиса в экспериментальной биомедицине.)
В использовании кластерного
анализа имеются такие тонкости и детали, которые проявляются в
отдельных конкретных случаях и видны не сразу. Например, роль масштаба
признаков может быть минимальной, а может быть и доминирующей в ряде
случаев. В таких случаях необходимо использовать преобразования
переменных. Особенно результативно это при использовании методов,
которые производят нелинейные преобразования признаков повышающие в
целом общий уровень корреляций между признаками. В таких случаях автору
нередко удавалось получать интересные решения, которые принципиально
меняли восприятие исходных материалов у владельцев эти данных.
Еще большая специфика в
использовании кластерного анализа применительно к объектам, которые
описываются только качественными признаками. В этом случае достаточно
успешны методы предварительной оцифровки качественных признаков и
проведение кластерного анализа с новыми признаками. Автор неоднократно
убеждался в том, что кластерный анализ дает много новой и оригинальной
информации как в случае его применения в достаточно изученных системах,
так и при исследовании систем с неизвестной структурой. Перефразируя
известную фразу "В жизни всегда есть место ...", можно утверждать, что
в и реальных биомедицинских исследованиях всегда имеется
целесообразность использования кластерного анализа.
Очень мощным и удобным
инструментом стал кластерный анализ в эволюционных исследованиях,
позволяя строить филогенетические деревья [45], показывающие
эволюционные пути. Широко применяются эти методы и в программах научных
исследований по молекулярной биологии, в частности в исследовании генома
человека. Достаточно обстоятельное изложение этих материалов читатели
могут найти в прекрасной книге известного американского ученого,
профессора статистики и генетики Брюса Вейра "Анализ генетических
данных"[45], с которой я рекомендую познакомиться всем нашим читателям.
Кстати, один из основателей современной статистики Рональд Эйлмер Фишер
(1890-1962) также был не только профессором кафедры прикладной
математики Лондонского университета (1933-1943), но и с 1943г. по
1957г. заведовал кафедрой генетики в Кембридже.
Для тех, кто еще не потерял
окончательно терпение и интерес к этому материалу, сообщаю, что ниже
приведен небольшой список адресов в Интернете, по которым желающие
смогут найти не только интересные материалы по кластерному анализу, но
даже скачать на свой компьютер хорошие, и к тому же бесплатные, версии
программ по кластерному анализу. Не хочу лишать наших читателей
удовольствия и азарта поиска таких бесплатных программ, поэтому и не
указываю конкретные адреса в этом списке, по которым они находятся.
Один из таких филогенетических пакетов, разработанный в университет
г. Вашингтон содержит 31 программу с различными алгоритмами анализа. Но
далеко не все версии программ, о которых сообщается по этим адресам,
бесплатны. Так, например, программа CLUSTAN стоит 1000 долларов США, о
чем также вы найдете информацию по одному
из этих адресов.
Что ещё почитать
о кластерном анализе в Интернете
http://www.clustan.com/WhatIsClusterAnalysis.htm
http://espse.ed.psu.edu/espse/hale/507Mat/
http://www.intra.ru/rfbr/pub/knigi/alekseeva/030/010.htm
http://pisum.bionet.nsc.ru/
http://wwwicg.bionet.nsc.ru/SRCG/
http://archnet.uconn.edu/museums/archeom.html
http://155.187.10.12/people/bayer1.html
http://pespmc1.vub.ac.be/CLUSTERW.html
http://www.cs.ualberta.ca/~upal/cluster/p2/node5.html
http://www.utexas.edu/ftp/depts/systbiol/44_1/44_1_hillis.html
http://cyrah.med.harvard.edu/Project/Geanfammer/
http://ozone.crle.uoguelph.ca/chris/vision/Results/cluster.htm
http://wizard.ucr.edu/polmeth/working_papers96/schro96.html
http://www.applied-maths.com/bionum/prices.htm
http://www.transfertech.de/www/camgdemo.htm
http://www.pmrt.com/
http://www.pigeon.psy.tufts.edu/jep/sdclass/sdmsc_mdso.htm
http://trochim.human.cornell.edu/tutorial/flynn/cluster.htm
http://software-guide.com/cdprod1/swhrec/009/254.shtml
http://x.archaeology.nsc.ru/Editions/Electronical/Bulletens/KIAE/2.htm
http://www.manu.com/statgraphics/tutor/cluster.htm
http://www.intra.ru/rfbr/pub/knigi/alekseeva/030/010.htm
http://cmgm.stanford.edu/phylip/index.html
http://mcrcr0.med.nyu.edu/rcr/course/phylo-contents.html
http://bio.bu.edu/Help/help-docs/local/clustalv.html
http://www.conceptsystems.com/kb/00000039.htm
http://www.bioweb.uncc.edu/faculty/leamy/popgen/prob9sol.htm
http://www.uky.edu/Classes/A_S500.200/session28.htm
http://www.nwfsc.noaa.gov/pubs/TM/tm25/genetic.html
http://www.clearwater-research.com/cri_23.htm
http://ai.bpa.arizona.edu/~mramsey/papers/gkrs/node27.html
http://www.ukans.edu/~keds/APSA96_Poster/poster.cluster.html
http://bass.gmu.edu/~mazel/cluster/clus.htm
http://sevilleta.unm.edu/~bmilne/khoros/ktool.html
http://www.psychstat.smsu.edu/multibook/mlt04.htm
http://bgrs.bionet.nsc.ru/
http://www.eimb.rssi.ru/databases/index.html
Список литературы
- Czekanowcki, J. (1911) "Objectiv kriterien in der
ethologie." Korrespondenz-blatt der Deutschen Gesellschaft fьr
Antropologie, Ethnologie, und Urgeschichte 42: 1-5
- Tryon R.C. Cluster Analysis// Ann. Arb., Edw. Brathers. -
1939
- Tryon R.C. Cluster Analysis. New York: McGraw-Hill. - 1939.
- Sokal R. And P.Sneat (1963) Principles of Numerical
Taxonomy. San Francisco: W.H.Freeman
- Мандель И.Д. Кластерный
анализ. - М.: Финансы и статистика. 1988. - 176с.
- Гильберт А. Как работать с
матрицами/Пер. с нем. - М.: Статистика, 1981. - 157с.
- Клиот-Дашинский М.И. Алгебра
матриц и векторов. Л.: Изд-во Ленинградского ун-та, 1974. - 160с.
- Б.Болч, К.Дж. Хуань.
Многомерные статистические методы для экономики/Пер. с англ. - М.:
Статистика, 1979. - 317с.
- Г.Стренг. Линейная алгебра и
ее применения/Пер. с англ. - М.: Мир, 1980. - 454с.
- Леонов В.П. Обработка
экспериментальных данных на программируемых микрокалькуляторах. /Под
ред. Б.А.Гладких, - Томск: ТГУ, - 1990, - 376 с.
- Дюк В.А. Компьютерная
психодиагностика. - СПб., изд-во "Братство", 1994. - 364с.
- Дюк В.А. Информационные технологии в медико-биологических исследованиях. - СПб.: Питер, 2-003. - 528 с.
- Анализ данных на ЭВМ. (На
примере системы СИТО)/Александров В.В., Алексеев А.И., Горский Н.Д. -
М.: Финансы и статистика, 1990. - 192с.
- Айвазян С.А., Бежаева З.И.,
Староверов О.В. Классификация многомерных наблюдений. - М.: Статистика,
- 1974, - 240 с.
- Айвазян С.А., Бухштабер В.М.,
Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и
снижение размерности. - М.: Финансы и статистика, 1989. - 607с.
- Александров В.В., Горский
Н.Д. Алгоритмы и программы структурного метода обработки данных. - Л.:
Наука, - 1983, - 208с.
- Дюран Б., Оделл П. Кластерный
анализ. - М.: Статистика, - 1977, - 128 с.
- Классификация и кластер. /Под
ред. Дж. Вэн Райзина. - М.: Мир, 1980, -390 с.
- Компьютерная биометрика /под
ред. В.Н.Носова, - МГУ, - 1990, - 232с.
- Перегудов Ф.И., Тарасенко
Ф.П. Основы системного анализа: Учеб. 2-е изд., доп. - Томск: Изд-во
НТЛ, 1997. - 396с.
- Типология и классификация в
социологических исследованиях. Отв. ред. В.Г.Андреенков, Ю.Н.Толстова.
М.: Наука, 1982 - 296с.
- Факторный, дискриминантный и
кластерный анализ: Пер с англ./Дж. - О.Ким, Ч.У.Мьюллер, У.Р.Клекка и
др.; Под ред. И.С.Енюкова. - М.: Финансы и статистика, 1989. - 215с.
- Хемометрика/ Шараф М.А,
Иллмэн Д.Л., Ковальски Б.Р. Пер. С англ. - Л., Химия, 1989. -
272с.
- Терентьев П.В. Метод
корреляционных плеяд//Вестник ЛГУ. - 1959ю - №9 - с.137-141.
- Браверман Э.М., Мучник И.Б.
Структурные методы в обработке эмпирических данных. М.: Наука, - 1983.
-
- Миркин Б.Г. Группировки в
социально-экономических исследованиях. М.: Финансы и статистика.
- Загоруйко Н.Г., Елкина В.Н.,
Емельянов С.В., Лбов Г.С. Пакет прикладных программ ОТЭКС (для анализа
данных). - М.: Финансы и статистика, 1986. - 160с.
- Енюков И.С. Методы,
алгоритмы, программы многомерного статистического анализа: пакет ППСА.
- М.: Финансы и статистика, 1986. - 232с.
- Сильвестров Д.С. Программное
обеспечение прикладной статистики: Обзор состояния. Тенденции развития.
- М.: Финансы и статистика, 1988. - 240с.
- Методы анализа данных:
Подход, основанный на методе динамических сгущений: Пер. с фр./Кол.
Авт. Под рук. Э.Дидэ; Под ред. И с предисл. С.А.Айвазяна и
В.М.Бухштабера. - М.: Финансы и статистика, 1985. - 357с.
- Жамбю М. Иерархический
кластер-анализ и соответствия: Пер. с фр. М.: Финансы и статистика,
1988. - 342с.
- Статистические методы для
ЭВМ/Под ред. К.Энслейна, Э.Рэлстона, Г.С.Уилфа: Пер с англ./Под ред.
М.Б.Малютова. - М.: Наука, 1986. - 464с.
- Патрик Э. Основы теории
распознавания образов: Пер с англ./ Под ред. Б.Р.Левина. - М.: Сов.
Радио, 1980. - 408с.
- Фомин Я.А., Тарловский Г.Р.
Статистическая теория распознавания образов. - М.: Радио и связь, 1986.
- 264с.
- Айвазян С.А., Бухштабер В.М.
Анализ данных, прикладная статистика и построение общей теории
автоматической классификации// Методы анализа данных/ Пер. с фр. - М.:
Финансы и статистика, 1985. - Вступ. ст. - с. 5-22.
- Айвазян С.А., Бежаева З.И.,
Староверов О.В. Классификация многомерных наблюдений. М.: Статистика,
1974. - 240с.
- Вапник В.Н., Червоненкис А.Я.
Теория распознавания образов. - М.: Наука, 1973. - 416с.
- Елисеева И.И., Рукавишников
В.О. Группировка, корреляция, распознавание образов: Статистические
методы классификации и измерения связей. - М.: Статистика, 1977. - 143с.
- Фукунага К. Введение в
статистическую теорию распознавания образов/Пер. с англ. - М.: Наука,
1979. - 367с.
- Федоров-Давыдов Г.А.
Статистические методы в археологии. - М.: Высшая школа, 1987. -216с.
- Фелингер А.Ф. Статистические
алгоритмы в социологических исследованиях. Новосибирск, Наука, 1985. -
208с.
- Миронов Б.Н. История в
цифрах. Математика в исторических исследованиях/ Под ред. И.Д.
Ковальченко. Ленинград, Наука, 1991. - 167с.
- Налимов В.В. Вероятностная
модель языка. О соотношении естественных и искусственных языков. М.:
Наука, 1979. - 303с.
- Количественные методы в
исторических исследованиях/ Под ред. И.Д.Ковальченко. - М.: Высшая
школа, 1984. - 384с.
- Эфрон Б. Нетрадиционные
методы многомерного статистического анализа: Сб. статей: Пер. с англ./
Предисловие Ю.П.Адлера, Ю.В.Кошевника. - М.: Финансы и статистика,
1988. - 263с.
- Вейр Б. Анализ генетических
данных/ Пер. с англ. - М.: Мир, 1995. - 400с.
- Кайданов Л.З. Генетика
популяций. - М.: Высшая школа, 1996. - 320с.
- Животовский Л.А.
Популяционная генетика. - М.: Наука, 1991. - 271с.
- Леонов В.П., Ижевский П.В. Об
использовании прикладной статистики при подготовке диссертационных
работ по медицинским и биологическим специальностям // Бюллетень ВАК
РФ, 1997, № 5, с.56-61.
- Леонов В.П., Ижевский П.В.
Применение статистики в медицине и биологии: анализ публикаций
1990-1997гг.//Сибирский медицинский журнал, 1997, № 3-4, с. 64-74.
- Леонов В.П., Ижевский П.В.
Применение статистики в статьях и диссертациях по медицине и биологии.
Часть 1. Описание методов статистического анализа в статьях и
диссертациях//Международный журнал медицинской практики, 1998, № 4,
с.7-12.
- Бащинский С.Е. Статистика
умеет много гитик// Международный журнал медицинской практики, 1998, №
4, с.13-15.
- Тарасенко Ф.П. Прикладной системный анализ. (Наука и искусство решения проблем): Учебник. - Томск,: Изд-во Том. ун-та, 2004, - 186 с.
- А. Бююль. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб.: ДиаСофтЮП, 2002, - 608 с.
- Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. М.: Финансы и статисткиа, 2000. - 352 с.
- Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шефер М. Многомерный статистический анализ в экономике. М.: ЮНИТИ-ДАНА, 1999. - 598 с.
Много литературы по кластерному анализу предлагается в качестве методических пособий для подписчиков нашего сайта в разделе 2 электронной библиотеки. |