Яндекс.Метрика Уролитиаз
 БИОМЕТРИКА: БИОМЕТРИКА-2000

Применение разведочного анализа для оценки исходных данных 
(на примере наблюдений  по уролитиазу)
В.П.Леонов
Томский государственный университет

     Неудовлетворительный уровень статистической подготовки исследователей в области биомедицины, нередко порождает ситуации, когда огромный труд потраченный ими на проведение длительных и кропотливых экспериментов, оказывается бесполезным. Чаще всего это бывает связано с незнанием основных принципов теории планирования экспериментов, позволяющих за счет разумной организации опытов получить максимум информации из минимума наблюдений [1-19]. Здесь можно провести аналогию с рядовым обывателем, который считает, что он отлично разбирается в двух областях: в политике и в медицине (когда он занимается самолечением...). Подобно такому обывателю многие исследователи в биомедицине наивно полагают, что главное не то, как организован и проведен эксперимент, а то, как проанализированы полученные данные. 

   Изначальная вера в то, что гипотеза, сформулированная до проведения экспериментов и анализа их результатов, обязательно найдет подтверждение, может в итоге приводить к тому, что такой  исследователь будет верить только тем результатам, которые "работают" на эту гипотезу. При этом адекватность статистических методов, которыми получены эти результаты, как правило, не интересует такого исследователя. Для подтверждения этой мысли сошлемся на многочисленные экспонаты "Кунсткамеры", в которых десятки примеров некорректного применения самых разнообразных статистических методов. Подобная практика ДДПП безусловно снижает эффективность таких исследований, и крайне затрудняет проведение эффективного статистического анализа полученных таким образом данных. 

Искреннее заблуждение таких незадачливых исследователей, что с помощью статистики можно (и нужно!) доказать их гипотезы, нередко ставит в затруднительное положение тех, к кому они обращаются с просьбами о проведении анализа. Из собственного опыта могу утверждать, что не менее половины таких исследователей при этом уже и "заказывают", какими должны быть полученные в результате анализа ответы на интересующие его вопросы. В этой связи мне особенно запомнилась одна из таких просьб, когда на основе подобных данных необходимо было найти подтверждение, что хряки-производители, которым скармливали автономный стимулятор ЖКТ, известный также  как "кремлевская таблетка",  давали более ценный и качественный семенной материал. (Такие исследования действительно проводили некоторое время тому назад в одном из животноводческих хозяйств вблизи г. Томска). К сожалению для автора этих данных такая гипотеза на его материале подтверждения не нашла.

 В связи с этим очень важно еще до проведения полномасштабного анализа такого рода данных оценить их перспективность для решения поставленных задач иследования. Для оценки такой перспективности, по нашему мнению, целесообразно уже на первом этапе знакомства с такими данными проведение разведочного анализа [20-27]. Как правило, подобные методы опираются на алгоритмы, в основе которых отсутствуют вероятностные представления. Многие алгоритмы такого анализа производят  агрегацию наблюдений или признаков и редукцию пространства исходных признаков [22]. В настоящей статье мы приведем пример использования подобного разведочного анализа на реальных данных. 

 Поводом для проведения экспериментов, в результате которых были получены анализируемые данные, послужили наблюдения заведующего отделом городского санэпиднадзора Томска Г.Г.Адамовича, обнаружившего прямую связь между заболеваемостью мочекаменной болезнью (уролитиазом) у томичей, которая за последние 10 лет возросла в десять раз, и жесткостью питьевой воды из водопровода после подключения областного центра к подземному водозабору. 

Анализируемая матрица данных представляла собой результаты наблюдений за 158 крысами, которых в течение определенного срока поили водой разного происхождения, в том числе дистиллированной, водопроводной, речной, из скважин и источников, а также водой, прошедшей обработку в специальных фильтрах. Состояние почек животных по окончании экспериментов оценивалось с помощью 40 качественных признаков. Исходная постановка эксперимента предполагала, что на основе полученных данных можно будет установить, в каких случаях наблюдались неблагоприятные изменения почек, а также связать эти изменения с химическим составом воды. При этом экспериментаторы исходили из предположения, что отличающийся состав и происхождение воды могут привести к появлению отдельных групп животных, между которыми наблюдаются существенные различия в состоянии почек. Таким образом, мы имеем задачу, при решении которой первоначально имеет смысл оценить неоднородность объектов выборки.

Далее, имеет смысл  оценить также и наличие группировок признаков. Поскольку  возможно выделение из 40 признаков гораздо меньшего количества признаков, по которым и наблюдаются основные отличия групп наблюдений. Используя процедуры разведочного анализа попытаемся качественно оценить перспективность этих данных для  решения  задач поставленных исследователями. Анализ проводился с использованием алгоритмов кластерного анализа и анализа соответствий Бензекри [20-21], реализованных в статистических пакетах SAS 6.12, SPSS8.0  и  STATISTICA 5.14. 

Для решения первой задачи был использован кластерный анализ (манхэттенская метрика, алгоритм Варда), в результате которого была получена дендрограмма наблюдений, приведенная ниже.

Как известно, качество кластеризации можно оценить по графику пошагового изменения межкластерного расстояния. Хорошей локализации выделенных группировок отвечает график с резким изломом, т.е. почти горизонтальным участком на первой стадии кластеризации, и почти вертикальным участком на последних шагах Ниже приведен такой график для полученной дендрограммы. 

Оба графика позволяют говорить о том, что мы имеем дело с отдельными, локальными группами наблюдений. В зависимости от того, на каком значении межкластрного расстояния разрезать дендрограмму, мы имеем 4, 3 или 2 кластера. Такой результат позволяет сделать предварительное заключение, что различие в происхождении воды могло приводить к различию в состоянию почек подопытных животных.

 Аналогичная кластеризация признаков также показала наличие нескольких групп. Дендрограмма кластеризации 40 признаков приведена ниже.

Используя анализ соответствий Бензекри  мы получили распределение нагрузок исходных качественных признаков на осях  двух первых собственных значений. Ниже приводится график полученный для 40 исходных признаков, на котором можно наблюдать 4 группировки точек. 

Итак, результаты разведочного анализа, в ходе которого мы не ставили и не проверяли никаких статистических гипотез, позволяют надеяться, что этот массив данных содержит интересующую авторов исследования информацию.



 Автор благодарит старшего лаборанта кафедры гигиены Сибирского государственного медицинского университета Мотовилову Н.Ю. за предоставленный для анализа материал наблюдений.

Литература.
1. Адлер Ю.П., Маркова Е.В. Планирование эксперимента при поиске  оптимальных условий. - М.: Наука, - 1976, - 279 с. 

2. Ашмарин И.П. и др. Быстрые методы статистической обработки и планирования экспериментов. - Л.: ЛГУ, - 1975, - 76с. 

3. Барабащук В.И., Креденцер Б.П., Мирошниченко В.И. Планирование эксперимента в технике. - Киев, Техника, 1984. - 200с.

4. Бондарь А.Г., Статюха Г.А., Потяженко И.А. Планирование эксперимента при оптимизации процессов химической технологии. (Алгоритмы и примеры). -   Киев, "Вища школа", - 1980. - 264с.

5. Денисов В.И., Попов А.А. Пакет программ оптимального планирования эксперимента. - М.: Финансы и статистика, 1986. - 159с.

6. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке. Методы обработки данных. - М.: Мир, - 1980, - 616с. 

7. Дэниел К. Применение статистики в промышленном эксперименте / Пер. с англ. М.: Мир, 1979. - 299с.

8. Красовский Г.И., Филаретов Г.Ф. Планирование эксперимента. - Минск.: Изд-во   БГУ, 1982. - 302с. 

9. Лисенков А.Н. Математические методы планирования многофакторных медико-биологических экспериментов. - М.: Медицина, - 1979, - 344с. 

10. Львовский Е.Н. Статистические методы построения эмпирических формул: Учеб. Пособие. - М.: Высш. Школа, 1982. - 224с.

11. Максимов В.Н. Многофакторный эксперимент в биологии. - М.: МГУ, - 1980, -  279с. 

12. Налимов В.В., Голикова Т.И.. Логические основания планирования эксперимента. 2-е изд., перераб. И доп. М., "Металлургия", 1980. С.152.

13. Налимов В.В. Теория эксперимента. - М.: Наука, - 1971, - 208 с. 

14. Налимов В.В., Чернова Н.А. Статистические методы планирования экстремальных экспериментов. - М.: Наука, - 1965, - 340с. 

15. Планирование эксперимента в биологии и сельском хозяйстве. /Под ред.   В.Н.Максимова. - М.: МГУ, - 1991, - 220 с. 

16. Рузинов Л.П. Статистические методы оптимизации химических процессов. - М.: Изд-во "Химия", - 1972. - 200с.

17. Рузинов Л.П., Слободчикова Р.И. Планирование эксперимента в химии и химической технологии. - М.: Изд-во "Химия", - 1980. - 280с.

18. Финни Д. Введение в теорию планирования экспериментов. Пер. с англ. М.: Наука, 1970. - 287с.

19. Хартман К., Лецкий Э., Шефер В. Планирование эксперимента в исследовании технологических процессов. М.: Мир, 1977. - 552с. 

20. Benzecri, J. P. (1973). L'Analyse des Donnees: T. 2, I' Analyse des correspondances. Paris: Dunod.

21. М. Жамбю. Иерархический кластер-анализ и соответствия/ Пер. с французского Б.Г. Миркина. - М.: Финансы и статитсика, 1988. - 343с.

22. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статитсика, 1988. - 607с.

23. Методы анализа данных: Подход, основанный на методе динамических сгущений/ Пер. с французского. - М.: Финансы и статитсика, 1988. - 357с.

24. Фомин Я.А., Тарловский Г.Р. Статистическая теория распознавания образов. - М.: Радио и связь, 1986. - 254с.

25. Патрик Э. Основы теории распознавания образов/Пер. с англ. - М.: Советское радио, 1980. - 408с.

26. Статистические методы для ЭВМ/Под ред. К.Энслейна, Э.Рэлстона, Г.С.Уилфа: Пер. с англ./Под ред. М.Б.Малютова. - М.: Наука. 1986. - 464с.

27. Мандель И.Д. Кластерный анализ. - М.: Финансы и статистика. 1988. - 176с.



© 2000. В.Леонов

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ.
Rambler's Top100