Яндекс.Метрика

Кластерный анализ в медицине

Каждый слышит то, что понимает. Гете

Статистика посещаемости БИОМЕТРИКИ

16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц
14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц
14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страницы
17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц
03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц
30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц
06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц
08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы

Если приходят, значит полезное находят.
 
Пишите нам на адрес

Выбрав любое изображение, кликните по нему мышкой, и Вы прочитаете о том, как ...

Редактор БИОМЕТРИКИ
В. Леонов

Яндекс
цитирования
Яндекс цитирования
 
25 наиболее популярных ссылок, посещаемых читателями нашего сайта

http://www.biometrica.tomsk.ru/logit_8.htm
http://www.biometrica.tomsk.ru/kuzbass5.htm
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/kuzbass6.htm
http://www.biometrica.tomsk.ru/erevan_4.html
http://www.biometrica.tomsk.ru/principals.htm
http://www.biometrica.tomsk.ru/kk.htm
http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/error.htm
http://www.biometrica.tomsk.ru/paradigma.htm
http://www.biometrica.tomsk.ru/index.htm
http://www.biometrica.tomsk.ru/freq1.htm

http://www.biometrica.tomsk.ru/logit_1.htm
http://www.biometrica.tomsk.ru/cluster_3.htm
http://www.biometrica.tomsk.ru/k_s.htm
http://www.biometrica.tomsk.ru/edu_1.htm
http://www.biometrica.tomsk.ru/potencial.htm
http://www.biometrica.tomsk.ru/kuzbass2.htm
http://www.biometrica.tomsk.ru/ftp/dict/cult/gramm.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/stat_cardio5.htm
http://www.biometrica.tomsk.ru/krasnojarsk.htm http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/logit_6.htm

В НОВЫЙ ВЕК - С ДОКАЗАТЕЛЬНОЙ БИОМЕДИЦИНОЙ
ОТВЕТ  ВАК РФ   АВТОРАМ СТАТЬИ 

В. Леонов. Долгое прощание с лысенковщиной.

Наши возможности  О возможностях статистического анализа биомедицинских экспериментальных данных, которыми располагает Центр "Биостатистика".

Статистическое рецензирование статей и диссертаций


В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).

Фоторепортаж с Конференции по доказательной медицине в Ереване.

Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине.

Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г.

Международная конференция по доказательной медицине в Ереване (18 - 20.10.2012)

В 2012 году исполнилось 10 лет со дня создания "Армянского медицинского реферативного журнала". В связи с этой датой главный редактор АМРЖ Рубен Ованесян организовал международную конференцию "Доказательная медицина в Армении: миф или реальность?". Конференция прошла в Ереване 18-20.10.2012. Ниже мы приводим материалы этой конференции
. Доклад "Почему и как надо учить медиков статистике?" В. Леонов.

Зачем нужна статистика в доказательной медицине?  В. Леонов. Армянский медицинский реферативный журнал, 2012, вып. 9, с. 184-193.


ОТЗЫВ врача-кардиолога М.В. Емельяненко, ФКУ «Центральный военный госпиталь имени П.В. Мандрыка» МО РФ, Москва, о проведённом статистическом анализе.  Хочу выразить глубокую признательность за качественный и весьма объёмный труд, проделанный Вами по статистическому анализу моей базы данных. Особенную благодарность, без сомнения, хотелось бы выразить руководителю проекта «БИОМЕТРИКА» - Василию Петровичу Леонову. Причина такой благодарности следующая. Помимо структурированного статистического анализа присланных в Ваш адрес медицинских данных, Вы подробно и, что самое невероятное,  – доступным образом разъяснили мне суть каждого метода, который был применён при анализе моей матрицы. (далее...)

ОТЗЫВ Ахметова А., (Казахстан), о сотрудничестве с БИОМЕТРИКОЙ. Когда я взялся за написание диссертации, то вначале я пытался самостоятельно выполнить статистический анализ собранных мною данных. Для этого пробовал использовать EXCEL и STATISTICA. Однако по мере расширения набора используемых методов анализа, всё яснее стал осознавать, что я не понимаю как сами методы, так и получаемые результаты. Чтобы лучше в этом разобраться, стал очень часто посещать сайт БИОМЕТРИКА. Иногда ежедневно по 2-3 часа читал на этом сайте разные статьи. Особенно полезными были обзоры по Кузбассу, по кардиологии, а также статья "Долгое прощание с лысенковщиной". (далее...)"

Новые полезные книги...

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с. Актуальность этого издания весьма велика. По-прежнему в биомедицинских статьях и диссертациях публикуется масса статистических нелепостей, как образцы "статистического самоудовлетворения" и "статистического макияжа". Например, в двух диссертациях, выполненных в 2014 и 2015 гг. в Алтайском медуниверситете по разным специальностям, но при этом в полностью идентичных описаниях, состоящих из 94 слов, написано следующее. «Полученные данные были статистически обработаны с использованием программ Microsoft Offis Exel 2007. Достоверность различий между средними величинами определяли с помощью критерия значимости Стьюдента (t). Нормальность распределений в группах оценивали по критерию Шапиро-Уилка». Далее сообщается об использовании критерия Манна-Уитни, и т.д. Очевидно, что под Offis Exel авторы подразумевали Office Excel. Сложнее было бы об этом догадаться, если бы авторы написали Offis Exul. Вывод: оба диссертанта, как и члены двух диссертационных советов, не знают многого, в том числе описанного в этой книге. Например, не знают того, что в пакете Office Excel нет критериев Шапиро-Уилка и Манна-Уитни. Данная книга обучит правильно и хорошо описывать и понимать результаты статистического анализа. Поэтому исследователи станут более качественно выполнять статистический анализ, получая правильную технологию лечения пациентов. Что в результате будет снижать смертность населения, а также себестоимость лечебных процедур.

Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с.
Предыдущие издания оригинала этой книги были опубликованы в 2000, 2005 и 2009 гг. Третье издание книги, как и два предыдущих, имеет целью донести до читателя основные понятия и принципы медицинской статистики, которые достаточно широко используются зарубежными медиками и биологами. Книга содержит необходимую теоретическую часть, а также в доступной форме даёт практическое описание того, как могут применяться статистические методы в реальных клинических исследованиях. Низкий уровень использования статистики в отечественной медицинской науке является одной из основных причин, по которым уже 111 лет Нобелевские премии по медицине не присуждаются россиянам. Ценность этой книги для медицинской науки определяется и проводимой в России реформой отечественной науки, в том числе реформой ВАК и системы научной аттестации. Учебное пособие предназначено для студентов, аспирантов и докторантов медицинских вузов, биологических факультетов университетов, врачей, исследователей-клиницистов и всех, кто является сторонником доказательной медицины.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.
Издание представляет собой вводный курс по принципам статистики. Представлены базовые понятия и принципы статистических исследований применительно к медицине. В отличие от большинства подобных изданий, указанные темы изложены кратко и доступно. Для чтения книги не требуется знание сложных разделов высшей математики, вполне достаточно тех, что даются в школе. Внедрение в практику принципов доказательной медицины диктует необходимость понимания статистики. После знакомства с книгой читатель сможет критически оценивать многочисленные публикации, содержащие статистическую терминологию и результаты описанных исследований. Полученные знания помогут избежать ошибок в планировании биомедицинских исследований, а также в изложении их результатов. Большим преимуществом книги служат глоссарий и подробный предметный указатель.
Для студентов, аспирантов, научных работников, а также врачей всех специальностей.

Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова.
Данная книга является наиболее популярным в мире руководством по доказательной медицине, ставшее известным и в России. Руководство предназначено для студентов и врачей. За 18 лет с момента первого издания в 1996 г., эта книга переведена на восемь языков (испанский, итальянский, китайский, немецкий, русский, французский, чешский, японский) и напечатана огромными тиражами. Руководство завоевало признание практикующих врачей, преподавателей и студентов во многих странах; по нему преподается медицина, основанная на доказательствах, в медицинских школах всего мира. В книге 17 глав, среди которых есть и глава "Статистика для неспециалиста". Эта главу мы дополнили большим списком русскоязычной литературы как по самой статистике, так и по биостатистике. А начинается книга с определения понятия "доказательная медицина". Итак, что же такое "доказательная медицина"?
Что, чем, и зачем "доказывают"? Читайте эту книгу!

Ереванская фото-биометрика. Фоторепортаж о конференции в Ереване (2012 г.).

Доклад "Почему и как надо учить медиков статистике?" В. Леонов.

Зачем нужна статистика в доказательной медицине?  В. Леонов. Армянский медицинский реферативный журнал, 2012, вып. 9, с. 184-193.

Библиотека статей о применении биостатистики в биомедицине, результаты анализа статистических аспектов публикаций, программы по анализу данных, аннотированные указатели по биометрике и т.д. Диссертации и авторефераты диссертаций с многочисленными примерами использования биометрики.

Применение методов статистики в кардиологии (по материалам журнала "Кардиология" за 1993-1995 гг.). Леонов В.П. Кардиология, 1998, № 1, с. 55-58.

Леонов В.П. Общие проблемы применения статистики в биомедицине, или что разумнее: ДДПП или ДППД? 

Статистика в кардиологии. 15 лет спустя. Журнал "Медицинские технологии. Оценка и выбор", 2014, №1, с. 17-28. Леонов В.П.

Отзывы читателей обзора "Статистика в кардиологии. 15 лет спустя". В ноябре 2013 г. был опубликован наш обзор "Статистика в кардиологии. 15 лет спустя". За прошедшие полгода более 20 читателей этого обзора прислали нам свои отзывы по нему. Далее приведены фрагменты из двух отзывов, и наши комментарии к ним...


Доказательная или сомнительная?
Медицинская наука Кузбасса: статистические аспекты.
ВВЕДЕНИЕДОКАЗАТЕЛЬНАЯ МЕДИЦИНА И СТАТИСТИКА.
КРАТКОСТЬ – СЕСТРА ТАЛАНТА? ИЛИ ПРИЗНАК НЕЗНАНИЯ?
ПРОЦЕНТЫ – ПРИМИТИВНО? ЗАТО ДОСТУПНО!

СТАТИСТИЧЕСКАЯ ВАМПУКИЗАЦИЯ,  ОНА ЖЕ ВСЕОБЩАЯ СТЬЮДЕНТИЗАЦИЯ
.
«ЛОШАДЕНДУС СВАЛЕНДУС С МОСТЕНДУС».
КАК ПРАВИЛЬНО: EXCEL ИЛИ EXEL, WINDOWS ИЛИ WINDOUS,
MICROSOFT ИЛИ MIKROSOFT, STATISTICA ИЛИ STATISTIKA?
 
ЗЕММЕЛЬВЕЙС И СТАТИСТИЧЕСКАЯ ТЕХНИКА БЕЗОПАСНОСТИ.
«ЗАЧЕМ НАМ КУЗНЕЦ? НАМ КУЗНЕЦ НЕ НУЖЕН». ПРИМЕРЫ ПОДРОБНОГО ОПИСАНИЯ.
КТО ВИНОВАТ?  ЧТО ДЕЛАТЬ?
ВМЕСТО ЗАКЛЮЧЕНИЯ.

Когда нельзя, но очень хочется, или Ещё раз о критерии Стьюдента.
К большому сожалению, в большинстве учебников, в которых рассматривается критерий Стьюдента, не акцентируется внимание читателей на ограничениях этого критерия, и на последствиях их нарушения. Вот как пишет об этом известный специалист в области прикладной статистики профессор А.И. Орлов в своей книге ЭКОНОМЕТРИКА (Издательство ЭКЗАМЕН, Москва, 2004. - 576 с.). "Приведённые описания экспериментальных данных показывают, что погрешности измерений в большинстве случаев имеют распределения, отличные от нормальных. Это означает, что большинство применений критерия Стьюдента, ... строго говоря, не является обоснованным, поскольку неверна лежащая в их основе аксиома нормальности распределений  соответствующих случайных величин. Очевидно, для оправдания или обоснованного изменения существующей практики анализа статистических данных требуется изучить свойства процедур анализа данных при «незаконном» применении. Изучение процедур отбраковки показало, что они крайне неустойчивы к отклонениям от нормальности, а потому применять их для обработки реальных данных нецелесообразно; поэтому нельзя утверждать, что произвольно взятая процедура устойчива к отклонениям от нормальности". Именно Александр Иванович в своём письме от 4 апреля 1998 г. и обратил моё внимание на эту
проблему.

Последние отзывы на проведённый анализ данных

Надинская М.Ю., к.м.н., доцент кафедры пропедевтики Первого МГМУ им.И.М.Сеченова.
С сайтом www.biometrica.tomsk.ru  я познакомилась около 10 лет назад, когда в России начали широко обсуждать «доказательную медицину». На этом сайте о «доказательной медицине» не только говорили, но и предлагали её «делать», проводя современный статистический анализ данных исследований. Некоторое время назад мне представилась возможность принять участие в этом процессе. Выслала свою Базу данных и её описание в соответствии с представленными на сайте образцами, и в тот же день получила приглашение обсудить через Скайп возможности статистического решения задач моего исследования...

Левашёва Светлана Владимировна, аспирант Башкирского Государственного Медицинского Университета, г. Уфа.
Нужна грамотная и быстрая обработка материала для диссертации? Даже не сомневайтесь – Вам сюда! До обращения в Центр «БИОСТАТИСТИКА» я уже делала попытку обработать собранные мною данные (у практикующего статистика). В итоге получила результаты, о значениях которых мне так и не было дано внятного ответа...  

Коровкина Анна, врач-стоматолог, г. Калиниград.
Добрый день, уважаемые коллеги! Из всех прочитанных отзывов я поняла, что буду «первой» из профессии стоматологов. Знакомство c Леоновым Василием Петровичем произошло думаю не случайно, потому как до сих пор не могу остановится в написании научных трудов. Сайт БИОМЕТРИКА открыл для меня безграничные возможности статистической обработки данных и внедрение их в клиническую практику...

В.А. Габышев, Институт биологических проблем криолитозоны СО РАН, Якутск.
Работая над докторской диссертацией, я постепенно пришел к убеждению, что мне необходимо применить современные статистические методы. Материал для своей работы собирал много лет, получился серьёзный массив данных о флористическом, ценотическом составе фитопланктона рек Восточной Сибири, о гидрохимии и других параметрах среды...

Доклад ЮНЕСКО по науке 2010 г.

Балакшина Н.Г., Кох Л.И., Леонов В.П. ПРОГНОЗИРОВАНИЕ ИСХОДОВ ХИРУРГИЧЕСКОГО ЛЕЧЕНИЯ ГНОЙНЫХ ВОСПАЛИТЕЛЬНЫХ ЗАБОЛЕВАНИЙ ПРИДАТКОВ МАТКИ

ГОСТ Р 50779.10-2000 «Статистические методы. Вероятность и основы статистики. Термины и определения», М.: Госстандарт России.

В. Леонов. КЛАССИФИКАЦИЯ ОШИБОК ПРИМЕНЕНИЯ СТАТИСТИКИ В ОТЕЧЕСТВЕННОЙ МЕДИЦИНЕ.

В. Леонов. МЕМЕТИЧЕСКИЙ АНАЛИЗ СТАТИСТИЧЕСКИХ ЗАБЛУЖДЕНИЙ В ПУБЛИКАЦИЯХ НАУЧНЫХ ШКОЛ

Предложения по изменению Положения о присуждении учёных степеней. Андрей Цатурян, член Совета ОНР

ПОЛНАЯ ПРОЗРАЧНОСТЬ! ДИССЕРТАЦИИ ОГРАДЯТ ОТ ПЛАГИАТА. Для подготовки к очередному заседанию Совета по науке при Минобрнауки сформирована рабочая группа Совета по вопросам аттестации научных и научно-образовательных кадров. Первым результатом её деятельности стал пакет предложений по внесению изменений в порядок присуждения ученых степеней.

Предложения рабочей группы Совета по науке Минобрнауки России о внесении изменений в постановление Правительства Российской Федерации от 24 сентября 2013 г. N 842 “О порядке присуждения учёных степеней” (далее – Постановление) и Положение о присуждении учёных
степеней, утвержденное указанным постановлением (далее – Положение)

Пункт 45 Положения изложить в следующей редакции:
«45. Для принятия решения о выдаче соискателю диплома об учёной степени кандидата или доктора наук или об отмене решения диссертационного совета о присуждении ученой степени и об отказе в выдаче диплома кандидата или доктора наук Министерство образования и науки Российской Федерации на основании заключения экспертного совета вправе:
- запросить в диссертационном совете публикации соискателя, а также первичные экспериментальные и (или) статистические данные, положенные в основу публикаций и диссертации, для уточнения основных научных результатов диссертации на соискание учёной степени, требования к которым установлены пунктами 11 и 13 настоящего Положения.

Центр БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее )



  Отзывы заказчиков по статистическому анализу данных


Кластерный анализ: основы метода и его применение в биомедицине 


КРАТКИЙ ОБЗОР МЕТОДОВ

Многократные попытки классификации методов кластерного анализа приводят к десяткам, а то и сотням разнообразных классов [5, 11-25]. Такое многообразие порождается большим количеством возможных способов вычисления расстояния между отдельными наблюдениями, не меньшим количеством методов вычисления расстояния между отдельными кластерами в процессе кластеризации и многообразными оценками оптимальности конечной кластерной структуры. Наиболее подробно типология этих методов описана в [5].

Наибольшее распространение в популярных статистических пакетах получили два группы алгоритмов кластерного анализа: иерархические агломеративные методы и итеративные методы группировки. Автор не разделяет мнения о том, что есть методы кластерного анализа более предпочтительные, например, в биологии или медицине, нежели в психологии. Тем, кто пытается в своей исследовательской практике применять те или иные методы многомерной статистики, в том числе и кластерный анализ, следует помнить, что получаемые при этом результаты не являются единственными, уникальными. Им необходимо понимать, что полученный результат есть порождение одного из многих возможных вариантов. И предпочтительность этого результата, а стало быть и метода анализа, перед другими еще следует оценить, а возможно и доказать своим коллегам или другим заинтересованным лицам. 

1. ОСОБЕННОСТИ ИЕРАРХИЧЕСКИХ АГЛОМЕРАТИВНЫХ МЕТОДОВ

В агломеративно-иерархических методах (agglomerative hierarhical algorithms), которые, по мнению автора, более часто используются в реальных биомедицинских исследованиях, первоначально все объекты (наблюдения) рассматриваются как отдельные, самостоятельные кластеры состоящие всего лишь из одного элемента. Если принять, что объем выборки равен N, то в этом случае можно используя ту или иную метрику, вычислить расстояния между всеми возможными парами объектов. Таких расстояний будет N*N. Например, для 105 пациентов будет вычислено 105*105=11025 взаимных парных расстояний. Это будут расстояния для следующих пар: 

1-1; 1-2; 1-3; 1-4; .... 1-103; 1-104; 1-105; 
2-1; 2-2; 2-3; 2-4; .... 2-103; 2-104; 2-105; 
...................................................................; 
.......................................................................; 
103-1; 103-2; .....103-103; 103-104; 103-105; 
104-1; 104-2; .....104-103; 104-104; 104-105; 
105-1; 105-2; .....105-103; 105-104; 105-105. 

С учетом того, что dii = 0, и что dij = dji общее количество различных вычисляемых расстояний будет равно N*(N-1)/2, что при N=105 будет равно 5460, что примерно вдвое меньше первоначального числа. Однако это значительно больше 10 расстояний, которые были приведены в обучающем примере выше. Далее, с учетом того, что в реальных данных используются не два признака, как в том же обучающем примере, а десятки, а иногда и сотни, можно представить какой большой объем вычислений необходимо выполнить даже для этой простейшей операции. Очевидно, что без использования мощной вычислительной техники реализация кластерного анализа данных весьма проблематична. 

Напомним нашим читателям, что эта матрица расстояний может быть получена с помощью разнообразных метрик: евклидовой, Махаланобиса, семейства метрик Минковского и т.д. Выбор метрики производится самим исследователем. После вычисления матрицы расстояний начинается процесс агломерации (от латинского agglomero - присоединяю, накапливаю), проходящий последовательно шаг за шагом. На первом шаге этого процесса два исходных наблюдения (монокластера), между которыми самое минимальное расстояние, объединяются в один кластер, состоящий уже из двух объектов (наблюдений). Таким образом, вместо бывших N монокластеров (кластеров, состоящих из одного объекта) после первого шага останется N-1 кластеров, из которых один кластер будет содержать два объекта (наблюдения), а N-2 кластеров будут по-прежнему состоять всего лишь из одного объекта. Отметим, что на втором шаге возможны различные методы объединения между собой N-2 кластеров. Это вызвано тем, что один из этих кластеров уже содержит два объекта. По этой причине возникает два основных вопроса: 

  • как вычислять координаты такого кластера из двух (а далее и более двух) объектов; 
  • как вычислять расстояние до таких "полиобъектных" кластеров от "монокластеров" и между "полиобъектными" кластерами.
Эти отнюдь не риторические вопросы, в конечном счете, и определяют окончательную структуру итоговых кластеров (под структурой кластеров подразумевается состав отдельных кластеров и их взаимное расположение в многомерном пространстве).  Разнообразные комбинации метрик и методов вычисления координат и взаимных расстояний кластеров и порождают то многообразие методов кластерного анализа, о котором было сказано выше. На втором шаге в зависимости от выбранных методов вычисления координат кластера состоящего из нескольких объектов и способа вычисления межкластерных расстояний возможно либо повторное объединение двух отдельных наблюдений в новый кластер, либо присоединение одного нового наблюдения к кластеру, состоящему из двух объектов. Для удобства большинство программ агломеративно-иерархических методов по окончании работы могут предоставить для просмотра два основных графика. Первый график называется дендрограммой (от греческого dendron - дерево), отражающий процесс агломерации, слияния отдельных наблюдений в единый окончательный кластер. Этот график схематично напоминает дерево, за что и получил такое название. Ниже приведен рисунок с такой дендрограммой для нашего обучающего примера состоящего из 5 наблюдений по двум переменным.

Вертикальная ось такого графика представляет собой ось межкластерного расстояния, а по горизонтальной оси отмечены номера объектов - случаев (cases) использованных в анализе. Из этой дендрограммы видно, что вначале объединяются в один кластер объекты №1 и №2, поскольку расстояние между ними самое минимальное и равно 1. Это слияние отображается на графике горизонтальной линией соединяющей вертикальные отрезки выходящие из точек помеченных как С_1 и С_2. Обратим внимание на то, что сама горизонтальная линия проходит точно на уровне межкластерного расстояния равного 1. Далее на втором шаге к этому кластеру, включающему в себя уже два объекта, присоединяется объект №3, обозначенный как С_3. На следующем шаге происходит объединение объектов №4 и №5, расстояние между которыми равно 1,41. И на последнем шаге происходит объединение кластера из объектов 1, 2 и 3 с кластером из объектов 4 и 5. На графике видно, что расстояние между этими двумя предпоследними кластерами (последний кластер включает в себя все 5 объектов) больше 5, но меньше 6, поскольку верхняя горизонтальная линия соединяющая два предпоследних кластера проходит на уровне примерно равном 7, а уровень соединения объектов 4 и 5 равен 1,41. 

Расположенная ниже дендрограмма получена при анализе реального массива данных состоящего из 70 объектов, каждый из которых характеризовался 12 признаками - электронномикроскопическими характеристиками эритроцитов детей с больной щитовидной железой. 

Из графика видно, что на последнем шаге, когда произошло слияние двух последних кластеров, расстояние между ними порядка 200 единиц. Видно, что первый кластер (условимся, что он расположен слева) включает в себя гораздо меньше объектов (9), чем второй кластер (расположенный справа). Поскольку всего в анализе использовано 70 объектов, то во втором кластере 61 объект

 

Ниже приведен увеличенный участок дендрограммы на котором достаточно отчетливо видны номера наблюдений, обозначаемые как С_65, С_58 и т.д. (слева направо): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 и т.д. 

Видно, что объект 44 представляет собой монокластер объединяющийся на предпоследнем шаге с правым кластером и затем уже на последнем шаге все наблюдения объединяются в один кластер. 

Второй график, который строится в таких процедурах - это график изменения межкластерных расстояний на каждом шаге объединения. Ниже приведен подобный график для приведенной выше дендрограммы. 

В ряде программ имеется возможность вывести в табличном виде результаты объединения объектов на каждом шаге кластеризации. В большинстве таких таблиц во избежание путаницы используется различная терминология для обозначения исходных наблюдений - монокластеров, и собственно кластеров состоящих из двух и более наблюдений. В англоязычных статистических пакетах исходные наблюдения (строки матрицы данных) обозначаются как "случай" - case.  Кстати, другие значения перевода этого английского слова - пациент, случай заболевания, человек находящийся под наблюдением врача, больной, раненый. В таких таблицах отдельное наблюдение идентифицируется обозначением, состоящим из первой буквы слова Cases и далее число - номер наблюдения в матрице данных "объект-признак". В некоторых пакетах буква "С" и номер наблюдения соединяются знаком подчерка "_", например, С_44. Ниже мы приводим начальную и конечную части такой таблицы для приведенных выше графиков, полученных при кластеризации 70 объектов.

Расстояние     Объект           Объект          Объект          Объект     Объект

между          номер 1          номер   2       номер   3       номер 4    номер 5

кластерами

,4358891         C_20            C_45     < На первом шаге объединились N 20 и N45

,5337617         C_19            C_21     < На втором шаге объединились N 19 и N21

,5514541         C_16            C_17     < На третьем шаге объединились N 16 и N17

,5886407         C_14            C_37     < На четвертом шаге объединились N 14 и N37

,6134596         C_1             C_31     < На пятом шаге объединились N1 и N31

,6265001         C_30            C_96     < На шестом шаге объединились N 30 и N96

,6297126         C_10            C_16          C_17  < На этом шаге к кластеру

                                                       состоящему из 16 и 17

                                                       объектов   (см. выше)

                                                      присоединился объект

                                                      под номером 10.

                                                Видно, что на каждом шаге

                                                межкластерное расстояние

                                                увеличивается.  И т.д.

,6434321         C_18            C_83

,6493070         C_15            C_42

,7051605         C_38            C_40

,7265998         C_15            C_42          C_41 

,7267050         C_4             C_26

,7689960         C_9             C_14          C_37
Нижняя часть этой таблицы показывает, что на предпоследнем шаге присоединился объект номер 44, а затем произошло слияние 9 наблюдений левого кластера и 61 наблюдения левого кластера в один общий кластер. 
60,57860 C_21  C_20   C_45    C_93    C_44

232,1096 C_1   C_31   C_98    C_13    C_3       C_5      C_6

         C_97  C_9    C_14    C_37    C_46      C_10     C_16

         C_17  C_36   C_12    C_32    C_86      C_34     C_33

         C_35  C_87   C_88    C_15    C_42      C_41     C_39

         C_38  C_40   C_43    C_2     C_29      C_7      C_11

         C_22  C_4    C_26    C_27    C_24      C_25     C_181

         C_83  C_89   C_91    C_92    C_23      C_30     C_96

         C_84  C_90   C_8     C_94    C_95      C_85     C_19

         C_21  C_20   C_45    C_93    C_44      C_56     C_62

         C_60  C _57  C_63    C_64    C_59      C_58     C_65
Для того, чтобы продемонстрировать зависимость кластерной структуры от выбора метрики и выбора алгоритма объединения кластеров, приведем ниже дендрограмму отвечающую алгоритму полной связи. И здесь мы видим, что объект №44 объединяется во всей остальной выборкой на самом последнем шаге.

А теперь сравним ее с другой дендрограммой, полученной при использовании метода одиночной связи к тем же самым данным. В отличие от метода полной связи, видно, что этот метод порождает длинные цепочки последовательно присоединяемых друг к другу объектов. Однако во всех трех случаях можно говорить о том, что выделяется две основные группировки пациентов. 

Обратим также внимание на то, что во всех трех случаях объект №44 присоединяется как монокластер, хотя и на разных шагах процесса кластеризации. Выделение таких монокластеров является неплохим средством обнаружения аномальных наблюдений, называемых в литературе также выбросами. Сравним расстояние между двумя кластерами, объединившимися на предпоследнем шаге, со скачком этого расстояния на последнем шаге. Как видим, расстояние между "левым" и "правым" кластерами порядка 7-8 единиц, что особенно хорошо видно на графике чуть ниже. Тогда как расстояние между объектом №44 и кластером состоящим из всех остальных объектов выборки составляет порядка 20 единиц. Это также является еще одним подтверждение аномальности этого объекта. Дальнейшее изучение особенностей этого пациента позволило установить причины такой аномальности. 

Удалим этот "подозрительный" объект №44 и вновь проведем кластеризацию. Полученная при этом дендрограмма приведена ниже. 

Видно, что "цепочечный" эффект сохранился, как сохранилось и разбиение на две локальные группы наблюдений. 

Завершая знакомство с иерархическими методами, отметим, что агломеративные (объединяющие) методы на последнем шаге объединяют все наблюдения в одни кластер. Поэтому использовать построенную дендрограмму для выделения того или иного количества отдельных кластеров можно путем "разрезания" этой дендрограммы на определенном значении межкластерного расстояния. Фактически это означает, что мы проводим горизонтальную линию, рассекая дерево связей в том месте, где наблюдается максимальный скачок в изменении межкластерного расстояния.

Достаточно удобным сервисом, который предоставляется при этом в ряде статистических пакетов, является вычисление основных статистических характеристик кластеров, образованных путем разрезания дендрограммы, таких как количество объектов в кластере, средние значения признаков в каждом кластере, дисперсии и т.д.  В других пакетах имеется возможность "трассировки" вхождения отдельных наблюдений в кластеры, путем выделения цветом тех участков дендрограммы, которые отвечают промежуточным кластерам содержащим это наблюдение. Не менее удобно и масштабирование и выделение в отдельные окна конкретных участков дендрограммы и т.д.  В некоторых статистических пакетах в иерархических процедурах задается конечное число кластеров, при достижении которого дальнейшее построение дендрограммы прекращается. 

Кроме объединяющих методов иерархической кластеризации существуют и противоположные методы - дивизимные, в которых на начальном этапе вся выборка рассматривается как единый кластер, а затем уже начинается процесс его деления на составляющие части. Процесс деления продолжается до тех пор, пока каждое наблюдение не превратится в отдельный кластер. В свою очередь дивизимные алгоритмы делятся на монотетические и политетические. В монотетической классификации деление производится на основании единственного признака, имеющего максимальную информативность. В политетических же алгоритмах учитываются все признаки. Поскольку данные алгоритмы оперируют расстояниями между наблюдениями, то в некоторых программах предусмотрена возможность работы не с исходной матрицей "объект - признак", а с симметричной матрицей расстояний между наблюдениями. 

2. ОСОБЕННОСТИ ИТЕРАЦИОННЫХ МЕТОДОВ КЛАСТЕРИЗАЦИИ

Среди итерационных методов наиболее популярным методом является метод k-средних Мак-Кина. В отличие от иерархических методов в большинстве реализаций этого метода сам пользователь должен задать искомое число конечных кластеров, которое обычно обозначается как "k". Как и в иерархических методах кластеризации, пользователь при этом может выбрать тот или иной тип метрики. Разные алгоритмы метода k-средних отличаются и способом выбора начальных центров задаваемых кластеров. В некоторых вариантах метода сам пользователь может (или должен) задать такие начальные точки, либо выбрав их из реальных наблюдений, либо задав координаты этих точек по каждой из переменных. В других реализациях этого метода выбор заданного числа k начальных точек производится случайным образом, причем эти начальные точки (зерна кластеров) могут в последующем уточняться в несколько этапов. Можно выделить 4 основных этапа таких методов: 

  • выбираются или назначаются k наблюдений, которые будут первичными центрами кластеров;
  • при необходимости формируются промежуточные кластеры приписыванием каждого наблюдения к ближайшим заданным кластерным центрам;
  • после назначения всех наблюдений отдельным кластерам производится замена первичных кластерных центров на кластерные средние;
  • предыдущая итерация повторяется до тех пор, пока изменения координат кластерных центров не станут минимальными.
В некоторых вариантах этого метода пользователь может задать числовое значение критерия, трактуемого как минимальное расстояние для отбора новых центров кластеров.  Наблюдение не будет рассматриваться как претендент на новый центр кластера, если его расстояние до заменяемого центра кластера превышает заданное число. Такой параметр в ряде программ называется "радиусом". Кроме этого параметра возможно задание и максимального числа итераций либо достижения определенного, обычно достаточно малого, числа, с которым сравнивается изменение расстояния для всех кластерных центров. Этот параметр обычно называется "конвергенцией", т.к. отражает сходимость итерационного процесса кластеризации. Ниже мы приведем часть результатов, которые получены при использовании метода k-средних Мак-Кина к предыдущим данным. Число искомых кластеров задавалось вначале равным 3, а затем - 2. Первая их часть содержит результаты однофакторного дисперсионного анализа (10, 18), в котором в качестве группирующего фактора выступает номер кластера. В первом столбце - список 12 переменных, далее идут суммы квадратов (SS) и степени свободы (df), затем F-критерий Фишера и в последнем столбце - достигнутый уровень значимости "р". 
              Between          Within                             signif.

Переменные      SS      df      SS          df       F               p



X1           1606,203   1     165,2964      68   660,7634        0,000000

X2           621,964    1     916,1421      68    46,1648        0,000000

X3           0,305      1     3,0978        68     6,6914        0,011832

X4           0,146      1     3,2248        68     3,0697        0,084272

X5           30,464     1     65,9877       68    31,3934        0,000000

X6           6,936      1     17,2187       68    27,3910        0,000002

X7           18,213     1     70,8901       68    17,4706        0,000085

X8           0,160      1      0,6721       68    16,1832        0,000147

X9           7,981      1     11,2471       68    48,2525        0,000000

X10          6,943      1     8,6925        68    54,3172        0,000000

X11          8,598      1     5,4052        68   108,1661        0,000000

X12          7,673      1     3,6936        68   141,2533        0,000000
Как видно из этой таблицы, нулевая гипотеза о равенстве средних значений в трех группах отвергается. Ниже приведен график средних значений всех переменных по отдельным кластерам. Эти же кластерные средние переменных приведены далее в виде таблицы. 
                  Кластер          Кластер       Кластер

Переменная           №1               №2            №3



X1               46,62000        33,78334        48,11867

X2               51,00000        89,04000        80,62035

X3                 1,75000        0,37856         0,55613

X4                 1,25000        0,36733         0,49113

X5               12,75000         3,25667         5,10217

X6                5,00000         0,83222         1,71883

X7               12,25000         3,68889         5,09550

X8                 0,80000        0,05556         0,18833

X9                4,75000         0,82222         1,78233

X10               4,50000         0,97778         1,87567

X11               3,25000         0,35444         1,37067

X12               2,75000         0,22222         1,18567

Анализ средних значений переменных для каждого кластера позволяет сделать вывод о том, что по признаку Х1 кластеры 1 и 3 имеют близкие значения, тогда как кластер 2 имеет среднее значение гораздо меньшее, чем в остальных двух кластерах. Напротив, по признаку Х2 первый кластер имеет самое минимальное значение, тогда как 2-й и 3-й кластеры имеют более высокие и близкие между собой средние значения. Для признаков Х3-Х12 средние значения в кластере 1 значительно выше, чем в кластерах 2 и 3. Напомним, что данные 12 признаков являлись лектронно-микроскопическими характеристиками эритроцитов трех групп детей - "Здоровых", "С заболеванием щитовидной железы (до лечения)" и "С заболеванием щитовидной железы (после лечения)". Последующий анализ этих и многих других результатов статистического анализа исследуемого массива позволил установить интересные взаимосвязи заболевания щитовидной железы и электронномикроскопических характеристик эритроцитов крови. 

Следующая таблица дисперсионного анализа результатов кластеризации на два кластера также показывает необходимость отклонения нулевой гипотезы о равенстве групповых средних почти по всем 12 признакам, за исключением переменной Х4, для которой достигнутый уровень значимости оказался более 5%. 

                  Between         Within                         signif.

Переменные         SS       df      SS        df       F           p



X1               1606,203    1   165,2964     68    660,7634     0,000000

X2               621,964     1   916,1421     68    46,1648      0,000000

X3                 0,305     1     3,0978     68     6,6914      0,011832

X4                 0,146     1     3,2248     68     3,0697      0,084272

X5                30,464     1    65,9877     68    31,3934      0,000000

X6                 6,936     1    17,2187     68    27,3910      0,000002

X7                18,213     1    70,8901     68    17,4706      0,000085

X8                 0,160     1      ,6721     68    16,1832      0,000147

X9                 7,981     1    11,2471     68    48,2525      0,000000

X10                6,943     1     8,6925     68    54,3172      0,000000

X11                8,598     1     5,4052     68   108,1661      0,000000

X12                7,673     1     3,6936     68   141,2533      0,000000
Ниже приведены график и таблица групповых средних для случая кластеризации на два кластера. Мы предлагаем нашим читателям самостоятельно произвести сравнение средних величин отдельных признаков при классификации на 3 кластера, и на 2 кластера. Подумайте, какая из группировок (2 или 3 кластера) более предпочтительна и почему. Свои соображения можете направить автору этой статьи. 
                 Кластер         Кластер

Переменные         №1                № 2


Х1              33,78334        48,09410

X2              89,04000        80,13477

X3                0,37856         0,57570

X4                0,36733         0,50357

X5                3,25667         5,22754

X6                0,83222         1,77262

X7                3,68889         5,21279

X8                0,05556         0,19836

X9                0,82222         1,83098

X10               0,97778         1,91869

X11               0,35444         1,40148

X12               0,22222         1,21131

В том случае, когда исследователь не имеет возможности заранее определиться с наиболее вероятным числом кластеров, он вынужден повторить расчеты, задавая различное их число, подобно тому, как это было сделано нами выше. А затем, сравнивая полученные результаты между собой, остановиться на одном из наиболее приемлемых вариантов кластеризации. Есть и другие методы определения "удачности" разбиения всей выборки на кластеры, о которых автор не может рассказать в этой статье более подробно в силу их достаточной сложности. 

3. КЛАСТЕРИЗАЦИЯ ПРИЗНАКОВ

Кроме кластеризации отдельных наблюдений существуют и алгоритмы кластеризации признаков. Одним из первых таких методов был упоминавшийся ранее метод корреляционных плеяд Терентьева П.В. Примитивные изображения подобных плеяд нередко можно встретить в биомедицинских публикациях в виде окружности испещренной стрелками, соединяющими признаки для которых авторы обнаружили корреляционную зависимость. В ряде программ для кластеризации объектов и признаков имеются отдельные процедуры. Например, в пакете SAS для кластеризации признаков используется процедура VARCLUS (от VARiable - переменная и CLUSter - кластер), тогда как кластерный анализ наблюдений выполняется иными процедурами - FASTCLUS и CLUSTER. Построение дендрограммы в том и другом случае производится с помощью процедуры TREE (дерево).

В других же статистических пакетах выбор элементов для кластеризации - объектов или признаков, производится в одном и том же модуле. В качестве метрики при кластеризации признаков часто используют выражения, включающие в себя значение тех или иных коэффициентов отражающих силу связи для пары признаков. В этом случае очень удобно для признаков имеющих силу связи равную единице (функциональная зависимость) принимать расстояние между признаками равным нулю. Действительно, при функциональной связи по значению одного признака можно точно вычислить значение другого признака. Напротив, при уменьшении силы связи между признаками расстояние соответственно увеличивается. Ниже приведен график, показывающий дендрограмму объединения 12 признаков, которые были использованы выше при кластеризации 70 наблюдений. 

Как видно из этой дендрограммы, мы имеем дело с двумя локальными группировками признаков: Х1-Х10 и Х11-Х12. Интересно отметить то, что для группы признаков Х1-Х10 характерна достаточно малая величина межкластерных расстояний, не превышающая примерно 100 единиц. Здесь же мы видим и некоторые внутренние парные подгруппы: Х1 и Х2, Х3 и Х4, Х6 и Х7. Очень близкое к нулю расстояние между признаками этих пар говорит об их сильной парной взаимосвязи. Тогда как для пары Х11 и Х12 величина межкластерного расстояния гораздо больше и составляет порядка 300 единиц. Наконец очень большое расстояние между левым (Х1-Х10) и правым (Х11-Х12) кластерами, равное примерно 1150 единицам, говорит о том, что взаимосвязь между этими двумя группировками признаков достаточна минимальна. Это позволяет говорить о том, что изменения значений этих двух групп свойств эритроцитов, достаточно автономно контролируются и управляются разными подсистемами организма. 

4. ПРЕДСТАВЛЕНИЕ РЕЗУЛЬТАТОВ КЛАСТЕРИЗАЦИИ

Помимо тех результатов кластерного анализа, о которых уже шла речь выше (средние по кластерам, дендрограммы, дисперсионный анализ и т.д.), в ряде программ приводится и такая важная информация, как среднее расстояние до центра кластера (для каждого из кластеров), максимальное и минимальное расстояние и, соответственно, наиболее удаленное и наиболее близкое к центру кластера наблюдение (типичный, эталонный представитель данного кластера), а также доля дисперсии расстояния объясняемая кластерным разбиением (коэффициент детерминации R2) и т.д. Не менее важной информацией является и принадлежность конкретного наблюдения к тому или иному кластеру.

В ряде программ иерархического кластерного анализа все узлы дендрограммы идентифицируются последовательными номерами. Такие узлы, являясь отдельным кластером, в ряде отечественных программ называются КЛАССОМ. Далее для каждого из этих номеров этих узлов можно получить подробный список исходных объектов - наблюдений, входящих как составные элементы в данный кластер.  Аналогичную идентификацию принадлежности исходных наблюдений к данной кластеру производят и программы, выполняющие кластерный анализ по алгоритму k-средних Мак-Кина. В этом случае к исходным признакам добавляется еще один признак, обычно в англоязычных пакетах называемый CLUSTER, в который помещается номер того кластера, в который включено данное наблюдение. В тех итерационных программах кластерного анализа, где есть выбор оптимизирующего функционала, как правило, есть и возможность видеть либо на каждой итерации, либо в конце анализа, числовое значение этого функционала. Это позволяет в случае перебора нескольких вариантов сочетаний пространственной метрики и других параметров алгоритма произвести выбор более оптимальной классификации. Другой важной информацией является "Матрица расстояний", в которой сохраняется матрица взаимных расстояний между объектами, вычисленная в выбранной пользователем метрике. Данная матрица расстояний может быть сохранена отдельно и впоследствии использована самостоятельно в других статистических процедурах и методах.

В отечественных и зарубежных пакетах, работающих в операционной среде Windows, имеются большие графические возможности представления результатов кластерного анализа. В частности, возможны интерактивное вмешательство в дендрограмму, например удаление объектов какого-либо класса, разрезание дерева по некоторому уровню шкалы межкластерных расстояний и т.д. Однако наиболее интересной возможностью является представление полученных кластеров в осях специальных переменных, в которых "удачность" полученной классификации можно оценить визуально. 

5. УСТОЙЧИВОСТЬ И КАЧЕСТВО КЛАСТЕРИЗАЦИИ

Очевидно, что было бы абсурдно ставить вопрос о том, насколько абсолютна та или иная классификация полученная с помощью методов кластерного анализа. Все в мире относительно (у кого - суп жидкий, а у кого - жемчуг мелкий).  Для подтверждения этой мысли напомню нашим читателям известную историю о том, как около 20 лет тому назад после многолетних побед одной известной лыжницы на Олимпиадах и мировых соревнованиях, генетический тест обнаружил ряд несоответствий у этой чемпионки. С тех пор в некоторых соревнованиях практикуется проведение генетического теста участников. Поэтому в применении процедур кластерного анализа немаловажным аспектом является устойчивость структуры кластеров, отражающая реальную объективность классификации. В наших примерах выше мы видели, что при изменении метода кластеризации подобная устойчивость проявлялась в том, что на дендрограммах довольно отчетливо просматривались два кластера. 

В качестве одного из возможных способов проверки устойчивости результатов кластерного анализа может быть использован метод сравнения результатов полученных для различных алгоритмов кластеризации. Другие пути, это так называемый бутстреп-метод предложенный Б.Эфроном в 1977г., методы "складного ножа" и "скользящего контроля" [44]. Наиболее простое средство проверки устойчивости кластерного решения может заключаться в том, чтобы исходную выборку случайным образом разделить на две примерно равные части, провести кластеризацию обеих частей и затем сравнить полученные результаты. Более трудоемкий путь предполагает последовательное исключение вначале первого объекта и кластеризацию оставшихся (N - 1) объектов. Далее последовательно проводя эту процедуру с исключением второго, третьего и т.д. объектов анализируется структура всех N полученных кластеров. Другой алгоритм проверки устойчивости предполагает многократное размножение, дублирование исходной выборки из N объектов, затем объединение всех дублированных выборок в одну большую выборку (псевдогенеральную совокупность) и случайное извлечение из нее новой выборки из N объектов. После этого проводится кластеризация этой выборки, далее извлекается новая случайная выборка и вновь проводится кластеризация и т.д. Очевидно, что это также достаточно трудоемкий путь. 

Не меньше проблем и при оценке качества кластеризации. Как мы уже говорили выше, известно достаточно много алгоритмов оптимизации кластерных решений. Первые работы которые содержали формулировки критерия минимизации внутрикластерной дисперсии и алгоритм (типа k-средних) поиска оптимального решения появились в 50-х годах. В 1963г. в статье Дж. Уорда также излагался подобный оптимизационный иерархический алгоритм. Только в [5] автором дан обзор 45 подобных функционалов качества. Все это говорит о том, что не существует универсального критерия оптимизации кластерного решения (как и универсального средства от перхоти, кроме одного общеизвестного... ). Все это затрудняет выбор исследователем оптимального решения. В такой ситуации наилучшим способом утвердиться в том, что найденное кластерное решение является на данном этапе исследования оптимальным, является только согласованность этого решения с выводами, полученными с помощью других методов многомерной статистики. Очевидно, что в этом случае имеет смысл обратиться за помощью к опытному биостатистику. 

В пользу вывода об оптимальности кластеризации служат также и положительные результаты проверки предсказывающих моментов полученного решения уже на других объектах исследования. При использовании иерархических методов кластерного анализа можно рекомендовать сравнение между собой нескольких графиков пошагового изменения межкластерного расстояния. При этом предпочтение следует отдать тому варианту, для которого наблюдается плоская линия такого приращения от первого шага до нескольких предпоследних шагов с резким вертикальным подъемом этого графика на последних 1-2 шагах кластеризации. 


Заключение, список литературы

23 примера оформления данных, их описания и описания целей исследования.

Примеры отличных диссертаций и статей по медицине и биологии, с нашими результатами статистического анализа

В.В. Половинкин
ТОТАЛЬНАЯ МЕЗОРЕКТУМЭКТОМИЯ — ФАКТОР ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ЛЕЧЕНИЯ СРЕДНЕАМПУЛЯРНОГО И НИЖНЕАМПУЛЯРНОГО РАКА ПРЯМОЙ КИШКИ.

Н.Г. Веселовская 
КЛИНИЧЕСКОЕ И ПРОГНОСТИЧЕСКОЕ ЗНАЧЕНИЕ ЭПИКАРДИАЛЬНОГО ОЖИРЕНИЯ У ПАЦИЕНТОВ ВЫСОКОГО СЕРДЕЧНО-СОСУДИСТОГО РИСКА.

О.Я. Васильцева
ЗАКОНОМЕРНОСТИ ВОЗНИКНОВЕНИЯ, КЛИНИЧЕСКОГО ТЕЧЕНИЯ И ИСХОДОВ ТРОМБОЭМБОЛИИ ЛЕГОЧНОЙ АРТЕРИИ ПО ДАННЫМ ГОСПИТАЛЬНОГО РЕГИСТРА ПАТОЛОГИИ.

В.А. Габышев 
ФИТОПЛАНКТОН КРУПНЫХ РЕК ЯКУТИИ И СОПРЕДЕЛЬНЫХ ТЕРРИТОРИЙ ВОСТОЧНОЙ СИБИРИ.

М.И. Антоненко
  ГИПЕРКОРТИЦИЗМ БЕЗ СПЕЦИФИЧЕСКИХ КЛИНИЧЕСКИХ СИМПТОМОВ: ЭПИДЕМИОЛОГИЯ, КЛИНИКА, ДИАГНОСТИКА.

Н.Г. Веселовская
"ПРОГНОЗИРОВАНИЕ РИСКА РЕСТЕНОЗА КОРОНАРНЫХ АРТЕРИЙ ПОСЛЕ ИХ СТЕНТИРОВАНИЯ У ПАЦИЕНТОВ С ОЖИРЕНИЕМ"

М.А. Будникова АНАЛИЗ ДИНАМИКИ ЧАСТОТЫ И СПЕКТРА АНОМАЛИЙ МИТОЗА, МЕЙОЗА И ЭЛЕМЕНТОВ ПРОДУКТИВНОСТИ Allium cepa L., ВЗЯТОГО ИЗ АГРОПОПУЛЯЦИЙ С РАЗНОЙ АНТРОПОГЕННОЙ НАГРУЗКОЙ ( Дипломная работа )

И.А. Бирюкова Научно - практическая работа " ФАРМАКОЭКОНОМИЧЕСКИЕ ИССЛЕДОВАНИЯ РОЗНИЧНОГО РЫНКА ГОРОДА ОМСКА"

Н.П. Гарганеева. КЛИНИКО-ПАТОГЕНЕТИЧЕСКИЕ ЗАКОНОМЕРНОСТИ ФОРМИРОВАНИЯ ПСИХОСОМАТИЧЕСКИХ СООТНОШЕНИЙ ПРИ ЗАБОЛЕВАНИЯХ ВНУТРЕННИХ ОРГАНОВ И ПОГРАНИЧНЫХ ПСИХИЧЕСКИХ РАССТРОЙСТВАХ  (автореферат диссертации на соискание учёной степени доктора медицинских наук)

Г.А. Попова СРАВНИТЕЛЬНОЕ ИЗУЧЕНИЕ ПОДВИДОВ LINUM USITATISSIMUM L . В УСЛОВИЯХ ЗАПАДНОЙ СИБИРИ. (диссертация на соискание учёной степени кандидата биологических наук).

А.Г. Сыркина. Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста (диссертация на соискание учёной степени кандидата медицинских наук).

А.Н. Рудаков Дифференцированный подход к проведению профилактики язв желудка и двенадцатиперстной кишки у больных ишемической болезнью сердца, принимающих аспирин (автореферат диссертации на соискание учёной степени кандидата медицинских наук) 

Г.Б. Кривулина Влияние велотренировок различной продолжительности на дисфункцию эндотелия и факторы риска атеросклероза у молодых мужчин (автореферат диссертации на соискание учёной степени кандидата медицинских наук) 

Л.В. Сутурина Гипоталамический синдром: основные звенья патогенеза, диагностика, патогенетическая терапия и прогноз (автореферат диссертации на соискание учёной степени доктора медицинских наук)


Логистическая регрессия в медицине и биологии. Леонов В.

В серии из 9 статей рассмотрены основы метода логистической регрессии. Приведены многочисленные уравнения логистической регрессии и ROC-кривых, полученные при анализе реальных данных.

1. Логистическая регрессия. Основные понятия и возможности метода.
2. Логистическая регрессия. Анализ массивов большой размерности.
3. Логистическая регрессия. Примеры анализа реальных данных.
4. Логистическая регрессия и ROC-анализ.
5.Особенности логистической регрессии в акушерстве.
6.Особенности логистической регрессии в психиатрии, психологии и социологии.
7. Пример использования логистической регрессии для расчёта прогноза исхода оперативного лечения.
8. Логистическая регрессия  - "вершина пирамиды". А в "фундаменте" - что?
9. Как повысить качество логистической регрессии


Ованесян Р.А. “БЛЕСК И НИЩЕТА” ОТЕЧЕСТВЕННОЙ МЕДИЦИНСКОЙ НАУКИ. ...предназначается для аспирантов и соискателей учёной степени с советом делать не так, как описано в статье, а так, как должно, так, как полагается.... Читаем в медицинских диссертациях: " В диссертационной работе, посвященной клиническим особенностям аффективных психозов, автор приводит абсурдные цифры: 2,5±2,4 (n=2) и 1,7±1,7 (n=1). Далее автор, перещеголяв сам себя, приводит еще более абсурдное выражение: “…число больных составляло 14,9±3,0 и 2,1±1,2…” (?!). В диссертационной работе, посвященной эпилепсии височной области, автор указывает, что: “Доверительный интервал между этими двумя группами составлял p<0,045.” (?!)


КУНСТКАМЕРА. Обзор большой коллекции медицинских статей и диссертаций с существенными ошибками и нелепыми использованиями и описаниями методов статистики.

Новый экспонат КУНСTКАМЕРЫ - Диссертация «Анализ полиморфизма генов сердечно-сосудистой системы и системы детоксикации в различных возрастных группах Санкт-Петербурга». Обсуждаемая диссертация являет собой ярчайший пример того, какую злую шутку может сыграть с автором игнорирование проблемы множественных сравнений при статистическом анализе полученных данных.

Новый экспонат КУНСTКАМЕРЫ - Диссертация "Оценка проаритмических факторов при постинфарктной систолической дисфункции миокарда и эффективности их фармакологической коррекции", Кемеровская государственная медицинская академия, Кемерово - 2004 г.

Новый экспонат КУНСTКАМЕРЫ - Диссертация "Оценка проаритмических факторов при постинфарктной систолической дисфункции миокарда и эффективности их фармакологической коррекции", Кемеровская государственная медицинская академия, Кемерово - 2004 г.

Новый экспонат КУНСTКАМЕРЫ - Диссертация "Сравнительная характеристика показателей кардиореспираторной системы спортсменов и лиц, не занимающихся спортом, в условиях северного промышленного города", Тюменский государственный университет, Тюмень - 2006 г.

Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал  медицинской практики, 2007, вып. 2, стр.19-35.

Когда нельзя, но очень хочется, или Ещё раз о критерии Стьюдента.
К большому сожалению, в большинстве учебников, в которых рассматривается критерий Стьюдента, не акцентируется внимание читателей на ограничениях этого критерия, и на последствиях их нарушения. Вот как пишет об этом известный специалист в области прикладной статистики профессор А.И. Орлов в своей книге ЭКОНОМЕТРИКА (Издательство ЭКЗАМЕН, Москва, 2004. - 576 с.). "Приведённые описания экспериментальных данных показывают, что погрешности измерений в большинстве случаев имеют распределения, отличные от нормальных. Это означает, что большинство применений критерия Стьюдента, ... строго говоря, не является обоснованным, поскольку неверна лежащая в их основе аксиома нормальности распределений  соответствующих случайных величин. Очевидно, для оправдания или обоснованного изменения существующей практики анализа статистических данных требуется изучить свойства процедур анализа данных при «незаконном» применении. Изучение процедур отбраковки показало, что они крайне неустойчивы к отклонениям от нормальности, а потому применять их для обработки реальных данных нецелесообразно; поэтому нельзя утверждать, что произвольно взятая процедура устойчива к отклонениям от нормальности". Именно Александр Иванович в своём письме от 4 апреля 1998 г. и обратил моё внимание на эту проблему



Статистика в кардиологии. 15 лет спустя. Журнал "Медицинские технологии. Оценка и выбор", 2014, №1, с. 17-28. Леонов В.П.

Отзывы читателей обзора "Статистика в кардиологии. 15 лет спустя". В ноябре 2013 г. был опубликован наш обзор "Статистика в кардиологии. 15 лет спустя". За прошедшие полгода более 20 читателей этого обзора прислали нам свои отзывы по нему. Далее приведены фрагменты из двух отзывов, и наши комментарии к ним...


ВАК для учёных? или ВАК для… бумагомарак? «ТРОИЦКИЙ ВАРИАНТ» № 8 (127), 2013 год. За 2 года, прошедших с момента публикации этой статьи, её прочитали более 29 тысяч читателей.  "Плагиат, обнаруживаемый в диссертациях, это «пена» диссертационного бизнеса. Поскольку в производстве диссертаций «под заказ» гораздо легче просто копировать фрагменты одних диссертаций, вставляя их в очередные заказные диссертации. Производители такого «товара» фабрикуют не только диссертации, но и массу журнальных статей. Основные причины появления этого бизнеса описал профессор Е.В. Балацкий ещё в 2005 г. [1-2], изложив и сценарии его ликвидации. Одной из ключевых причин рождения этого бизнеса являются изменения в Положениях ВАК".

Балацкий Е.В. Диссертационная ловушка

Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.
ВВЕДЕНИЕДОКАЗАТЕЛЬНАЯ МЕДИЦИНА И СТАТИСТИКА.
КРАТКОСТЬ – СЕСТРА ТАЛАНТА? ИЛИ ПРИЗНАК НЕЗНАНИЯ?
ПРОЦЕНТЫ – ПРИМИТИВНО? ЗАТО ДОСТУПНО!

СТАТИСТИЧЕСКАЯ ВАМПУКИЗАЦИЯ,  ОНА ЖЕ ВСЕОБЩАЯ СТЬЮДЕНТИЗАЦИЯ
.
«ЛОШАДЕНДУС СВАЛЕНДУС С МОСТЕНДУС».
КАК ПРАВИЛЬНО: EXCEL ИЛИ EXEL, WINDOWS ИЛИ WINDOUS,
MICROSOFT ИЛИ MIKROSOFT, STATISTICA ИЛИ STATISTIKA?
 
ЗЕММЕЛЬВЕЙС И СТАТИСТИЧЕСКАЯ ТЕХНИКА БЕЗОПАСНОСТИ.
«ЗАЧЕМ НАМ КУЗНЕЦ? НАМ КУЗНЕЦ НЕ НУЖЕН». ПРИМЕРЫ ПОДРОБНОГО ОПИСАНИЯ.
КТО ВИНОВАТ?  ЧТО ДЕЛАТЬ?
ВМЕСТО ЗАКЛЮЧЕНИЯ.
Весь обзор одним файлом


Камчатская биометрика-2014. Семинар по биометрике в камчатском НИИ КамчатНИРО. (24.03.2014 - 3.04.2014).

Камчатская фото-биометрика-2014. Фоторепортаж с семинара по биометрике в Петропавловске-Камчатском.

Отзывы слушателей семинара по биометрике в Петропавловске-Камчатском


Фантастическое будущее без нас. Куда приведёт Россию её особый путь. ...в России сейчас государство сформулировало совсем другую систему приоритетов. Что в приоритете там? Наука.

Сверхдержава без энергии. "... поступления в бюджет Советского Союза от продажи за рубеж топливно-энергетических товаров и электроэнергии ... в период 1980-90 годов составляли в среднем 8-10 процентов от всех доходов страны. В то же время ... в предкризисном 2013 году доля нефтегазовых доходов в бюджете России составляла 50 процентов. С 2014 года она начинает снижаться: вначале до 48 процентов, затем, в 2015 году, до 47 процентов. По прогнозам, в следующем, 2016 году, она составит 43 процента. ...  для существующей в современной России экономической, социальной и политической системы схлопывание нефтяного рынка будет означать коллапс".

"Гибридная контрреволюция" состоялась. Несуществующий «праздник» с настоящими слезами на глазах. Капитал и люди массово бегут из России: если в 2004 г. отток капитала составлял не более $20–25 миллиардов, то последние два года он приблизился к цифре в $150 миллиардов. Стремительно обесценивается российский рубль: в 2004-м доллар стоил 29 рублей, сегодня уже более 68; из-за этого в магазинах растут цены и падает уровень жизни граждан...

Член Совфеда: «Финансирование науки упало до уровня Конго или Афганистана»
В проекте закона о федеральном бюджете на 2016 год на «гражданскую» науку выделено всего 0,3 процента ВВП". Великий гражданин мира Фредерик Жолио-Кюри сказал: «Та страна, которая не развивает науку, неизбежно превращается в колонию». Что ждёт и Россию...

ЮНЕСКО отмечает снижение вклада России в мировую науку. ЮНЕСКО после пятилетнего перерыва опубликовала доклад по науке до 2030 года. Статистические показатели для России ухудшились по сравнению с большинством ведущих научных стран, несмотря на то, что многие данные взяты из официальных российских источников.

Что губит российскую науку и как с этим бороться. Георгий Георгиев, академик РАН, координатор программы РАН «Молекулярная и клеточная биология». В этой статье рассматривается вопрос, почему все эти виды открытой науки в нашей стране отстают и что надо сделать для их прогресса.

«РОССИЯ БЕЗ НАУКИ — ТРУБА». 29 мая 2015 года в Москве прошла третья сессия Конференции научных работников. Публикуем несколько выступлений, прозвучавших на этом форуме.

Георгий Базыкин. Неолысенковщина, финансируемая государством. При принятии решений о том, что является наукой, а что — лженаукой, государству стоило бы посоветоваться с учёными.

А. Марков. Результаты научных исследований должны быть открыты для всех

Плохая наука. НЕКОРРЕКТНЫЕ ИССЛЕДОВАНИЯ ПРИВОДЯТ К ЛОЖНОМУ ЗНАНИЮ, А ИНОГДА — К ГИБЕЛИ ЛЮДЕЙ

Плохая наука-2011: о скандалах в учёном мире

ПОЛОВИНУ ОТКРЫТЫХ НАУЧНЫХ ЖУРНАЛОВ НАЗВАЛИ «МУСОРОМ» ... Результат был ошеломляющим: 157 журналов приняли заведомо «бракованные» статьи к публикации, причем около 80 из них даже не подвергали их должной проверке. Отвергли статьи 98 журналов, а остальные к настоящему моменту не успели принять решения. ...«Журналы без контроля качества деструктивны, особенно для развивающихся стран, где правительственные учреждения и университеты заполнены людьми с фальшивыми научными званиями»

Бен Голдакр. Плохая наука.

Бен Голдакр. Плохая статистика в науке.

Бен Голдакр. Боремся с плохой наукой.

Диссертационные войны. Как борьба с плагиатом в диссертациях переместилась из науки в политику

ВЛАДИМИР ФИЛИППОВ. «Закрутим гайки – и пена уйдет». Интервью с председателем ВАК Владимиром Филипповым.

Дело о крови и лимфе. "Диссернет" всерьёз занялся врачами

Доказательная медицина: история, эволюция, роль в медицине

«Какое-то издевательство». Депутат Калашников о проблемах медицины и нежелании Минздрава их признавать. ... Следует выявлять группы риска и людей с предрасположенностью. Это совсем не дорого. Этот подход известен еще со времен Семашко и успешно реализован на Кубе, занимающей сейчас по качеству здравоохранения 18 место в классификации ВОЗ. Россия же — на 133-м. Это при том, что на Кубе в расчете на человека здравоохранение финансируется в 10 раз меньше.


ВАК для учёных? или ВАК для… бумагомарак? «ТРОИЦКИЙ ВАРИАНТ» № 8 (127), 2013 год. За 2 года, прошедших с момента публикации этой статьи, её прочитали более 29 тысяч читателей.  "Плагиат, обнаруживаемый в диссертациях, это «пена» диссертационного бизнеса. Поскольку в производстве диссертаций «под заказ» гораздо легче просто копировать фрагменты одних диссертаций, вставляя их в очередные заказные диссертации. Производители такого «товара» фабрикуют не только диссертации, но и массу журнальных статей. Основные причины появления этого бизнеса описал профессор Е.В. Балацкий ещё в 2005 г. [1-2], изложив и сценарии его ликвидации. Одной из ключевых причин рождения этого бизнеса являются изменения в Положениях ВАК"

МАТЕМАТИЧЕСКАЯ МОРФОЛОГИЯ.
ЭЛЕКТРОННЫЙ МАТЕМАТИЧЕСКИЙ И МЕДИКО-БИОЛОГИЧЕСКИЙ ЖУРНАЛ

После взрыва на СХК в 1993г. в Томске и Северске увеличилась частота рождения детей с пороками развития После того, или же вследствие того?

 

 

 

Музыка для души ...

Когда после многочасовой работы с числами, статистическими процедурами, программами для статистического анализа и т.д., в глазах начинают ...

 

1997 - 2017.© Василий Леонов. E-mail:

Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.

Отклики читателей статьи "Доказательная или сомнительная?"

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ

Т. Кун "Структура научных революций"