Яндекс.Метрика

Логистическая регрессия в медицине

Каждый слышит то, что понимает. Гете


"Люди перестают мыслить,
когда перестают читать
". Д. Дидро

Статистика посещаемости БИОМЕТРИКИ Яндекс
цитирования
Индекс цитирования

Наш адрес:

Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...


Редактор БИОМЕТРИКИ
В. Леонов

  • 385
data-counter data-url="http://www.biometrica.tomsk.ru/">
Яндекс
цитирования
Яндекс цитирования
 

16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц
14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц
14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страницы
17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц
03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц
30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц
06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц
08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы

Если приходят, значит полезное находят...


Введение
Наши возможности. О возможностях статистического анализа
Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал  медицинской практики, 2007, вып. 2, стр.19-35
Список научных и учебных изданий по биометрике и статистике
Материалы по науковедению
История биометрики
Статистическое рецензирование статей и диссертаций

Долгое прощание с лысенковщиной...
Семинар по биометрике в Красноярске



Если Вы сторонник использования
статистики, разместите на своём сайте
HTML-код нашего баннера:

BIOMETRICA - журнал для сторонников доказательной биологии и медицины
25 наиболее популярных ссылок, посещаемых нашими читателями
http://www.biometrica.tomsk.ru/comp_aver.htm
http://www.biometrica.tomsk.ru/erevan_8.html
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/UNESCO%202010.pdf
http://www.biometrica.tomsk.ru/zakaz.htm
http://www.biometrica.tomsk.ru/zakaz_28.htm
http://www.biometrica.tomsk.ru/kk.htm
http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/error.htm
http://www.biometrica.tomsk.ru/STAT_CARDIO_2014.pdf
http://www.biometrica.tomsk.ru/logit_9.htm
http://www.biometrica.tomsk.ru/stat_cardio7.htm

http://www.biometrica.tomsk.ru/potencial.htm
http://www.biometrica.tomsk.ru/percent_00.htm
http://www.biometrica.tomsk.ru/lis.htm
http://www.biometrica.tomsk.ru/kamchat.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/zakaz_15.htm
http://www.biometrica.tomsk.ru/ftp/dict/cult/gramm.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/stat_cardio5.htm
http://www.biometrica.tomsk.ru/krasnojarsk.htm http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/logit_6.htm

БИОМЕТРИКА + Музыка. В. Леонов.

Музыка... Вот что сказал о ней великий Иоганн Себастьян Бах: "Цель музыки - трогать сердца". В детстве автор этих строк получил музыкальное образование. Любимыми инструментами были мандолина и гитара. Любимыми композиторами - Вивальди, Бах, Альбиони, Боккерини, Беллини, Корелли, Скарлатти. В 80-е годы прошлого столетия в Томск часто приезжал с концертами маэстро Владимир Спиваков. Эти концерты организовывал Егор Лигачёв, бывший в ту пору первым секретарём Томского обкома КПСС. На свой первый концерт в Томск Владимир Спиваков приехал один. Великолепно играл на скрипке! Концертный зал был переполнен слушателями, которые были в восторге от его концерта. Именно тогда мне удалось впервые встретиться с ним, и взять у него автографы на его грампластинки. В дальнейшем посещал все его концерты. В 1979 г. В. Спиваков организовал камерный оркестр "Виртуозы Москвы". Однажды в 90-е годы Владимир Спиваков должен был приехать в Томск с "Виртуозами Москвы", и в течение трёх дней дать 3 концерта. Однако из-за проблем с топливом в те времена, их самолёт посадили в Омске, где они пробыли 2 дня. И когда прилетели в Томск, то в один день провели все 3 концерта, которые я прослушал. И вновь взял автографы на новые грампластинки, и сделал много фотографий В. Спивакова.


Музыка...  Она помогает всегда. Вот почему я рассылаю почти всем своим корреспондентам файлы с хорошей музыкой. Любите музыку, слушайте её чаще. И она поможет лучше понимать бистатистику и результаты статистического анализа...

13 февраля 2014 г. Владимир Спиваков и "Виртуозы Москвы" дали концерт в Краснодаре. Я посетил этот прекрасный концерт, и вновь встретился с Владимиром Теодоровичем. Подарил ему его грампластики, фотографии, и свою книгу.

Логистическая регрессия в медицине и биологии

В. Леонов

1. Логистическая регрессия. Основные понятия и возможности метода.
2. Логистическая регрессия. Анализ массивов большой размерности.
3. Логистическая регрессия. Примеры анализа реальных данных.
4. Логистическая регрессия и ROC-анализ.
5. Особенности логистической регрессии в акушерстве.
6. Особенности логистической регрессии в психиатрии, психологии и социологии.
7. Пример использования логистической регрессии для расчёта прогноза исхода оперативного лечения.
8. Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что?
9. Как повысить качество уравнений логистической регрессии.


В данной серии статей, на уровне доступном для начинающих, рассмотрены основы логистической регрессии. На многочисленных примерах анализа реальных массивов данных поясняется специфика использования данного метода. Объяснено, что методу присуща множественность решений, что позволяет выбирать для использования в реальной врачебной практике наиболее удобные и надёжные тактики лечения. Рассмотрено использование метода к массивам данных, содержащим несколько сотен признаков. Показано, что корректное создание таких массивов и их анализ возможны лишь при участии биостатистиков на самых первых этапах таких исследований. Рассмотрена связь логистической регрессии и ROC-анализа. Приведены многочисленные уравнения логистической регрессии и ROC-кривые, полученные при анализе реальных данных. Объяснена целесообразность использования вместе с методом логистической регрессии набора методов анализа парных взаимосвязей между различными признаками, а также использование более сложных методов многомерной статистики

 


Как повысить качество логистической регрессии

Научное изучение всех явлений,
касающихся здорового и больного человека,
есть та база, на которой основываются
все достижения клинической медицины,
как медицины научной.

__________________________
В.И. Глинчиков

В предыдущей нашей статье "Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что? " речь шла о тех методах статистического анализа, которые позволяют более результативно и осмысленно интерпретировать получаемые уравнения логистической регрессии. Целью настоящей статьи является объяснение мотивов предварительного использования некоторых методов анализа, которые позволяют существенно улучшить качество получаемых уравнений логистической регрессии.

В восьми предыдущих статьях о логистической регрессии мы объясняли основную цель использования этого метода. Напомним, что доминирующий в медицинских публикациях критерий Стьюдента, который был предложен более 100 лет тому назад, позволяет лишь сравнивать две групповые средние. Например, образно выражаясь, сравнить средние температуры больных и здоровых пациентов. Либо средние систолические давления больных и здоровых пациентов, и т.п. Если в этих двух группах сравнения фиксируется, например, 20 количественных признаков (вес, рост, возраст, результаты анализа крови, и т.д.), то с помощью критерия Стьюдента авторы могут проверить гипотезы равенста средних значений отдельно для каждого из этих 20 признаков. Однако при этом следует помнить, что одновременно два ограничения для корректного использования этого критерия (нормальность распределения в обеих сравниваемых группах, и равенство дисперсий в этих группах) выполняются крайне редко, в нескольких процентах случаев. Поэтому чаще всего выводы, получаемые в результате использования критерия Стьюдента, весьма сомнительны. В результате авторы исследований дезинформируют не только себя, но и своих читателей, в том числе и врачей, тем самым отрицательно влияя на здоровье больных пациентов, которых лечат читатели-врачи. По сути подобное доминирование некорректного использования критерия Стьюдента является СТАТИСТИЧЕСКОЙ ВАМПУКИЗАЦИЕЙ со стороны авторов.

 Ещё большая потеря информации, при сравнении лишь групповых средних, заключается в потере огромного количества информации содержащейся в связях между всеми фиксируемыми признаками. Напомним, что у 20 признаков количество парных взаимосвязей будет равно 20*(20-1)/2=10*19=190. В реальных исследованиях, помимо количественных признаков, фиксируются также и качественные признаки. Например, признаки анамнеза пациента, его пол, диагноз при поступлении, выписной диагноз, и т.д. Если также фиксировались 20 качественных признаков, то и для них имеется 190 парных связей. А для всех 40 признаков будет 40*(40-1)/2=20*39=780 парных связей. Таким образом, сравнение средних для 20 количественных признаков является попыткой получения самой минимальной доли собранной информации, равной 20/780=1/39=0,0256. То есть примерно 2,56% из всей доступной информации о парных связях. Более подробно этот аспект изложен в статье Логистическая регрессия. Анализ массивов большой размерности. 

Метод логистической регрессии, также представляющий собой метод сравнения групп, позволяет подключить к сравнению групповых средних также и множественные связи между зависимой переменной (состояние пациента, исход лечения, и т.п.), и набором всех фиксируемых количественных и качественных переменных. Многолетний опыт использования метода логистической регрессии, причём не только при анализе данных биологии и медицины, но также и при анализе данных социологических, психологических, филологических, экономических, специальных технических данных, и т.д., позволяет указать на одно специфичное направление, которое в литературе по этому методу практически не рассматривается.

Итак, рассмотрим, например, задачу сравнения трёх подгрупп пациентов. В качестве примера такой задачи ниже описан результат клинического испытания фармпрепарата, проведённого одной из зарубежных фирм. Испытания проводились у пациентов страдающих артериальной гипертензией. Сравнивались между собой три подгруппы пациентов. Первая подгруппа - это пациенты до начала приёма фармпрепарата. Вторая подгруппа - те же самые пациенты, но после установленного срока приёма данного фармпрепарата. А третья группа являлась группой контроля, и включала здоровых пациентов. Всего у пациентов фиксировались 34 качественных и количественных показателя. В первом этапе анализа данных в результате использования разных алгоритмов метода логистической регрессии были получены 7 уравнений. Отличия этих уравнений заключались как в различных комбинациях предикторов, вошедших в уравнения, так и результатами переклассификации проанализированных наблюдений с помощью этих уравнений. При этом качество получаемых уравнений отображается несколькими показателями.

Напомним, что в уравнениях множественной регрессии для количественных признаков основным показателем качества уравнения является числовая величина, которая вычисляется как средняя ошибка предсказания значения зависимой переменной по значениям независимых признаков, предикторов. Для чего из фактического значения зависимой переменной вычитается значение предсказанное по уравнению, эта разность возводится в квадрат, далее эти полученные квадраты суммируются по всем проанализированным наблюдениям, и полученная сумма делится на число степений свободы. Таким образом вычисляется дисперсия ошибок предсказания. Все эти формулы приведены в учебниках статистики с описанием метода множественной регрессии.

А при оценке качества полученного уравнения логистической регрессии для каждого наблюдения вычисляется вероятность его отнесения к каждой из групп сравнения. Таким образом происходит повторная переклассификация всех наблюдений, проанализированных с помощью полученного уравнения. Далее оценивается взаимосвязь между фактической классификацией, и классификацией повторной. То есть анализируется таблица сопряжённости признаков "Фактическая классификация" и "Классификация предсказанная". Ниже приведена такая таблица сопряжённости для одного из полученных уравнений лостической регрессии, содержащего 14 предикторов, и полученного для описанного выше клинического испытания фармпрепарата.

Анализ данной таблицы даёт значение критерия Пирсона Хи-квадрат равное 411,0448, которому при значении степеней свободы df=4 достигнутый уровень статистической значимости р < 0,0000001. При этом показатель интенсивности связи двух группирующих признаков (фактической группировки наблюдений и группировки предсказанной по уравнению) V-Крамера, равен 0,7663.

В наших предыдущих статьях о логистической регрессии и анализе таблиц сопряжённости, мы уже писали о необходимости установления структуры статистически значимой взаимосвязи в подобных таблицах сопряжённости. Ниже приведена таблица со значениями вкладов отдельных клеток, строк и столбцов в установленную взаимосвязь двух группировок. Значения приведены в процентах; в последнем столбце приведены суммы вкладов по строкам, а в самой нижней строке приведена сумма вкладов по столбцам.

Как видим, максимальные суммы вкладов по фактической и предсказанной группам до приёма фармпрепарата. Тогда как минимальные суммы фиксируются для группы после приёма фрампрепарата. Как известно, в качестве предикторов в уравнение логистической регрессии могут входить признаки двух разных свойств. В частности, первая когорта предикторов может содержать показатели анамнеза, либо такие признаки, которые в принципе не доступны к изменению их значений. Например, пол пациента, его возраст, рост пациента, и т.п. Вторая когорта показателей в принципе доступна к изменению в нужном направлении, т.е. уменьшении или увеличении значения количественных признаков, либо в переводе из одной градации категориального признака в другую градацию. Именно эти возможности и позволяют использовать полученные уравнения логистической регрессии для повышения вероятности перехода отдельных наблюдений (пациентов) в более приемлемую (хорошую) группу сравнения. Например, из группы "Больной" в группу "Здоровый".

Внимательное изучение теоретических основ метода логистической регрессии указывает на то, что более высокое качество получаемых уравнений обеспечивается тремя основными аспектами анализируемых наблюдений. Во-первых, наблюдения входящие в одну конкретную группу сравнения должны быть весьма однородными по своим свойствам. Во-вторых, различия между группами сравнения должны быть максимальными. В третьих, анализируемые наблюдения должны иметь по возможности максимальное число описываемых их потенциальных предикторов.

Третье условие естественно не всегда легко выполнимо, поскольку требует для этого фиксации максимального количества признаков разной природы. Более же реализуемы первые два условия. Причём наиболее важным является самое первое условие. Поскольку его реализация приводит и к частичной реализации второго условия.  Для выполнения первого условия можно использовать несколько различных приёмов. Например, получив конкретное уравнение логистической регрессии, производятся для всех наблюдений оценки параметра beta (см. статью "Логистическая регрессия. Основные понятия и возможности метода"), а далее оценки вероятностей отнесения наблюдений к конкретным группам сравнения. Так для каждого наблюдения из трёх подгрупп сравнения были получены три величины параметра beta и три вероятности Р1, Р2 и Р3. Напомним, что Р1+Р2+Р3=1. Отметим также, что чем максимальнее вероятность отнесения конкретного наблюдения к его фактической подгруппе, тем более типичным для этой подгруппы является данное наблюдение. Для оценки однородности наблюдений в конкретной подгруппе сравнения, помимо величин Р1, Р2 и Р3 удобно использовать также и отношения Р1/Р2, Р1/Р3, Р2/Р3. Когда значения подобных отношений близки к 1, например, для некоторого конкретного наблюдения получаем отношение Р1/Р2=0,3/0,3=1, то очевидно, что данное наблюдение не является типичным для обеих подгрупп. При этом вероятность отнесения к оставшейся третьей подгруппе будет равно 1 - (0,3 + 0,3)=1 - 0,6 = 0,4. Таким образом, это наблюдение нельзя назвать типичным и для третьей подгруппы.

После получения данных величин целесообразно произвести сортировку наблюдений по значениям этих величин. Выделив в результате этого подвыборки наблюдений, которые не являются типичными для подгруппы, в которую отнесено данное наблюдение. Вполне естественно, что при реализации такой технологии следует повторить известную методику "скользящего контроля". В этом случае производится удаление одного наблюдения, например, из всех 350 наблюдений, удаляется наблюдение под номером 1. Далее на основе оставшихся 349 наблюдений оценивается уравнение логистической регрессии, с получением всех необходимых параметров и значений (коэффициентов предикторов, анализ таблицы сопряжённости со значениями критерия Пирсона Хи-квадрат величиной V-Крамера, и т.д. Затем удалённое наблюдение возвращается, и удаляется наблюдение под номером 2. И анализ повторяется. И так повторяется вплоть до удаления наблюдения под номером 350. То есть в дополнение к одному первичному уравнению на основе 350 наблюдений, были получены ещё 350 уравнений по 349 наблюдениям.

Такой подход позволяет выделить те наблюдения, удаление которых существенно улучшает качество получаемых уравнений. Однако при этом очевидно, что данный подход весьма значительно повышает трудоёмкость проводимого анализа. К тому же, если подобных нетипичных наблюдений фактически будет обнаружено не 1-2, а несколько больше, то придётся вновь повторить применение этого метода теперь уже для получения уравнений по 348 наблюдениям, далее 347 наблюдениям, и т.д.

Проведя 10 подобных итераций, мы получили несколько тысяч новых уравнений, среди которых наиболее продуктивным было выбрано одно из последних уравнение, на основе которого и была получена таблица сопряжённости, приведённая ниже.  

Анализ данной таблицы даёт значение критерия Пирсона Хи-квадрат равное 337,7011, которому при значении степеней свободы df=4 достигнутый уровень статистической значимости р < 0,0000001. При этом показатель интенсивности связи двух группирующих признаков (фактической группировки наблюдений и группировки предсказанной по уравнению) V-Крамера, равен 0,7047. Отметим, что в предыдущей таблице сопряжённости лишь 40 наблюдений из 150 наблюдений второй группы (40/150=26,67% ) были переклассифицированы с помощью полученного уравнения логистической регрессии в третью подгруппы (здоровые). Тогда как во второй таблице сопряжённости уже 120 из 145 пациентов (120/145=82,76%) были переклассифицированы в третью подгруппы (здоровые).

Ниже приведена таблица со значениями вкладов отдельных клеток, строк и столбцов в установленную взаимосвязь двух группировок. Значения приведены в процентах; в последнем столбце приведены суммы вкладов по строкам, а в самой нижней строке приведена сумма вкладов по столбцам.

Другое важное отличие последнего варианта уравнения логистической регрессии от первичного заключается в том, что в нём дисперсия модулей стандартизованных коэффициентов предикторов была примерно в 4 раза больше, чем в первом варианте уравнения. То есть существенно увеличились чувствительности взаимосвязи включённых в уравнение предикторов. А это означает возможность выделения предикторов, в полученном уравнении, наиболее сильно влияющих на изменение параметра beta, а значит, и на изменение вероятности перевода наблюдения (пациента) из подгруппы до приёма фармпрепарата в подгруппу после приёма, или в контрольную подгруппу здоровых.

Однако достижение такого эффекта требует весьма огромного увеличение объёма работы по достижения подобного результата. Так в данном случае в 5 итерациях с методикой "скользящего контроля" потребовалось оценить несколько тысяч уравнений. Поэтому для снижения объёма работы в принципе можно использовать другие методы поиска наиболее оптимальных вариантов анализа.

Для пояснения выбора иных разных вариантов улучшения качества получаемых уравнений логистической регрессии, обратим внимание читателей на следующий аспект. При анализе двумерных таблиц сопряжённости мы фактически из сети многомерных взаимосвязей качественных, группирующих признаков выделяем лишь пару таких признаков. Для которых далее и исследуем наличие/отсутствие связи. При этом не учитывая влияние всех остальных качественных признаков. Если же помнить о возможном влиянии многих из "оставленных за бортом" качественных признаков на структуру связи анализируемой пары признаков, то в этом случае теоретически анализируемую таблицу сопряжённости можно представить как сумму многих аналогичных таблиц сопряжённости, которые своими частотами отвечают конкретным условиям, значениям градаций других качественных признаков. В качестве примера такой ситуации ниже приведены 3 таблицы сопряжённости А*В, в которых приведены частоты частоты с разными градациями третьего качественного признака С.

 

Как видно из этих таблиц, при значениях группирующего признака С=1 и С=2 наблюдается статистически значимая и довольно ярко выраженная взаимосвязь признаков А и В. Причём при значении С=1 V-критерий Крамера положителен, а при С=2 этот критерий отрицателен. Что весьма наглядно видно в доминировании частот в этих таблицах по диагональным клеткам разного направления. В частности, при значении С=1 максимальные частоты расположены по диагонали "сверху-вниз, слева-направо". Тогда как , при значении С=2 максимальные частоты расположены по диагонали "снизу-вверх, слева-направо". Однако в общем массиве, в котором С=1+2, статистически значимой взаимосвязи признаков А и В не наблюдается. Ясно, что это вызвано суммированием противоположных взаимосвязей для подгрупп наблюдений с С=1 и С=2.

Учитывая тот факт, что в реальных исследованиях число контролируемых качественных признаков гораздо больше 2-3, к тому имеющих более двух градаций, становится понятно, что на частоты наиболее интересных в исследовании пар качественных признаков, могут оказывать воздействие довольно многие показатели. При этом не следует забывать и то, что на частоты этих наиболее интересных парных сочетаний качественных признаков могут оказывать и многие другие качественные и количественные признаки, которые вообще отсутствуют в анализируемом массиве данных. Иными словами, обнаруживаемые статистически значимые зависимости могут быть теоретически представлены как некие суммы многих других значимых связей, плюс ошибки измерения, и плюс воздействия иных, неизвестных факторов.

Одна из теоретических возможностей более глубокого проникновения в структуру подобных связей заключается в выполнении анализа собственных векторов произведения исходных и транспонированных матриц. Данная задача в принципе может решаться методами матричной алгебры (1). Однако опыт использования этого методического подхода свидетельствует о весьма большом объёме как необходимых вычислений, так и о сложностях интерпретации получаемых при этом результатов. Подобный анализ структуры собственных векторов был выполнен нами для данных о кожных заболеваниях ряда жителей Азербайджана, проживающих в местах добычи нефти, а также у самих работников нефтепромышленности. При этом фиксировались не только виды кожных патологий, но также и многие социальные показатели, а также содержание микро- и макроэлементов в питании и в крови пациентов. С помощью упомянутого выше анализа были получены весьма эффективные уравнения логистической регрессии, которые, по мнению исследователя собравшего эти данные, весьма результативно позволили установить механизм возникновения изученных патологий.

Другим перспективным направлением повышения качества получаемых уравнений логистической регрессии является предварительная оцифровка градаций качественных признаков. Одна из первых работ с изложением идеи оцифровки градаций качественных признаков была опубликована Гиршфельдом в 1935 году (2). Перспективность этого подхода заключается не только в возможности повышения качества оцениваемых уравнений логистической регрессии, но также и возможности использования многих других многомерных статистических методов. В частности, метода канонической корреляции, факторного анализа, дискриминантного анализа, множественной регрессии, многомерного шкалирования, и т.д. Однако и в этом случае реализация данного направления требует весьма большого количества сложных вычислений. Для выполнения таких вычислений наиболее подходяще использование последних версий математического пакета MATLAB.

Все перечисленные выше подходы по своей сути являются технологиями исследования структуры анализируемых признаков. Однако не менее продуктивно для повышения качества оцениваемых уравнений логистической регрессии и исследование структуры анализируемых наблюдений. Поскольку все используемые в исследованиях признаки проявляют свои взаимосвязи именно через анализируемые наблюдения. То есть можно рассматривать "две стороны медали" - структуру признаков, и структуру наблюдений.

Анализ структуры наблюдений также может быть проведён самыми разными методами. Один из таких методов, с помощью которого может быть значительно улучшено качество уравнений логистической регрессии, это кластерный анализ применяемый к наблюдениям. Как известно, число алгоритмов кластерного анализа весьма велико. Основное их отличие в различной природе используемых метрик и алгоритмов кластеризации (3 - 6). Поскольку в реальных исследованиях используются и качественные, и количественные признаки, то очевидно, что проводить предварительный кластерный анализ можно со многими наборами признаков. В результате этого получаются новые группирующие признаки, содержащие нумерацию кластеров, полученных как с разными наборами признаков, так и с разными алгоримами. При этом важной деталью данного исследования является то, что благодаря использованию предварительного кластерного анализа фактически устанавливаются скрытые, латентные группировки наблюдений. Анализ таблиц сопряжённости таких латентных группировок с основными зависимыми качественными признаками (исход лечения, состояние пациентов, и т.п.), позволяет установить, насколько однородны, или же неоднородны, эти основные группировки, для которых далее оцениваются уравнения логистической регрессии.

Благодаря проведению такого предварительного исследования однородности группировок основных зависимых признаков с помощью разных алгоритмов кластерного анализа, удаётся существенно увеличить однородность анализируемых группировок. Ниже приведён результат оценки логистической регрессии по массиву данных исследователя из Германии, который изучал специальные диеты при лечении патологий печени. В качестве зависимой группирующей переменной рассматривался результат лечения с двумя исходами. В составе потенциальных предикторов были как составы и количества потребляемых продуктов, так и результаты анализа крови и ряда других показателей состояния пациентов. Состав эти потенциальных предикторов включал 33 количественных признака и 25 качественных признаков.

Ниже приведена таблица сопряжённости для первичного уравнения логистической регрессии, полученного без проведения предварительного кластерного анализа.

Как видим, наблюдения с градацией "Исход=1" переклассифицируется неплохо. Из 268 наблюдений уравнением логистической регрессии переклассифицированы в свою же градацию 223 наблюдения. Тогда как из 266 наблюдений второй градации в свою же градацию переклассифицированы лишь 145 наблюдений. Проведённые 6 вариантов кластерного анализа позволили установить, что в подгруппе "Исход=1" фактически имеется несколько латентных группировок. Анализ этих скрытых группировок показал, что среди 268 пациентов были 43 пациента с относительно редкими комбинациями ряда характеристик, которые как раз и делали достаточно неоднородной эту подгруппу. Также и среди 266 пациентов из подгруппы "Исход=2" было наличие латентных группировок. В частности, было выявлено 32 пациентов, которые весьма специфично реагировали на потребляемую диету. Проведённый анализ этой латентной группировки установил разные специфические причины таких реакций. В результате этого эти пациенты были удалены из анализируемой выборки. Ниже приведена таблица сопряжённости, полученная по уравнению логистической регрессии, с коррекцией массива данных после проведения предварительного кластерного анализа.

Очевидно, что целесообразно также проводить дальнейший анализ и установленных латентных группировок, которые далее удалялись из анализа. В частности, нами было предложено проведение такого анализа для удалённых 75 пациентов. Однако исследователь, собравший данный массив наблюдений, не счёл необходимым проведение такого анализа. Тем не менее мы провели самостоятельно такой анализ. Для этого ввели 2 новых группирующих признака с двумя градациями. Первый признак назовём "Факт", а второй -  "Прогноз". Обозначим градацией 1 первую подгруппу из 43 пациентов с относительно редкими комбинациями ряда характеристик, а 2 - вторую подгруппу из 32 пациентов, которые весьма специфично реагировали на потребляемую диету. При анализе этих двух подгрупп из 75 пациентов, было получено несколько уравнений логистической регрессии. При этом по уравнению самого лучшего качества была получена следующая таблица сопряжённости для признаков "Факт" и "Прогноз".

Полученные результаты в итоге привели к проведению следующей последовательности подобного комплексного анализа. Вначале по всему массиву данных было выполнено несколько видов кластерного анализа. Далее для полученных группировок в виде отдельных кластеров были произведены оценки уравнений логистической регрессиию При этом примерно у половины уравнений были получены таблицы сопряжённости, аналогичные по по своей структуре приведённой выше таблице. Отметим при этом, что по результатам кластерного анализа упомянутые выше 75 наблюдений входили в 1 или 2 кластера в количестве от 75 до 70 наблюдений. Далее раздельно по выделенным кластерам проводилась оценка уравнений логистической регрессии по основной группирующей переменной "Исход". И полученные при этом уравнения логистической регрессии были весьма высокого качества как по процентам согласия частот фактических и предсказанных, так и по структуре предикторов.

Подводя итог описанным выше акцентам, можно утверждать, что при использовании метода логистической регрессии целесообразно использовать как анализ парных взаимосвязей, описанных в нашей предыдущей статье "Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что? ",  так и многие другие методы многомерной статистики.

 

Литература

1.  Матричный анализ. М.: Наука. 1987. 666 с.

2. Hirschfeld, H.O. A connection between correlation and contingency. Proc. Cambridge Philosophical Society, Vol. 31 (1935), pp. 520–524

3. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.

4. Жамбю М. Иерархический кластер-анализ и соответствия. — М.: Финансы и статистика, 1988. — 345 с.
5. Дюран Б., Оделл П. Кластерный анализ. — М.: Статистика, 1977. — 128 с.

6. Леонов В. Кластерный анализ: основы метода и его применение в биомедицине. http://www.biometrica.tomsk.ru/cluster_1.htm

 

 

Центр БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее )

Отзывы заказчиков по статистическому анализу данных

Сравниваем средние, а также и ... В. Леонов Исследователям в медицине и биологии весьма большую пользу приносит сравнение не только групповых средних, но также и иных параметров. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками.


Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов.


23 примера оформления данных, их описания и описания целей исследования


В ноябре 2013 года сайту БИОМЕТРИКА исполнилось 16 лет. А что было раньше? И что теперь?


Примеры отличных результатов статистического анализа в диссертациях, дипломных работах и статьях, полученных с нашей помощью.

Д.С. Симанков. Применение метода логистической регрессии для факторов риска, влияющих на исход операции в условиях искусственного кровообращения. (статья)

В.В. Половинкин. Тотальная мезоректумэктомия — фактор повышения эффективности лечения среднеампулярного и нижнеампулярного рака прямой кишки.  (диссертация на соискание учёной степени доктора медицинских наук)

Н.Г. Веселовская.  Клиническое и прогностическое значение эпикардиального ожирения у пациентов высокого сердечно-сосудистого риска.  (диссертация на соискание учёной степени доктора медицинских наук)

О.Я. Васильцева. Закономерности возникновения, клинического течения и исходов тромбоэмболии легочной артерии по данным госпитального регистра патологии.  (диссертация на соискание учёной степени доктора медицинских наук)

В.А. Габышев.  Фитопланктон крупных рек Якутии и сопредельных территорий восточной Сибири.  (диссертация на соискание учёной степени доктора биологических наук)

М.И. Антоненко.  Гиперкортицизм без специфических клинических симптомов:
эпидемиология, клиника, диагностика
.  (диссертация на соискание учёной степени кандидата медицинских наук)

Попова Г.А. Сравнительное изучение подвидов LINUM USITATISSIMUM L . в условиях Западной  Сибири (диссертация на соискание учёной степени кандидата биологических наук).

А.Г. Сыркина. Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста (диссертация на соискание учёной степени кандидата медицинских наук).


Роль «малых» доз ионизирующего излучения в развитии неонкологических эффектов: гипотеза или реальность? Бюллетень сибирской медицины, № 2, 2005, с. 63-70. Карпов А.Б., Семенова Ю.В., , Тахауов Р.М., Литвиненко Т.М., Попов С.В., Леонов В.П.

В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).

Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине (24 - 26 сентября 2015 года).

Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г.


Новые полезные книги...

(Заказать книгу можно через издательство)

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с.

Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.

Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова.

В.В. Мартиросян, Ю.А. Долгушева. Анализ влияния гелиогеофизических и метеорологических факторов на инсульты с учётом фаз солнечного цикла. Ростовский государственный медицинский университет. – Ростов н/Д.: Изд-во"АкадемЛит" (ИП Ковтун С.А.) 2014г. 414 с. ISBN 978-8-904067-03-8.

В монографии приведены и проанализированы результаты углублённого статистического анализа ретроспективных данных из протоколов вскрытий лиц, умерших от мозговых инсультов (1135 случаев) за годы высокой (2000–2002 гг) и низкой (2008–2010 гг) солнечной активности на примере г. Ростов-на-Дону. Наблюдаемый в настоящее время очередной максимум солнечной активности актуализирует необходимость сбора, обработки и осмысления новых научных данных, содействующих прогнозированию и разработке профилактических мер по снижению заболеваний у разных групп населения, вызываемых магнитными бурями при усилении активности Солнца. Отмечается, что в формировании сосудистых заболеваний головного мозга прослеживается совокупное влияние множественных факторов риска.


В.В. Фадеев. Представление данных в оригинальных работах и их статистическая обработка.
Проблемы эндокринологии – 2002 - Т. 48, N 3. – С. 47 – 48.

Авторский ресурс Зорина Н.А.


После взрыва на СХК в 1993г. в Томске и Северске увеличилась частота рождения детей с пороками развития

В новый век - с доказательной биомедициной
Газета ПОИСК, № 20 (522)
21 мая 1999
г.


Долгое прощание
с
лысенковщиной 

История науки не ограничивается перечислением успешных исследований. Она должна сказать нам о безуспешных исследованиях и объяснить, почему некоторые из самых способных людей не могли найти ключа знания, и как репутация других дала лишь большую опору ошибкам, в которые они впали.

Дж. Максвелл 

Функциональный кризис отечественной науки, переживаемый в последнее десятилетие, вынуждает беспристрастно анализировать основные причины этого явления [1-2, 45-47]. Последние результаты библиометрического анализа говорят о том, что вклад России в мировую науку по основным направлениям составляет уже порядка 5-8% [1-2]. По данным того же источника вклад США составляет 32-41%. 

Коммунистическая идеология, уродовавшая многие направления отечественной науки на потребу вождей, породила и такое явление, как лысенковщина. Для большинства читателей фамилия Лысенко ассоциируется с августовской сессией ВАСХНИЛ 1948 г. и разгромом генетики. Однако лысенковщину нельзя сводить только к запрету на генетику. Достигнув своего апогея в середине текущего века, и став воистину периодом средневековья в отечественной биологии и медицине, лысенковщина изуродовала и методологию этих наук, изгнав из них в частности математику, и в первую очередь статистику. Последствия этого уродства и по сей день не позволяют биологии и медицине приблизиться к статусу точных наук. В статье описаны основные этапы этого явления и особенности методологии применения статистики в биологии и медицине, полученные автором при анализе нескольких сот диссертаций и монографий а также более 1500 статей в области экспериментальной биомедицины. 


Автор понимает, что поднятая им проблема достаточно обширна и не может быть полностью освещена в одной статье, содержащей лишь малую часть материалов готовящейся к изданию монографии, посвященной проблемам применения статистики в медицине и биологии. Автор будет признателен читателям, которые выскажут свой взгляд на эту проблему, а также смогут дополнить авторские материалы новыми примерами.  Обсуждаемая в данной статье проблема может быть решена только общими усилиями всех заинтересованных в этом специалистов.

Работая над этой статьей, мне довелось несколько раз встречаться с одним из ректоров медицинского вуза. Обсуждая с ним предлагаемые в статье меры, направленные на исправление этого неприглядного положения, я с изумлением услышал от него такой ответ: "Как ученый - я "За", а как ректор - "Против"! И если так мыслит и говорит ректор, доктор медицинских наук, член-корреспондент РАМН, то несложно понять отношение к этой проблеме рядовых сотрудников такого вуза. Не потому ли многие из них представлены в разделе КУНСТКАМЕРА, вместе с моим собеседником, своими диссертациями и статьями...

За те несколько лет, что прошли с момента публикации этой статьи, а также статей  "В новый век - с доказательной биомедициной"(ПОИСК, N 20 (522) 21 мая 1999) и "Куплю 500 диссертаций! (Медицинская Газета N10 за 14.02.2001)", практически ничего не изменилось. Да, в России стали писать и говорить о доказательной медицине, проводить конференции по этой тематике, а в некоторых медицинских вузах даже открыли центры доказательной медицины. Однако откроем биомедицинские журналы и диссертации, и станет ясно, что это не более чем дань моде... 

1997 - 2017.© Василий Леонов. E-mail:

Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.

Отклики читателей статьи "Доказательная или сомнительная?"

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ

Т. Кун "Структура научных революций"