Яндекс.Метрика

Логистическая регрессия в медицине

Каждый слышит то, что понимает. Гете

Статистика посещаемости БИОМЕТРИКИ

16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц
14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц
14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страницы
17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц
03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц
30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц
06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц
08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы

Если приходят, значит полезное находят.
 
Пишите нам на адрес

Выбрав любое изображение, кликните по нему мышкой, и Вы прочитаете о том, как ...

Редактор БИОМЕТРИКИ
В. Леонов

Яндекс
цитирования
Яндекс цитирования
 
25 наиболее популярных ссылок, посещаемых нашими читателями
http://www.biometrica.tomsk.ru/Leonov_Erevan_2015.pdf
http://www.biometrica.tomsk.ru/erevan_8.html
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/UNESCO%202010.pdf
http://www.biometrica.tomsk.ru/zakaz.htm
http://www.biometrica.tomsk.ru/zakaz_28.htm
http://www.biometrica.tomsk.ru/kk.htm
http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/error.htm
http://www.biometrica.tomsk.ru/STAT_CARDIO_2014.pdf
http://www.biometrica.tomsk.ru/logit_9.htm
http://www.biometrica.tomsk.ru/stat_cardio7.htm

http://www.biometrica.tomsk.ru/potencial.htm
http://www.biometrica.tomsk.ru/zakaz_19.htm
http://www.biometrica.tomsk.ru/lis.htm
http://www.biometrica.tomsk.ru/kamchat.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/zakaz_15.htm
http://www.biometrica.tomsk.ru/ftp/dict/cult/gramm.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/stat_cardio5.htm
http://www.biometrica.tomsk.ru/krasnojarsk.htm http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/logit_6.htm

Центр БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее )



  Отзывы заказчиков по статистическому анализу данных

Логистическая регрессия в медицине и биологии

В. Леонов

1. Логистическая регрессия. Основные понятия и возможности метода.
2. Логистическая регрессия. Анализ массивов большой размерности.
3. Логистическая регрессия. Примеры анализа реальных данных.
4. Логистическая регрессия и ROC-анализ.
5. Особенности логистической регрессии в акушерстве.
6. Особенности логистической регрессии в психиатрии, психологии и социологии.
7. Пример использования логистической регрессии для расчёта прогноза исхода оперативного лечения.
8. Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что?
9. Как повысить качество уравнений логистической регрессии.


В данной серии статей, на уровне доступном для начинающих, рассмотрены основы логистической регрессии. На многочисленных примерах анализа реальных массивов данных поясняется специфика использования данного метода. Объяснено, что методу присуща множественность решений, что позволяет выбирать для использования в реальной врачебной практике наиболее удобные и надёжные тактики лечения. Рассмотрено использование метода к массивам данных, содержащим несколько сотен признаков. Показано, что корректное создание таких массивов и их анализ возможны лишь при участии биостатистиков на самых первых этапах таких исследований. Рассмотрена связь логистической регрессии и ROC-анализа. Приведены многочисленные уравнения логистической регрессии и ROC-кривые, полученные при анализе реальных данных. Объяснена целесообразность использования вместе с методом логистической регрессии набора методов анализа парных взаимосвязей между различными признаками, а также использование более сложных методов многомерной статистики.

Как повысить качество логистической регрессии

Научное изучение всех явлений,
касающихся здорового и больного человека,
есть та база, на которой основываются
все достижения клинической медицины,
как медицины научной.

__________________________
В.И. Глинчиков

В предыдущей нашей статье "Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что? " речь шла о тех методах статистического анализа, которые позволяют более результативно и осмысленно интерпретировать получаемые уравнения логистической регрессии. Целью настоящей статьи является объяснение мотивов предварительного использования некоторых методов анализа, которые позволяют существенно улучшить качество получаемых уравнений логистической регрессии.

В восьми предыдущих статьях о логистической регрессии мы объясняли основную цель использования этого метода. Напомним, что доминирующий в медицинских публикациях критерий Стьюдента, который был предложен более 100 лет тому назад, позволяет лишь сравнивать две групповые средние. Например, образно выражаясь, сравнить средние температуры больных и здоровых пациентов. Либо средние систолические давления больных и здоровых пациентов, и т.п. Если в этих двух группах сравнения фиксируется, например, 20 количественных признаков (вес, рост, возраст, результаты анализа крови, и т.д.), то с помощью критерия Стьюдента авторы могут проверить гипотезы равенста средних значений отдельно для каждого из этих 20 признаков. Однако при этом следует помнить, что одновременно два ограничения для корректного использования этого критерия (нормальность распределения в обеих сравниваемых группах, и равенство дисперсий в этих группах) выполняются крайне редко, в нескольких процентах случаев. Поэтому чаще всего выводы, получаемые в результате использования критерия Стьюдента, весьма сомнительны. В результате авторы исследований дезинформируют не только себя, но и своих читателей, в том числе и врачей, тем самым отрицательно влияя на здоровье больных пациентов, которых лечат читатели-врачи. По сути подобное доминирование некорректного использования критерия Стьюдента является СТАТИСТИЧЕСКОЙ ВАМПУКИЗАЦИЕЙ со стороны авторов.

 Ещё большая потеря информации, при сравнении лишь групповых средних, заключается в потере огромного количества информации содержащейся в связях между всеми фиксируемыми признаками. Напомним, что у 20 признаков количество парных взаимосвязей будет равно 20*(20-1)/2=10*19=190. В реальных исследованиях, помимо количественных признаков, фиксируются также и качественные признаки. Например, признаки анамнеза пациента, его пол, диагноз при поступлении, выписной диагноз, и т.д. Если также фиксировались 20 качественных признаков, то и для них имеется 190 парных связей. А для всех 40 признаков будет 40*(40-1)/2=20*39=780 парных связей. Таким образом, сравнение средних для 20 количественных признаков является попыткой получения самой минимальной доли собранной информации, равной 20/780=1/39=0,0256. То есть примерно 2,56% из всей доступной информации о парных связях. Более подробно этот аспект изложен в статье Логистическая регрессия. Анализ массивов большой размерности. 

Метод логистической регрессии, также представляющий собой метод сравнения групп, позволяет подключить к сравнению групповых средних также и множественные связи между зависимой переменной (состояние пациента, исход лечения, и т.п.), и набором всех фиксируемых количественных и качественных переменных. Многолетний опыт использования метода логистической регрессии, причём не только при анализе данных биологии и медицины, но также и при анализе данных социологических, психологических, филологических, экономических, специальных технических данных, и т.д., позволяет указать на одно специфичное направление, которое в литературе по этому методу практически не рассматривается.

Итак, рассмотрим, например, задачу сравнения трёх подгрупп пациентов. В качестве примера такой задачи ниже описан результат клинического испытания фармпрепарата, проведённого одной из зарубежных фирм. Испытания проводились у пациентов страдающих артериальной гипертензией. Сравнивались между собой три подгруппы пациентов. Первая подгруппа - это пациенты до начала приёма фармпрепарата. Вторая подгруппа - те же самые пациенты, но после установленного срока приёма данного фармпрепарата. А третья группа являлась группой контроля, и включала здоровых пациентов. Всего у пациентов фиксировались 34 качественных и количественных показателя. В первом этапе анализа данных в результате использования разных алгоритмов метода логистической регрессии были получены 7 уравнений. Отличия этих уравнений заключались как в различных комбинациях предикторов, вошедших в уравнения, так и результатами переклассификации проанализированных наблюдений с помощью этих уравнений. При этом качество получаемых уравнений отображается несколькими показателями.

Напомним, что в уравнениях множественной регрессии для количественных признаков основным показателем качества уравнения является числовая величина, которая вычисляется как средняя ошибка предсказания значения зависимой переменной по значениям независимых признаков, предикторов. Для чего из фактического значения зависимой переменной вычитается значение предсказанное по уравнению, эта разность возводится в квадрат, далее эти полученные квадраты суммируются по всем проанализированным наблюдениям, и полученная сумма делится на число степений свободы. Таким образом вычисляется дисперсия ошибок предсказания. Все эти формулы приведены в учебниках статистики с описанием метода множественной регрессии.

А при оценке качества полученного уравнения логистической регрессии для каждого наблюдения вычисляется вероятность его отнесения к каждой из групп сравнения. Таким образом происходит повторная переклассификация всех наблюдений, проанализированных с помощью полученного уравнения. Далее оценивается взаимосвязь между фактической классификацией, и классификацией повторной. То есть анализируется таблица сопряжённости признаков "Фактическая классификация" и "Классификация предсказанная". Ниже приведена такая таблица сопряжённости для одного из полученных уравнений лостической регрессии, содержащего 14 предикторов, и полученного для описанного выше клинического испытания фармпрепарата.

Анализ данной таблицы даёт значение критерия Пирсона Хи-квадрат равное 411,0448, которому при значении степеней свободы df=4 достигнутый уровень статистической значимости р < 0,0000001. При этом показатель интенсивности связи двух группирующих признаков (фактической группировки наблюдений и группировки предсказанной по уравнению) V-Крамера, равен 0,7663.

В наших предыдущих статьях о логистической регрессии и анализе таблиц сопряжённости, мы уже писали о необходимости установления структуры статистически значимой взаимосвязи в подобных таблицах сопряжённости. Ниже приведена таблица со значениями вкладов отдельных клеток, строк и столбцов в установленную взаимосвязь двух группировок. Значения приведены в процентах; в последнем столбце приведены суммы вкладов по строкам, а в самой нижней строке приведена сумма вкладов по столбцам.

Как видим, максимальные суммы вкладов по фактической и предсказанной группам до приёма фармпрепарата. Тогда как минимальные суммы фиксируются для группы после приёма фрампрепарата. Как известно, в качестве предикторов в уравнение логистической регрессии могут входить признаки двух разных свойств. В частности, первая когорта предикторов может содержать показатели анамнеза, либо такие признаки, которые в принципе не доступны к изменению их значений. Например, пол пациента, его возраст, рост пациента, и т.п. Вторая когорта показателей в принципе доступна к изменению в нужном направлении, т.е. уменьшении или увеличении значения количественных признаков, либо в переводе из одной градации категориального признака в другую градацию. Именно эти возможности и позволяют использовать полученные уравнения логистической регрессии для повышения вероятности перехода отдельных наблюдений (пациентов) в более приемлемую (хорошую) группу сравнения. Например, из группы "Больной" в группу "Здоровый".

Внимательное изучение теоретических основ метода логистической регрессии указывает на то, что более высокое качество получаемых уравнений обеспечивается тремя основными аспектами анализируемых наблюдений. Во-первых, наблюдения входящие в одну конкретную группу сравнения должны быть весьма однородными по своим свойствам. Во-вторых, различия между группами сравнения должны быть максимальными. В третьих, анализируемые наблюдения должны иметь по возможности максимальное число описываемых их потенциальных предикторов.

Третье условие естественно не всегда легко выполнимо, поскольку требует для этого фиксации максимального количества признаков разной природы. Более же реализуемы первые два условия. Причём наиболее важным является самое первое условие. Поскольку его реализация приводит и к частичной реализации второго условия.  Для выполнения первого условия можно использовать несколько различных приёмов. Например, получив конкретное уравнение логистической регрессии, производятся для всех наблюдений оценки параметра beta (см. статью "Логистическая регрессия. Основные понятия и возможности метода"), а далее оценки вероятностей отнесения наблюдений к конкретным группам сравнения. Так для каждого наблюдения из трёх подгрупп сравнения были получены три величины параметра beta и три вероятности Р1, Р2 и Р3. Напомним, что Р1+Р2+Р3=1. Отметим также, что чем максимальнее вероятность отнесения конкретного наблюдения к его фактической подгруппе, тем более типичным для этой подгруппы является данное наблюдение. Для оценки однородности наблюдений в конкретной подгруппе сравнения, помимо величин Р1, Р2 и Р3 удобно использовать также и отношения Р1/Р2, Р1/Р3, Р2/Р3. Когда значения подобных отношений близки к 1, например, для некоторого конкретного наблюдения получаем отношение Р1/Р2=0,3/0,3=1, то очевидно, что данное наблюдение не является типичным для обеих подгрупп. При этом вероятность отнесения к оставшейся третьей подгруппе будет равно 1 - (0,3 + 0,3)=1 - 0,6 = 0,4. Таким образом, это наблюдение нельзя назвать типичным и для третьей подгруппы.

После получения данных величин целесообразно произвести сортировку наблюдений по значениям этих величин. Выделив в результате этого подвыборки наблюдений, которые не являются типичными для подгруппы, в которую отнесено данное наблюдение. Вполне естественно, что при реализации такой технологии следует повторить известную методику "скользящего контроля". В этом случае производится удаление одного наблюдения, например, из всех 350 наблюдений, удаляется наблюдение под номером 1. Далее на основе оставшихся 349 наблюдений оценивается уравнение логистической регрессии, с получением всех необходимых параметров и значений (коэффициентов предикторов, анализ таблицы сопряжённости со значениями критерия Пирсона Хи-квадрат величиной V-Крамера, и т.д. Затем удалённое наблюдение возвращается, и удаляется наблюдение под номером 2. И анализ повторяется. И так повторяется вплоть до удаления наблюдения под номером 350. То есть в дополнение к одному первичному уравнению на основе 350 наблюдений, были получены ещё 350 уравнений по 349 наблюдениям.

Такой подход позволяет выделить те наблюдения, удаление которых существенно улучшает качество получаемых уравнений. Однако при этом очевидно, что данный подход весьма значительно повышает трудоёмкость проводимого анализа. К тому же, если подобных нетипичных наблюдений фактически будет обнаружено не 1-2, а несколько больше, то придётся вновь повторить применение этого метода теперь уже для получения уравнений по 348 наблюдениям, далее 347 наблюдениям, и т.д.

Проведя 10 подобных итераций, мы получили несколько тысяч новых уравнений, среди которых наиболее продуктивным было выбрано одно из последних уравнение, на основе которого и была получена таблица сопряжённости, приведённая ниже.  

Анализ данной таблицы даёт значение критерия Пирсона Хи-квадрат равное 337,7011, которому при значении степеней свободы df=4 достигнутый уровень статистической значимости р < 0,0000001. При этом показатель интенсивности связи двух группирующих признаков (фактической группировки наблюдений и группировки предсказанной по уравнению) V-Крамера, равен 0,7047. Отметим, что в предыдущей таблице сопряжённости лишь 40 наблюдений из 150 наблюдений второй группы (40/150=26,67% ) были переклассифицированы с помощью полученного уравнения логистической регрессии в третью подгруппы (здоровые). Тогда как во второй таблице сопряжённости уже 120 из 145 пациентов (120/145=82,76%) были переклассифицированы в третью подгруппы (здоровые).

Ниже приведена таблица со значениями вкладов отдельных клеток, строк и столбцов в установленную взаимосвязь двух группировок. Значения приведены в процентах; в последнем столбце приведены суммы вкладов по строкам, а в самой нижней строке приведена сумма вкладов по столбцам.

Другое важное отличие последнего варианта уравнения логистической регрессии от первичного заключается в том, что в нём дисперсия модулей стандартизованных коэффициентов предикторов была примерно в 4 раза больше, чем в первом варианте уравнения. То есть существенно увеличились чувствительности взаимосвязи включённых в уравнение предикторов. А это означает возможность выделения предикторов, в полученном уравнении, наиболее сильно влияющих на изменение параметра beta, а значит, и на изменение вероятности перевода наблюдения (пациента) из подгруппы до приёма фармпрепарата в подгруппу после приёма, или в контрольную подгруппу здоровых.

Однако достижение такого эффекта требует весьма огромного увеличение объёма работы по достижения подобного результата. Так в данном случае в 5 итерациях с методикой "скользящего контроля" потребовалось оценить несколько тысяч уравнений. Поэтому для снижения объёма работы в принципе можно использовать другие методы поиска наиболее оптимальных вариантов анализа.

Для пояснения выбора иных разных вариантов улучшения качества получаемых уравнений логистической регрессии, обратим внимание читателей на следующий аспект. При анализе двумерных таблиц сопряжённости мы фактически из сети многомерных взаимосвязей качественных, группирующих признаков выделяем лишь пару таких признаков. Для которых далее и исследуем наличие/отсутствие связи. При этом не учитывая влияние всех остальных качественных признаков. Если же помнить о возможном влиянии многих из "оставленных за бортом" качественных признаков на структуру связи анализируемой пары признаков, то в этом случае теоретически анализируемую таблицу сопряжённости можно представить как сумму многих аналогичных таблиц сопряжённости, которые своими частотами отвечают конкретным условиям, значениям градаций других качественных признаков. В качестве примера такой ситуации ниже приведены 3 таблицы сопряжённости А*В, в которых приведены частоты частоты с разными градациями третьего качественного признака С.

 

Как видно из этих таблиц, при значениях группирующего признака С=1 и С=2 наблюдается статистически значимая и довольно ярко выраженная взаимосвязь признаков А и В. Причём при значении С=1 V-критерий Крамера положителен, а при С=2 этот критерий отрицателен. Что весьма наглядно видно в доминировании частот в этих таблицах по диагональным клеткам разного направления. В частности, при значении С=1 максимальные частоты расположены по диагонали "сверху-вниз, слева-направо". Тогда как , при значении С=2 максимальные частоты расположены по диагонали "снизу-вверх, слева-направо". Однако в общем массиве, в котором С=1+2, статистически значимой взаимосвязи признаков А и В не наблюдается. Ясно, что это вызвано суммированием противоположных взаимосвязей для подгрупп наблюдений с С=1 и С=2.

Учитывая тот факт, что в реальных исследованиях число контролируемых качественных признаков гораздо больше 2-3, к тому имеющих более двух градаций, становится понятно, что на частоты наиболее интересных в исследовании пар качественных признаков, могут оказывать воздействие довольно многие показатели. При этом не следует забывать и то, что на частоты этих наиболее интересных парных сочетаний качественных признаков могут оказывать и многие другие качественные и количественные признаки, которые вообще отсутствуют в анализируемом массиве данных. Иными словами, обнаруживаемые статистически значимые зависимости могут быть теоретически представлены как некие суммы многих других значимых связей, плюс ошибки измерения, и плюс воздействия иных, неизвестных факторов.

Одна из теоретических возможностей более глубокого проникновения в структуру подобных связей заключается в выполнении анализа собственных векторов произведения исходных и транспонированных матриц. Данная задача в принципе может решаться методами матричной алгебры (1). Однако опыт использования этого методического подхода свидетельствует о весьма большом объёме как необходимых вычислений, так и о сложностях интерпретации получаемых при этом результатов. Подобный анализ структуры собственных векторов был выполнен нами для данных о кожных заболеваниях ряда жителей Азербайджана, проживающих в местах добычи нефти, а также у самих работников нефтепромышленности. При этом фиксировались не только виды кожных патологий, но также и многие социальные показатели, а также содержание микро- и макроэлементов в питании и в крови пациентов. С помощью упомянутого выше анализа были получены весьма эффективные уравнения логистической регрессии, которые, по мнению исследователя собравшего эти данные, весьма результативно позволили установить механизм возникновения изученных патологий.

Другим перспективным направлением повышения качества получаемых уравнений логистической регрессии является предварительная оцифровка градаций качественных признаков. Одна из первых работ с изложением идеи оцифровки градаций качественных признаков была опубликована Гиршфельдом в 1935 году (2). Перспективность этого подхода заключается не только в возможности повышения качества оцениваемых уравнений логистической регрессии, но также и возможности использования многих других многомерных статистических методов. В частности, метода канонической корреляции, факторного анализа, дискриминантного анализа, множественной регрессии, многомерного шкалирования, и т.д. Однако и в этом случае реализация данного направления требует весьма большого количества сложных вычислений. Для выполнения таких вычислений наиболее подходяще использование последних версий математического пакета MATLAB.

Все перечисленные выше подходы по своей сути являются технологиями исследования структуры анализируемых признаков. Однако не менее продуктивно для повышения качества оцениваемых уравнений логистической регрессии и исследование структуры анализируемых наблюдений. Поскольку все используемые в исследованиях признаки проявляют свои взаимосвязи именно через анализируемые наблюдения. То есть можно рассматривать "две стороны медали" - структуру признаков, и структуру наблюдений.

Анализ структуры наблюдений также может быть проведён самыми разными методами. Один из таких методов, с помощью которого может быть значительно улучшено качество уравнений логистической регрессии, это кластерный анализ применяемый к наблюдениям. Как известно, число алгоритмов кластерного анализа весьма велико. Основное их отличие в различной природе используемых метрик и алгоритмов кластеризации (3 - 6). Поскольку в реальных исследованиях используются и качественные, и количественные признаки, то очевидно, что проводить предварительный кластерный анализ можно со многими наборами признаков. В результате этого получаются новые группирующие признаки, содержащие нумерацию кластеров, полученных как с разными наборами признаков, так и с разными алгоримами. При этом важной деталью данного исследования является то, что благодаря использованию предварительного кластерного анализа фактически устанавливаются скрытые, латентные группировки наблюдений. Анализ таблиц сопряжённости таких латентных группировок с основными зависимыми качественными признаками (исход лечения, состояние пациентов, и т.п.), позволяет установить, насколько однородны, или же неоднородны, эти основные группировки, для которых далее оцениваются уравнения логистической регрессии.

Благодаря проведению такого предварительного исследования однородности группировок основных зависимых признаков с помощью разных алгоритмов кластерного анализа, удаётся существенно увеличить однородность анализируемых группировок. Ниже приведён результат оценки логистической регрессии по массиву данных исследователя из Германии, который изучал специальные диеты при лечении патологий печени. В качестве зависимой группирующей переменной рассматривался результат лечения с двумя исходами. В составе потенциальных предикторов были как составы и количества потребляемых продуктов, так и результаты анализа крови и ряда других показателей состояния пациентов. Состав эти потенциальных предикторов включал 33 количественных признака и 25 качественных признаков.

Ниже приведена таблица сопряжённости для первичного уравнения логистической регрессии, полученного без проведения предварительного кластерного анализа.

Как видим, наблюдения с градацией "Исход=1" переклассифицируется неплохо. Из 268 наблюдений уравнением логистической регрессии переклассифицированы в свою же градацию 223 наблюдения. Тогда как из 266 наблюдений второй градации в свою же градацию переклассифицированы лишь 145 наблюдений. Проведённые 6 вариантов кластерного анализа позволили установить, что в подгруппе "Исход=1" фактически имеется несколько латентных группировок. Анализ этих скрытых группировок показал, что среди 268 пациентов были 43 пациента с относительно редкими комбинациями ряда характеристик, которые как раз и делали достаточно неоднородной эту подгруппу. Также и среди 266 пациентов из подгруппы "Исход=2" было наличие латентных группировок. В частности, было выявлено 32 пациентов, которые весьма специфично реагировали на потребляемую диету. Проведённый анализ этой латентной группировки установил разные специфические причины таких реакций. В результате этого эти пациенты были удалены из анализируемой выборки. Ниже приведена таблица сопряжённости, полученная по уравнению логистической регрессии, с коррекцией массива данных после проведения предварительного кластерного анализа.

Очевидно, что целесообразно также проводить дальнейший анализ и установленных латентных группировок, которые далее удалялись из анализа. В частности, нами было предложено проведение такого анализа для удалённых 75 пациентов. Однако исследователь, собравший данный массив наблюдений, не счёл необходимым проведение такого анализа. Тем не менее мы провели самостоятельно такой анализ. Для этого ввели 2 новых группирующих признака с двумя градациями. Первый признак назовём "Факт", а второй -  "Прогноз". Обозначим градацией 1 первую подгруппу из 43 пациентов с относительно редкими комбинациями ряда характеристик, а 2 - вторую подгруппу из 32 пациентов, которые весьма специфично реагировали на потребляемую диету. При анализе этих двух подгрупп из 75 пациентов, было получено несколько уравнений логистической регрессии. При этом по уравнению самого лучшего качества была получена следующая таблица сопряжённости для признаков "Факт" и "Прогноз".

Полученные результаты в итоге привели к проведению следующей последовательности подобного комплексного анализа. Вначале по всему массиву данных было выполнено несколько видов кластерного анализа. Далее для полученных группировок в виде отдельных кластеров были произведены оценки уравнений логистической регрессиию При этом примерно у половины уравнений были получены таблицы сопряжённости, аналогичные по по своей структуре приведённой выше таблице. Отметим при этом, что по результатам кластерного анализа упомянутые выше 75 наблюдений входили в 1 или 2 кластера в количестве от 75 до 70 наблюдений. Далее раздельно по выделенным кластерам проводилась оценка уравнений логистической регрессии по основной группирующей переменной "Исход". И полученные при этом уравнения логистической регрессии были весьма высокого качества как по процентам согласия частот фактических и предсказанных, так и по структуре предикторов.

Подводя итог описанным выше акцентам, можно утверждать, что при использовании метода логистической регрессии целесообразно использовать как анализ парных взаимосвязей, описанных в нашей предыдущей статье "Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что? ",  так и многие другие методы многомерной статистики.

 

Литература

1.  Матричный анализ. М.: Наука. 1987. 666 с.

2. Hirschfeld, H.O. A connection between correlation and contingency. Proc. Cambridge Philosophical Society, Vol. 31 (1935), pp. 520–524

3. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.

4. Жамбю М. Иерархический кластер-анализ и соответствия. — М.: Финансы и статистика, 1988. — 345 с.
5. Дюран Б., Оделл П. Кластерный анализ. — М.: Статистика, 1977. — 128 с.

6. Леонов В. Кластерный анализ: основы метода и его применение в биомедицине. http://www.biometrica.tomsk.ru/cluster_1.htm

 

23 примера оформления данных, их описания и описания целей исследования.

«Роющая деятельность кабана». Статья в "Независимой" газете...

Сравниваем средние, а также и ... В. Леонов

Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов.


Примеры отличных диссертаций и статей по медицине и биологии, с нашими результатами статистического анализа

Д.С. Симанков. Применение метода логистической регрессии для факторов риска, влияющих на исход операции в условиях искусственного кровообращения.

В.В. Половинкин
ТОТАЛЬНАЯ МЕЗОРЕКТУМЭКТОМИЯ — ФАКТОР ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ЛЕЧЕНИЯ СРЕДНЕАМПУЛЯРНОГО И НИЖНЕАМПУЛЯРНОГО РАКА ПРЯМОЙ КИШКИ.

Н.Г. Веселовская 
КЛИНИЧЕСКОЕ И ПРОГНОСТИЧЕСКОЕ ЗНАЧЕНИЕ ЭПИКАРДИАЛЬНОГО ОЖИРЕНИЯ У ПАЦИЕНТОВ ВЫСОКОГО СЕРДЕЧНО-СОСУДИСТОГО РИСКА.

О.Я. Васильцева
ЗАКОНОМЕРНОСТИ ВОЗНИКНОВЕНИЯ, КЛИНИЧЕСКОГО ТЕЧЕНИЯ И ИСХОДОВ ТРОМБОЭМБОЛИИ ЛЕГОЧНОЙ АРТЕРИИ ПО ДАННЫМ ГОСПИТАЛЬНОГО РЕГИСТРА ПАТОЛОГИИ.

В.А. Габышев 
ФИТОПЛАНКТОН КРУПНЫХ РЕК ЯКУТИИ И СОПРЕДЕЛЬНЫХ ТЕРРИТОРИЙ ВОСТОЧНОЙ СИБИРИ.

М.И. Антоненко
  ГИПЕРКОРТИЦИЗМ БЕЗ СПЕЦИФИЧЕСКИХ КЛИНИЧЕСКИХ СИМПТОМОВ: ЭПИДЕМИОЛОГИЯ, КЛИНИКА, ДИАГНОСТИКА.

Н.Г. Веселовская
"ПРОГНОЗИРОВАНИЕ РИСКА РЕСТЕНОЗА КОРОНАРНЫХ АРТЕРИЙ ПОСЛЕ ИХ СТЕНТИРОВАНИЯ У ПАЦИЕНТОВ С ОЖИРЕНИЕМ"

М.А. Будникова АНАЛИЗ ДИНАМИКИ ЧАСТОТЫ И СПЕКТРА АНОМАЛИЙ МИТОЗА, МЕЙОЗА И ЭЛЕМЕНТОВ ПРОДУКТИВНОСТИ Allium cepa L., ВЗЯТОГО ИЗ АГРОПОПУЛЯЦИЙ С РАЗНОЙ АНТРОПОГЕННОЙ НАГРУЗКОЙ ( Дипломная работа )

И.А. Бирюкова Научно - практическая работа " ФАРМАКОЭКОНОМИЧЕСКИЕ ИССЛЕДОВАНИЯ РОЗНИЧНОГО РЫНКА ГОРОДА ОМСКА"

Н.П. Гарганеева КЛИНИКО-ПАТОГЕНЕТИЧЕСКИЕ ЗАКОНОМЕРНОСТИ ФОРМИРОВАНИЯ ПСИХОСОМАТИЧЕСКИХ СООТНОШЕНИЙ ПРИ ЗАБОЛЕВАНИЯХ ВНУТРЕННИХ ОРГАНОВ И ПОГРАНИЧНЫХ ПСИХИЧЕСКИХ РАССТРОЙСТВАХ  (автореферат диссертации на соискание учёной степени доктора медицинских наук)

Г.А. Попова СРАВНИТЕЛЬНОЕ ИЗУЧЕНИЕ ПОДВИДОВ LINUM USITATISSIMUM L . В УСЛОВИЯХ ЗАПАДНОЙ СИБИРИ. (диссертация на соискание учёной степени кандидата биологических наук).

А.Г. Сыркина Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста (диссертация на соискание учёной степени кандидата медицинских наук).

А.Н. Рудаков Дифференцированный подход к проведению профилактики язв желудка и двенадцатиперстной кишки у больных ишемической болезнью сердца, принимающих аспирин (автореферат диссертации на соискание учёной степени кандидата медицинских наук) 

Г.Б. Кривулина Влияние велотренировок различной продолжительности на дисфункцию эндотелия и факторы риска атеросклероза у молодых мужчин (автореферат диссертации на соискание учёной степени кандидата медицинских наук) 

Л.В. Сутурина Гипоталамический синдром: основные звенья патогенеза, диагностика, патогенетическая терапия и прогноз (автореферат диссертации на соискание учёной степени доктора медицинских наук)


В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).

Фоторепортаж с Конференции по доказательной медицине в Ереване.

Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине (24 - 26 сентября 2015 года).

Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г.


Новые полезные книги...

(Заказать книгу можно через издательство)

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с. Актуальность этого издания весьма велика. По-прежнему в биомедицинских статьях и диссертациях публикуется масса статистических нелепостей, как образцы "статистического самоудовлетворения" и "статистического макияжа". Например, в двух диссертациях, выполненных в 2014 и 2015 гг. в Алтайском медуниверситете по разным специальностям, но при этом в полностью идентичных описаниях, состоящих из 94 слов, написано следующее. «Полученные данные были статистически обработаны с использованием программ Microsoft Offis Exel 2007. Достоверность различий между средними величинами определяли с помощью критерия значимости Стьюдента (t). Нормальность распределений в группах оценивали по критерию Шапиро-Уилка». Далее сообщается об использовании критерия Манна-Уитни, и т.д. Очевидно, что под Offis Exel авторы подразумевали Office Excel. Сложнее было бы об этом догадаться, если бы авторы написали Offis Exul. Вывод: оба диссертанта, как и члены двух диссертационных советов, не знают многого, в том числе описанного в этой книге. Например, не знают того, что в пакете Office Excel нет критериев Шапиро-Уилка и Манна-Уитни. Данная книга обучит правильно и хорошо описывать и понимать результаты статистического анализа. Поэтому исследователи станут более качественно выполнять статистический анализ, получая правильную технологию лечения пациентов. Что в результате будет снижать смертность населения, а также себестоимость лечебных процедур.

  Приложение к русскому изданию книги «Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов».
Авторы: Т. А. Ланг, М. Сесик. Перевод с англ. под ред. Леонова В.П. Изд-во:
Практическая Медицина, 2016.
  В приложении приведён список 209 полезных изданий по использованию статистики в биомедицине.

Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с. Предыдущие издания оригинала этой книги были опубликованы в 2000, 2005 и 2009 гг. Третье издание книги, как и два предыдущих, имеет целью донести до читателя основные понятия и принципы медицинской статистики, которые достаточно широко используются зарубежными медиками и биологами. Книга содержит необходимую теоретическую часть, а также в доступной форме даёт практическое описание того, как могут применяться статистические методы в реальных клинических исследованиях. Низкий уровень использования статистики в отечественной медицинской науке является одной из основных причин, по которым уже 111 лет Нобелевские премии по медицине не присуждаются россиянам. Ценность этой книги для медицинской науки определяется и проводимой в России реформой отечественной науки, в том числе реформой ВАК и системы научной аттестации. Учебное пособие предназначено для студентов, аспирантов и докторантов медицинских вузов, биологических факультетов университетов, врачей, исследователей-клиницистов и всех, кто является сторонником доказательной медицины.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.
Издание представляет собой вводный курс по принципам статистики. Представлены базовые понятия и принципы статистических исследований применительно к медицине. В отличие от большинства подобных изданий, указанные темы изложены кратко и доступно. Для чтения книги не требуется знание сложных разделов высшей математики, вполне достаточно тех, что даются в школе. Внедрение в практику принципов доказательной медицины диктует необходимость понимания статистики. После знакомства с книгой читатель сможет критически оценивать многочисленные публикации, содержащие статистическую терминологию и результаты описанных исследований. Полученные знания помогут избежать ошибок в планировании биомедицинских исследований, а также в изложении их результатов. Большим преимуществом книги служат глоссарий и подробный предметный указатель.
Для студентов, аспирантов, научных работников, а также врачей всех специальностей.

Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова.
Данная книга является наиболее популярным в мире руководством по доказательной медицине, ставшее известным и в России. Руководство предназначено для студентов и врачей. За 18 лет с момента первого издания в 1996 г., эта книга переведена на восемь языков (испанский, итальянский, китайский, немецкий, русский, французский, чешский, японский) и напечатана огромными тиражами. Руководство завоевало признание практикующих врачей, преподавателей и студентов во многих странах; по нему преподается медицина, основанная на доказательствах, в медицинских школах всего мира. В книге 17 глав, среди которых есть и глава "Статистика для неспециалиста". Эта главу мы дополнили большим списком русскоязычной литературы как по самой статистике, так и по биостатистике. А начинается книга с определения понятия "доказательная медицина". Итак, что же такое "доказательная медицина"?
Что, чем, и зачем "доказывают"? Читайте эту книгу!


Долгое прощание с лысенковщиной


КУНСТКАМЕРА. Обзор большой коллекции медицинских статей и диссертаций с существенными ошибками и нелепыми использованиями и описаниями методов статистики.

Экспозиция 1 Экспозиция 2 Экспозиция 3 Экспозиция 4

Для удобства работы с экспонатами они отсортированы по фамилиям авторов, городам, в которых проживают авторы, и по организациям, в которых работают авторы, а также по научным специальностям. 

Новый экспонат КУНСTКАМЕРЫ - Диссертация "Сравнительная характеристика показателей кардиореспираторной системы спортсменов и лиц, не занимающихся спортом, в условиях северного промышленного города", Тюменский государственный университет, Тюмень - 2006 г.

Новый экспонат КУНСTКАМЕРЫ - Диссертация «Анализ полиморфизма генов сердечно-сосудистой системы и системы детоксикации в различных возрастных группах Санкт-Петербурга». Обсуждаемая диссертация являет собой ярчайший пример того, какую злую шутку может сыграть с автором игнорирование проблемы множественных сравнений при статистическом анализе полученных данных.

Новый экспонат КУНСTКАМЕРЫ - Диссертация "Оценка проаритмических факторов при постинфарктной систолической дисфункции миокарда и эффективности их фармакологической коррекции", Кемеровская государственная медицинская академия, Кемерово - 2004 г.


Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал  медицинской практики, 2007, вып. 2, стр.19-35.


Статистика в кардиологии. 15 лет спустя. Журнал "Медицинские технологии. Оценка и выбор", 2014, №1, с. 17-28. Леонов В.П.

Отзывы читателей обзора "Статистика в кардиологии. 15 лет спустя". В ноябре 2013 г. был опубликован наш обзор "Статистика в кардиологии. 15 лет спустя". За прошедшие полгода более 20 читателей этого обзора прислали нам свои отзывы по нему. Далее приведены фрагменты из двух отзывов, и наши комментарии к ним...


Балацкий Е.В. Диссертационная ловушка


Отзывы читателей обзора Статистика в кардиологии. 15 лет спустя.

В ноябре 2013 г. был опубликован наш обзор "Статистика в кардиологии. 15 лет спустя". За прошедшие полгода более 20 читателей этого обзора прислали нам свои отзывы по нему. Далее приведены фрагменты из двух отзывов, и наши комментарии к ним...

 


1997 - 2017.© Василий Леонов. E-mail:

Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.

Отклики читателей статьи "Доказательная или сомнительная?"

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ

Т. Кун "Структура научных революций"