Яндекс.Метрика

Логистическая регрессия в медицине

Каждый слышит то, что понимает. Гете


"Люди перестают мыслить,
когда перестают читать
". Д. Дидро

Статистика посещаемости БИОМЕТРИКИ Яндекс
цитирования
Индекс цитирования

Наш адрес:

Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...


Редактор БИОМЕТРИКИ
В. Леонов

  • 385
data-counter data-url="http://www.biometrica.tomsk.ru/">
Яндекс
цитирования
Яндекс цитирования
 

16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц
14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц
14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страницы
17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц
03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц
30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц
06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц
08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы

Если приходят, значит полезное находят...


Введение
Наши возможности. О возможностях статистического анализа
Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал  медицинской практики, 2007, вып. 2, стр.19-35
Список научных и учебных изданий по биометрике и статистике
Материалы по науковедению
История биометрики
Статистическое рецензирование статей и диссертаций

Долгое прощание с лысенковщиной...
Семинар по биометрике в Красноярске



Если Вы сторонник использования
статистики, разместите на своём сайте
HTML-код нашего баннера:

BIOMETRICA - журнал для сторонников доказательной биологии и медицины
25 наиболее популярных ссылок, посещаемых нашими читателями
http://www.biometrica.tomsk.ru/comp_aver.htm
http://www.biometrica.tomsk.ru/erevan_8.html
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/UNESCO%202010.pdf
http://www.biometrica.tomsk.ru/zakaz.htm
http://www.biometrica.tomsk.ru/zakaz_28.htm
http://www.biometrica.tomsk.ru/kk.htm
http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/error.htm
http://www.biometrica.tomsk.ru/STAT_CARDIO_2014.pdf
http://www.biometrica.tomsk.ru/logit_9.htm
http://www.biometrica.tomsk.ru/stat_cardio7.htm

http://www.biometrica.tomsk.ru/potencial.htm
http://www.biometrica.tomsk.ru/percent_00.htm
http://www.biometrica.tomsk.ru/lis.htm
http://www.biometrica.tomsk.ru/kamchat.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/zakaz_15.htm
http://www.biometrica.tomsk.ru/ftp/dict/cult/gramm.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/stat_cardio5.htm
http://www.biometrica.tomsk.ru/krasnojarsk.htm http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/logit_6.htm

БИОМЕТРИКА + Музыка. В. Леонов.

Музыка... Вот что сказал о ней великий Иоганн Себастьян Бах: "Цель музыки - трогать сердца". В детстве автор этих строк получил музыкальное образование. Любимыми инструментами были мандолина и гитара. Любимыми композиторами - Вивальди, Бах, Альбиони, Боккерини, Беллини, Корелли, Скарлатти. В 80-е годы прошлого столетия в Томск часто приезжал с концертами маэстро Владимир Спиваков. Эти концерты организовывал Егор Лигачёв, бывший в ту пору первым секретарём Томского обкома КПСС. На свой первый концерт в Томск Владимир Спиваков приехал один. Великолепно играл на скрипке! Концертный зал был переполнен слушателями, которые были в восторге от его концерта. Именно тогда мне удалось впервые встретиться с ним, и взять у него автографы на его грампластинки. В дальнейшем посещал все его концерты. В 1979 г. В. Спиваков организовал камерный оркестр "Виртуозы Москвы". Однажды в 90-е годы Владимир Спиваков должен был приехать в Томск с "Виртуозами Москвы", и в течение трёх дней дать 3 концерта. Однако из-за проблем с топливом в те времена, их самолёт посадили в Омске, где они пробыли 2 дня. И когда прилетели в Томск, то в один день провели все 3 концерта, которые я прослушал. И вновь взял автографы на новые грампластинки, и сделал много фотографий В. Спивакова.


Музыка...  Она помогает всегда. Вот почему я рассылаю почти всем своим корреспондентам файлы с хорошей музыкой. Любите музыку, слушайте её чаще. И она поможет лучше понимать бистатистику и результаты статистического анализа...

13 февраля 2014 г. Владимир Спиваков и "Виртуозы Москвы" дали концерт в Краснодаре. Я посетил этот прекрасный концерт, и вновь встретился с Владимиром Теодоровичем. Подарил ему его грампластики, фотографии, и свою книгу.

Логистическая регрессия в медицине и биологии

В. Леонов

   Логистическая регрессия. Введение.
1. Логистическая регрессия. Основные понятия и возможности метода.
2. Логистическая регрессия. Анализ массивов большой размерности.
3. Логистическая регрессия. Примеры анализа реальных данных.
4. Логистическая регрессия и ROC-анализ.
5. Особенности логистической регрессии в акушерстве.
6. Особенности логистической регрессии в психиатрии, психологии и социологии.
7. Пример использования логистической регрессии для расчёта прогноза исхода оперативного лечения.
8. Логистическая регрессия - "вершина пирамиды". А в "фундаменте" - что?
9. Как повысить качество уравнений логистической регрессии.


В данной серии статей, на уровне доступном для начинающих, рассмотрены цели и направления метода логистической регрессии. В частности, приводятся пояснения, какие надёжные результаты этого метода могут быть использованы для поставленных целей медицинских и биологических исследований. На примерах реальных медицинских массивов данных, поясняется специфика использования данного метода. Объяснено, что метод имеет много алгоритмов оценки уравнений логистической регрессии, что позволяет назходить для использования во врачебной практике самые удобные и надёжные методы лечения. Рассмотрено использование метода к массивам данных, содержащим несколько сотен признаков разной природы. Показано, что корректное создание таких массивов, и их анализ, возможны лишь при участии биостатистиков на самых первых этапах таких исследований. Рассмотрена связь логистической регрессии и ROC-анализа. Приведены многочисленные уравнения логистической регрессии и ROC-кривые, полученные при анализе реальных данных. Объяснена целесообразность использования вместе с методом логистической регрессии набора методов анализа парных взаимосвязей между различными признаками, а также использование более сложных методов многомерной статистики.


 Логистическая регрессия - "вершина пирамиды".
А в "фундаменте" - что?

-------------------------------------------------------------

Статистика вербальная и статистика математическая.
"Вершина" и "фундамент".
"Мойте руки перед едой".
Много измерений - много уравнений. Мало измерений - ещё больше уравнений.
Упрощаем и усложняем предикторы.
Цель определяет средства.
Заключение.
Литература.


Статистика вербальная
и
статистика математическая

В начале было Слово
__________________________
Новый Завет

Ничего словами
__________________________
Девиз
Лондонского
королевского общества

N.B.! Перед чтением данной статьи, настоятельно рекомендуем прочитать статью "Логистическая регрессия. Введение"


   

Любое ЗНАНИЕ содержит в себе результат концентрации опытных ДАННЫХ. Например, обучаясь в медуниверситете, студент получает знания о методиках диагностирования заболеваний и их лечении. Все эти методики представлены в словесном (вербальном) формате, и концентрируют в себе результаты работы с больными пациентами (опытные данные). В том числе содержат информацию об использовании фармпрепаратов, операционных вмешательствах, методах терапии, и т.д. Фактически эти методики есть словесные алгоритмы увеличения вероятности достижения благоприятных исходов лечения (не летальный исход, возврат организма пациента в здоровое состояние, и т.п.). Однако такие вербальные алгоритмы не имеют возможности оценки числовых значений вероятности этих благоприятных исходов. При этом в самих методиках используются количественные показатели (дозы лекарственных препаратов, длительность и интенсивность лечебных процедур, значения показателей полученных при анализе крови, мочи, ЭКГ, и т.д.). Вместе с этими показателями используются во всех методиках и качественные показатели. Например, пол, генотип, тип инфекции во время беременности, наличие эндемического зоба, форма комплекса QRS, и т.д. Именно сочетание различных видов информации о пациенте, а также информации о самом лечении, и позволяют медику определять возможность благоприятного исхода лечения.

   Например, рассмотрим следующий алгоритм в вербальном формате. Если у больного диагностировано заболевание (далее следует название болезни), а также установлен следующий анамнез (далее следует совокупность сведений о больном и его заболевании), то для лечения пациента следует применить следующую последовательность лечебных действий: (далее следуют перечень и дозы фармпрепаратов, и других лечебных процедур). Подобные алгоритмы на словесном уровне фактически есть результаты обобщения массы историй болезни пациентов. Именно тот факт, что все больные пациенты являются уникальными, единственными по комбинациям своих признаков, описывающих как анамнез, так и текущие анализы в период лечения, данный вербальный алгоритм является по своей сути статистическим усреднением методики лечения. Учитывая индивидуальность каждого пациента, к которому применяется эта методика лечения, очевидно, что столь же индивидуальна будет и оценка возможности благоприятного исхода для каждого конкретного пациента. То есть лечащий врач на вербальном уровне оценит такую вероятность, например, такими выражениями: 1) Без сомнения, исход лечения будет положительным; 2) Очень возможно, что результат лечения будет положительным; 3) Будем надеяться, что состояние пациента улучшится. И так далее.

   Фактически мы имеем дело с подобием алгоритму логистической регрессии, только на вербальном уровне. В математической же статистике эти вербальные соотношения трансформированы в математические выражения. В этих выражениях, используя числовые и цифровые обозначения анамнестических показателей, результаты различных анализов (крови, ЭКГ, биохимические анализы, и т.д.), получают числовую оценку вероятности благоприятного исхода. Как известно, величина вероятности имеет значения в интервале от 0 до 1.[ 1 ] Если такие оценки вероятности близки к единице, например, р=0,999 , то это фактически есть числовой аналог вербальной оценки в виде выражения "Без сомнения, исход лечения будет положительным". И наоборот, если будет получена оценка вероятности благоприятного исхода р=0,01 , то это будет соответствовать оценке в вербальном формате "Весьма маловероятно, что исход лечения будет благоприятным".

   Хронологически словесный формат представления любой информации имеет гораздо больший временной отрезок своего развития, нежели все остальные форматы. И уже по одной этой причине позволяет быть более доступным для большинства пользователей. Математический же формат представления информации имеет гораздо более короткий период своего развития. "Первоначально книги по математике вообще не содержали формул в нынешнем виде. Все математические выражения описывались словесно. ... Для создания современной алгебраической символики в XIV – XVII веках потребовались успехи арифметики и алгебры. Большим шагом вперёд в математической символике было введение Ф. Виетом в 1591 году системы обозначения произвольных постоянных величин в виде прописных согласных букв латинского алфавита. Это позволяло записывать алгебраические уравнения с произвольными коэффициентами и оперировать ими. Известная по школьному курсу алгебры теорема Виета, отражающая связь коэффициентов многочлена второй степени и его корней, в авторской формулировке выглядела так: «Если В + D, умноженное на А, минус А в квадрате равно BD, то А равно В и равно D». А уравнение х3 + bx = d  во времена Виета записывали так: F cubus + D planum aequatur D solido [61]. И только Рене Декарт в XVII веке ввёл в обращение современный вид основных алгебраических выражений. И на всём протяжении истории математики появление новых математических объектов порождало потребность создавать специальные знаки для передачи информации об этих объектах и выполнения с ними необходимых операций. Так было с логарифмом, степенями числа, интегралом, числами «пи» и «е», тригонометрическими функциями, пределами, комбинаторикой, матрицами и т.д."[ 2 , с. 103] Основное отличие языка математики от вербального формата заключается в более высокой информационной плотности. К тому же в вербальном формате многие слова имеют более одного значения.

"...известный математик К. Пирсон вспоминает, что когда в октябре 1900 г. он послал в лондонское Королевское общество для публикации одну из своих статей, в которой для решения биологической проблемы применил статистические методы (эта статья была опубликована в ноябре 1901 г.), то получил решение Совета Королевского общества, обращавшего внимание автора на нежелательность того, чтобы в статьях по биологии содержался какой-либо математический аппарат». И это несмотря на то, что девизом английского Королевского общества был лозунг «Ничего словами», который являлся афористичным выражением основного принципа естествознания: признавать только те выводы, которые подкреплены математическими выводами, либо воспроизводимыми экспериментами. Таким образом, биологии отводилась роль пограничной науки, занимающей промежуточное место между «точными науками», и «гуманитарными науками», которые традиционно в Англии относились к категории «искусств». «В знак протеста К. Пирсон даже намеревался выйти из состава Королевского общества. Однако Ф. Гальтон, которому он сообщил о своём намерении, отсоветовал ему делать это. Тогда К. Пирсон основал в 1901 г. журнал «Биометрика», задачей которого было поощрение использование математических методов в биологии. В статье, написанной специально для первого номера этого журнала, Ф. Гальтон отмечает, что «новая наука не может зависеть от того, как её встречают представители старых наук, и поэтому следует создать специальный журнал по биометрии». Спустя много лет, уже в наше время, возник более узко специализированный журнал "Statistics in Medicine"" [ 3 ]

   Повышение плотности используемого ресурса присуще всем современным технологиям. К примеру, в металлургии из руды добывают металл, концентрируя его разными способами. Например, выплавляя его с помощью высоких температур. Либо используя жидкостные технологии, электрохимию, и т.д. А для разделения и концентрации изотопов урана используют следующие методы:
Электромагнитное разделение
Газовая диффузия
Жидкостная термодиффузия
Газовое центрифугирование
Аэродинамическая сепарация
AVLIS (испарение с использованием лазера)
Химическое обогащение
Дистилляция
Электролиз

   И этот перечень можно продолжать многими аналогиями. В нём можно перечислить нефть, бензин, газ, фармпродукцию, и т.д. В зависимости от технологии концентрации используемого ресурса, получаемые при этом результаты могут весьма существенно отличаться друг от друга. Наиболее показательно это на примере углерода, содержание которого  в человеческом теле составляет 23%. В природе углерод встречается в виде горючих ископаемых, а также в виде минералов - алмаза и графита. Эти две аллотропные модификации углерода весьма существенно отличаются друг от друга, как по плотности, так и по свойствам. Плотность алмаза при 20°С равна 3,51 г/см3, тогда как у графита плотность равна 2,26 г/см3. Алмаз является самым твёрдым из всех найденных в природе веществ. Тогда как графит очень мягок. По электрическим свойствам алмаз - диэлектрик, а графит - проводит электрический ток. В 1961 г. в СССР был разработан метод получения искусственных алмазов, используя для этого технологию высокого давления. Помимо этих двух основных модификаций углерода в настоящее время известно немало и других углеродных структур, отличающихся друг от друга плотностью и структурой. Например, карбин, фуллерены, фуллерит, графен, лонсдейлит, углеродные нановолокна, углеродные нанотрубки, и т.д. И у всех этих модификаций углерода весьма существенные различия свойств.

   Таким образом, повышение плотности используемого ресурса приводит к получению материалов с новыми фазами, обладающими принципиально новыми свойствами. В полной мере это относится и к информационным ресурсам. Одной из наиболее продуктивных технологий повышения плотности информации является использование современных методов статистического анализа, в частности, метода логистической регрессии.

"Вершина"
и
"фундамент"

Подумав как следует, мысль излагай,
А стен без фундамента не воздвигай.
__________________________
М. Саади

   Всякая технология по мере своего развития и усложнения использует в себе всё более широкий спектр как материальных, так и информационных ресурсов. Например, в древности огонь и дым от костров подтверждал появление войск противника. Столь же несложной была и технология передачи информации при помощи барабанов. Затем появились разные виды телеграфов. Так в 1839 г. был построен семафорный телеграф длиной 1200 км, который соединил Петербург и Варшаву. Эта линия состояла из 149 станций, каждая высотой в 20 метров. На рисунке приведено изображение такой станции.  Сигнал из Петербурга в Варшаву проходил за 15 минут. [ 2 ]

    В 20-м веке доминирующими стали электрические телеграфы, а затем и телефоны. Сегодня с помощью мобильных телефонов и оптоволоконных линий реализованы высокоскоростные технологии передачи информации. Но для реализации этих технологий требуется использование очень большого набора других технологий. То есть усложнение любой технологии приводит к обязательному расширению её "фундамента". Например, для работы мобильных телефонов требуется получение монокристаллического кремния, из которого делают интегральные микросхемы (чипы) как для самих телефонов, так и для приёмо-передающих сетей. Далее необходима технология создания оптоволоконных линий из кварцевых нитей, технология приёма-передачи сигналов через искусственные спутники Земли, технология программирования, и т.д. При этом весьма важным моментом является тот факт, что в этом случае основная технология - "вершина пирамиды", работает лишь в тех в условиях, когда в это же самое время работают и все "фундаментальные" технологии. Например, во время разговора по мобильному телефону работают источник питания (электрический аккумулятор), интегральные микросхемы, операционная система, излучатель и приёмник сверхвысоких радиочастот, и т.д.

   В тех случаях, когда речь идёт о промышленных технологиях, каждая новая конструкция, алгоритм, проходит проверку, для того, чтобы новая технология и новое изделие обеспечивали конкретные рабочие параметры. В медицине новые технологии на последних этапах проходят проверку на пациентах. Не менее важно и то, что либо сама идея новой медицинской технологии, либо её вариант, есть результат концентрации опытных данных, также полученных на отдельных выборках пациентов. То есть "фундаментом" новых идей и технологий, по сути, являются статистические данные наблюдений за результатами предыдущих технологических версий. При этом результаты таких наблюдений не обязательно подвергаются процедурам статистического анализа. Высокая квалификация и опыт обобщения результатов могут приводить к рождению новых технологий. Как правило, такие новшества также требуют для своей реализации участия и специалистов из других областей знания. Например, химиков, биохимиков, инженеров, экономистов, и т.д. В этом случае каждый из таких специалистов вносит свой вклад в новую технологию. Очевидно, что весомость, значимость этих вкладов, различна.

   Если обратиться к уравнениям логистической регрессии, то и в них "вес" предикторов (признаков объясняющих, предсказывающих) различен. Напомним, что для ранжирования вкладов предикторов в оценку вероятности исхода, необходимо упорядочить по уменьшению модулей стандартизованных коэффициентов уравнения. [ 4 ] И тогда предиктор с максимальным значением этого модуля будет вносить максимальный вклад в оценку вероятности интересующего исследователя исхода лечения.

   Весьма важным моментом в любой новой методике является её понимание и осмысление практикующим специалистом. Поскольку в случае непонимания полезности механизма данной технологии снижается вероятность её использования, а также возрастает вероятность допущения ошибок, в принципе могущих привести к весьма нежелательным для пациентов последствиям. Понимание и осмысление излагаемых новых методик и технологий определяется двумя основными аспектами. Во-первых, уровнем описания этой новой методики. Во-вторых, уровнем знаний и практических навыков у читателя этой новой методики. Если исходить из того, что большинство читателей новых методик владеют знаниями более низкого уровня, нежели уровень этой новой методики, то именно этот факт и следует учитывать. Ведь всякая сложная методика имеет в своём основании подмножество более простых технологий, и поэтому описание этих базовых (фундаментальных) методик облегчит понимание более сложной методики.

   Рассмотрим наиболее простой вариант оценки уравнения логистической регрессии для случая двух альтернативных исходов. То есть оценка уравнения производится с использованием выборки наблюдений по двум сравниваемым группам. При этом с помощью полученного уравнения оценивается вероятность благоприятного исхода (выздоровление пациента). Поскольку рассматриваются только 2 исхода, то сумма вероятностей этих двух исходов равна 1. Обозначим через P1 вероятность первого исхода - выздоровления. Тогда вероятность второго альтернативного исхода P2 =1- P1. Напомним, что вероятность  P1 для конкретного пациента вычисляется с помощью следующего выражения:

      (1),

где величина BETA вычисляется с помощью полученного уравнения логистической регрессии: 

,       (2)

где a0 - свободный член (Intercept), a1, a2, ... a- коэффициенты уравнения, x1, x2, ... x- отобранные алгоритмом признаки (предикторы), у которых соответствующие коэффициенты a0, a1 , a2 , ... , aстатистически значимы.  Для конкретного i-того пациента в выражении (2) подставляются те значения предикторов, которые зафиксированы у него. Например, уравнение для оценки ВЕТА имеет следующий вид:

      (3)

  Если у конкретного пациента эти предикторы имеют значения x1 = 1, x2 = 0,5 , x= 0,1 , то величина параметра BETA будет равна: 1,5 + 2*1 - 1*0,5 - 3*0,1 = 1,5 + 2- 0,5 - 0,3 = 3,5 - 0,8 = 2,7. Соответственно вероятность P1 будет равна:

        (4)

   Поскольку в качестве предикторов в уравнении используются как количественные, так и качественные признаки, то для осмысления получаемых уравнений следует вначале провести анализ более простых связей. В частности, парных взаимосвязей всех этих признаков. Этот нюанс важен ещё и потому, что все сложные методы многомерного статистического анализа, в т.ч. и метод логистической регрессии, выдают в результате не единственное уникальное решение, а некоторый набор, например, набор уравнений логистической регрессии. И для понимания и сравнения этих уравнений как раз и полезны все анализируемые парные взаимосвязи.

   Введём обозначения используемых признаков.
Y - качественный признак, содержащий градации исходов лечения, являющийся зависимым признаком в модели логистической регрессии. Таким качественным признаком в этой модели может быть не только результат лечения, но и любой иной дискретный качественный признак. Например, пол, наличие/отсутствие конкретного генотипа, наличие/отсутствие конкретного заболевания, и т.д.

x1 , x2 , ... xi , ... x- подмножество количественных потенциальных предикторов, т.е. число таких предикторов равно m;

z1 , z2 , ... zj , ... z- подмножество качественных потенциальных предикторов, т.е. число таких предикторов равно k.

   В этом случае для понимания структуры и особенностей получаемого при этом набора уравнений логит-регрессии следует обязательно провести статистический анализ следующих парных взаимосвязей:

Y ~ x1 ; Y ~ x2 ; ... Y ~ xi ; ... Y ~ x, т.е. m парных связей между зависимой переменной Y и каждым количественным признаком;

Y ~ z1 ; Y ~ z2 ; ... Y ~ zj ; ... Y ~ z, т.е. k парных связей между зависимой переменной Y и каждым качественным признаком;

  Для количественных признаков необходимо оценить следующие парные взаимосвязи:  x1 ~ x2; x1 ~ x3; x1 ~ x4; ... x1 ~ x;      x2 ~ x3; x2 ~ x4; ... x2 ~ x; .......... ;    xm-1 ~ x. Общее количество таких парных взаимосвязей между количественными признаками будет равно  Nx= m*(m-1)/2.

    Для качественных признаков необходимо оценить следующие парные взаимосвязи:  z1 ~ z2; z1 ~ z3; z1 ~ z4; ... z1 ~ z;     z2 ~ z 3; z2 ~ z4; ... z2 ~ z;    .......... ;    zk-1 ~ x. Общее количество таких парных взаимосвязей между качественными признаками будет равно  Nz= k*(k-1)/2.

  И последние парные взаимосвязи, которые также следует исследовать, это связи между одним количественным и одним качественным признаком: x1 ~ z1 ; x1 ~ z2 ; ... x1 ~ zj ; ... x1 ~ z;     x2 ~ z1 ; x2 ~ z2 ; ... x2 ~ zj ; ... x2 ~ z;    ........    xm ~ z1 ; xm ~ z2 ; ... xm ~ zj ; ...    xm ~ z; Общее количество таких парных взаимосвязей между одним качественным и одним количественным признаком будет равно  Nxz= k*m.

  Предположим, что в анализе используются 10 количественных переменных (x1 , x2 , ... x10) и 10 качественных переменных (z1 , z2 , ... z10). В этом случае необходимо провести статистический анализ следующего количества парных взаимосвязей. Для количественных признаков: Nx= 10*(10-1)/2=90/2=45. Для качественных признаков: Nz= 10*(10-1)/2=90/2=45. Для пар Y ~ xi : 1*10=10. Для пар Y ~ zj: 1*10=10. Для пар xi ~ zj: 10*10=100.

   Итак, только данные парные взаимосвязи уже составляют количество 45+45+10+10+100=210.  Однако помимо анализа парных взаимосвязей по всему массиву данных не меньшую ценность представляет и анализ аналогичных связей в отдельных подгруппах Y=1 (благоприятный исход) и Y=2 (неблагоприятный исход). В этом случае количество  этих дополнительных взаимосвязей составит 2*(45+45+100)=2*190=380. Таким образом, с учётом парных взаимосвязей по всему массиву получаем 210+380=590 анализируемых парных взаимосвязей.

   Почему важно провести такие анализы сначала по всему массиву данных, а затем раздельно по группам сравнения? При проведении такого анализа в трёх выборках (1-я выборка - весь массив наблюдений с двумя исходами Y=1 и Y=2; 2-я выборка - пациенты с исходом Y=1, 3-я выборка - пациенты с исходом Y=2) для каждой пары признаков, например, для двух количественных признаков x4 и x7 , получаем 3 оценки интенсивности этой взаимосвязи. Так как для пары количественных признаков эта взаимосвязь может быть как линейной, так и нелинейной, то в этом случае разумно одновременно вычислять для каждой пары из этих 3-х выборок коэффициент линейной корреляции Пирсона, и ранговый коэффициент корреляции Спирмена. Таким образом, для одной пары количественных признаков по 3-м выборкам получаем 6 коэффициентов корреляции. Сопоставление между собой этих 6 коэффициентов позволяет получить весьма ценную информацию. Например, для одной и той же пары количественных признаков x4 и x7 получены следующие значения коэффициентов корреляции Пирсона: r1+2 = 0,14 (р=0,12), r1 = 0,54 (р=0,03), r2 = -0,41 (р=0,02). Здесь нижние индексы 1+1, 1 и 2 означают разные выборки: 1+2 - общая выборка с двумя исходами Y=1 и Y=2; 1 - выборка с исходом Y=1; 2 - выборка с исходом Y=2. А выражения (р=...) содержат уровень статистической значимости для конкретного коэффициента корреляции. Итак, получается, что для общей выборки с двумя исходами Y=1+2 коэффициент корреляции статистически не значим (р=0,12). Для выборки с Y=1 имеем положительную (r1 = 0,54 ) статистически значимую корреляцию. А для третьей выборки с Y=2 имеем отрицательную статистически значимую корреляцию. То есть для выборки с Y=1 с увеличением признака x4 увеличивается и признак x7 . А для выборки с Y=2 увеличение одного признака  приводит к уменьшению другого. И наоборот. Когда же две эти выборки объединяются в одну, то эти две противоположные связи компенсируют друг друга. И в результате коэффициент корреляции становится статистически не значимым.

   При сравнении подобных 3-х коэффициентов корреляции могут быть и иные ситуации. Например, получены три статистически значимых коэффициента корреляции: r1+2 = 0,46; r1 = 0,52; r2 = 0,48. Это говорит о том, что изменение исхода от Y=1 до Y=2 практически не влияет на интенсивность корреляции этих двух признаков. Сопоставление же коэффициентов корреляции Пирсона с коэффициентами корреляции Спирмена будет говорить о том, приводит ли изменение исхода от Y=1 до Y=2 к изменению характера взаимосвязи. Например, может наблюдаться переход от линейной взаимосвязи к нелинейной, или наоборот. Напомним, что сравнение коэффициентов корреляции можно производить, проверяя статистические гипотезы типа [5]:

или

При этом проверка подобных гипотез возможна не только для сравнения двух генеральных (популяционных) коэффициентов корреляции, но и для большего их количества.

   Аналогичные сопоставления целесообразно проводить и для остальных парных сочетаний. Например, для двух качественных признаков с помощью анализа таблицы сопряжённости оценивается показатель интенсивности связи V-Крамера, который, как и коэффициент корреляции, изменяется в интервале от 0 до 1.[ 6 ] При проведении такого сравнения, например, по результатам анализа трёх таблиц сопряжённости, следует оценить не только показатели интенсивности связи V-Крамера, но также исследовать и структуры этих связей. Так как статистически значимая взаимосвязь пары качественных признаков не "размазана" равномерно по всем клеткам таблицы сопряжённости, а сконцентрирована в отдельных клетках таблицы сопряжённости. При этом в данных клетках связь может быть как отрицательной, так  положительной. И при переходе от подгруппы наблюдений с Y=1 к подгруппе наблюдений с Y=2 структура этой связи может измениться весьма кардинально. Обсуждение данной специфики приведено в наших статьях о таблицах сопряжённости по адресам  http://www.biometrica.tomsk.ru/freq.htm  http://www.biometrica.tomsk.ru/freq1.htm     http://www.biometrica.tomsk.ru/freq2.htm  .

   Весьма важно также проводить сравнение параметров распределений в группах с двумя исходами. Поскольку для таких сравнений есть параметрические и непараметрические методы анализа, то вначале следует провести проверку гипотез нормальности распределений в каждой из двух сравниваемых групп по каждому количественному признаку. И для сравнения параметров целесообразно использовать не один критерий, а некоторый набор статистических методов. Например, классический дисперсионный анализ (ANOVA),  и непараметрические критерии Краскела-Валлиса, Вилкоксона, Ван дер Вардена, Манна-Уитни, медианный критерий.

    Итак, используя перечисленные выше методы анализа в реальных исследованиях, содержащих число переменных от 2-3-х десятков до 100-150, получаем достаточно большой объём информации. В качестве образцов приведём объёмы результатов, полученных при анализе реальных данных, собранных несколькими исследователями  из Казахстана.

   Массив 1 содержал более 1661 наблюдение, и целью его анализа было изучение особенностей распределения генотипов вируса папилломы человека по регионам республики. Количество страниц с результатами различных видов статистического анализа, составило 2820.

   Массив 2 содержал 311 наблюдений из 73 количественных и 61 качественного признака. Ниже в таблице приведены фрагменты перечня анализируемых признаков.

VAR2A = 'Диагноз заключительный'
VAR3 = 'Возраст'
VAR4A = 'Пол'
VAR5 = 'Койко-дней'
VAR6A = 'Исход заболевания'
VAR7A = 'Анамнез матери'
VAR8 = 'Беременность (количество)'
VAR9A = 'Беременность (патология)'
VAR10 = 'Роды (количество)'
VAR80 = 'Эритроциты'
VAR81 = 'Лейкоциты'
VAR82 = 'Эозинофилы'
VAR83 = 'Базофилы'
VAR84 = 'Юные'
VAR85 = 'Палоч/яд'
VAR86 = 'Сегмент/яд'
VAR87 = 'Лимфоциты'
VAR88 = 'Моноциты'
VAR89 = 'Тромбоциты'
VAR90 = 'СОЭ'

 

VAR125 = 'ЦМВ IgG'
VAR126 = 'Микоплазмоз IgG'
VAR127 = 'ТОХО IgG'
VAR128 = 'Хламидиоз IgG'
VAR129 = 'Листериоз IgG'
VAR130A = 'ПЦР в вирусной нагрузке'
VAR131A = 'КТ печени'
VAR132A = 'Нейросонография'
VAR133A = 'КТ органов брюшной полости'
VAR134A = 'УЗИ сердца'

   Целью анализа данного массива было исследование специфики патологий, их связей с различными показателями, и оценка возможности коррекции данных патологий с помощью моделей логистической регрессии. Количество страниц с результатами различных видов статистического анализа, составило 20247.

   Массив 3 содержал 274 наблюдения из 13 количественных и 24 качественных признаков. Целью исследования было изучение клинико-лабораторных особенностей течения внутриутробной инфекции у новорожденных с малой массой тела, и разработка эффективных методов лечения внутриутробных инфекций у детей с малой массой тела. Ниже в таблице приведены фрагменты перечня анализируемых признаков.

VAR1A = 'Группа'
VAR2 = 'Возраст'
VAR3 = 'Количество беременностей'
VAR4 = 'Количество родов'
VAR5A = 'Инфекции во время беременности'
VAR6A = 'Преждевременные роды'
VAR7A = 'Мёртворождение'
VAR18 = 'Безводный период'
VAR19 = 'Вес ребёнка'
VAR23 = 'Гемоглобин'
VAR24 = 'Лейкоциты'
VAR25 = 'Тромбоциты' VAR26 = 'Свёртыв. крови'
VAR27 = 'Длит. кровот'
VAR30A = 'Нейросонография'
VAR31A = 'Питание новорожденных'
VAR32A = 'Сурф. зам. терапия'
VAR33A = 'CPAP'
VAR34A = 'Искусственная вентиляция лёгких'
VAR35 = 'Перевод в отдел. патологии (сутки)'
VAR36A = 'Исход'
VAR37 = 'Умер на какие сутки'

Количество страниц с результатами различных видов статистического анализа, составило 7582.

   Массив 4 содержал 2257 наблюдений из 85 количественных и 4 качественных признаков. Целью исследования было изучение распространённости эндемического зоба, определение наличия, степени тяжести и генеза зобной эндемии в нефтегазоносных районах и разработка рекомендаций по профилактике йододефицитных состояний. Ниже в таблице приведены фрагменты перечня анализируемых признаков.

GRUPPA = 'Номер региона обследования'
CLUSTER = 'Номер кластера по качественным признакам'
DOMICILE = 'Место жительства: город или район'
NUMBER = 'Номер наблюдения'
VAR1A = 'Пол'
VAR2 = 'Возраст'
VAR3 = 'Рост'
VAR4 = 'Вес'
VAR5 = 'Площадь тела'
VAR33 = 'Cr- результат'
VAR34 = 'Cr-нижняя граница'
VAR35 = 'Cr-верхняя граница'
VAR36 = 'Cu- результат'
VAR37 = 'Cu -нижняя граница'
VAR38 = 'Cu-верхняя граница'
VAR39 = 'Fe- результат'
VAR40 = 'Fe -нижняя граница'
VAR41 = 'Fe-верхняя граница'
VAR42 = 'Hg- результат'
VAR43 = 'Hg -нижняя граница'
VAR44 = 'Hg-верхняя граница'
VAR75 = 'Si- результат'
VAR76 = 'Si-нижняя граница'
VAR77 = 'Si-верхняя граница'
VAR78 = 'Sn- результат'
VAR79 = 'Sn-нижняя граница'
VAR80 = 'Sn -верхняя граница'
VAR81 = 'V- результат'
VAR82 = 'V-нижняя граница'
VAR83 = 'V-верхняя граница'
VAR84 = 'Zn- результат'
VAR85 = 'Zn-нижняя граница'
VAR86 = 'Zn-верхняя граница'

Количество страниц с результатами различных видов статистического анализа, составило 32354.

   Массив 5 содержал 1212 наблюдений из 13 количественных и 124 качественных признаков. Целью исследования была оценка качества медицинской помощи больным с острым коронарным синдромом в учреждениях области и областного центра, а также разработка методов диагностики, профилактики и лечения данного заболевания. Ниже в таблице приведены фрагменты перечня анализируемых признаков.

VAR3A = 'Инфаркт миокарда в прошлом'
VAR4A = 'Стенокардия'
VAR5A = 'Застойная сердечная недостаточность'
VAR6A = 'Инсульт'
VAR7A = 'Заболевание периферических артерий'
VAR8A = 'Хроническая почечная недостаточность'
VAR9A = 'Хроническое заболевание легких'
VAR33 = 'ЧСС'
VAR34 = 'Сист.АД'
VAR35 = 'Диаст.АД'
VAR44 = 'Общий холестерин'
VAR45 = 'Креатинин'
VAR46 = 'Глюкоза'
VAR47 = 'Гемоглобин'
VAR110 = 'Возраст'
VAR111 = 'Рост'
VAR112 = 'Вес'
VAR123A = 'Статины'
VAR124A = 'Нитраты'
VAR125A = 'Диуретики'
VAR126A = 'Антагонисты альдостероновых рец-ов'
VAR127A = 'Блокаторы Са каналов'
VAR128A = 'Стенокардия'
VAR129A = 'НК-недостаточность кровообращения'
VAR130A = 'Статус'
VAR131A = 'Причина смерти'

Количество страниц с результатами различных видов статистического анализа, составило 35501.  

   Массив 6 содержал 70 наблюдений из 12 количественных и 9 качественных признаков. Целью исследования было изучение особенности клинико-иммунологических показателей новорожденных, инфицированных вирусами группы герпес. Количество страниц с результатами различных видов статистического анализа, составило 3610.

   Наличие результатов анализа объёмом от нескольких тысяч до нескольких десятков тысяч страниц способно вызывать у исследователя двойственную реакцию. С одной стороны такой объём результатов требует времени и усилий для их изучения. Однако с другой стороны больший объём содержит и большее количество тех результатов, которые как раз и нужны исследователю для достижения поставленной цели исследования. Очень важным аспектом работы с такими объёмами результатов является и то, что никто кроме самого исследователя не может произвести из этих тысяч страниц отбор самых важных и ценных результатов. То есть концентрация получаемых результатов доступна только для исследователя. Положительным моментом работы с такими объёмами результатов является и то, что немалая их часть требует для ознакомления с ними лишь однократное, или двукратное знакомство. Например, ниже обсуждается построение большого количества графиков, которые позволяют оценить как качество подготовленного для анализа массива данных, так и наличие/отсутствие изучаемых взаимосвязей. Такие графики составляют порядка 50% от всего объёма результатов, и при работе с ними чаще всего достаточно лишь однократное их изучение.

Ниже приведём 2 примера с уравнениями логистической регрессии, и отдельными фрагментами результатов из "фундаментального" этапа. Уравнения получены при анализе упомянутого выше массива 4 из Казахстана, а также массива данных собранных исследователем из Читы.

Пример 1. Целью исследования было изучение причин преждевременных родов, плацентарной недостаточности, гипоксии плода, задержки роста плода и послеродовых осложнений у рожениц. При сравнении двух групп наблюдений было получено следующее уравнение:

 

                             Standard         Wald                Standardized

 Parameter   DF   Estimate      Error   Chi-Square   Pr > ChiSq       Estimate

 VAR3          1     0.2088     0.0517      16.2935       <.0001        0.5318

 VAR32        1    -0.0307     0.0147       4.3430       0.0372        -0.2880

 VAR35        1    -0.4029     0.0733      30.2021       <.0001        -0.9343

 VAR37        1     0.1974     0.0289      46.5408       <.0001         1.2496

 VAR38        1     0.7677     0.2097      13.4011       0.0003         0.4051

 VAR40        1    -0.3164     0.0710      19.8460       <.0001        -0.5972

 VAR42        1     0.4354     0.1238      12.3769       0.0004         0.5516

 VAR39        1    -0.0545     0.0118      21.3628       <.0001        -0.6663

 

В первой подгруппе было 103 наблюдения, во второй - 212. Показатель конкордации [4] для данного уравнения составил 96,5%. При этом среднее значение параметра BETA для первой подгруппы было 2,593, а для второй подгруппы равнялось -3,948. Выше в таблице с параметрами уравнения выделена строка с предиктором VAR37, имеющим максимальное значение модуля стандартизованного коэффициента. Сравнение параметров распределений этого признака в двух подгруппах, дало следующий результат:

                    Группа               N        Среднее VAR37

                    ---------------------------------------

                    Группа 2         212         26,820755

                    Группа 1         103         39,135922

 

Название критерия F-Фишера Вилкоксона Краскела-Валлиса Медианный Ван дер Вардена
Уровни значимости "р" < 0,0001 < 0,0001 < 0,0001 < 0,0001 < 0,0001

Как видим, параметры двух подгрупп сравнения различаются статистически значимо. И разница между групповыми средними достаточно велика.

Пример 2. Приведённое ниже уравнение логистической регрессии получено при анализе описанного выше массива 4 из 2257 наблюдений. При сравнении двух групп наблюдений было получено следующее уравнение:

                                               Standard          Wald                         Standardized

 Parameter    DF    Estimate       Error    Chi-Square    Pr > ChiSq        Estimate

 

        A          1      2.6554      0.1934      188.4520        <.0001          1.3850

        B          1     -2.6561      0.1851      205.8242        <.0001         -3.5245

        C          1      1.9503      0.4333       20.2572        <.0001           0.5360

В первой подгруппе было 1293 наблюдения, во второй - 962. Показатель конкордации [4] для данного уравнения составил 98,7%. При этом среднее значение параметра BETA для первой подгруппы было 4,999, а для второй подгруппы равнялось -4,567. Выше в таблице с параметрами уравнения выделена строка с предиктором B, имеющим максимальное значение модуля стандартизованного коэффициента. Сравнение параметров распределений этого признака в двух подгруппах, дало следующий результат:

                    Группа               N        Среднее B

                    ---------------------------------------

                    Группа 2         964         6,587604

                    Группа 1        1293        3,193271

Название критерия F-Фишера Вилкоксона Краскела-Валлиса Медианный Ван дер Вардена
Уровни значимости "р" < 0,0001 < 0,0001 < 0,0001 < 0,0001 < 0,0001

Как видим, параметры двух подгрупп сравнения различаются статистически значимо. И разница между групповыми средними достаточно велика.

 

 

"Мойте руки перед едой"

Без известного самостоятельного труда
ни в одном серьезном вопросе истины
не найти, и кто боится труда, тот сам себя
лишает возможности найти истину.
__________________________
В.И. Ленин

   Важнейшим моментом проведения всех упомянутых выше видов статистического анализа является предварительная проверка качества подготовленного массива данных. Подобно тому, как перед проведением полостной операции производится детальный анализ состояния организма пациента и проверка состояния аппаратуры, так и перед проведением статистического анализа необходимо проверить корректность собранного массива данных. Вначале следует найти для каждого признака минимальное и максимальное значение. И проверить, нет ли в них величин, которые выходят за допустимые для каждого признака пределы. Например, качественный признак Zj описывает 2 пола: М и Ж, используя обозначения 1 для градации М, и 2 для градации Ж. Однако при проверке оказалось, что для этого признака минимум равен 1, а максимум равен 3. То есть в каком-то наблюдении (или в нескольких наблюдениях) введено ошибочное значение. Другой пример для количественного признака Xi . Данный признак содержит значения систолического артериального давления. При проверке было установлено, что минимальное значение этого признака равно 10. Очевидно, что это тоже ошибка, которую следует найти и исправить.

   Весьма эффективно оценку качества подготовленного массива данных производить с помощью графики. В частности, для всех парных сочетаний признаков, как количественных, так и качественных, целесообразно построить двумерные диаграммы рассеяния. Например, есть 10 количественных (xi ) и 10 качественных признаков (zj ), и ещё один качественный признак Y с двумя градациями исходов лечения. То есть всего 21 признак. В этом случае число парных диаграмм рассеяния будет равно 21*(21-1)/2 = 21*10=210. Другой, очень полезный подход к оценке, как качества собранного массива данных, так и оценке взаимосвязей между парами количественных признаков, является построение двумерных диаграмм рассеяния с идентификацией каждой точки (наблюдения) градациями качественных признаков.  При этом целесообразно для каждой пары количественных признаков делать 2 графика. Один график делается с совмещёнными градациями качественного признака. На этом графике идентификация принадлежности данного наблюдения к одной из групп (градаций качественного признака) обозначается различным цветом, или различными точечными фигурками (квадратики, треугольники, кружочки, и т.п.). Выбор этих вариантов определяется возможностями используемого пакета, в котором производится анализ данных. А другой график делается раздельно для каждой градации качественного признака. Ниже на графиках представлены примеры таких диаграмм. Данные графики получены при анализе упомянутых выше 6 массивов данных собранных несколькими исследователями из Западно-Казахстанского государственного медицинского университета им. М. Оспанова (г. Актобе, Казахстан), а также по одному массиву собранному исследователем из Москвы. Просмотр тысяч страниц с такими графиками, построенными для всех упомянутых выше массивов данных, показал наличие достаточно большого количества аномальных, ошибочных наблюдений.

   На приведённом выше графике видны 2 точки, которые далеко расположены от основного скопления наблюдений, и имеют координаты по оси А во много раз больше значений в основной массе наблюдений. Отметим, что наличие именно 2-х точек на этом графике не означает, что имеется всего лишь 2 аномальных наблюдения. Их количество может быть и больше, поскольку одной и той же точкой на графике могут быть обозначены несколько идентичных наблюдений.

   На следующем графике видны аномальные наблюдения, которые имеют многократно большие значения как по оси  F, так и по оси E. Наличие таких аномалий приводит к смещению значений таких основных параметров распределений, как среднее и дисперсия. И поскольку эти два параметра используются практически по всех статистических методах, то данные смещения приводят к существенному искажению результатов используемых статистических методов (критериев). Например, при сравнении групповых средних отвергается гипотеза равенства этих средних. Тогда как после корректировки в массиве данных найденных ошибочных, аномальных значений, результатом сравнения групповых средних будет принятие гипотезы их равенства.

   Наличие таких ошибочных, аномальных значений может приводить и к невозможности использования таких параметрических критериев, как t-критерий Стьюдента, и, соответственно, отвержению использования классического дисперсионного анализа ANOVA. Поскольку наличие аномального значения по конкретной переменной приводит к отвержению гипотезы о нормальности распределения. Кроме того, при проверке второго условия использования двух упомянутых методов - равенства групповых дисперсий, также произойдёт отвержение гипотезы их равенства.

   На приведённом выше графике видна одна точка (наблюдение) очень сильно удалённая по оси К. При этом расположенные слева наблюдения показывают наличие положительной корреляции между признаками L и  K. Ниже представлен график с двумерной диаграммой рассеяния этих же признаков L и  K, однако все наблюдения идентифицированы принадлежностью к одной из двух подгрупп признака С. Видно, что расположенное справа аномальное наблюдение принадлежит подгруппе С=2.

   Ниже на графике представлена диаграмма рассеяния наблюдений из верхнего графика, полученная после удаления аномального наблюдения. В верхней части приведена величина коэффициента корреляции Пирсона, которая равна 0,8257.

   Выше на графике представлена диаграмма рассеяния наблюдений из верхнего графика, полученная после удаления аномального наблюдения, с идентификацией наблюдений номером подгруппы по группирующему признаку С. Видно, что области распределения обеих подгрупп наблюдений перекрываются, и имеют примерно одинаковые площади. То есть групповые средние по обеим подгруппам близки по величинам.

   Выше на графике показано распределение наблюдений двух подгрупп А=1 и А=2. На рисунке видно, что обе подгруппы имеют примерно одинаковые средние значения по признаку W. Тогда как по признаку V различие средних в этих двух подгруппах равно примерно 15 единицам. То есть переход от подгруппы А=1 к подгруппе А=2 приводит к смещению значений по признаку V, а не по признаку W. Также отчётливо видно, что при переходе от подгруппы А=1 к подгруппе А=2 интенсивность корреляционной взаимосвязи практически не меняется. Оба корреляционных эллипса имеют фактически один и тот же вид. Также близки в этих двух подгруппах по величинам и дисперсии. Об этом говорит примерно одинаковые интервалы рассеяния обеих подгрупп по каждому из признаков V и W. Поскольку области распределения наблюдений данных двух подгрупп не перекрываются, то это означает, что подгруппы А=1 и А=2 дискретны  по данным двум признакам.

   На графике, представленном выше наглядно видно, что переход от подгруппы В=1 к подгруппе В=2 приводит к увеличению значений по обоим признакам S и P. Однако и в этом случае интенсивность корреляционной взаимосвязи остаётся примерно одинаковой. Не менее важным является и тот факт, что ряд наблюдений подгрупп В=1 и В=2 перекрываются друг с другом. Это наблюдается вблизи значения Р=120 и S=80. Такая ситуация означает, что две подгруппы В=1  и В=2 по сочетанию признаков S и P являются не дискретными, а плавно переходят друг в друга.

   Выше на графике видно наличие трёх аномальных наблюдений. На графике ниже показано, что эти наблюдения принадлежат двум разным подгруппам.  

   Рассмотренные выше графики весьма полезны. Во-первых, на них очень наглядно видны аномальные, ошибочно введённые значения. Другая ценность таких графиков заключается в наглядном представлении имеющихся зависимостей. Например, корреляции между двумя количественными признаками отображается в виде корреляционного эллипса. Если в группах сравнения есть различие по центральным параметрам (среднее, медиана), то и здесь наглядно виден сдвиг точек групп сравнения относительно друг друга. Также весьма наглядно отображается и сходство или различие степени вариабельности признаков в сравниваемых группах наблюдений.

   Если в подобных графиках обнаруживаются аномальные наблюдения, то их следует скорректировать. Для этого вначале необходимо установить, у какого пациента ошибочно введено значение данного признака. Если это аномальное значение данного признака значительно больше допустимой величины, то следует отсортировать наблюдения по данному признаку, указав сортировку по убыванию. Такие сортировки наблюдений в массиве данных имеются во всех пакетах анализа (EXCEL, SPSS, STATISTICA, и т.д.). После установления аномального наблюдения, следует исправить ошибочное значение данного признака. Естественно, что для этого необходимо вначале установить истинное значение этого признака. Если же по какой-то причине это невозможно сделать, то следует просто удалить это ошибочное значение. То есть оставить при этом данную клетку пустой (Missing Data). Отметим, что игнорирование такой корректировки приводит к ошибочным выводам, как для парных взаимосвязей, так и в оценках уравнений логистической регрессии. Что в конечном итоге способно оказать негативное воздействие на конкретных пациентов, к которым будут применяться выводы подобных ошибочных уравнений.

    Если же аномальное значение признака имеет величину гораздо меньшее допустимого минимума, то в этом случае следует произвести сортировку наблюдений по данному признаку, указав опцию "По возрастанию". В этом случае наблюдение с данной аномалией будет после сортировки в первой строке таблицы массива данных. Для возврата порядка расположения строк в таблице к исходному порядку следует обязательно в первом столбце вводить признак "Номер наблюдения" с нумерацией от 1 до N,  где N - число анализируемых наблюдений.

   После корректировки аномальных значений целесообразно повторно провести построение двумерных диаграмм рассеяния, чтобы удостовериться в отсутствии других аномалий. Также при построении диаграмм на основе скорректированного массива данных можно будет увидеть реальные двумерные зависимости в виде корреляций, смещений групповых средних, взаимное расположение групп сравнения в плоскостях, и т.д. Рассмотрим, какое количество графиков с двумерными диаграммами рассеяния необходимо будет построить для нашего варианта с переменными Y, X и Z. Количество парных сочетаний количественных признаков X Nx= 10*(10-1)/2=90/2=45. Поскольку число качественных признаков Y и Z равно 11, то имеем число двумерных диаграмм рассеяния 45*11*2=990.

  Важным моментом работы с подобными графиками является возможность более точного и ясного объяснения зависимостей, обнаруженных с помощью перечисленных выше "фундаментальных" методов. Ведь, как известно, "Лучше один раз увидеть, чем 100 раз услышать", или много раз прочитать результат использования параметрических и непараметрических критериев.

 

Много измерений - много уравнений.
Мало измерений - ещё больше уравнений.

Сложность - это сумма простых трудностей.
__________________________
Александров Г.

   Как уже говорилось выше, многомерные методы анализа позволяют получить не единственное, уникальное решение, а некоторый набор этих решений. Так при оценке уравнений логистической регрессии используются несколько различающихся алгоритмов. Основные различия этих алгоритмов в процедурах пошагового отбора предикторов, значениях уровней статистической значимости отбора этих предикторов, а также в ряде других более сложных аспектов. В результате этого получается  некоторый набор уравнений. Количество получаемых при этом уравнений зависит не только от выбранных алгоритмов, но и от того, каков объём потенциальных предикторов. Предположим, что вначале для оценки уравнения алгоритмом используются все 20 качественных и количественных потенциальных предикторов. Однако в большинстве случаев в реальных массивах данных у части признаков есть пропуски. То есть в отдельных клетках таблицы отсутствуют измеренные величины (у количественных признаков) и обозначения градаций у качественных признаков.  Поскольку в анализе могут использоваться только те наблюдения, у которых нет пропущенных значений, то в зависимости от количества потенциальных предикторов будет зависеть и количество наблюдений с пропущенными значениями. То есть чем больше количество потенциальных предикторов используется для оценки уравнения логит-регрессии, тем выше вероятность увеличения количества наблюдений с одним или несколькими пропущенными значениями. И значит, тем меньшее количество наблюдений будет реально использоваться при оценке уравнений любыми алгоритмами. В качестве примера рассмотрим следующую таблицу.

Number A B C D E
1 x x x x x
2 x x   x x
3   x x x x
4 x   x x x
5 x x   x x
6 x x x   x

   В клетках столбцов A -- E символом "x" обозначено непропущенное значение данных признаков. Тогда как в ряде пустых клеток отсутствуют значения этих признаков. Если в анализе использовать все признаки (столбцы A -- E), то в этом случае лишь одно наблюдение под номером 1 не имеет пропущенных значений. И, стало быть, только одно наблюдение и может быть использовано в оценке уравнения. Естественно, что в этом случае ни один алгоритм не может быть использован на основе лишь одного единственного наблюдения.

   Реальные данные обычно содержат порядка 5-20% пропущенных значений. И лишь исключительно редко процент пропусков равен нулю. Поэтому при проведении оценки уравнения логит-регрессии целесообразно вначале выводить таблицу, содержащую число непропущенных значений по каждому из потенциальных предикторов. Далее производится вычисление количества наблюдений имеющих непропущенные значения по всем анализируемым признакам. Например, в таблице данных с признаком Y, и наборами количественных и качественных признаков X и Z, имеются 150 наблюдений. Однако ввиду наличия пропусков по ряду признаков лишь 130 наблюдений не имеют ни одного пропуска по всем признакам. И значит только эти 130 наблюдений могут быть использованы для оценки уравнений. Практика статистического анализа с использованием многомерных методов показывает, что для получения достаточно надёжных и устойчивых результатов желательно, чтобы число наблюдений в анализируемом массиве данных было  в 5-10 раз больше числа используемых признаков. Если же число наблюдений всего лишь в 1,5 - 2 раза больше числа признаков, то получаемые при этом результаты не всегда надёжны. И в этом случае требуется большой опыт профессионального биостатистика, чтобы даже из таких данных получить надёжные результаты.

   Если же из 150 наблюдений с использованием всех признаков могут быть проанализированы лишь 30-40 наблюдений, то в этом случае следует проводить анализ путём последовательного исключения признаков с минимальными числом измеренных значений. Такая методика приводит к многократному увеличению количества получаемых при этом уравнений с разными наборами предикторов. И для выбора наиболее ценных и полезных уравнений следует внимательно изучить результаты анализа парных связей. Поскольку в этом случае в анализе парных связей используется гораздо большее количество наблюдений. Что приводит к получению более надёжных результатов.

   Другой важный аспект определения ценности получаемых уравнений логит-регрессии заключается в оценке возможности использования предикторов уравнения для воздействия на организм пациентов, с целью повышения вероятности благоприятного исхода. Например, в конкретное уравнение были включены 5 предикторов. Анализ этого уравнения показывает, что для увеличения вероятности благоприятного исхода следует уменьшить значения 3-х предикторов, и увеличить значения остальных 2-х предикторов. Однако все анализируемые признаки делятся не только на качественные и количественные. А также подразделяются на другие 2 подгруппы: 1 - управляемые, т.е. поддающиеся с помощью различных методов изменению своих значений в нужном направлении. Например, перед проведением полостной операции показатель крови МНО может быть уменьшен с величины 4 до величины 2,5. Тогда как во второй подгруппе присутствуют признаки, значения которых не могут быть изменены. К примеру, нельзя изменить пол, возраст пациента, его генотип, группу крови и резус-фактор, и т.п. В тех случаях, когда в полученных уравнениях мало предикторов, которые могут быть управляемыми, а доминируют неизменяемые предикторы, следует поступать следующим образом. Необходимо весь исходный массив данных разделить на подгруппы, определяемые градациями качественных, группирующих признаков, вошедших в уравнение, и произвести оценку уравнений раздельно в этих подгруппах. Так при оценке уравнения логит-регрессии признак "Пол" вошёл в него в качестве предиктора. В этом случае оценки уравнения для зависимого признака Y следует произвести раздельно для мужчин и женщин. После чего полученные наборы уравнений для двух этих подгрупп следует сопоставить как по подмножествам предикторов, вошедших в уравнения, так и по  их ранжированному расположению по модулю стандартизованных коэффициентов регрессии. И в этом случае также следует повторить анализ рассмотренных выше "фундаментальных" парных связей для отдельных подгрупп наблюдений мужчин и женщин. И также сделать для этих подмножеств наблюдений рассмотренные выше двумерные графики.

Упрощаем и усложняем предикторы

Усложнять просто, упрощать сложно.
__________________________
Закон Мейера

    В 1869 году Адольф Кетле, бельгийский математик, один из создателей научной статистики, разработал величину, позволяющую оценить степень соответствия роста человека и его массы. Этот показатель оценивает, является ли масса конкретного человека недостаточной, нормальной или избыточной. Вначале этот показатель назывался "Индекс Кетле". В настоящее время его называют " Индекс массы тела", и рассчитывается он по формуле: ,    где: m - масса тела в килограммах; h - рост в метрах. Как видим, размерность данного индекса массы тела равна [кг/м2]. Многочисленные исследования установили наличие взаимосвязи между артериальным давлением и индексом массы тела. Этот нюанс объясняется, в том числе и тем, что размерность индекса массы тела есть размерность давления. То есть речь идёт о наличии корреляционных связей между двумя показателями с идентичными размерностями. Таким образом, индекс массы тела есть новый признак, объединяющий в себе 2 исходных показателя: массу тела и рост. Очевидно, что такая интеграция двух признаков в один делает новый признак более информативным и ценным. Отметим, что помимо индекса Кетле существует и много других аналогичных индексов. Например, индекс Брока, индекс Брока-Бругша, индекс Бернгарда, индекс BAI, индекс Лоренца, индекс Соловьёва, индекс Брейтмана, индекс Давенпорта, индекс Одера, индекс Ноордена, индекс Татоня, индекс объёма тела BVI, и т.д.

   При оценке уравнений логистической регрессии можно трансформировать исходные признаки, создавая с помощью этих трансформаций более информативные предикторы. Поскольку в этом случае используются как количественные, так и качественные признаки, то методы их трансформации будут существенно отличаться.

  Трансформация количественных признаков с целью повышения ценности и качества уравнений логит-регрессии осуществима различными способами. Первое направление заключается в использовании нелинейных преобразований исходных признаков. Например, вместо исходного количественного признака X можно использовать признак XА, где А - показатель степени. При А=0,5 получаем новый признак, равный квадратному корню из исходного признака X. При А=2 получаем квадрат исходного признака, и т.д. Кроме степенного преобразования можно использовать и такие функции, как логарифмирование, еХ,  и т.д. При этом создание нового, трансформированного признака, не означает, что исходный признак должен быть удалён из анализа. Одновременное использование обоих признаков в процедурах отбора предикторов позволит установить, какой из этих признаков будет включён в уравнение. Если же оба признака будут включены в уравнение, то и в этом случае сравнив модули стандартизованных коэффициентов можно установить признак более ценный для данной модели. Для выбора подобных нелинейных преобразований целесообразно вначале исследовать графики с данным исходным признаком.

   Второе направление трансформации заключается в создании новых признаков, используя для этого функции, включающие несколько исходных переменных. Например, обозначим символом F произведение исходных признаков x4* x7, то есть F= x4* x7. А символом D можно обозначить корень квадратный из новой переменной F, и т.д. Разумеется, такая генерация новых признаков вновь увеличивает численность парных взаимосвязей, которые также следует анализировать.

   В наших статьях (http://www.biometrica.tomsk.ru/freq.htm  http://www.biometrica.tomsk.ru/freq1.htm     http://www.biometrica.tomsk.ru/freq2.htm ) мы обсуждаем аспект неоднородности взаимосвязи двух качественных признаков в таблицах сопряжённости. Например, когда установлено наличие связи между парой качественных признаков, то весьма полезно исследовать её структуру. Это необходимо делать потому, что такие связи могут быть сконцентрированы в отдельных клетках, строках, или столбцах. Ещё более полезно это делать в тех случаях, когда число градаций этих качественных признаков более 2. То есть в этом случае число клеток в таблице сопряжённости более 4. Исходя из опыта  такого анализа, весьма полезно использование процедуры бинаризации при использовании качественных предикторов с числом градаций более 2. В этом случае каждая градация такого качественного признака может заменяться новым признаком с двумя градациями. Например, 1 - есть (далее следует название градации исходного признака), и 2 - нет (далее следует название градации исходного признака).  Далее следует, используя новые бинарные  признаки провести анализ парных взаимосвязей ("фундаментальные" взаимосвязи). Такая процедура позволит произвести отбор в состав предикторов те прежние градации качественного признака, у которого число градаций было более 2.

    Помимо процедуры бинаризации качественных признаков с числом градаций более 2, возможно улучшение структуры градаций и другим образом. Например, в анализе используется дискретный качественный признак Z, который описывает социальный статус пациентов. Такой признак может иметь разное количество градаций. Это количество градаций и их названия выбирает сам исследователь. Например, признак Z имеет 7 градаций, среди которых есть такие градации, как "учащийся", "рабочий", "пенсионер", и т.п. Чем больше число градаций у подобных признаков, тем меньше количество наблюдений имеющих одну из таких градаций. И наоборот. Информационная ценность связи между качественными признаками тем выше, чем больше соотношение между максимальным и минимальным количеством наблюдений по градациям признаков. Предположим, в массиве из 150 наблюдений у признака с 7 градациями максимальное число наблюдений (частота) по одной из градаций равно 40. А минимальное количество наблюдений (частота) по другой градации равно 10. Для остальных 5 градаций сумма оставшихся частот равна 150 - (40 + 10) = 100. По этим градациям частоты могут быть от 11 и выше до 39. Если же произвести "уплотнение" градаций этого признака, например, путём объединения двух или трёх градаций в одну градацию нового признака, то в этом случае увеличится средняя частота по градациям нового признака. Естественно, что в этом случае есть разные варианты объединения исходных градаций. Выбор этих вариантов может быть произведён с помощью нескольких методов. Например, путём анализа структуры взаимосвязи между зависимым признаком Y и исходным группирующим признаком Z=социальный статус, либо с помощью кластерного анализа. Поскольку можно использовать несколько вариантов объединения, то сравнение параметров новых качественных предикторов, вошедших в те или иные наборы уравнений логит-регрессии, позволяет выбрать оптимальный вариант.

Цель определяет средства

Цель только тогда может быть достигнута,
когда уже заранее само средство насквозь
проникнуто собственной природой цели.
__________________________
Фердинанд Лассаль

   Описание любой методики, по сути, является описанием некой системной модели. Каждую систему можно представить в виде элементной структуры. При этом между элементами данной структуры имеются связи разной интенсивности. Эти связи могут иметь направленность причинно-следственных взаимодействий. Описание подобных моделей может быть на вербальном, и невербальном уровне, например, в виде математических выражений. Используя модель логистической регрессии следует обязательно вначале сформулировать цель получения такой модели. Такая цель всегда имеет как минимум 2 уровня. На первом уровне устанавливается сама структура модели - состав отдельных элементов, интенсивность и направленность связей этих элементов, надёжность и точность модели, и т.п. Второй уровень содержит оценку возможностей продуктивного использования модели для достижения конкретных, практических целей. Например, использования уравнения логистической регрессии для повышения вероятности благоприятного исхода лечения. Получаемые наборы моделей образно можно представить в виде сети, или некой паутины. В этих сетях узел можно представить как связующее звено. А сетевые нити как отдельные признаки, переменные. Представим полученное уравнение логит-регрессии в следующем виде:

   Как видно из этой схемы величина вероятности "Р" определяется параметром

,

который, в свою очередь, определяется слагаемыми. А величины слагаемых определяются значениями сомножителей. При этом данные сомножители могут содержать значения как количественных, так и качественных признаков, с соответствующими коэффициентами. Структура этих моделей и их параметры определяются не только используемыми алгоритмами оценки коэффициентов уравнения, но и свойствами подмножества потенциальных предикторов, из которых алгоритм выбирает часть этих предикторов в уравнение. Все потенциальные предикторы, из которых производится данный отбор, условно можно разделить  на несколько локальных группировок. Первую группу составляют признаки анамнеза, а также такие показатели, как пол и возраст пациента, группа крови и резус-фактор, и т.п. Т.е. в этом наборе показателей содержатся характеристики организма пациента, включая как прошлые его заболевания, так и признаки, которые, возможно, привели к возникновению текущего заболевания. Очевидно, что в процессе лечения данные показатели в принципе не могут быть изменены с целью повышения вероятности благоприятного исхода.

   Вторую группу потенциальных предикторов составляют результаты текущих анализов состояния организма пациента. Это такие признаки, как результаты анализа крови, мочи, ЭКГ, УЗИ, рентгенограммы, результаты томографии, и т.д.  Эта группа в свою очередь подразделяется на 2 подгруппы. Первая подгруппа содержит признаки, которые при необходимости могут тем или иным способом целенаправленно изменяться. В другую же подгруппу входят признаки, которые либо в принципе не могут быть изменены, либо их изменение сопряжено с большими рисками, большими затратами, и т.д. Таким образом, фактически имеется 3 подгруппы признаков. Две из них включают неизменяемые признаки, а третья - изменяемые показатели. Исходя из наличия этих трёх подгрупп показателей можно (и нужно!) производить оценки уравнений логистической регрессии с использованием следующих семи комбинаций этих 3-х подгрупп: 1; 2; 3; 1+2; 1+3; 2+3; 1+2+3. Очевидно, что в зависимости от того, какая из этих комбинаций групп потенциальных предикторов используется в анализе, меняются и цели построения этих моделей. Такая смена целей исследования зависит также от того, какие группы наблюдений (пациентов) сравниваются. Так анализ признаков групп 1, 2 и 1+2 позволяет попытаться оценить модель возникновения самого заболевания. Например, сравниваются между собой две группы пациентов. Первая группа - это больные пациенты, а вторая группа - здоровые (группа "Контроль"). В этом случае основной целью является оценка того, какие из признаков вносят основные вклады в развитие заболевания. Если же сравниваются итоги лечения с двумя исходами (благоприятный и неблагоприятный), то в этом случае оцениваются вклады анамнестических показателей и других неизменяемых показателей на вероятность благоприятного исхода лечения. Если же использовать для анализа остальные четыре группы признаков 3, 1+3, 2+3, 1+2+3, то в этом случае оцениваемые модели в принципе могут содержать в себе признаки подгруппы 3. И тогда несложно установить, в каком направлении изменять (увеличивать или уменьшать) вошедшие в уравнение логит-регрессии предикторы из группы 3, чтобы увеличивать вероятность благоприятного исхода.  При этом весьма важную информацию о возможности повышения вероятности благоприятного исхода даёт и присутствие в этих уравнениях предикторов с неизменяемыми значениями. То есть предикторов из групп 1 и 2. В качестве примера рассмотрим следующую ситуацию. В уравнение логит-регрессии вошло 6 предикторов. Два предиктора относятся к группе признаков 1, один предиктор - к группе 2, и остальные три предиктора к группе 3. То есть из шести предикторов можно изменять значения (увеличивать или уменьшать) только у трёх признаков. Напомним, что при значении параметра BETA=0 вероятность благоприятного исхода Y=1 равна 

Подставляя в полученное уравнение для пациента Иванова И.И. значения 6 предикторов, получаем, например, значение BETA=0,5. Для этого значения вероятность благоприятного исхода Y=1 равна

А вероятность Р2 = 1 - 0,622=0,378. По мере увеличения значения параметра BETA (путём изменения предикторов), вероятность Р1 будет увеличиваться, а вероятность Р2 уменьшаться. Так Р1(BETA=1)=73,1% ; Р1(BETA=2)=88% ; Р1(BETA=3)=95,3% .

   Поскольку из 6 предикторов могут быть изменены только 3 предиктора, то необходимо оценить реальные возможности увеличения или уменьшения этих предикторов, чтобы значение BETA увеличивалось. Если эти 3 предиктора положительны, а также положительны и коэффициенты уравнения для этих предикторов, то для увеличения BETA требуется увеличивать значения трёх этих признаков. Если же у какого-то предиктора коэффициент в уравнении отрицателен, то значит, для увеличения BETA следует данный предиктор уменьшить. Это приведёт к уменьшению модуля соответствующего произведения со знаком минус, и увеличению BETA. Например, для увеличения вероятности благоприятного исхода надо уменьшить значение систолического артериального давления. В таких случаях при изменении значений предикторов следует обязательно возвращаться к "фундаменту". То есть вновь ознакомиться с результатами анализа парных взаимосвязей тех предикторов, значения которых подвергаются изменениям. Поскольку в этом случае изменение одной переменной может вызвать соответственно изменения некоторых других признаков, с которыми данная переменная имеет статистически значимые взаимосвязи. Естественно, что при этом следует также учитывать и направленность причинно-следственных связей. 

Заключение

Задача знания состоит в том,
чтобы находить нечто ещё не найденное ...
доводить до конца сделанное наполовину.
__________________________
Гиппократ

В документе "СТРАТЕГИЯ РАЗВИТИЯ МЕДИЦИНСКОЙ НАУКИ В РОССИЙСКОЙ ФЕДЕРАЦИИ НА ПЕРИОД ДО 2025 ГОДА" [ 7 ] сказано следующее. "Существует острая потребность расширять использование передовых технологий в медицинской науке и практике, без которых трудно представить здравоохранение XXI века. ... Для решения этих проблем нужны революционные меры по реорганизации биомедицинской науки, в том числе путём развития трансляционной и доказательной медицины, что позволит разработать и оценить эффективность новых методов диагностики, медицинских технологий и инновационных лекарственных препаратов, выявить препятствия к их внедрению, а также способствовать безотлагательному продвижению данных разработок до внедрения в клиническую практику с целью повышения качества лечения и качества жизни". Отношение исследователей к работе с такими многомерными моделями, как логистическая регрессия, при реализации этой стратегии развития, определяется как отношением к самой науке, так и мотивацией использования этих моделей. Вот какое определение понятия "Наука" даёт Википедия.[ 8 ] "Наука — сфера человеческой деятельности, направленная на выработку и систематизацию объективных знаний о действительности. Основой этой деятельности является сбор фактов, их постоянное обновление и систематизация, критический анализ и, на этой базе, синтез новых знаний или обобщений, которые не только описывают наблюдаемые природные или общественные явления, но и позволяют построить причинно-следственные связи с конечной целью прогнозирования". Именно установление причинно-следственных связей и требует выполнения этапа "фундаментального" изучения парных связей. Это и приводит к получению большого объёма результатов. Данные результаты фактически есть новое знание. Это знание как о наличии статистически значимых связей между различными признаками, так и об отсутствии таковых связей. Однако для того чтобы это новое знание можно было реально использовать в практической деятельности, необходимо не только ЗНАТЬ, но также и ПОНИМАТЬ это новое знание. То есть результаты анализа таких связей необходимо не только прочитать, но и найти им объяснения с точки зрения уже известных, классических взаимосвязей. И найти такие объяснения возможно лишь самому медику-исследователю, а не биостатистику, что, естественно, потребует немалых усилий. И здесь в качестве решающего правила выступает мотивация использования медиком-исследователем подобных моделей. Если мотивом является действительно желание достигнуть понимания методики прогнозирования, и, соответственно, управления в практической медицине вероятностями благоприятных исходов, то в этом случае "фундаментальный" этап не игнорируется. Более того, поиск объяснений установленных взаимосвязей, либо их отсутствия, существенно повышает у медика-исследователя уровень знаний в собственной отрасли медицины. Когда же мотивом использования подобных моделей является лишь сам факт их упоминания в очередных публикациях, то в этом случае "фундаментальный" этап игнорируется.

   Уровень публикуемых научных результатов сейчас отражается в значениях индексов цитирования. "Каждая статья возникает на фундаменте других статей и сама, в свою очередь, становится одним из отправных моментов для следующей. Указание на источник — наиболее яркое проявление этого учёного способа кирпичной кладки. По подшивкам многих научных журналов можно видеть, что где-то около 1850 возникает традиция открыто ссылаться на работы предшественников, по отношению к которым статья мыслится хорошо разработанным и существенным дополнением, в чём, собственно, и состоит смысл статьи». [9] Поэтому истинный медик-исследователь не будет игнорировать "фундаментальный" этап при использовании модели логистической регрессии. Что и обеспечит соответственный уровень цитирования его статей с описанием и объяснением причинно-следственных связей.

Литература.

1. ГОСТ Р 50779.10-2000 «Статистические методы. Вероятность и основы статистики. Термины и определения», М.: Госстандарт России. http://www.biometrica.tomsk.ru/GOST_50779.pdf

2. Леонов В.П. Современные проблемы информатики. Введение в семиотику информационных технологий: учебное пособие. – Томск: Изд-во НТЛ, 2011. – 248 с.    http://www.biometrica.tomsk.ru/leonov_2.pdf 

3. Леонов В.П. Долгое прощание с лысенковщиной. http://www.biometrica.tomsk.ru/lis/index13.htm

4. Леонов В.П. Логистическая регрессия. Основные понятия и возможности метода. http://www.biometrica.tomsk.ru/logit_1.htm

5. Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. М.: Финансы и статистика, 1983 г. 304 с.

6. Кендалл М., Стюарт А. - Статистические выводы и связи. М., Наука, Физматлит, Т. 2, 1973. — 899 с.

7. СТРАТЕГИЯ РАЗВИТИЯ МЕДИЦИНСКОЙ НАУКИ В РОССИЙСКОЙ ФЕДЕРАЦИИ НА ПЕРИОД ДО 2025 ГОДА. http://www.fesmu.ru/SITE/files/editor/file/obyavlenya/301020122.pdf

8. Наука. Материал из Википедии — свободной энциклопедии. http://ru.wikipedia.org/wiki/%CD%E0%F3%EA%E0

9. Прайс Д. Малая наука, большая наука // Наука о науке. М.: Прогресс, 1966. С. 281-384.


Далее: 9. Как повысить качество логистической регрессии.


Центр БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее )

Подарок читателям БИОМЕТРИКИ в связи с праздником 9 Мая. В течение последних 5 лет, перед праздниками, мы собирали читателям нашего сайта большие коллекции изданий по медицине, биологии, статистике и ...

Уважаемые читатели! Благодаря усилиям зарубежных коллег, начиная с марта 2017 г. стоимость выполнения заказов по стат. анализу массивов данных сократилась, по сравнению с 2016 г., на 25-30%.

Отзывы заказчиков по статистическому анализу данных

Сравниваем средние, а также и ... В. Леонов Исследователям в медицине и биологии весьма большую пользу приносит сравнение не только групповых средних, но также и иных параметров. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками.


Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов.


23 примера оформления данных, их описания и описания целей исследования


В ноябре 2013 года сайту БИОМЕТРИКА исполнилось 16 лет. А что было раньше? И что теперь?


Примеры отличных результатов статистического анализа в диссертациях, дипломных работах и статьях, полученных с нашей помощью.

Д.С. Симанков. Применение метода логистической регрессии для факторов риска, влияющих на исход операции в условиях искусственного кровообращения. (статья)

В.В. Половинкин. Тотальная мезоректумэктомия — фактор повышения эффективности лечения среднеампулярного и нижнеампулярного рака прямой кишки.  (диссертация на соискание учёной степени доктора медицинских наук)

Н.Г. Веселовская.  Клиническое и прогностическое значение эпикардиального ожирения у пациентов высокого сердечно-сосудистого риска.  (диссертация на соискание учёной степени доктора медицинских наук)

О.Я. Васильцева. Закономерности возникновения, клинического течения и исходов тромбоэмболии легочной артерии по данным госпитального регистра патологии.  (диссертация на соискание учёной степени доктора медицинских наук)

В.А. Габышев.  Фитопланктон крупных рек Якутии и сопредельных территорий восточной Сибири.  (диссертация на соискание учёной степени доктора биологических наук)

М.И. Антоненко.  Гиперкортицизм без специфических клинических симптомов:
эпидемиология, клиника, диагностика
.  (диссертация на соискание учёной степени кандидата медицинских наук)

Н.Г. Веселовская. Прогнозирование риска рестеноза коронарных артерий после их стентирования у пациентов с ожирением. (статья)

Study of the Factors Influencing Mortality from the Cerebral Stroke in Patients of Different Ages.
Vazgen Martirosyan1 and Julia Krupskaya, Department of Nervous Diseases and Neurosurgery, Rostov State Medical University, Rostov-on-Don 344000, Russia. British Journal of Medicine & Medical Research, 3(4): 1530-1557, 2013.

Будникова М.А. Анализ динамики частоты и спектра аномалий митоза, мейоза и элементов продуктивности allium cepa l., взятого из агропопуляций с разной антропогенной нагрузкой ( Дипломная работа )

Бирюкова И.А. Научно - практическая работа "Фармакоэкономические исследования розничного рынка города Омска"

Богданова О.Е. Исследование эконометрических параметров доступности фармацевтической помощи населению Омской области (Дипломная работа)

Н.П. Гарганеева. Клинико-патогенетические закономерности формирования психосоматических соотношений при заболеваниях внутренних органов и пограничных психических расстройствах  (автореферат диссертации на соискание учёной степени доктора медицинских наук)

Попова Г.А. Сравнительное изучение подвидов LINUM USITATISSIMUM L . в условиях Западной  Сибири (диссертация на соискание учёной степени кандидата биологических наук).

А.Г. Сыркина. Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста (диссертация на соискание учёной степени кандидата медицинских наук).

Рудаков А.Н. Дифференцированный подход к проведению профилактики язв желудка и двенадцатиперстной кишки у больных ишемической болезнью сердца, принимающих аспирин (автореферат диссертации на соискание учёной степени кандидата медицинских наук) 

Кривулина Г.Б. Влияние велотренировок различной продолжительности на дисфункцию эндотелия и факторы риска атеросклероза у молодых мужчин (автореферат диссертации на соискание учёной степени кандидата медицинских наук) 

Сутурина Л.В. Гипоталамический синдром: основные звенья патогенеза, диагностика, патогенетическая терапия и прогноз (автореферат диссертации на соискание учёной степени доктора медицинских наук)

Берсенёва О.Ю. Изучение внутрипопуляционной изменчивости Calamagrostis obtusata в Саяно-Шушенском заповеднике.


Роль «малых» доз ионизирующего излучения в развитии неонкологических эффектов: гипотеза или реальность? Бюллетень сибирской медицины, № 2, 2005, с. 63-70. Карпов А.Б., Семенова Ю.В., , Тахауов Р.М., Литвиненко Т.М., Попов С.В., Леонов В.П.

В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).

Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине (24 - 26 сентября 2015 года).

Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г.


Новые полезные книги...

(Заказать книгу можно через издательство)

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с.

Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.

Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова.

В.В. Мартиросян, Ю.А. Долгушева. Анализ влияния гелиогеофизических и метеорологических факторов на инсульты с учётом фаз солнечного цикла. Ростовский государственный медицинский университет. – Ростов н/Д.: Изд-во"АкадемЛит" (ИП Ковтун С.А.) 2014г. 414 с. ISBN 978-8-904067-03-8.

В монографии приведены и проанализированы результаты углублённого статистического анализа ретроспективных данных из протоколов вскрытий лиц, умерших от мозговых инсультов (1135 случаев) за годы высокой (2000–2002 гг) и низкой (2008–2010 гг) солнечной активности на примере г. Ростов-на-Дону. Наблюдаемый в настоящее время очередной максимум солнечной активности актуализирует необходимость сбора, обработки и осмысления новых научных данных, содействующих прогнозированию и разработке профилактических мер по снижению заболеваний у разных групп населения, вызываемых магнитными бурями при усилении активности Солнца. Отмечается, что в формировании сосудистых заболеваний головного мозга прослеживается совокупное влияние множественных факторов риска.


Неравнодушные!
Приглашаем в ДИССЕРНЕТ!
Это не про науку.
Это про репутацию и вран
ьё

DisserNet

Сетевое сообщество "Диссернет" заявило о наличии заимствований в диссертации главы Минсельхоза Александра Ткачева. Результаты экспертизы опубликованы на сайте проекта.

ВАК вынужден идти навстречу Диссернету. Это очень трудно — заставить ВАК исполнять закон и следовать морали. Но многое получается. Присоединяйтесь к Диссернету — это важнейшее дело, которое вы можете сделать для русской науки.

Член Совфеда: «Финансирование науки упало до уровня Конго или Афганистана» В проекте закона о федеральном бюджете на 2016 год на «гражданскую» науку выделено всего 0,3 процента ВВП". Великий гражданин мира Фредерик Жолио-Кюри сказал: «Та страна, которая не развивает науку, неизбежно превращается в колонию». Что ждёт и Россию...

ЮНЕСКО отмечает снижение вклада России в мировую науку. ЮНЕСКО после пятилетнего перерыва опубликовала доклад по науке до 2030 года. Статистические показатели для России ухудшились по сравнению с большинством ведущих научных стран, несмотря на то, что многие данные взяты из официальных российских источников.

Что губит российскую науку и как с этим бороться. Георгий Георгиев, академик РАН, координатор программы РАН «Молекулярная и клеточная биология». В этой статье рассматривается вопрос, почему все эти виды открытой науки в нашей стране отстают и что надо сделать для их прогресса.

«РОССИЯ БЕЗ НАУКИ — ТРУБА». 29 мая 2015 года в Москве прошла третья сессия Конференции научных работников. Публикуем несколько выступлений, прозвучавших на этом форуме.

Георгий Базыкин. Неолысенковщина, финансируемая
государством
. При принятии решений о том, что является наукой, а что — лженаукой, государству стоило бы посоветоваться с учёными.

А. Марков. Результаты научных исследований должны быть открыты для всех

Плохая наука.
НЕКОРРЕКТНЫЕ ИССЛЕДОВАНИЯ
ПРИВОДЯТ К ЛОЖНОМУ ЗНАНИЮ, ИНОГДА —
ГИБЕЛИ ЛЮДЕЙ

Плохая наука-2011: о скандалах в учёном мире

ПОЛОВИНУ ОТКРЫТЫХ НАУЧНЫХ ЖУРНАЛОВ НАЗВАЛИ «МУСОРОМ» ... Результат был ошеломляющим: 157 журналов приняли заведомо «бракованные» статьи к публикации, причем около 80 из них даже не подвергали их должной проверке. Отвергли статьи 98 журналов, а остальные к настоящему моменту не успели принять решения. ...«Журналы без контроля качества деструктивны, особенно для развивающихся стран, где правительственные учреждения и университеты заполнены людьми с фальшивыми научными званиями»

Общество научных работников


Сайт межрегионального общественного Движения за возрождение отечественной науки

INAHTA

Международная сеть агентств по оценке медицинских технологий

The Journal of the American Medical Association — еженедельный международный медицинский журнал, издаваемый American Medical Association.

Журналы Lancet

Бен Голдакр. Плохая наука.

Бен Голдакр. Плохая статистика в науке.

Бен Голдакр. Боремся с плохой наукой.

Власов В. Фабрика под золотой крышей. "... Когда Диссернет прикоснулся к медицинским диссертациям [2], почти сразу среди диссертаций с обильными заимствованиями оказались диссертации, выполненные и защищенные в НЦССХ".

Власов В.
ОСДМ и Диссернет заседали.

Заседание было посвящено качеству медицинских диссертаций, прежде всего в свете данных о плагиате в них и, главное, как оказалось, распространенной практике фальсификации и манипуляции данных в медицинских диссертациях.

ВАСИЛИЙ ВЛАСОВ.
«Нашей медицине нужны реформы»  Борьба за доказательства в начале XXI века Доказательная медицина сегодня  

Диссернет «Наукометрическая оценка качества медицинских исследований/диссертаций» 05.06.2014

Вузы РФ будут обязаны публиковать дипломы в электронных библиотеках

Отзывы на
авторефераты и
диссертации

Диссертационные войны. Как борьба с плагиатом в диссертациях переместилась из науки в политику

ВЛАДИМИР ФИЛИППОВ. «Закрутим гайки – и пена уйдет». Интервью с председателем ВАК Владимиром Филипповым.

Дело о крови и лимфе. "Диссернет" всерьёз занялся врачами

Доказательная медицина: история, эволюция, роль в медицине

В.В. Фадеев. Представление данных в оригинальных работах и их статистическая обработка.
Проблемы эндокринологии – 2002 - Т. 48, N 3. – С. 47 – 48.

Авторский ресурс Зорина Н.А.


После взрыва на СХК в 1993г. в Томске и Северске увеличилась частота рождения детей с пороками развития

Улумбекова Г.Э. Здравоохранение России. Что надо делать. Научное обоснование "Стратегии развития здравоохранения РФ до 2020 года".
Улумбекова Г.Э. Как отвечает законопроект «Об основах охраны здоровья граждан в РФ» на вызовы системе здравоохранения.

Улумбекова Г.Э.  Плюсы и риски нового законопроекта "Об обязательном медицинском страховании в Российской Федерации".

28 декабря 2012 г. Председатель Правительства РФ Д. Медведев Распоряжением № 2580-р утвердил «Стратегию развития медицинской науки в РФ до 2025 года». Вы можете ознакомиться с мнением президента Общества специалистов доказательной медицины, профессора В. Власова об этой Стратегии.
О проблемах здравоохранения. В России проходит реформа здравоохранения. Выбранные методы вызывают вопросы как в среде медицинского сообщества, так и среди пациентов. Гузель Улумбекова: Из-за реформы здравоохранения смертность в Москве выросла за январь-февраль 2015 г. на 8,5%. 


В новый век - с доказательной биомедициной
Газета ПОИСК, № 20 (522)
21 мая 1999
г.


Долгое прощание
с
лысенковщиной 

История науки не ограничивается перечислением успешных исследований. Она должна сказать нам о безуспешных исследованиях и объяснить, почему некоторые из самых способных людей не могли найти ключа знания, и как репутация других дала лишь большую опору ошибкам, в которые они впали.

Дж. Максвелл 

Функциональный кризис отечественной науки, переживаемый в последнее десятилетие, вынуждает беспристрастно анализировать основные причины этого явления [1-2, 45-47]. Последние результаты библиометрического анализа говорят о том, что вклад России в мировую науку по основным направлениям составляет уже порядка 5-8% [1-2]. По данным того же источника вклад США составляет 32-41%. 

Коммунистическая идеология, уродовавшая многие направления отечественной науки на потребу вождей, породила и такое явление, как лысенковщина. Для большинства читателей фамилия Лысенко ассоциируется с августовской сессией ВАСХНИЛ 1948 г. и разгромом генетики. Однако лысенковщину нельзя сводить только к запрету на генетику. Достигнув своего апогея в середине текущего века, и став воистину периодом средневековья в отечественной биологии и медицине, лысенковщина изуродовала и методологию этих наук, изгнав из них в частности математику, и в первую очередь статистику. Последствия этого уродства и по сей день не позволяют биологии и медицине приблизиться к статусу точных наук. В статье описаны основные этапы этого явления и особенности методологии применения статистики в биологии и медицине, полученные автором при анализе нескольких сот диссертаций и монографий а также более 1500 статей в области экспериментальной биомедицины. 


Автор понимает, что поднятая им проблема достаточно обширна и не может быть полностью освещена в одной статье, содержащей лишь малую часть материалов готовящейся к изданию монографии, посвященной проблемам применения статистики в медицине и биологии. Автор будет признателен читателям, которые выскажут свой взгляд на эту проблему, а также смогут дополнить авторские материалы новыми примерами.  Обсуждаемая в данной статье проблема может быть решена только общими усилиями всех заинтересованных в этом специалистов.

Работая над этой статьей, мне довелось несколько раз встречаться с одним из ректоров медицинского вуза. Обсуждая с ним предлагаемые в статье меры, направленные на исправление этого неприглядного положения, я с изумлением услышал от него такой ответ: "Как ученый - я "За", а как ректор - "Против"! И если так мыслит и говорит ректор, доктор медицинских наук, член-корреспондент РАМН, то несложно понять отношение к этой проблеме рядовых сотрудников такого вуза. Не потому ли многие из них представлены в разделе КУНСТКАМЕРА, вместе с моим собеседником, своими диссертациями и статьями...

За те несколько лет, что прошли с момента публикации этой статьи, а также статей  "В новый век - с доказательной биомедициной"(ПОИСК, N 20 (522) 21 мая 1999) и "Куплю 500 диссертаций! (Медицинская Газета N10 за 14.02.2001)", практически ничего не изменилось. Да, в России стали писать и говорить о доказательной медицине, проводить конференции по этой тематике, а в некоторых медицинских вузах даже открыли центры доказательной медицины. Однако откроем биомедицинские журналы и диссертации, и станет ясно, что это не более чем дань моде... 

 

Материалы по науковедению

В новый век - с доказательной биомедициной



1997 - 2017.© Василий Леонов. E-mail:

Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.

Отклики читателей статьи "Доказательная или сомнительная?"

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ

Т. Кун "Структура научных революций"