Яндекс.Метрика Проверка нормальности и сравнение групповых средних

Каждый слышит то, что понимает. Гете


"Люди перестают мыслить,
когда перестают читать
". Д. Дидро

Статистика посещаемости БИОМЕТРИКИ Яндекс
цитирования
Индекс цитирования

Наш адрес:

Выбрав любое изображение, кликните по нему мышкой, и Вы узнаете о статистике ...


Редактор БИОМЕТРИКИ
В. Леонов

  • 385
data-counter data-url="http://www.biometrica.tomsk.ru/">
Яндекс
цитирования
Яндекс цитирования
 

16.05.2011 г. на сайт пришло 2561 человек, открывших 3205 страниц
14.11.2011 г. на сайт пришло 2106 человек, открывших 3250 страниц
14.12.2011 г. на сайт пришло 2640 человек, открывших 3452 страницы
17.01.2012 г. на сайт пришло 2439 человек, открывших 3097 страниц
03.03.2012 г. на сайт пришло 2219 человек, открывших 3019 страниц
30.05.2012 г. на сайт пришло 3512 человек, открывших 4706 страниц
06.03.2014 г. на сайт пришло 2556 человек, открывших 3179 страниц
08.02.2015 г. на сайт пришло 2341 человек, открывших 2682 страницы

Если приходят, значит полезное находят...


Введение
Наши возможности. О возможностях статистического анализа
Леонов В.П. Ошибки статистического анализа биомедицинских данных. Международный журнал  медицинской практики, 2007, вып. 2, стр.19-35
Список научных и учебных изданий по биометрике и статистике
Материалы по науковедению
История биометрики
Статистическое рецензирование статей и диссертаций

Долгое прощание с лысенковщиной...
Семинар по биометрике в Красноярске



Если Вы сторонник использования
статистики, разместите на своём сайте
HTML-код нашего баннера:

BIOMETRICA - журнал для сторонников доказательной биологии и медицины
25 наиболее популярных ссылок, посещаемых нашими читателями
http://www.biometrica.tomsk.ru/comp_aver.htm
http://www.biometrica.tomsk.ru/erevan_8.html
http://www.biometrica.tomsk.ru/student.htm
http://www.biometrica.tomsk.ru/UNESCO%202010.pdf
http://www.biometrica.tomsk.ru/zakaz.htm
http://www.biometrica.tomsk.ru/zakaz_28.htm
http://www.biometrica.tomsk.ru/kk.htm
http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/stat_cardio1.htm
http://www.biometrica.tomsk.ru/error.htm
http://www.biometrica.tomsk.ru/STAT_CARDIO_2014.pdf
http://www.biometrica.tomsk.ru/logit_9.htm
http://www.biometrica.tomsk.ru/stat_cardio7.htm

http://www.biometrica.tomsk.ru/potencial.htm
http://www.biometrica.tomsk.ru/percent_00.htm
http://www.biometrica.tomsk.ru/lis.htm
http://www.biometrica.tomsk.ru/kamchat.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/zakaz_15.htm
http://www.biometrica.tomsk.ru/ftp/dict/cult/gramm.htm
http://www.biometrica.tomsk.ru/biometrica_15.htm
http://www.biometrica.tomsk.ru/stat_cardio5.htm
http://www.biometrica.tomsk.ru/krasnojarsk.htm http://www.biometrica.tomsk.ru/erevan_3.html
http://www.biometrica.tomsk.ru/logit_6.htm

Сравниваем средние, а также и ...

В. Леонов

Читай не затем, чтобы противоречить и опровергать;
не затем, чтобы принимать на веру;
и не затем, чтобы найти предмет для беседы;
но чтобы мыслить и рассуждать.
____________
Фрэнсис Бэкон


Оглавление

  1. Нормально и не нормально…
  2. Как возникает нормальное и не нормальное распределение
  3. А сколько этих взаимозависимостей?
  4. Сравниваем средние, дисперсии,  и т.д.
  5. Что сравнивать в корреляции и регрессии?
  6. Заключение. Список литературы

 


Сравниваем средние, дисперсии,  и т.д.

Наука есть не что иное,
как отображение действительности.
____________
Фрэнсис Бэкон

 

 

Сравнение групповых средних, является  одним из наиболее часто используемых методов проверки взаимосвязи между количественным и качественным признаком. То есть проверка статистической гипотезы о равенстве групповых средних. Когда с помощью конкретного статистического критерия отвергается гипотеза равенства групповых средних, то это как раз и означает наличие взаимосвязи между конкретным количественным признаком, и конкретным качественным, группирующим признаком. Напомним, что для таких зависимостей имеется показатель интенсивности связи, так называемый коэффициент детерминации η², обозначаемый в иных публикациях как R² (см. например, статью "Коэффициент детерминации" в Википедии). Величина этого показателя есть доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Формула коэффициента детерминации  приведена на стр. 121 в нашей книге  [37], изданной в 1990 г. Как и коэффициенты корреляции, этот показатель имеет значения от 0 до 1. Однако при количестве сравниваемых групп более 2-х, следует установить, между какими конкретными группами имеется различие средних, а между каким группами они не различаются. Например, при наличии трёх сравниваемых групп следует произвести сравнение средних для пар 1 – 2; 1 – 3, и 2 – 3. Поскольку вполне вероятно, что между некоторыми парами групп таких различий не будет, а между остальными парами групп различия будут. Весьма продуктивно такие результаты  отображать ещё и графически. И в зависимости от результатов проверки этих парных гипотез, имеет смысл проверки и иных парных гипотез. Например, таких  пар: 1– (2+3), (1+2) – 3, (1+3) – 2. Здесь (2+3) означает объединение групп 2 и 3 в одну общую группу, и т.п. И такое объединение разумно производить после принятия гипотезы о равенстве групповых средних в двух этих группах. И т.д.

Вернёмся к массиву исследователя G.L., в котором  32 количественных и 24 качественных признаков были представлены в 708 наблюдениях. Ниже на рисунке представлена гистограмма распределения значений количественного признака SP, полученная по 708 наблюдениям:

 

Кривая красного цвета изображает теоретическую нормальную функцию плотности распределения вероятности, с использованием вычисленных параметров распределения (среднее и дисперсия). Как видим, эта кривая весьма значительно отличается от фактического распределения значений этого признака. Проверка гипотезы нормальности распределения значений этого признака, с помощью критериев Шапиро-Уилка, Колмогорова-Смирнова с правкой Лиллиефорса, Крамера-фон-Мизеса и Андерсона-Дарлинга, отвергла нормальность распределения. Особенностью этого распределения можно также отметить и наличие двух значений моды (мода – наиболее часто встречающаяся величина признака). Видим, что первая мода находится в интервале 120-125, а вторая мода в интервале 140-145.

В таблице приведены оценки основных дескриптивных статистик признака SP.
N Mean Std.Dev. Coef.Var. Variance Std.Err. Range Median Max Min
708 129,95 12,58 9,68 158,28 0,47 60 127 166 106

    Выше мы уже говорили о том, что наличие не нормального распределения, в частности распределения асимметричного, свидетельствует о наличии неких зависимостей этого количественного признака от одного или нескольких других признаков. Причём эти другие признаки могут быть как дискретными, группирующими признаками, так и количественными признаками. Поскольку упомянутый набор данных содержал 32 количественных признака, и 24 качественных признаков, то, следовательно, для этого признака SP необходимо было провести оценку связей с 31 количественным и 24 качественными признаками. Что и было сделано, установив в результате наличие статистически значимых взаимозависимостей признака SP с 19 количественными признаками, и с 17 качественными признаками. Более того, при оценке взаимосвязей признака SP с остальными 31 количественными признаками, проводимой не по всему массиву в целом, а раздельно по подгруппам в каждом из 24 качественных признаков, было обнаружено наличие 79 статистически значимых взаимосвязей в 17 группах наблюдений. Все эти парные взаимосвязи были упорядочены по уменьшению интенсивности показателей связи. Наибольший интерес в этих парных взаимосвязях представляли группирующие признаки TIME и  PAT. Каждый из этих признаков содержал две подгруппы.

   Таким образом, если проводить оценку парных взаимосвязей не только по всему массиву данных, а раздельно в подгруппах, обусловленных отдельными градациями группирующих признаков, то общее количество возможных взаимосвязей многократно возрастает. И в этой ситуации вновь естественно возникает вопрос о целесообразности и необходимости выполнения такого большого объёма работы по проверке наличия/отсутствия таких связей. Для объяснения подобного возрастания объёма работы, покажем, как увеличится количество потенциальных парных взаимосвязей в данном массиве наблюдений. Выше мы уже показали, что количество парных взаимосвязей между количественными признаками равно 496. Поэтому для 57 градаций в упомянутых 24 качественных признаков, можно провести 496*57=28272  оценки этих парных взаимосвязей. То есть количество оцениваемых парных взаимосвязей увеличивается в 57 раз!

   Подобный многократный рост количества парных связей будет и для  комбинаций между парами качественных признаков, и для комбинаций одного количественного и одного качественного признака.  При принятии решения о целесообразности и необходимости выполнения подобных детальных исследований, следует помнить и о том, что при этом объём работы увеличивается на порядки не только для проведения самого анализа, но и для просмотра и оценки будущих результатов. Причём объём работы реализации первого этапа – выполнение самого анализа, может быть несколько уменьшен написанием аналитических программ с использованием внутренних языков используемых статистических пакетов. Что, естественно, доступно лишь профессиональным статистикам. Тогда как объём второй части – просмотр, оценка и интерпретация результатов усилиями самого специалиста в медицинской и биологической науке,  вообще не может быть уменьшен. Однако и в работе с оценкой и интерпретацией такого огромного объёма результатов есть свои положительные детали. В частности, с помощью профессионального статистика, пишущего программы анализа на специальном языке программирования, могут быть уменьшены объёмы  просматриваемых результатов, либо с его помощью конкретизировано, какие именно детали результатов следует исследователю-заказчику просматривать в первую очередь.

   Таким образом, принятие решения о первом этапе статистического анализа требует весьма аргументированного выбора вариантов анализа, что возможно только в результате сотрудничества двух специалистов – исследователя-медика или биолога, и профессионального биостатистика. В результате такого диалога и будет принято оптимальное решение о выборе раздельного анализа в подгруппах, которые являются основными, доминирующими в проводимом исследовании. Например, в подгруппах «Больной» и «Здоровый», или в подгруппах «До лечения» и «После лечения», или в подгруппах «Не летальный исход»  и «Летальный исход», и т.п. Именно такую практику планирования объёмов статистического анализа мы с коллегами используем уже более 30 лет. Вначале разрабатывая первую версию Программы работ по анализу данных исследователя (Заказчика). Она создаётся на основе результатов пробных анализов, соответствующих целям и задачам исследования, сформулированных исследователем-заказчиком. Далее эта первая версия 1-2 раза обсуждается с исследователем, и в результате принимается окончательная версия.

    Важнейшей особенностью таких диалогов является доступное объяснение исследователю потенциальных возможностей предлагаемых методов статистического анализа. Подобные объяснения специфики предлагаемых БЛОКОВ Программы работ, вводятся в текст Программы в начале каждого отдельного БЛОКА.  В результате таких диалогов примерно 50% исследователей соглашаются с предлагаемой версией Программы работ. 25% исследователей немного сокращают объём Программы, а последние 25% исследователей напротив, увеличивают этот объём, дополняя её новыми пунктами или БЛОКАМИ.

   Достаточно полезно при выборе этих вариантов анализа использовать возможности графических отображений распределения значений признаков.  Поскольку одним из основных группирующих признаков в упомянутом выше массиве данных был признак TIME, то целесообразно было рассмотреть гистограммы раздельно по двум подгруппам этого признака. Ниже представлены гистограммы распределения значений упомянутого признака SP для подгрупп TIME=1 и TIME=2. Кривые красного цвета изображают теоретические нормальные функции плотности распределения вероятности, с использованием параметров, полученных по выборкам.

 

     Глядя на эти рисунки, не сложно отметить, что эти две группы наблюдений отличаются не только средними значениями, но также существенно различаются и интервалами этих значений. То есть максимальными и минимальными значениями. Поэтому они сильно отличаются и значениями размахов (интервала, диапазона) – Range, равных разностям SPmax – SPmin . Если сравнить две эти гистограммы, то видно, что для группы TIME=1 вершина распределения не очень «острая». И такие распределения принято называть плосковершинными. Причём самая максимальная частота отдельного центрального интервала равна 79 наблюдениям (пациентам). И при этом интервал значений этого признака от 116 до 166, с разностью между максимальным  и минимальным значением равной  166-116=50.Тогда как для группы TIME=2 вершина распределения очень «острая». И такие распределения принято называть островершинными. А самая максимальная частота отдельного центрального интервала равна 136, при интервале значений этого признака от 106 до 127. А разность между максимальным  и минимальным значением равна  127-106=21.

В таблице приведены оценки основных дескриптивных статистик признака SP для каждой из двух этих подгрупп признака TIME.

TIME Mean N Std.Dev. Coef.Var. Variance Std.Err. Range Median Max Min
1 140,35 354 8,84 6,3 78,2 0,47 50 140 166 116
2 119,54 354 4,66 3,9 21,71 0,25 21 120 106 127

    Итак, основные отличия двух приведённых выше гистограмм  распределения SP в подгруппах TIME=1 и TIME=2, не только в структуре вершин, но и в интервале значений признака SP. Значения двух приведённых выше размахов различаются в 2,4 раза, а дисперсии (Variance) отличаются в 3,6 раза.Проверка гипотезы нормальности распределения значений этого признака, с помощью упомянутых выше статистических критериев,  отвергла нормальность распределения значений признака SP в обеих подгруппах. Подобные ситуации служат примером того, что при сравнении параметров распределения количественных признаков в отдельных группах, необходимо сравнивать не только средние, но и дисперсии.

  О необходимости проведения подобных сравнений свидетельствует и тот факт, что практически для всех количественных признаков, анализируемых в проведении исследований в медицине, указываются референтные интервалы. Например, для эритроцитов указывается интервал (3,100 – 5,700)*1012 /л, для гемоглобина указывается интервал (122,000 – 168,000) г/л, и т.п. Очевидно, что в этих случаях оптимальными могут считаться те группы, в которых не только средние значения близки к конкретным рекомендуемым значениям, но также в этих группах дисперсия имеет минимальное значение. То есть значения конкретного признака, у анализируемых наблюдений, ближе к оптимальному значению, а не к минимальному или максимальному.

  Однако для проверки гипотез о равенстве и неравенстве групповых дисперсий, вначале необходимо сделать выбор соответствующего статистического критерия. Как известно, первым таким критерием был предложен критерий Фишера – Снедекора. Чаще всего этот критерий называют просто F-критерием Фишера. Значение этого критерия равно отношению двух дисперсий. Причём в числителе должно быть помещено значение максимальной дисперсии, а в знаменателе – дисперсия из второй группы. То есть, используя приведённые выше в таблице значения двух групповых дисперсий, получаем значение F-критерия равное F=78,2/21,71 = 3,6.

  Однако теория F-критерия базируется на том, что исследуемые дисперсии получены в обеих группах с нормальным распределением значений признака. И если проверка нормальности распределения в одной, или в обеих группах, не подтверждает нормальный закон, то при проверке гипотез о равенстве двух дисперсий использовать F-критерий Фишера нельзя. В разделе 4.4. «О проверке однородности двух независимых выборок» издания [61], достаточно подробно описывается специфика проверки гипотез равенства групповых средних и дисперсий.  В частности, упоминается и о том, что при проверке гипотезы равенства двух дисперсий с помощью F-критерия Фишера, распределения значений признака в обеих сравниваемых группах должны иметь нормальный закон. А в том случае, если нормальный закон распределения в обеих группах сравнения не подтверждается упомянутыми выше критериями, то соответственно критерий Фишера использовать нельзя. И этот аспект весьма подробно описывается в большинстве материалов посвящённых F-критерию Фишера.

    При чтении этого аспекта, у читателя, не очень хорошо знающего теорию этого критерия, возникает резонный вопрос: А почему же в этом случае нельзя использовать F-критерий? Попробуем кратко объяснить эту особенность данного критерия. Итак, значение F-критерия равно отношению двух дисперсий. При этом распределение случайной величины, называемой F-отношением, определяется отношением двух дисперсий, величин, каждая из которых должна подчиняться распределению Пирсона Хи-квадрат:

              (5)

где m – степени свободы для распределения дисперсии в числителе, а n – степени свободы в знаменателе.

   Теперь следует напомнить, а как же получается распределение Пирсона Хи-квадрат? Данное распределение непосредственно связано с нормальным распределением. В частности, если стандартизованное нормальное распределение с нулевым средним и единичным стандартным отклонением, возвести в квадрат, то оно и будет подчиняться распределению Пирсона Хи-квадрат. Данный закон распределения был получен Пирсоном в 1900 году. Этот аспект построения распределения Пирсона описан практически во всех учебниках статистики.

    Очень ясно и доступно для медиков и биологов, это описание приведено в популярном издании [18]. В 11 главе «Теоретические распределения, используемые в статистических выводах» данного издания, достаточно подробно описаны следующие распределения: нормальное; Хи-квадрат; F-распределение; t-распределение. В отдельных четырёх разделах подробно описана основа каждого из этих четырёх распределений. Причём примеры этих распределений хорошо иллюстрируются вполне ясными и доступными графиками. А в конце этой главы, в разделе 11.5 «Соотношение между нормальным, t-, Хи-квадрат и F-распределениями», приведены формулы, показывающие функциональные взаимосвязи этих распределений между собой. Ниже приведём начальный фрагмент этого раздела на стр. 214:

   Таким образом, если распределение значений количественного признака в одной подгруппе сравнения не подчиняется нормальному закону, то в этом случае распределение получаемой дисперсии по данной подгруппе не подчиняется закону распределения Пирсона Хи-квадрат. Следовательно, и отношение двух дисперсий, обозначаемое как F, также не подчиняется распределению Фишера. Аналогичный вывод получается и в том случае, когда нет нормального распределения в обеих сравниваемых подгруппах. Следовательно, не проверяя нормальность распределения количественного признака в каждой из групп сравнения, исследователь, используя такие параметрические критерии, как t-критерий Стьюдента, Хи-квадрат Пирсона, и F-критерий Фишера-Снедекора, фактически получает не только весьма сомнительный результат, но и результат противоположный истинному.

    То есть, подтверждают нулевую гипотезу равенства средних или дисперсий, когда в действительности эта гипотеза отвергается, или наоборот. Поскольку в реальных, анализируемых количественных признаках, нормальный закон распределения подтверждается достаточно редко. Этот факт известен уже давно и упоминается во многих популярных изданиях по статистике. Например, в книге Шторм Р. «Теория вероятности и математическая статистика»  (М.: Мир. 1970. – 368 с.) на странице 67 читаем: «Следует, однако, подчеркнуть, что на практике часто приходится иметь дело со случайными величинами, распределёнными не по нормальному закону».

  А в книге Орлова А.И. «Прикладная статистика» (М.: Издательство «Экзамен», 2004. – 656 с.) на стр. 164 читаем: «В лаборатории прикладной математики Тартуского государственного университета проанализировано 2500 выборок из архива реальных статистических данных. В 92% гипотезу нормальности пришлось отвергнуть. …  Это означает, в частности, что большинство применений критерия Стьюдента, классического регрессионного анализа и других статистических методов, основанных на нормальной теории, строго говоря, не является обоснованным. Поскольку неверна лежащая в их основе аксиома нормальности распределений соответствующих случайных величин».  

    Об этом же читаем и на стр. 166: «В большинстве случаев распределения существенно отличаются от нормальных». А вот как данный аспект описывается в книге [7] на стр. 61. «Нормальное распределение.  Симметричная колоколобразная кривая была открыта Абрахамом де Муавром в 1733 году. … Однако для большинства физиологических случайных величин распределение имеет тенденцию к большей сглаженности, одновершинности и несимметричности, и диапазон среднее ± 2 среднеквадратичных отклонения не охватывает 95% значений». То есть автор издания как раз и утверждает, что большинство физиологических величин не имеют нормального распределения.

   В большом количестве исследований массивов данных по медицине, биологии, зоологии, агрохимии, экономике, металлургии, а также и по ряду специальных направлений, выполненных нами за последние 35 лет, нормальность распределения количественных признаков подтверждалась лишь в 5-10% случаев. И это можно трактовать как весьма надёжную информацию о том, что в большинстве случаев исследуемые количественные признаки имеют реальные взаимосвязи со многими другими качественными и количественными признаками. То есть отсутствие нормального распределения  является аргументом расширения списка проверяемых статистических гипотез о наличии подобных связей.

Следовательно, следует не только сравнивать групповые средние, то есть проверять наличие взаимосвязи между одним количественным и одним качественным признаком, но также производить иные сравнения, и анализ различных взаимосвязей. При этом учитывая наличие не только парных взаимосвязей признаков, но и наличие цепочек многомерных взаимосвязей. То есть следует использовать и различные многомерные методы анализа. Отметим, что данный факт фиксируется лишь практикующими исследователями, выполняющими проверки гипотез о нормальном законе распределения.

Если в Яндексе сделать запрос на выражение «как часто встречается нормальный закон распределения», то получим 2 млн результатов. Естественно, что в большинстве этих ссылок рассматриваются теории нормального закона. И во многих ответах можно прочитать выражения типа «Нормальный закон распределения наиболее часто встречается на практике». Однако при этом автор не уточняет, в какой конкретно практике нормальный закон встречается наиболее часто. Также в этих страницах кроме теории нормального закона распределения, не приводятся практические примеры проверки гипотез нормальности. То есть данные выражения написаны не практикующими статистиками, у которых нет реальных знаний о частотах нормального распределения признаков.

  Иные утверждения о частоте встречаемости нормального закона читаем на страницах написанных практикующими статистиками. Так по  ссылке "Большая Энциклопедия Нефти Газа. Нормальный закон – распределение" читаем: «Нормальный закон распределения наблюдается в тех случаях, когда на признак явления действует много факторов, каждый из которых мало связан с большинством других, и влияние каждого фактора на конечный результат существенно меньше суммарного влияния всех остальных факторов». Там же приводится и фрагмент из книги Котельникова Р.Б. «Анализ результатов наблюдений» [33], из которого приведено это предложение.

   Вот что написано на странице 76 этой книги. «Установлено, что для многих наблюдений распределение отдельных полученных результатов по отношению к среднему значению измеряемой величины характеризуется законом нормального распределения я ошибок (закон Гаусса).  Нормальный закон распределения наблюдается в тех случаях, когда на признак явления действует много факторов, каждый из которых мало связан с большинством других, и влияние каждого фактора на конечный результат существенно меньше суммарного влияния всех остальных факторов. Необходимо отметить, что установившаяся терминология "нормальный закон распределения" может натолкнуть на мысль о том, что именно этому закону должны соответствовать "нормальные", "правильные" экспериментальные данные. В действительности же это не так. Для этого не существует особых объективных причин, и распределение Гаусса (и основанное на нём распределение Стьюдента и др.) хорошо описывает реальные данные не чаще, чем другие. Так, например, указывалось, что среди 250 серий анализов, включающих 50000 отдельных определений, только в 10-15% случаев достаточно хорошо выполняется нормальное распределение.

Примеры, приведённые выше в гл. 2, также показывают отклонения от закона Гаусса. Можно, по-видимому, сказать, что только в некоторых случаях, благоприятных для постулированных Гауссом положений, это распределение выполняется достаточно точно, как, например, в геодезии, астрономии, иногда в аналитической химии и т.п. Тем не менее, это распределение занимает в статистическом анализе особое положение, что связано и с традицией, и с огромным и тщательно разработанным, удобным для использования математическим аппаратом».

   Итак, факт наличия не нормального закона распределения, является, по сути, весьма ценным свойством исследуемого количественного признака. Поскольку это есть отражение наличия различных реальных взаимосвязей данного количественного признака как с качественными, группирующими признаками, так и количественными признаками. То есть наличие не нормального распределения, является весьма надёжным аргументом в пользу проведения исследований достаточно большого количества различных видов взаимосвязей этих количественных признаков.

  Если сделать в Яндексе поиск на выражение «история нормального закона распределения», то получим 6 млн результатов. Первые результаты по нормальному закону распределения внёс Абрахам де Муавр в 1733 году.  Далее нор­мальное распределение вновь открыли и исследовали Карл Фридрих Гаусс (1809 г.) и Пьер-Симон Лаплас (1812 г.), которые исследовали теорию ошибок измерений. Если внимательно прочитать много ссылок данного поиска, то станет ясно, когда доминирует нормальное распределение. Вот одно из таких объяснений: «Нормальное распределение возникает тогда, когда на изменение случайной величины действует множество различных независимых факторов, каждый из которых в отдельности не имеет преобладающего значения». В частности, доминирование нормального закона распределения имеется у погрешностей многократных измерений одной и той же конкретной величины. Например, электрического напряжения у одного и того же источника напряжения, или одной и той же температуры, или одного и того же веса, и т.п.

   В качестве подобного примера расскажу об одной ситуации, которую обнаружила примерно 30 лет назад моя бывшая студентка, которая училась на вечернем экономическом факультете  Томского госуниверситета. Эта студентка работала на одном оборонном предприятии, на котором в весьма большом количестве использовались такие драгметаллы, как золото, серебро и платина. Данные металлы применялись в технологии создания радиоэлектронных изделий. И данная студентка, работая лаборантом, ежедневно взвешивала несколько сотен образцов этих металлов, передавая их работающим инженерам и технологам. При написании курсовой работы данная студентка производила по моему предложению порядка 100 взвешиваний одного и того же образца драгметалла на одних и тех же аналитических весах. Этот образец взвешивался ею на данных весах в течение 3-х месяцев в разное время рабочего дня.

 Анализ полученных взвешиваний показал, что получаемые при этом значения веса одного и того же образца драгметалла, взвешиваемого на одном и том же весовом устройстве, имели нормальное распределение. Однако при этом было установлено, что с течением времени средние значения веса одного и того же образца драгметалла уменьшались. То есть, вес неизменного конкретного образца драгметалла, через 3 месяца становился несколько меньшем, чем ранее, в самом начале серии его взвешиваний. Сравнение средних значений показало статистически значимое уменьшение средних весов на многих аналитических весах. При этом с течением времени изменялись и значения  дисперсий получаемых весовых значений. И это при том, что сам образец оставался неизменным и недоступным для откусывания от него каких-либо фрагментов.

  Отметим, что данная курсовая работа была предложена ввиду того, что со слов данной студентки в её лаборатории часто обнаруживалась недостача драгметалла. По результатам этой курсовой работы руководству соответствующего отдела было предложено сократить интервалы времени между проверкой и отладкой данных аналитических весов. В результате чего данный недостаток технологии взвешивания, обусловленный весьма большим количеством взвешиваний на одних и тех же весах, был ликвидирован.

   Напомним о весьма важной особенности функции плотности нормального распределения, называемой правилом 3 сигм, т.е. правилом 3 стандартных (среднеквадратичных) отклонений. Выше были приведены графики функции нормального распределения, согласно которой в интервалах ±s,  ±2s, и  ±3s от среднего значения, должны быть 68,26%, 95,44% и 99,72% всех анализируемых наблюдений. Естественно, что при отклонении гипотезы нормального отклонения в этих интервалах фиксируются частоты, весьма существенно иные. То есть либо гораздо меньшие, либо гораздо большие. Рассмотрим специфику не нормального распределения, при котором в нарушение правила 3 сигм наблюдается существенно меньшие частоты в указанных интервалах. То есть различия сравниваемых групп могут проявляться не только в различиях средних значений, но также и в различиях дисперсий.

    Для проверки гипотез равенства дисперсий в группах с нормальным распределением, можно использовать такие популярные критерии, как Фишера, Бартлетта, Хатрли, Кохрана, и т.д. А в том случае, когда гипотезы нормальности отвергаются, то достаточно эффективно проверять гипотезы равенства дисперсий с помощью непараметрических критериев Ансари-Бредли [90] и Сиджела-Тьюки  [95].

  Вернёмся к рассмотренному выше примеру анализа признака SP. Напомню, что основные отличия двух приведённых выше гистограмм  распределения SP в подгруппах TIME=1 и TIME=2, были в том, что в первой подгруппе распределение плосковершинное, а во второй подгруппе распределение островершинное. А также в различном виде асимметрий двух этих распределений. Об основных причинах подобных распределений, мы писали ещё в своей книге  [37] на стр. 22-28. Так на стр. 25 этой книги приводится следующая гистограмма с плоской вершиной:

 

Причиной возникновения плосковершинного распределения в этом издании назван сдвиг, дрейф центра распределения в подгруппах, которые в совокупности образуют анализируемую единую группу. Выше уже сообщалось, что упомянутый набор данных содержал 24 качественных признака. Просмотр распределений значений признака SP в отдельных подгруппах этих 24 признаков показал различные результаты. То есть в некоторых подгруппах расположение гистограмм различалось не очень сильно. То есть упомянутый сдвиг, дрейф центра распределения, был не велик. А в других подгруппах такие сдвиги были весьма существенными. Ниже приведён пример такого различия гистограмм признака SP в двух подгруппах по признаку PAT при значениях признака TIME=1  и GROUP=1:

В приведённой ниже таблице видно, что в группе PAT=2 стало больше не только среднее значение признака SP, но также и дисперсия (Variance), коэффициент вариации и размах.

TIME PAT N Means Median Std.Dev. Coef.Var Variance Std.Err. Range
1       1 151 133,18 132,00 4,48 3,37 20,11 0,36 20,00
1       2 203 146,15 145,00 6,93 4,74 48,04 0,49 34.00

Проверка гипотез нормальности распределения признака SP упомянутыми выше критериями, раздельно в каждой из двух этих подгрупп, также отвергла нормальность обоих распределений. Гораздо большая дисперсия признака SP в группе сравнения PAT=2, по сравнению с группой PAT=1, является аргументом в пользу того, чтобы провести отдельное исследование разных взаимосвязей в этой второй группе. Поскольку одной из причин такой большой дисперсии может быть различие между собой нескольких иных подгрупп сравнения, что и приводит к существенному возрастанию дисперсии. Такие сравнения были произведены в группах по 23 качественным признакам. Общее количество этих групп равняется 55. Во многих сравнениях были обнаружены статистически значимые различия, как средних величин, так и дисперсий.

Ниже приведён  график с тремя гистограммами распределений  признака SP по 3 группам признака PAT, которые входят в группу GROUP=2 при TIME=1. Кривые линии отображают теоретические функции плотности для трёх этих групп наблюдений по признаку SP.

  

На данном графике видим, что все 3 распределения перекрываются друг с другом. И при этом отчётливо видно смещение параметров этих групп в сторону увеличения. В частности, в группе PAT=1  среднее значение M=119,45, а дисперсия s2= 22,68. В группе PAT=2 среднее значение M=131,84, а дисперсия s2= 32,34;  в группе PAT=3  среднее значение M=146,15, а дисперсия s2= 48,04.  То есть увеличиваются значения не только средних, но и дисперсий. Ниже представлены раздельно три этих гистограммы. 

А теперь сделаем аналогичный анализ для двух этих групп PAT при значении TIME=2.

TIME

PAT

N

Means

Median

Std.Dev.

Coef.Var.

Variance

Std.Err.

Range

2      

1

174

119,31

120,00

4,66

3,90

21,68

0,35

21,00

2      

2

180

119,77

120,00

4,66

3,89

21,74

0,35

20,00

   Итак, в этих группах параметры распределения почти равны практически все. Проверка гипотезы нормальности распределения значений этого признака, с помощью критериев Шапиро-Уилка и Колмогорова-Смирнова с правкой Лиллиефорса, не отвергла эти гипотезы. Приведённые выше графики с гистограммами для количественной переменной SP, являются с одной стороны отражением вида распределения, – нормального, или не нормального, а с другой стороны и графическим отображением наличия или отсутствия взаимосвязи между переменной SP и группирующим признаком. Выше мы сообщали о том, что для 32 количественных переменных, при наличии 24 качественных признаков, можно (и следует!) исследовать 32*24=768 взаимосвязей. А поскольку гистограммы строились для разных комбинаций пары группирующих признаков, – PAT и TIME, то очевидно, что количество подобных парных взаимосвязей может быть равно не 768, а значительно больше. Например, для каждой из двух отдельных градаций группирующего признака TIME можно исследовать  23*32=736 парных взаимосвязей. А общее количество таких взаимосвязей для двух этих градаций будет равно 736*2=1472.

Если сделать аналогичные расчёты и для других группирующих признаков, то это суммарное количество станет весьма огромным. Напомню, что в подобных ситуациях исследователю следует принимать решение о количестве анализируемых взаимосвязей в результате обсуждения этих деталей с профессиональным статистиком.Не менее актуальным является процедура сравнения долей, пропорций для качественных признаков. То есть производится проверка гипотезы равенства, например, пропорций Р1 и Р2 в популяциях (генеральных совокупностях), из которых были взяты две анализируемые выборки, и получены выборочные значения пропорций р1 и р2. Две альтернативные статистические гипотезы, для подобных сравнений, можно записать следующим образом:H0: Р1 = Р2;  H1: Р1 ≠ Р2.  В качестве примера проверки подобной статистической гипотезы, воспользуемся описанием из [83], приведённым на стр. 34-35. Пропорции для выделенного признака в двух независимых выборках

 

Размер выборки Пропорция
Выборка 1
Выборка 2
Объединённая
n1.
n2.
n..
p1 (=n11/ n1.)
p2 (=n21/ n2.)
p.. (=n.1/ n..)

Значение n.1 вычисляется по следующей формуле:   n.1 = n1.* p1 + n2.* p2 . Для проверки статистической значимости разности между p1 и p2 оценивается z-статистика с  помощью следующей формулы:

   (6)

Напоминаем, что детали сравнения двух долей, и приведённой выше формулы, приведены в книге [83], стр. 34-35.  В качестве примера сравнения двух подобных долей, используем табл. 2.7 со стр. 35 [83]:

 

Размер
выборки

Пропорция объектов с признаком В

Наличие А 
Отсутствие А
Всего

150
50
200
0,10 = p1
0,20 = p2
0,125 = p..

Напомним, как вычисляется значение p.. :

p.. = (150*0,1 + 50*0,2)/200 = (15+10)/ 200 = 25/200=0,125

     (7)

Если величину z = 1,604755  возвести в квадрат, то получим значение z2 = 2,575238 ≈ 2,58. Это значение приведено в выражении (2.2) на стр. 29 , при анализе 4-х клеточной таблицы сопряжённости  [83].     

       В задачах сравнения долей (пропорций) полезна также оценка доверительного интервала для разности между этими независимыми пропорциями. Достаточно подробно эта оценка описана на стр. 41-42  в [83]. Ниже приведём фрагмент этого описания с формулами и образцом расчёта такого доверительного интервала. «Когда допускается, что пропорция Р1 и Р2 могут быть неравными, хорошей оценкой стандартной ошибки разности р1 – р2 является следующая:

 

где q1 = 1- p1 и q2 = 1- p2 .  Предположим, что n1. n2. велики в том смысле, что ni* pi ≥ 5  и  ni*qi ≥  5 для i=1,  2 и что требуется построить 100 (1–α) %-ный доверительный интервал для разности Р2 – Р1 . Пусть сα/2 обозначает величину, отсекающую долю вероятности α/2 от верхнего хвоста стандартной нормальной кривой (1– α/2) – квантиль» [83].

ЛГДИ ≤ Р2 – Р1 ≤ ПГДИ,

где ЛГДИ – Левая Граница Доверительного Интервала;

       ПГДИ –Правая Граница Доверительного Интервала.

Ниже приведём формулы для ЛГДИ и ПГДИ.

  Данный интервал ЛГДИ ≤ Р2 – Р1 ≤ ПГДИ таков, что будет включать истинную разность пропорций приблизительно в 100*(1– α)% случаев.

«Рассмотрим, например, данные из табл. 2.7. Выборочная разность есть p2 – p1 = 0,10 , и оценка её стандартной ошибки

Приближённый 95%-ный  доверительный интервал для истинной разности равен 0,10–1,96*0,062 – 0,013 ≤Р2 – Р1 ≤0,10 + 1,96*0,062 + 0,013. Или  0,035 ≤Р2 – Р1 ≤ +0,235. Интервал включает значение 0, что согласуется с полученным ранее отрицательным результатом (см. уравнение (2.6)) при попытке найти значимое различие между p1 и  p2» [83].

  Приведённые выше формулы несложно реализовать в пакете EXCEL.

   Сравнения групповых средних и дисперсий являются важными процедурами статистического анализа исследуемых массивов данных. Однако следует помнить, что используемые групповые признаки не всегда достаточно полно и адекватно выражают наличие фактически имеющихся группировок наблюдений. То есть помимо установленных, зафиксированных групп наблюдений, очень часто в анализируемой генеральной совокупности (популяции), из которой взяты анализируемые массивы наблюдений, есть и скрытые, латентные группировки.  И такие скрытые группировки следует обязательно обнаруживать, используя различные методы. Например, метод кластерного анализа [1, 24, 53, 81].

   Алгоритмы  кластерного анализа содержат сравнения между собой наблюдений. Например, если по всем признакам два наблюдения идентичны, то есть «расстояние» между этими двумя наблюдениями равно нулю, то эта первая пара образует первый кластер. И далее с этим кластером сравниваются другие наблюдения, или другие кластеры. Отмечу, что кластерный анализ содержит очень большое количество различных алгоритмов сравнения и кластеризации. В результате применения этого метода сравнений наблюдений, в анализируемом массиве наблюдений обнаруживаются скрытые, латентные группировки наблюдений – кластеры. Ниже приведён график с дендрограммой, полученной в результате процедуры кластерного анализа наблюдений ранее упомянутого массива, по одному из популярных алгоритмов. Структура данной дендрограммы свидетельствует о наличии нескольких латентных группировок наблюдений. В частности, двух, трёх и четырёх кластеров.

    Наличие подобных латентных группировок активирует сравнение этих установленных групп. В частности, сравнение и групповых средних, и дисперсий, и т.д. Сравнение этих групп (кластеров) позволит проверить не только равенство/неравенство средних значений количественных признаков, но и взаимосвязи этих кластеров со всеми качественными, группирующими признаками, а также установить их структуру с помощью такого мощного метода, как логистическая регрессия. При этом для интерпретации структуры этих выявленных группировок наблюдений, обязательно следует произвести упомянутые выше методы сравнения и взаимосвязей.

Далее: Что сравнивать в корреляции и регрессии?

 

 

Центр БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. (См. далее )

Отзывы заказчиков по статистическому анализу данных

Сравниваем средние, а также и ... В. Леонов Исследователям в медицине и биологии весьма большую пользу приносит сравнение не только групповых средних, но также и иных параметров. Показано, что не нормальное распределение количественного признака, означает наличие взаимосвязей данного признака с другими признаками.


Проценты - статистический анализ? Или проценты - арифметический анализ? В. Леонов.


23 примера оформления данных, их описания и описания целей исследования


В ноябре 2013 года сайту БИОМЕТРИКА исполнилось 16 лет. А что было раньше? И что теперь?

БИОМЕТРИКЕ - 18 лет! 19 ноября 2015 года нашему сайту исполнилось 18 лет с момента его создания. За прошедший год произошло очень много общения со специалистами в медицине и биологии из разных городов и стран. По их просьбе была продолжена серия статей по логистической регрессии. Также было выполнено много работы по статистическому анализу собранных ими данных...


Примеры отличных результатов статистического анализа в диссертациях, дипломных работах и статьях, полученных с нашей помощью.

Д.С. Симанков. Применение метода логистической регрессии для факторов риска, влияющих на исход операции в условиях искусственного кровообращения. (статья)

В.В. Половинкин. Тотальная мезоректумэктомия — фактор повышения эффективности лечения среднеампулярного и нижнеампулярного рака прямой кишки.  (диссертация на соискание учёной степени доктора медицинских наук)

Н.Г. Веселовская.  Клиническое и прогностическое значение эпикардиального ожирения у пациентов высокого сердечно-сосудистого риска.  (диссертация на соискание учёной степени доктора медицинских наук)

О.Я. Васильцева. Закономерности возникновения, клинического течения и исходов тромбоэмболии легочной артерии по данным госпитального регистра патологии.  (диссертация на соискание учёной степени доктора медицинских наук)

В.А. Габышев.  Фитопланктон крупных рек Якутии и сопредельных территорий восточной Сибири.  (диссертация на соискание учёной степени доктора биологических наук)

М.И. Антоненко.  Гиперкортицизм без специфических клинических симптомов:
эпидемиология, клиника, диагностика
.  (диссертация на соискание учёной степени кандидата медицинских наук)

Study of the Factors Influencing Mortality from the Cerebral Stroke in Patients of Different Ages.
Vazgen Martirosyan1 and Julia Krupskaya, Department of Nervous Diseases and Neurosurgery, Rostov State Medical University, Rostov-on-Don 344000, Russia. British Journal of Medicine & Medical Research, 3(4): 1530-1557, 2013.

Попова Г.А. Сравнительное изучение подвидов LINUM USITATISSIMUM L . в условиях Западной  Сибири (диссертация на соискание учёной степени кандидата биологических наук).

А.Г. Сыркина. Ретроспективный анализ эффективности и безопасности тромболитической терапии острого инфаркта миокарда у больных пожилого и старческого возраста (диссертация на соискание учёной степени кандидата медицинских наук).


Роль «малых» доз ионизирующего излучения в развитии неонкологических эффектов: гипотеза или реальность? Бюллетень сибирской медицины, № 2, 2005, с. 63-70. Карпов А.Б., Семенова Ю.В., , Тахауов Р.М., Литвиненко Т.М., Попов С.В., Леонов В.П.

В. Леонов. Цели, возможности, и проблемы использования биостатистики в доказательной медицине. Доклад на Конференции по доказательной медицине в Ереване «От доказательной медицины к доказательному здравоохранению» (24 - 26 сентября 2015 года).

Фоторепортаж с семинара по биометрике в Ереване, прошедшего после конференции по доказательной медицине (24 - 26 сентября 2015 года).

Отзывы слушателей семинара по биометрике в Ереване в сентябре 2015 г.


Новые полезные книги...

(Заказать книгу можно через издательство)

Ланг Т., Сесик М. Как описывать статистику в медицине. Руководство для авторов, редакторов и рецензентов. Пер. с англ. В.П. Леонова. 2016 - 480 с.

Петри А., Сэбин К. Наглядная медицинская статистика. Учебное пособие. 3-е издание. Пер. с англ. В.П. Леонова. 2015. - 216 с.

Банержи А. Медицинская статистика понятным языком: вводный курс. Издательство "Практическая медицина", 2014. - 287 с. Пер. с англ. В.П. Леонова.

Т. Гринхальх. Основы доказательной медицины. Издательство "ГЭОТАР-Медиа", 2015. - 336 с. 4-е издание переработанное и дополненное. Пер. с англ. Под ред. И.Н. Денисова, К.И. Сайткулова, В.П. Леонова.

В.В. Мартиросян, Ю.А. Долгушева. Анализ влияния гелиогеофизических и метеорологических факторов на инсульты с учётом фаз солнечного цикла. Ростовский государственный медицинский университет. – Ростов н/Д.: Изд-во"АкадемЛит" (ИП Ковтун С.А.) 2014г. 414 с. ISBN 978-8-904067-03-8.

В монографии приведены и проанализированы результаты углублённого статистического анализа ретроспективных данных из протоколов вскрытий лиц, умерших от мозговых инсультов (1135 случаев) за годы высокой (2000–2002 гг) и низкой (2008–2010 гг) солнечной активности на примере г. Ростов-на-Дону. Наблюдаемый в настоящее время очередной максимум солнечной активности актуализирует необходимость сбора, обработки и осмысления новых научных данных, содействующих прогнозированию и разработке профилактических мер по снижению заболеваний у разных групп населения, вызываемых магнитными бурями при усилении активности Солнца. Отмечается, что в формировании сосудистых заболеваний головного мозга прослеживается совокупное влияние множественных факторов риска.


Неравнодушные!
Приглашаем в ДИССЕРНЕТ!
Это не про науку.
Это про репутацию и вран
ьё

DisserNet

Сетевое сообщество "Диссернет" заявило о наличии заимствований в диссертации главы Минсельхоза Александра Ткачева. Результаты экспертизы опубликованы на сайте проекта.

ВАК вынужден идти навстречу Диссернету. Это очень трудно — заставить ВАК исполнять закон и следовать морали. Но многое получается. Присоединяйтесь к Диссернету — это важнейшее дело, которое вы можете сделать для русской науки.

ЮНЕСКО отмечает снижение вклада России в мировую науку. ЮНЕСКО после пятилетнего перерыва опубликовала доклад по науке до 2030 года. Статистические показатели для России ухудшились по сравнению с большинством ведущих научных стран, несмотря на то, что многие данные взяты из официальных российских источников.

Что губит российскую науку и как с этим бороться. Георгий Георгиев, академик РАН, координатор программы РАН «Молекулярная и клеточная биология». В этой статье рассматривается вопрос, почему все эти виды открытой науки в нашей стране отстают и что надо сделать для их прогресса.

«РОССИЯ БЕЗ НАУКИ — ТРУБА». 29 мая 2015 года в Москве прошла третья сессия Конференции научных работников. Публикуем несколько выступлений, прозвучавших на этом форуме.

Георгий Базыкин. Неолысенковщина, финансируемая
государством
. При принятии решений о том, что является наукой, а что — лженаукой, государству стоило бы посоветоваться с учёными.

Плохая наука.
НЕКОРРЕКТНЫЕ ИССЛЕДОВАНИЯ
ПРИВОДЯТ К ЛОЖНОМУ ЗНАНИЮ, ИНОГДА —
ГИБЕЛИ ЛЮДЕЙ

ПОЛОВИНУ ОТКРЫТЫХ НАУЧНЫХ ЖУРНАЛОВ НАЗВАЛИ «МУСОРОМ» ... Результат был ошеломляющим: 157 журналов приняли заведомо «бракованные» статьи к публикации, причем около 80 из них даже не подвергали их должной проверке. Отвергли статьи 98 журналов, а остальные к настоящему моменту не успели принять решения. ...«Журналы без контроля качества деструктивны, особенно для развивающихся стран, где правительственные учреждения и университеты заполнены людьми с фальшивыми научными званиями»

Международная сеть агентств по оценке медицинских технологий

Отзывы на
авторефераты и
диссертации

Диссертационные войны. Как борьба с плагиатом в диссертациях переместилась из науки в политику

ВЛАДИМИР ФИЛИППОВ. «Закрутим гайки – и пена уйдет». Интервью с председателем ВАК Владимиром Филипповым.

Дело о крови и лимфе. "Диссернет" всерьёз занялся врачами

Доказательная медицина: история, эволюция, роль в медицине

В.В. Фадеев. Представление данных в оригинальных работах и их статистическая обработка.
Проблемы эндокринологии – 2002 - Т. 48, N 3. – С. 47 – 48.

Авторский ресурс Зорина Н.А.


После взрыва на СХК в 1993г. в Томске и Северске увеличилась частота рождения детей с пороками развития

В новый век - с доказательной биомедициной
Газета ПОИСК, № 20 (522)
21 мая 1999
г.



Долгое прощание
с
лысенковщиной 

История науки не ограничивается перечислением успешных исследований. Она должна сказать нам о безуспешных исследованиях и объяснить, почему некоторые из самых способных людей не могли найти ключа знания, и как репутация других дала лишь большую опору ошибкам, в которые они впали.

Дж. Максвелл 

Функциональный кризис отечественной науки, переживаемый в последнее десятилетие, вынуждает беспристрастно анализировать основные причины этого явления [1-2, 45-47]. Последние результаты библиометрического анализа говорят о том, что вклад России в мировую науку по основным направлениям составляет уже порядка 5-8% [1-2]. По данным того же источника вклад США составляет 32-41%. 

Коммунистическая идеология, уродовавшая многие направления отечественной науки на потребу вождей, породила и такое явление, как лысенковщина. Для большинства читателей фамилия Лысенко ассоциируется с августовской сессией ВАСХНИЛ 1948 г. и разгромом генетики. Однако лысенковщину нельзя сводить только к запрету на генетику. Достигнув своего апогея в середине текущего века, и став воистину периодом средневековья в отечественной биологии и медицине, лысенковщина изуродовала и методологию этих наук, изгнав из них в частности математику, и в первую очередь статистику. Последствия этого уродства и по сей день не позволяют биологии и медицине приблизиться к статусу точных наук. В статье описаны основные этапы этого явления и особенности методологии применения статистики в биологии и медицине, полученные автором при анализе нескольких сот диссертаций и монографий а также более 1500 статей в области экспериментальной биомедицины. 


Автор понимает, что поднятая им проблема достаточно обширна и не может быть полностью освещена в одной статье, содержащей лишь малую часть материалов готовящейся к изданию монографии, посвященной проблемам применения статистики в медицине и биологии. Автор будет признателен читателям, которые выскажут свой взгляд на эту проблему, а также смогут дополнить авторские материалы новыми примерами.  Обсуждаемая в данной статье проблема может быть решена только общими усилиями всех заинтересованных в этом специалистов.

Работая над этой статьей, мне довелось несколько раз встречаться с одним из ректоров медицинского вуза. Обсуждая с ним предлагаемые в статье меры, направленные на исправление этого неприглядного положения, я с изумлением услышал от него такой ответ: "Как ученый - я "За", а как ректор - "Против"! И если так мыслит и говорит ректор, доктор медицинских наук, член-корреспондент РАМН, то несложно понять отношение к этой проблеме рядовых сотрудников такого вуза. Не потому ли многие из них представлены в разделе КУНСТКАМЕРА, вместе с моим собеседником, своими диссертациями и статьями...

За те несколько лет, что прошли с момента публикации этой статьи, а также статей  "В новый век - с доказательной биомедициной"(ПОИСК, N 20 (522) 21 мая 1999) и "Куплю 500 диссертаций! (Медицинская Газета N10 за 14.02.2001)", практически ничего не изменилось. Да, в России стали писать и говорить о доказательной медицине, проводить конференции по этой тематике, а в некоторых медицинских вузах даже открыли центры доказательной медицины. Однако откроем биомедицинские журналы и диссертации, и станет ясно, что это не более чем дань моде... 

Материалы по науковедению

В новый век - с доказательной биомедициной

  • В. Леонов. Когда нельзя, но очень хочется, или Ещё раз о критерии Стьюдента. К большому сожалению, в большинстве учебников, в которых рассматривается критерий Стьюдента, не акцентируется внимание читателей на ограничениях этого критерия, и на последствиях их нарушения. Вот как пишет об этом известный специалист в области прикладной статистики профессор А.И. Орлов в своей книге ЭКОНОМЕТРИКА (Издательство ЭКЗАМЕН, Москва, 2004. - 576 с.). "Приведённые описания экспериментальных данных показывают, что погрешности измерений в большинстве случаев имеют распределения, отличные от нормальных. Это означает, что большинство применений критерия Стьюдента, ... строго говоря, не является обоснованным, поскольку неверна лежащая в их основе аксиома нормальности распределений  соответствующих случайных величин. Очевидно, для оправдания или обоснованного изменения существующей практики анализа статистических данных требуется изучить свойства процедур анализа данных при «незаконном» применении. Изучение процедур отбраковки показало, что они крайне неустойчивы к отклонениям от нормальности, а потому применять их для обработки реальных данных нецелесообразно; поэтому нельзя утверждать, что произвольно взятая процедура устойчива к отклонениям от нормальности". Именно Александр Иванович в своём письме от 4 апреля 1998 г. и обратил моё внимание на эту проблему.( Сравнение 1-й и 4-й стадии злокачественной опухоли яичников) ч.1.
  • В. Леонов. Когда нельзя, но очень хочется, или Ещё раз о критерии Стьюдента. ч.2.
  • ОБ ИСПОЛЬЗОВАНИИ ПРИКЛАДНОЙ СТАТИСТИКИ ПРИ ПОДГОТОВКЕ ДИССЕРТАЦИОННЫХ РАБОТ ПО МЕДИЦИНСКИМ И БИОЛОГИЧЕСКИМ СПЕЦИАЛЬНОСТЯМ. Бюллетень ВАК РФ. В.П. Леонов, П.В.Ижевский.

Кунсткамера
Один из моих коллег по Томскому госуниверситету долгое время собирал коллекцию под названием "Бредотека". В ней он коллекционировал разнообразные примеры бредовых идей, сообщений и высказываний. Другие собирают аналогичные коллекции под названием "Абсурдотека". Свою коллекцию образцов статистической некорректности, а подчас и невежества, мы решили назвать "Кунсткамера".
Открыт зал экспонатов журнала "Бюллетень экспериментальной биологии и медицины". Подведены итоги конкурса на эпиграфы к этому разделу

Новый экспонат КУНСТКАМЕРЫ: Диссертация Порываевой О.В., Барнаул, 2004 г. "...Полагаю, что отмеченных выше недостатков уже более чем достаточно, чтобы обратиться в ВАК РФ с предложением о повторном изучениии данной работы в экспертном совете ВАК.

Обновление раздела КУНСТКАМЕРА - диссертации "Содержание микронутриентов у школьников г. Сургута", "Организационно-методические условия оздоровительных занятий студенток специальной медицинской группы с диагнозом нейроциркуляторная дистония", Сургутский государственный университет.


Как две капли воды... Удивительные совпадения встречаются подчас в текстах журнальных статей, диссертаций и книг разных авторов. Этому феномену и посвящён данный раздел, который открывает ЭКСПЕРИМЕНТАЛЬНО-МЕДИЦИНСКАЯ ГАВРИЛИАДА".
Вы ко мне писали... (Переписка с нашими читателями)
- Выпуск 2
- Выпуск 1


1997 - 2017.© Василий Леонов. E-mail:

Доказательная или сомнительная? Медицинская наука Кузбасса: статистические аспекты.

Отклики читателей статьи "Доказательная или сомнительная?"

Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ

Т. Кун "Структура научных революций"