Яндекс.Метрика Мнимые повторности, бесплодные дискуссии, и интернациональная сущность науки: Ответ Д. В. Татарникову
Каждый слышит то, что понимает. Гете

Часть материалов сайта доступна только подписчикам. На период подписки они имеют возможность оперативной консультации по статистическому анализу биомедицинских данных. Запрос на подписку направляйте редактору БИОМЕТРИКИ.

Дисперсия жизни...
;Регистрационный код (если есть) 
; Открывать в новом окне?  ;Имя нового окна 
; Разрешение (1-8)  ; Скорость смены (1-255)  ; Задержка (миллисекунд)  ; Смена рисунков со спецэффектами ("YES" или "NO")  ;Произвольный рисунок поверх апплета  ;X смещение наложенного рисунка  ;Y смещение наложенного рисунка  ;Задержка освобождения памяти  ;Приоритет задачи (1..10)  ; Мин. время синхр. кадра (мс); Sorry, your browser doesn't support Java ; Сообщение для браузеров без поддержки Java (tm) 

Кликните по фотографии,
и вы сможете ...


Мнимые повторности, бесплодные дискуссии, и интернациональная сущность науки:

Ответ Д. В. Татарникову

М. В. Козлов1, С. Х. Хёлберт2
1 Университет г. Турку, Биологический факультет, Секция экологии,
20014 Турку, Финляндия
2 Университет г. Сан-Диего, Биологический факультет и Центр внутренних вод, Сан Диего, Калифорния 92182-4614, США

Журнал общей биологии, 2006,
том 67, № 2, с. 145 - 152.


Взгляды Д.В. Татарникова (2005) на планирование экологических экспериментов и анализ их результатов представляют серьезную опасность для читателей, не обладающих глубокими познаниями в современной статистике, ввиду ошибочной трактовки понятий «мнимая повторность» и «статистическая независимость». Мы детально обсуждаем обе эти концепции, а также связанные с ними понятия «экспериментальная единица» и «измеряемая /оцениваемая единица», в применении к исследованиям, рассмотренным  Д.В. Татарниковым (2005). Мы подчеркиваем необходимость освоения опыта, накопленного мировым научным сообществом, для того, чтобы не повторять ошибки предшественников, детально проанализированные в многочисленных публикациях.

«Ни в одной области знаний качество книг либо более коротких публикаций (статей) не снизилось так, как в науке … исправить ситуацию можно, если каждый будет писать меньше работ более высокого качества … Среди современных ученых укоренилось убеждение, что публикация – точнее, множество публикаций, - их неотъемлемое право … публикация статьи из выдающегося события превратилась в рутину, и публикация любого и каждого результата стала нормой … а процесс публикации практически утратил свою прежнюю функцию контроля качества … Студенты ни в коем случае не должны забывать о том, что было опубликовано ранее … Огромная волна болтовни, содержащейся в современной профессиональной литературе, может изолировать ученых от их интеллектуального фундамента».

Keith Stewart Thomson (1984)


ДОЛЖНА ЛИ РОССИЙСКАЯ НАУКА ИДТИ ОСОБЫМ ПУТЕМ?

Мы польщены, удивлены и обеспокоены публикацией критических замечаний Д.В. Татарникова (2005). Польщены, поскольку появление этой публикации свидетельствует о том, что первая из задач статьи М.В. Козлова (2003а) – привлечь внимание Российских ученых к проблеме мнимых повторностей в экологических исследованиях, – была достигнута. Мы надеемся, что теперь даже те экологи, которые не заинтересовались статьей М.В. Козлова (2003а; сокращенный и переработанный вариант опубликован на английском языке – Kozlov, 2003b), обратят на нее внимание и, возможно, ознакомятся с публикацией Хёлберта (Hurlbert, 1984), в которой впервые было дано исчерпывающее описание проблемы.

Удивление, однако, вызывает слабая обоснованность критических замечаний. Д.В. Татарников (2005) поделился с читателями «Журнала Общей Биологии» своими личными впечатлениями, не ознакомившись с многочисленными публикациями (помимо Hurlbert, 1984), в которых обсуждается рассматриваемая проблема. В частности, Д.В. Татарников (2005) считает корректным статистический анализ, проведенный авторами трех работ, которые были классифицированы М.В. Козловым (2003а) как основанные на простых мнимых повторностях. Однако структура экспериментов, описанных в этих работах, и связанные с ней статистические проблемы весьма сходны с обсуждавшимися ранее (Underwood, 1981, 1997; Hurlbert, 1984, 2004; James, McCulloch, 1985; Machlis et al., 1985; Kroodsma, 1989; Mead, 1988; Hairston, 1989; Hurlbert, White, 1993; Wise, 1993; Heffner et al., 1996; Lombardi, Hurlbert, 1996; Garcia-Berthou, Hurlbert, 1999; Krebs, 1999; Morrison, Morris, 2000; Ramirez et al., 2000; Kroodsma et al., 2001; Jenkins, 2002; Cottenie, De Meester, 2003; Hurlbert, Meikle, 2003; Ruxton, Colegrave, 2003; Hurlbert, Lombardi, 2004; Millar, Anderson, 2004). Сходные ошибки часто встречаются и в медицинских экспериментах, где они обозначаются как ‘фиктивные повторности’ (spurious replication), ‘инфляция повторностей’ (trial inflation), либо ‘проблема выбора единицы анализа’ (the unit of analysis problem or error) (Whiting-O'Keefe et al., 1984; Andersen, 1990; Altman, Bland, 1997). Хотя понятие ‘pseudoreplication’, которое наиболее адекватно переводится как «статистический анализ, основанный на мнимых повторностях», встречается не во всех перечисленных выше работах, и мы согласны далеко не со всеми выводами указанных авторов, все цитированные исследования объединяет серьезный подход к проблеме. На фоне этих публикаций критика Д.В. Татарникова (2005) выглядит поверхностной. Практически любой студент, изучавший статистику в университетах Северной и Южной Америки, Западной Европы, Австралии либо некоторых странах Азии, знаком с проблемой мнимых повторностей. Однако рецензенты и редакторы уважаемого биологического журнала не смогли оценить уровень статьи Д.В. Татарникова (2005) и поместили ее в рубрику «Научные дискуссии», что само по себе настораживает.

Основная идея статьи Д.В. Татарникова (2005) лучше всего описывается известным русским афоризмом: “Если нельзя, но очень хочется, - то можно”. Хотя такой подход может оказаться выигрышным в некоторых ситуациях, он, безусловно, опасен в науке, – если, конечно, Российские экологи не намереваются (вслед за некоторыми политиками) заявить, что русская наука идет особым путем и подчиняется лишь своим собственным правилам. Однако в этом случае мы должны быть готовы к тому, что следующим объектом “научной дискуссии” станет таблица умножения.

Сколько раз можно наступать на одни и те же грабли?

Критика определенных типов экспериментальных планов и связанного с ними статистического анализа, приведенная Хёлбертом (Hurlbert, 1984) и его последователями, оказалась болезненной для многих исследователей, обнаруживших описанные ошибки в своих собственных работах. Естественно, были сделаны попытки защиты критикуемых подходов, в основном основанные на ошибочных толкованиях понятия «pseudoreplication». Хотя мы и воздерживаемся от анализа этих публикаций, появление статьи Д.В. Татарникова (2005) свидетельствует о том, что проблема мнимых повторностей заслуживает более детального рассмотрения. Подчеркнем, однако, что конструктивное обсуждение этого, равно как и любого другого вопроса, возможно лишь после внимательного изучения ранее опубликованных работ. Поскольку Д.В. Татарников (2005) не сделал этого, ему не удалось сказать ничего нового - он лишь повторил логические ошибки предшественников.

Даже если мы не разглядели грабли в первый раз, наш лоб имеет право надеяться на наше адаптивное поведение после одной-двух близких встреч с их рукояткой. Это поможет следовать совету Отто фон Бисмарка (известного также как Железный Канцлер) – учиться на ошибках других вместо того, чтобы ошибаться снова и снова. Применительно к научно-исследовательской работе этот совет можно переформулировать как необходимость изучать и творчески использовать опыт, накопленный международным научным сообществом.

В качестве эпиграфа к нашей статье мы привели высказывание выдающегося американского ученого, профессора Йельского университета Томсона (Thomson, 1984), который подверг жесткой критике некоторые стороны западной, особенно американской, науки – включая качество публикаций. Хотя этому высказыванию уже более 20 лет, оно не потеряло своей актуальности. Многие из обвинений Томсона приложимы и к обсуждаемой ситуации. Особенно важным представляется отказ от бесплодных дискуссий; и если российская наука пойдет именно этим «особым» путем, то она, бесспорно, заслужит горячее одобрение международного научного сообщества.

“Экспериментальная единица” и “повторность”: анализ понятий

Хотя наши комментарии и возникли в ответ на публикацию Д.В. Татарникова (2005), мы не ограничимся обсуждением его точки зрения на проблему мнимых повторностей, но попытаемся разъяснить некоторые концептуальные и терминологические проблемы, связанные с планированием экспериментов и статистическим анализом полученных результатов. В частности, мы рассмотрим понятия экспериментальной единицы, наблюдаемой / оцениваемой единицы и статистической независимости, которые играют ключевую роль в понимании рассматриваемой проблемы.

Мы начнем наше обсуждение с констатации того факта, что вывод о сходстве либо различии двух групп объектов может быть сделан тогда и только тогда, когда различия между группами сравниваются со внутригрупповой изменчивостью. При этом критическое значение имеет тот уровень, на котором изменчивость измеряется внутри группы. Очевидно также, что внутригрупповая изменчивость может быть оценена только в тех случаях, когда группа состоит из двух и более объектов. В исключительных случаях, однако, возможно применение линейной регрессии либо дисперсионного анализа для корректного выявления различий между единственной экспериментальной повторностью и группой контрольных повторностей (Kirk, 1982: 399; Mead, Curnow, 1983: 125; Milliken, Johnson, 1989; Sokal, Rohlf, 1995: 292, 466; Hurlbert, 2004: 594).

Хотя при анализе результатов любых экспериментальных исследований ключевым понятием служит экспериментальная единица (experimental unit), большинство статистических учебников не приводит никакого определения этого понятия. Мы предлагаем следующее определение, базирующееся в основном на работе Кокса (Cox, 1958):

Экспериментальная единица – это наименьший объект (система, существо или иная единица экспериментального материала), который экспериментатор выбирает для некоторого воздействия (или комбинации воздействий) и который испытывает это воздействие независимо от остальных подобных объектов. Независимость должна соблюдаться на всех стадиях эксперимента, при которых объект может претерпеть учитываемые экспериментатором изменения. Независимость в контексте данного определения означает, что любые два объекта, подвергающиеся одному и тому же воздействию, в остальном находятся в условиях, сходство между которыми в среднем не превышает сходства между условиями, в которых находится любая  пара объектов, испытывающих различные воздействия (С. Хёлберт, неопубликованный курс лекций).

Хотя приведенное определение может показаться чересчур длинным, опыт множества учебников показывает, что более короткое определение не способно отразить все ключевые элементы концепции экспериментальной единицы. Особо отметим, что хотя экспериментальная единица служит наименьшим независимым элементом экспериментального воздействия, она может состоять из нескольких измеряемых /оцениваемых единиц (evaluation units), определяемых как «элемент экспериментальной единицы, служащий основой для получения одной индивидуальной оценки либо замера» (Urquhart, 1981; Hurlbert, 1990; Hurlbert, White, 1993). Впервые это понятие четко сформулировал Кемпторн (Kempthorne, 1952:163, 1979:163):

"Экспериментальная единица может содержать несколько наблюдаемых единиц. Например, совместно обучаемая группа студентов может быть экспериментальной единицей, в то время как каждый из входящих в эту группу студентов может служить наблюдаемой единицей. Это разграничение понятий ... чрезвычайно важно, поскольку при оценке результатов воздействия экспериментальная единица должна рассматриваться как целое. Различия между наблюдаемыми единицами в пределах одной экспериментальной единицы обычно не учитываются при определении ошибки эффекта воздействия".

Отметим, что термин «измеряемая /оцениваемая единица» (evaluationunit), введенный Уркхартом (Urquhart, 1981), предпочтительнее использовавшегося ранее понятия «наблюдаемая единица» (observationalunit), поскольку последнее не подразумевает наличия экспериментального воздействия. К сожалению, некоторые современные издания, посвященные планированию экспериментов и анализу их результатов, не всегда четко разграничивают экспериментальные и наблюдательные исследования (подробнее смотри Hurlbert, 1994, 1997; Hurlbert, Lombardi, 2003; Mead, 2003).

Если каждое воздействие прилагается к единственной экспериментальной единице, а внутригрупповая изменчивость оценивается на основании изучения нескольких выборок (samples) либо измеряемых / оцениваемых единиц (evaluation units), то статистический анализ будет основан на простых мнимых повторностях (simple pseudoreplication). Именно такая ошибка была допущена в работах И.И. Рудневой, Н.В. Жерко (2000) и К.А. Смирнова (2001), выбранных Д.В. Татарниковым (2005) для обсуждения проблемы. Эта ошибка, к сожалению, встречается очень часто: четыре обзорные статьи, в которых приведен детальный анализ типичных примеров, цитируют 59 публикаций с ошибками подобного типа (Hurlbert, 1984: 14 статей; Hurlbert, White, 1993: 10 статей; Hefner et al., 1996: 11 статей; Kozlov, 2003a,b: 24 статьи). Мы искренне изумлены тем, что некоторые ученые до сих пор считают подобную схему статистического анализа корректной.

Четкость изложения чрезвычайно важна для анализа рассматриваемой проблемы; детальный терминологический анализ, применительно к английскому языку, изложен в ряде работ (Hurlbert, 1990; Hurlbert, White, 1993; Hurlbert, Meikle, 2003). Далеко не все аспекты этой дискуссии приложимы к русскоязычной терминологии (которая, в применении к проблеме мнимых повторностей, еще находится на ранних стадиях развития). Отметим лишь, что необходимо строго различать (1) экспериментальные планы, включающие воздействия без повторностей (что иногда необходимо и само по себе не является ошибкой) и (2) статистические выводы относительно эффекта воздействия, основанные на изменчивости внутри единственной экспериментальной единицы, а не на изменчивости между несколькими экспериментальными единицами. Особо подчеркнем, что описание как структуры эксперимента, так и применявшихся методов анализа данных, должно всегда четко отражать уровень (либо уровни), на котором были взяты анализируемые повторности. При этом желательно использовать такие выражения, как «несколько экспериментальных единиц», «несколько выборок, взятых из одной экспериментальной единицы», «несколько  измеряемых / оцениваемых единиц». Соотношение между структурой эксперимента и использованием повторностей не может быть оценено, если структура эксперимента неизвестна. Повторности не могут рассматриваться как «истинные» либо «мнимые» сами по себе – лишь их использование в статистическом анализе может расцениваться как правильное либо ошибочное.

Основываясь на приведенных выше понятиях, попытаемся понять, какие смысловые либо лингвистические проблемы не позволили Д.В. Татарникову (2005) согласиться с тем, что статистический анализ во всех четырех обсуждаемых им примерах проведен некорректно, то есть основан на мнимых повторностях.

АНАЛИЗ ПРИМЕРОВ: В ЧЕМ ПРИЧИНА ОШИБОК?

Несколько рыб или несколько аквариумов?

И.И. Руднева, Н.В. Жерко (2000) исследовали влияние токсиканта на скорпену, сравнивая рыб из одного экспериментального и одного контрольного аквариумов. Проведенный ими статистический анализ был корректно классифицирован М.В. Козловым (2003а) как основанный на простых мнимых повторностях. В этом опыте в качестве экспериментальной единицы (смотри определение), бесспорно, выступает аквариум (вместе со всеми содержащимися в нем рыбами). Д.В. Татарников (2005), напротив, считает, что в качестве экспериментальной единицы следует рассматривать особь скорпены «вследствие независимой реакции живых организмов на факторы среды». По его мнению, «мнимые повторности возникли бы при многократном определении биохимических параметров одной и той же особи скорпены». Тем не менее, Д.В. Татарников (2005) вынужден признать, что схема опыта была далека от идеальной, поскольку «различия [физико-химических параметров среды между двумя аквариумами] все-таки могли иметь место». Это утверждение означает, что любые две рыбы из одного аквариума находились в более сходных условиях, чем любые две рыбы из разных аквариумов. Более того, рыбы в пределах одного аквариума, скорее всего, взаимодействовали друг с другом – например, на биохимическом либо поведенческом уровне, - что также противоречит утверждению о независимости замеров, проводившихся на нескольких рыбах из одного аквариума. Согласно приведенным выше определениям, рыбы, содержавшиеся в одном аквариуме, могут рассматриваться лишь как измеряемые / оцениваемые единицы.

Экспериментаторы всегда стараются выровнять условия и достичь максимальной однородности экспериментальных единиц для повышения чувствительности эксперимента. Однако, несмотря на все прилагаемые усилия, аквариумы, теплицы, делянки, клетки с мышами, и вообще любые экспериментальные единицы будут всегда отличаться друг от друга. Без учета изменчивости между экспериментальными единицами корректный статистический анализ невозможен в принципе. Д.В. Татарников (2005) далее утверждает: «Для того, чтобы исключить влияние "эффекта аквариума" на результат эксперимента, было необходимо поместить каждую рыбу в отдельный аквариум». Это утверждение ошибочно. Хотя подобный экспериментальный план, безусловно, приемлем, он не является ни единственно возможным, ни наиболее рациональным. Было бы достаточно рассадить рыб, предназначенных для каждого воздействия, в два аквариума – двух повторностей уже достаточно для проведения статистического анализа. Если же различия между аквариумами были столь малы, как доказывает Д.В. Татарников (2005), то в этом случае анализ оказался бы не только корректным, но и достаточно чувствительным.

Сравнение двух широко известных учебников позволяет лучше понять как сущность проблемы, так и ошибки в ее интерпретации. Стил и Тори (Steel, Torrie, 1980: 125), вслед за Кемпторном (Kempthorne, 1952),  недвусмысленно пишут, что “если 50 цыплят содержатся в одном вольере и кормятся вместе, то экспериментальная единица состоит из 50 цыплят. Нам потребуется другой такой же вольер с 50 цыплятами для того, чтобы оценить изменчивость между однотипными экспериментальными единицами”. В противоположность этим авторам, Сокал и Ролф (Sokal, Rohlf, 1969: 438; 1981: 488) приводят пример, в котором каждый из четырех резервуаров с рыбами подвергался различным воздействиям, то есть выступал в роли экспериментальной единицы. Однако проведенный указанными авторами дисперсионный анализ был основан на характеристиках отдельных особей (= оцениваемых / измеряемых единицах), то есть на мнимых повторностях (Hurlbert, 2004). Тем самым популярный учебник, по сути, защищал и пропагандировал некорректный метод статистического анализа. В 1985 году Лиза Вуд, в то время студентка С. Хёлберта, оспорила правомерность этого примера в личном письме к Р.Р. Сокал (Lisa Wood, in litt. to R. Sokal, 20 May 1985); в результате весь многостраничный раздел был (без комментариев) изъят из третьего издания этого популярного учебника (Sokal, Rohlf, 1995). Возможно, что некритическое использование ранних изданий учебника отчасти объясняет, почему литература по физиологии рыб и аквакультуре изобилует простыми мнимыми повторностями.

Одна огороженная площадка в сравнении с неогороженной территорией

К.А. Смирнов (2001) экспериментально изучал влияние огораживания (защиты от растениеядных млекопитающих) на подрост лесных пород. Этот эффект оценивался по результатам сравнения 35 площадок (5 м2 каждая) в пределах одного огороженного участка леса (450 м2), с 35 площадками за пределами огороженного участка (расположение этих площадок из текста статьи не вполне ясно). В статье приведены уровни достоверности (Р) различий между огороженным и неогороженным участками по некоторым показателям, однако отсутствует информация о методах статистического анализа. Защищая применявшийся К.А. Смирновым (2001) подход к анализу данных, Д.В. Татарников (2005) утверждает, что «все 35 площадок в пределах огороженного участка разные, … следовательно, являются независимыми повторностями».

Поскольку организация данного эксперимента однозначно определяет огороженный участок как экспериментальную единицу (смотри определение), эффект огораживания может быть статистически выявлен только по отношению к изменчивости между подобными (то есть огороженными) участками. Изменчивость между экспериментальными площадками внутри огороженной территории относится к другому, более низкому уровню (между измеряемыми / оцениваемыми единицами в пределах одной экспериментальной единицы); использование этой изменчивости для выявления эффекта огораживания некорректно. Как уже указывалось (Козлов, 2003а), эта изменчивость пригодна для выявления различий между огороженным и неогороженным участками, однако подобный анализ не может статистически доказать, что наблюдаемые различия возникли вследствие огораживания.

Финансовые и организационные проблемы, связанные с огораживанием относительно крупных экспериментальных площадок, естественным образом ограничивают экспериментатора. Однако и в этом случае проблему можно частично решить с минимальными затратами. Создание контрольных участков, как правило, менее трудоемко - хотя бы потому, что их не нужно огораживать. Если исследователь в состоянии заложить лишь один огороженный участок, ему следует выбрать несколько контрольных участков, желательно того же размера и той же формы, как и огороженный участок. Подчеркнем, однако, что участок для огораживания должен быть случайным образом выбран среди всех участков, предназначенных для проведения эксперимента. Подобный экспериментальный план не лишен недостатков, но он, несомненно, предпочтительнее, чем полное отсутствие повторностей, поскольку позволяет провести корректный статистический анализ и с достаточной точностью определить величину эффекта (Schindler et al., 1985; Frost et al., 1988; Underwood, 1994). В частности, сравнение единственного огороженного участка с несколькими неогороженными возможно с применением критерия Стьюдента (проверка принадлежности отдельного наблюдения к той же генеральной совокупности, к которой принадлежат неогороженные площадки). Недостатком данного метода является ничем не подтвержденное предположение о том, что изменчивость между огороженными площадками не отличается от изменчивости между контрольными площадками.

Отдельное дерево или экспериментальная площадка?

Ссылаясь на гипотетический пример, приведенный М.В. Козловым (2003а), Д.В. Татарников (2005) утверждает, что каждое из деревьев сосны на удобренном участке леса может рассматриваться как независимая экспериментальная единица: «каждое дерево реагирует на внесение удобрений статистически независимо …  Мнимые повторности возникнут в случае многократного определения реакции одного и того же организма …» Эта точка зрения полностью совпадает с рассмотренными выше взглядами Д.В. Татарникова (2005) на независимость рыб в пределах одного аквариума в работе И.И. Рудневой, Н.В. Жерко (2000). Однако, обращаясь к определению экспериментальной единицы, мы вынуждены заключить, что два дерева на одном и том же участке леса (удобренном либо контрольном) находятся в среднем в более сходных условиях, чем два дерева на разных участках. Из этого следует, что деревья в пределах одного участка являются измеряемыми / оцениваемыми единицами, в то время как в качестве экспериментальной единицы выступает участок леса.

Отвлекаясь от данного примера, интересно было бы узнать мнение Д.В. Татарникова об аналогичном сельскохозяйственном эксперименте, сопоставляющем урожай зерновых на одной удобренной и одной контрольной делянке. Если мы будем придерживаться его точки зрения, то для корректного выявления эффекта удобрений можно использовать множественные площадки, скажем, по 4 м2 каждая, заложенные в пределах каждой из двух делянок. Выходит, что агрономы всего мира напрасно тратят время и деньги, проводя эксперименты в соответствии со стандартным протоколом, предписывающим случайным образом выбирать несколько площадок для каждого типа воздействия!

Две половины поля: эффект навоза?

Д.В. Татарников (2005) не приводит никаких аргументов, которые заставили бы нас пересмотреть ранее опубликованную точку зрения на эксперимент Фишера и Маккензи (Fisher, Mackenzie, 1923). Более того, соглашаясь с выводами предшественников (Box, 1978; Cochran, 1980; Hurlbert, 1984), Д.В. Татарников (2005) заключает, что «эффект внесения навоза не был и не мог быть разделен с эффектом, вызванным различиями двух половин поля». Тем не менее, он не согласен с Хёлбертом (Hurlbert, 1984) и М.В. Козловым (2003а), считая, что «повторности в опыте с навозом не были мнимыми», поскольку «источником случайного варьирования … были почвенная неоднородность и индивидуальные различия растений картофеля». Далее, он справедливо утверждает, что «упомянутые особенности варьировали не только в пределах всего поля, но и в пределах любой его половины». Однако, как мы уже неоднократно отмечали, изменчивость внутри экспериментальной единицы отличается от изменчивости между экспериментальными единицами и не может подменять последнюю при анализе эффектов эксперимента. Применительно к внесению навоза, в данной схеме эксперимента (split-split-unit design: дважды подразделенные делянки) экспериментальной единицей (смотри определение) была половина поля. Площадки, выбранные в пределах каждой из двух половин поля, выступали в качестве измеряемых /оцениваемых единиц, и основанный на них статистический анализ не может служить доказательством влияния навоза на урожайность.

СТАТИСТИЧЕСКАЯ НЕЗАВИСИМОСТЬ КАК КЛЮЧЕВОЕ ПОНЯТИЕ

Ошибочные выводы Д.В. Татарникова (2005) основаны преимущественно (если не исключительно) на смешении концепций экспериментальной единицы и измеряемой/оцениваемой единицы, которые принципиально различаются как статистической независимостью, так и использованием в статистическом анализе (Kempthorne, 1952; Steel, Torrie, 1980; Urquhart, 1981; Hurlbert, 1984; Whiting-O'Keefe et al., 1984; Hurlbert, White, 1993). По мнению Д.В. Татарникова (2005), мнимые повторности возникли бы только при использовании в статистическом анализе величин, полученных при многократном исследовании одной и той же измеряемой / оцениваемой единицы – рыбы в работе И.И. Рудневой, Н.В. Жерко (2000) либо площадки в работе К.А. Смирнова (2001). На самом деле, ошибочен (основан на мнимых повторностях) такой статистический анализ, в котором множественные измерения, выполненные в пределах одной и той же экспериментальной единицы, рассматриваются как независимые и используются для выявления эффекта воздействия. При этом не имеет значения, получены ли используемые величины при исследовании одной измеряемой / оцениваемой единицы либо нескольких; также не важно, проведены ли замеры одновременно либо с некоторыми временными интервалами.

Подобное смешение понятий экспериментальной единицы и измеряемой/оцениваемой единицы, к сожалению, встречается довольно часто. Лишь немногие книги, посвященные планированию эксперимента, используют согласованную терминологию и четко определяют статистическую независимость. Это касается как книг, написанных статистиками, так и книг, написанных биологами, психологами либо представителями других научных дисциплин. Одна из наиболее распространенных ошибок – мнение о том, что статистическая независимость является неотъемлемой чертой выборки либо замера, зависящей исключительно от того, как была взята выборка либо произведен замер. На самом деле, однако, статистическая независимость

“может быть оценена только по отношению как к структуре данных, так и к проверяемой гипотезе. Если мы имеем несколько случайным образом полученных оценок плотности некоего вида насекомых на каждой из двух площадок, «ошибки измерения» будут обладать статистической независимостью, необходимой для проверки нулевой гипотезы об отсутствии различий между двумя площадками. Однако если одна из площадок была обработана инсектицидом, а вторая служит контролем, те же самые «ошибки измерения» не будут обладать статистической независимостью, необходимой для проверки нулевой гипотезы об отсутствии различий между опытом и контролем (Hurlbert, 1997).

В заключение подчеркнем, что отсутствие повторностей само по себе не является ошибкой и не обязательно понижает ценность исследования (Hurlbert, 1984; Carpenter et al., 1995; Schindler, 1998; Kozlov, 2003a,b). Однако ученые должны отдавать себе отчет в тех ограничениях, которые накладывает на них подобный экспериментальный план. Некорректно проведенный статистический анализ может привести к гораздо более неприятным последствиям, чем полный отказ от статистического анализа.

ЗАКЛЮЧЕНИЕ

Д.В. Татарников (2005) заканчивает свою статью советом “не следовать бездумно [sic!] всем рекомендациям статистиков-профессионалов”. Откровенно говоря, ни один из нас не является профессиональным статистиком, - мы лишь биологи, осознающие роль статистики в современной экологии. Опыт, накопленный мировым научным сообществом, с очевидностью доказывает, что эксперименты без повторностей дают существенно меньше информации, чем эксперименты с независимыми повторностями, а результаты подобных экспериментов гораздо труднее интерпретировать и опубликовать. Незнание статистики приводит к тому, что анализ, основанный на мнимых повторностях, встречается даже в тех случаях, когда каждое воздействие применялось к нескольким экспериментальным единицам. Применительно к рассматриваемой проблеме, особенно важно четко уяснить различия между экспериментальной единицей и измеряемой/оцениваемой единицей.

Мы, безусловно, согласны с Д.В. Татарниковым (2005) в том,  что экологам следует уделять больше внимания статистике. Лучшее знакомство со статистическими проблемами, связанными с планированием экспериментов и анализом их результатов, жизненно важно для интеграции в мировое научное сообщество и, в частности, для публикации результатов в престижных международных журналах.

Авторы признательны Е.Л. Зверевой и L. McDonald за обсуждение проблемы и критические замечания по тексту рукописи, а также З.И. Цырлиной и В.Е. Звереву за предложения по адекватному переводу английских терминов.


СПИСОК ЛИТЕРАТУРЫ

Козлов М.В., 2003a. Мнимые повторности (pseudoreplication) в экологических исследованиях: проблема, не замеченная российскими учеными // Журн. общ. биологии. Т. 64. № 4. С. 292-307.
Козлов М.В., 2003b. Pseudoreplication in Russian ecological publications // Bull. Ecol. Soc. America. V. 84. P. 45-47.
Руднева И.И., Жерко Н.В., 2000. Действие полихлорированных бифенилов на антиоксидантную систему и перекисное окисление липидов в гонадах черноморской скорпены Scorpaenaporcus L. // Экология. № 1. С. 70-73.
Смирнов К.А., 2001. Влияние лося на формирование подроста и подлеска в ельниках южной тайги // Лесоведение. № 2. С. 46-52.
Татарников Д.В., 2005. О методических аспектах постановки экологических экспериментов (Реплика на статью М. В. Козлова) // Журн. общ. биологии. Т. 66. № 1. С. 90-93.
Altman D.G., Bland, M.J., 1997. Statistics notes: units of analysis // British Medical J. V. 314. P. 1874.
Andersen B., 1990. Methodological errors in medical research. Oxford: Blackwell. 270 p.
Box J.F., 1978. R.A. Fisher: the life of a scientist. New York: Wiley. xiii + 512 p.
Carpenter S.R., Chisholm S.W., Krebs C.J., Schindler D.W., Wright R.W., 1995. Ecosystem experiments // Science.  V. 269. P. 324-327.
Cochran W.G., 1980. Fisher and the analysis of variance // Fienberg E., Hinckley D.V., eds. R.A. Fisher: an appreciation (Lecture Notes in Statistics, V. 1). New York: Springer. P. 17-34.
Cottenie K., De Meester L., 2003. Comment to Oksanen (2001): reconciling Oksanen (2001) and Hurlbert (1984) // Oikos. V. 100. P. 394-396.
Cox D.R., 1958. Planning of experiments. New York: Wiley. vii + 308 p.
Fisher R.A., Mackenzie W.A., 1923. Studies in crop variation. II. The manurial response of different potato varieties // J. Agric. Sci. V. 13. P. 311-320.
Frost T.M., DeAngelis D.L., Allen T.F.H., Bartell S.M., Hall D.J., Hurlbert S.H., 1988. Scale in the design and interpretation of aquatic community research // Carpenter S.R., ed. Complex interactions in lake communities. New York: Springer. P. 256-282.
Garcia-Berthou E., Hurlbert S.H., 1999. Pseudoreplication in hermit crab shell selection experiments: comment to Wilber // Bull. Marine Sci. V. 65. P. 893-895.
Hairston N.G. Sr, 1989. Ecological experiments: Purpose, design, and execution. Cambridge: Cambridge Univ. Press. 370 p.
Heffner R.A., Butler M.J.IV, Reilly C.K., 1996. Pseudoreplication revisited // Ecology. V. 77. P. 2558-2562.
Hurlbert S.H., 1984. Pseudoreplication and the design of ecological field experiments // Ecol. Monogr. V. 54. P. 187-211.
Hurlbert S.H., 1990. Pastor binocularis: now we have no excuse [review of Design of Experiments by R. Mead] // Ecology. V. 71. P. 1222-1223.
Hurlbert S.H., 1994.  Old shibboleths and new syntheses [review of Design and Analysis of Ecological Experiments, ed. by S.M. Scheiner and J. Gurevitch] // Trends Ecol. Evol. V. 9. P. 495-496.
Hurlbert S.H., 1997. Experiments in ecology [Review of book by same title by A.J. Underwood] // Endeavour. V. 21. P. 172-173.
Hurlbert S.H., 2004. On misinterpretations of pseudoreplication and related matters: A reply to Oksanen // Oikos. V. 104. P. 591-597.
Hurlbert S.H., Lombardi C.M., 2003. Design and analysis: uncertain intent, uncertain result [review of Experimental design and data analysis for biologists by G. Quinn and M. Keough] // Ecology. V.  83. P. 810-812.
Hurlbert S.H., Lombardi C.M., 2004. Research methodology: experimental design sampling design, statistical analysis // Bekoff, M.M. ed. Encylopedia of Animal Behavior, V. 2. London: Greenwood Press. P. 755-762.
Hurlbert S.H., Meikle W.G., 2003. Pseudoreplication, fungi, and locusts // J. Econ. Entomol. V. 96. P. 533-535.
Hurlbert S.H., White M.D., 1993. Experiments with freshwater invertebrate zooplanktivores: Quality of statistical analyses // Bull. Marine Sci. V. 53. P. 128-153.
James F.C., McCulloch C.E., 1985. Data analysis and the design of experiments in ornithology // Current Ornithology. V. 2. P. 1-63.
Jenkins S.H., 2002. Data pooling and type I errors: a comment on Leger & Didrichson // Animal Behaviour V. 63. P. F9-F11
Kempthorne O., 1952, 1979. The design and analysis of experiments, orig. & rev. edns. New York: Wiley; Huntington: Krieger. xix + 631 p.
Kirk R.E., 1982. Experimental design, 2nd ed. Pacific Grove, California: Brooks/Cole Publ. Co. xi + 911 p.
Krebs C.J., 1999. Ecological methodology, 2d edn. New York: Addison-Wesley Longman. x + 620 p.
Kroodsma D.E., 1989. Suggested experimental designs for song playbacks // Animal Behavior. V. 37. P. 600-609.
Kroodsma D.E., Byers B.E., Goodale E., Johnson S., Liu W.-C., 2001. Pseudoreplication in playback experiments, revisited a decade later // Animal Behaviour. V. 61. P. 1029-1033.
Machlis L., Dodd P.W.D., Fentress J.C., 1985. The pooling fallacy: problems arising when individuals contribute more than one observation to the data set  // Z. Tierpsychol. V. 68. P. 201-214.
Mead R.R., 1988. The design of experiments. Cambridge: Cambridge Univ. Press. xiv + 620 p.
Mead R.R., 2003. [review of Experimental design and data analysis for biologists by G. Quinn and M. Keough] // Biometrics. V. P. 738-739.
Mead R.R., Curnow R.N., 1983.  Statistical methods in agriculture and experimental biology. New York: Chapman & Hall. xi + 335 p.
Millar R.B., Anderson M.J., 2004. Remedies for pseudoreplication // Fisheries Research. V. 70. P. 397-407.
Milliken G.A., Johnson D.E., 1989. Analysis of messy data. Vol. 2: Nonreplicated experiments. New York: Van Nostrand Reinhold. viii + 199 p.
Millar R.B., Anderson M.J., 2004. Remedies for pseudoreplication // Fisheries Research. V. 70. P. 397-407.
Morrison D.A., Morris E.C., 2000. Pseudoreplication in experimental designs for the manipulation of seed germination treatments // Austral. Ecol. V. 25. P. 292-296.
Ramirez C.C., Fuentes C.E., Rodriguez L.C., Niemeyer H.M., 2000. Pseudoreplication and its frequency in olfactometric laboratory studies // J. Chem. Ecol. V. 26. P. 1423-1431.
Riley J., Edwards P., 1998. Statistical aspects of aquaculture research: Pond variability and pseudoreplication // Aquaculture Res. V. 29. P. 281-288.
Ruxton G.D., Colegrave N., 2003. Experimental design for the life sciences. Oxford: Oxford Univ. Press. xviii + 114 p.
Schindler D.W., 1998. Replication versus realism: the need for ecosystem-scale experiments // Ecosystems. V. 1. P. 323-334.
Schindler D.W., Mills K.H., Malley D.F., Findlay D.L., Shearer J.A., Davies I.J., Turner M.A., Linsey G.A., Cruikhank D.R.,1985. Long-term ecosystem stress: the effects of years of experimental acidification on a small lake // Science V. 228. P. 1395-1401.
Sokal R.R., Rohlf F.J., 1969, 1981, 1995. Biometry: The principles and practice of statistics in biological research, 1st, 2nd, 3rd edns. New York: W. H. Freeman & Co. xxi + 776, xviii + 859, xix + 887 p.
Steel R.G.D., Torrie J.H., 1980. Principles and procedures of statistics, 2nd edn. New York: McGraw-Hill. xxi + 633 p.
Thomson K.S., 1984. The literature of science // Amer. Sci. V. 72. P. 185-187.
Underwood A.J., 1981. Techniques of analysis of variance in experimental marine biology and ecology // Ann. Rev. Oceanogr. Marine Biol. V. 19. P. 513-605.
Underwood A.J., 1994. On beyond BACI: sampling designs that might reliably detect environmental disturbances // Ecol. Appl. V. 4. P. 3-15.
Underwood A. J., 1997. Experiments in ecology: their logical design and interpretation using analysis of variance. Cambridge: Cambridge Univ. Press. xviii + 504 p.
Urquhart N.S., 1981. The anatomy of a study // HortScience. V. 16. P. 621-627.
Whiting-O'Keefe Q.E., Henke C., Simborg D.W., 1984. Choosing the correct unit of analysis in medical care experiments // Medical Care. V. 22. P. 1101-1114.
Wise D.H., 1993. Spiders in ecological webs. Cambridge: Cambridge Univ. Press. ix + 328 p.


ПРИЛОЖЕНИЕ
Англо-русский словарь основных понятий, используемых в статье

evaluation unit – измеряемая / оцениваемая единица
experimental design – план (структура) эксперимента
experimental unit – экспериментальная единица
manipulative experiment – экспериментальное исследование (хотя «эксперимент» в русском языке всегда подразумевает некие манипуляции, в отличие от «наблюдения», в английском языке использование прилагательного ‘manipulative’ необходимо, поскольку существуют ‘observational experiments’)
pseudoreplication – статистический анализ, основанный на мнимых повторностях (в качестве более краткой альтернативы можно использовать кальку с английского: «псевдорепликация»)
replication – воспроизведение (повторение) идентичных экспериментальных условий два или более раз (закладка эксперимента в нескольких повторностях)
sample – выборка
statistical independence – статистическая независимость

treatment – (экспериментальное) воздействие

Английский термин ‘pseudoreplication’ не имеет прямого аналога в русском языке, поскольку обозначает в первую очередь процесс – ошибочный выбор повторностей для оценки внутритрупповой изменчивости в статистическом анализе. В связи с этим прямой перевод терминологии вельма затруднен; мы приводим английские эквиваленты ключевых понятий.

 


Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ.

1997 - 2017. ©Василий Леонов