ОТРИЦАТЕЛЬНЫЙ ОТЗЫВ
о диссертации «АНАЛИЗ ПОЛИМОРФИЗМА ГЕНОВ СЕРДЕЧНО-СОСУДИСТОЙ СИСТЕМЫ И СИСТЕМЫ ДЕТОКСИКАЦИИ В РАЗЛИЧНЫХ ВОЗРАСТНЫХ ГРУППАХ САНКТ-ПЕТЕРБУРГА», представленной Глотовым Олегом Сергеевичем к защите на сосискание ученой степени кандидата биологических наук
по специальности 03.00.15 – генетика
Обсуждаемая диссертация являет собой ярчайший пример того, какую злую шутку может сыграть с автором игнорирование проблемы множественных сравнений при статистическом анализе полученных данных.
Автор совершает типичнейшую ошибку: в целом (в общем) различия в распределениях изученных генотипов и аллелей статистически незначимы, поэтому их дальнейший анализ – от лукавого. Ошибка в том, что в статистически однородных данных автор пытается выявить статистически гетерогенные (неоднородные) части. Делать это так, как автор – без учета множественности сравнений и (или) проверяемых статистических гипотез – неправомочно. При попарных сравнениях надо учитывать их число и использовать соответствующие поправки (хотя бы поправки Бонферрони или Шидака).
Автор сообщает:
«Анализ частот аллелей и генотипов по генам ACE, AGT, AGTR1, NOS3, MTHFR, GPIIIa, PAI-1 не выявил статистически значимых различий между выборками новорожденных, лиц среднего возраста и лиц старше 69 лет (p > 0,05) (см. рис. 1)».
Всё. На этом полагается ставить точку. Нет никаких оснований для того, чтобы пытаться выискивать какие-либо «мелкие» («частные») якобы «статистически значимые» (и даже «достоверные») различия и «ассоциации», типа тех, которые вынесены автором как якобы обоснованные выводы, а также иных неисчислимых, которые разбросаны по всему тексту диссертации и автореферата. Все они будут ложноположительными.
Это же справедливо и для данных по группам более тонкой градации (подгруппам) для лиц старше 69 лет. Для них автор почему-то замалчивает тот факт, что исходно (в целом) между ними также не выявлены статистически значимые различия в распределениях частот аллелей и генотипов по всем изученным генам. Закон. Необходимость. Вероятность.
Поэтому абсолютно необоснованными представляются рассуждения автора о якобы имеющих место явлениях, таких как:
- меньшая продолжительность жизни у «медленных» ацетиляторов,
- снижение действия отбора,
- непонятное «нивелирование» негативного влияния полиморфизма ACEпосле 90 лет,
- «популяционные особенности» в отношении почему-то только одного из генов - MTHFR,
- «протективный эффект» и «определенные адаптивные преимущества» у лиц с «нулевым» генотипом по гену GSTM1, но почему-то лишь в «определенном» возрастном диапазоне,
- обусловленность низкой продолжительности жизни (почему-то только у мужчин и только до 75 лет) сердечно-сосудистыми заболеваниями, «ассоциированными» с генотипом D/D,
- обладание «некоторыми» преимуществами у носителей гетерозиготного генотипа I/D, несмотря на наличие заболевания,
- впечатление о том, что полиморфизм по гену GPIIIaявляется фактором риска сердечно-сосудистой патологии, но почему-то только до 90 лет,
- существование возрастных «рубежей» для изменения частот генотипов: 75 лет для генотипов ACE (I/I) и GPIIIa (A2/A2), а для генотипов AGT (C/C) - 90 лет,
- элиминация с возрастом из популяции ряда генотипов и аллелей генов «предрасположенности» и прочее и прочее…
Очень сомнительным представляется предложенная автором система «балльного» подсчета данных, которая якобы их «объективизирует». Обосновывая его, автор ссылается на руководство по статитстическому анализу медицинских данных О.Ю. Ребровой. На стр. 136 (3-е изд, 2006) этого руководства можно найти предупреждение, которое сама автор руководства выделила курсивом:
«Частой ошибкой исследователей является анализ порядковых данных (имеющих небольшое число допустимых значений) как количественных. Действительно, никому не может прийти в голову вычислить средний пол, который является качественным номинальным признаком, в изучаемой выборке, но очень часто вычисляют, например, средний балл, если какой-либо качественный порядковый признак измеряется в баллах по какой-либо шкале (например, 5-бальной), хотя это не меньшая бессмыслица. Ведь для качественных данных не определено «расстояние» между значениями порядкового признака, поэтому интерпретировать промежуточные (дробные) значения невозможно. Наиболее распространенной ошибкой в этом случае является использование t-критерия Стьюдента для сравнения средних в группах. Многочисленные примеры таких ошибок читатели могут найти в Интернете по адресу http://www.biometrica.tomsk.ru/ (в книге дан устаревший адрес – НХ)».
Подменяя слова «численность данной аллели в данном генотипе (0, 1 или 2)» словом «балл» или «ранг» автор вводит в заблуждение прежде всего самого себя.
Очень малые Р-значения, получаемые автором диссертации с помощью придуманного им метода должны были бы его насторожить. Возможно они свидетельствуют не о высокой мощности (чувствительности) используемого критерия, а скорее всего о неадекватном его применении.
К сожалению, ни в автореферате, ни даже в диссертации автор не привел ни одного конкретного примера, того, как «работает» его метод, как выглядит корреляционная таблица.
Поэтому вынести окончательный вердикт о правомочности его метода не представляется возможным.
В любом случае следовало бы сравнить получаемые результаты с результатами, получаемыми другими методами. Например, с использованием программы ARSampler, созданной Фаворовыми с сотрудниками.
Любая ассоциация, если она не подтверждена тестом неравновесности передачи (transmission disequilibrium test - TDT), должна рассматриваться как сугубо предварительная, до тех пор, пока не будут представлены дополнительные доказательства причинно-следственной связи [Altshuler D., Kruglyak L., Lander E., Genetic Polymorphisms and Disease. New Engl. J. Med. 338(22)1626(1998)]. А причинно-следственная связь устанавливается с помощью таких методов генетики, как генеалогический метод, т.е. путем тщательного анализа многих родословных, различных вариантов близнецового метода и т.п.
Автор претендует на присуждение ему ученой степени кандидата биологических наук по специальности Генетика. Генетика же, прежде всего, есть наука о наследственности, и она не сводится только к овладению техническими навыками по выделению, очистке, амплификации, рестрикции и электрофоретического разделения фрагментов ДНК.
Увы, в лексиконе автора отсутствуют такие необходимые в его работе генетические понятия, как «наследование», «пенетрантность», «экспрессивность», «норма реакции», «неравновесие по сцеплению (или гаметическое неравновесие)», «гаплотип», «полигенное наследование» и «полигены», «генетика количественных признаков», «популяционная генетика», «подразделенность (стратифицированность) популяции», «взаимодействие генотип-среда», «взаимодействие генов», «множественный аллелизм», «плейотропия», и т.п.
Примером плейотропии может служить ангиотензин-превращающий фермент, который как оказывается, кроме прямой ферментативной функции, обладает еще важными регуляторными функциями, и, что еще более интригует, он способен разрушать амилоиды.
Поэтому, рекомендуя гомозиготам по делеции D/D в качестве медикаментозной профилактики против развития сердечно-сосудистых заболеваний подавлять активность этого фермента соответствующими лекарственными средствами, не открываем ли мы шлюзы для развития у них «амилоидных болезней» типа болезни Альцгеймера и, что ещё страшнее – для прионных болезней? Математика в изучении средневековых повествовательных источников.
Отсюда становится ясным, что называя те или иные наборы генов «генами сердечно-сосудистой системы» или системой «Давление» и генами «детоксикации» или системой «Детокс», автор невольно внушает сам себе и окружающим, что никаких других функций у этих систем не может быть.
Автор совершенно упускает из виду множественный аллелизм и для каждого маркера изучает только по одной паре аллелей.
А для того же гена ACE показано, что гораздо белее важными являются мутации в промоторной области гена, а инсерционно-делеционный полиморфизм практически не играет существенной роли в связи этого гена с многопричинными болезнями. Это же подтверждают эксперименты на мышах.
Автор, по-видимому, верит в безошибочность использованных процедур генотипирования, хотя известно, что ошибки здесь неизбежны, и их надо тщательно проверять. Для этого автору надо было бы регулярно проводить «слепые» проверки всех процедур генотипирования. В тексте работы я не нашел сведений о контроле качества структуры праймеров, качества ПЦР, рестриктаз, электрофореза и о борьбе с возможными контаминациями. Не обсуждаются такие возможные ариефакты, как «недоамплификация» и «недорестрикция» др.
Прежде чем проводить то, что автор называет «Комплексным анализом генов» и «Анализ взаимодействия генов», он обязан был проверить неравновесие по сцеплению. Без этого все его выводы могут оказаться голословными.
Особые опасения у меня вызывают скоропалительные практические рекомендации автора по использованию его сомнительных результатов «как прогностических тестов для оценки риска развития ИБС, ГБ, ОНМК, ИНСД и катаракты».
Скорее это походит на «геномантию» – гадание по генам. Автор обнаруживает статистически очень малозначащую и практически пренебрежимо малую «ассоциацию» между некоторыми генотипами и некоторыми «предрасположенностями» и начинает верить в них как в однозначно и бесспорно установленные.
За рубежом, да в последнее время и у нас, специалисты по статистике подчеркивают, что всегда надо различать «статистическую значимость» и клиническое (практическое) значение (важность, ценность) выявленного эффекта, ассоциации и т.п. Эффект или ассоциация могут быть статистически значимыми, но сам эффект, его «размер», т. е. его количественное выражение, может оказаться пренебрежимо малым и не иметь сколько-нибудь важного клинического значения и практического применения.
В тексте диссертации автор мельком упоминает великую формулу: «фенотип есть продукт взаимодействия генотипа и среды», но при обсуждении результатов напрочь забывает о «среде». Он игнорирует тот факт, что изучаемые им признаки являются многопричинными («многофакторными»), т. е. они не только наследуются полигенно, не только определяются многими генами, среди которых очень редко удается выявить «главные», но и роль средовых факторов при этом зачастую сравнима с влиянием генов. Нобелевский лауреат Питер Медавар придумал для такой бездумной, фанатичной, слепой веры во всесилие генов словцо «генетицизм» (geneticism).
Несостоятельность работы отражает раздел «Выводы». По существу они лишь повторяют лишь фактическую сторону раздела «Результаты и обсуждение» и не содержат никаких научно-теоретических обобщений.
Если верить автору, то на протяжении жизни одного поколения частоты почти всех исследованных автором семи маркеров претерпевают давление сильнейшего отбора. А ведь генов у нас 30 000!
Почему-то у меня возникла ассоциация с «кошмаром Дженкинса», и явление, на котором настаивает автор, можно назвать «кошмаром Глотова». Скорее всего это не так. Генетический полиморфизм все-таки чаще всего является сбалансированным. Остается только надеяться, что нас минет чаша сия и кошмар этот рассеется. G. Glass. Statistical Methods in Education and Psychology.
Автор явно поспешил с представлением своей работы к защите. Работу надо привести в соответствие с международными требованиями, предъявляемыми к анализу, представлению и публикации данных по установлению связей («ассоциаций») между генотипами и мнопричинными болезнями (См. Nature 447(2004)655-660), отделить «зерна от плевел» и «мух от котлет», т.е. попытаться отделить ложные «ассоциации» от более или менее правдоподобных и убедительных и обсудить результаты более самокритично.
Хромов-Борисов Никита Николаевич,
кандидат биологических наук, старший научный сотрудник, лауреат Университетской премии (за учебник «Биометрия»), член Общественного экспертного совета по статистике в биологии и медицине, доцент кафедры физиологии Медицинского факультета Санкт-Петербургского государственного университета (СПбГУ)
«18» октября 2007 г.
г. Санкт-Петербург |
СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ ДЛЯ ДИССЕРТАНТОВ
Центр БИОСТАТИСТИКА выполняет работы по статистическому анализу экспериментальных данных уже более 30 лет. В его составе исследователи России, США, Израиля, Англии, Канады и других стран. Услугами Центра пользуются аспиранты и докторанты в области медицины, биологии, социологии, психологии и т.д. Стандартные сроки анализа данных: для статей и докладов - 5-10 дней, для кандидатских диссертаций 1 месяц, для докторских диссертаций 1,5 месяца. (См. далее)
Отзывы заказчиков по статистическому анализу данных
Дистантное обучение
биостатистике с помощью IP-телефонии. Информация о специализированных курсах и семинарах по прикладной
биостатистике для студентов, аспирантов, докторантов и научных
сотрудников НИИ и вузов работающих в области биологии, медицины, социологии, психологии и т.д. (См. далее)
Отзывы по дистантному обучению статистике
|