Яндекс.Метрика Требования к описанию анализируемых данных
Каждый слышит то, что понимает. Гете Трудных наук нет, есть только трудные изложения. А.И. Герцен. Часть материалов сайта доступна только подписчикам. На период подписки они имеют возможность оперативной консультации по статистическому анализу биомедицинских данных. Запрос на подписку направляйте редактору БИОМЕТРИКИ.

Почему и как надо учить медиков статистике?

Уважаемые читатели "Биометрики"!

     Многие из Вас в своих письмах задают вопросы о том, какие требования существуют для описания собственных данных в том  случае, если их автор хотел бы обратиться к нам с просьбой о помощи в анализе этих данных. Ниже приводятся краткие требования к описанию анализируемых данных, следуя которым  Вы сможете достаточно ясно и подробно рассказать нам о том,  какими данными Вы располагаете и ответы на какие вопросы Вы  хотели бы получить с помощью статистического анализа этих данных. Ниже дана также информация о том, в каком виде Заказчик получает результаты анализа своих данных.


Требования к описанию анализируемых данных

1. Опишите подробно цель Вашего исследования а также сформулируйте кратко те гипотезы, которые у Вас возможно уже сформировались в процессе получения экспериментальных данных. Опишите кратко использованные при этом методики. В описании цели исследования и гипотез старайтесь избегать статистических терминов и названий методов. Используйте свой профессиональный язык и терминологию. Если Вы предполагаете что используемый термин малоизвестен, то объясните его подробнее. Т.е. сформулируйте Ваши вопросы, на которые мы сможем выбрать адекватные методы анализа для получения ответов на эти вопросы. К примеры, есть количественные признаки, которые условно обозначим как Х1-Х10. Это могут быть значения отдельных компонент крови (лейкоцитарная формула, гематокрит, СОЭ, содержание иммуноглобулинов, липидов и т.д.) а кроме того некоторые дискретные качественные признаки, обозначим их буквами: А - идентификатор исследуемых групп (А=1 (больные), А=2 (группы контроля, здоровые)), В - вид заболевания (В=1 (заболевание 1), В=2 (заболевание 2) и т.д.), С - пол (С=1 (муж), С=2 (жен)), D - вид лекарственного препарата ( D=1 D=2 D=3 и т.д.). В этом случае эти вопросы могут быть записаны следующим образом: 
     1. Исследовать зависимость признаков Х1-Х10 от признаков А, В, С и D. 
     2. Сравнить показатели Х1-Х10 между отдельными подгруппами показателей А, В, С. и D и т.д. 

     Кроме этого возможный интерес может представлять и исследование зависимостей между всеми количественными признаками Х1-Х10 а также между всеми качественными признаками A, B, C, D. 
     Отметим, что здесь качественным признаком может быть и исход лечения. Например признак К - исход лечения , К=1 (больной выздоровел), К=2 (больной умер). Часто встречаются задачи прогноза одних признаков через набор других признаков. Например, оценить зависимость признака Х5 который очень трудоемок, от набора признаков Х1-Х4, Х7-Х10 и т.д. которые просты и удобны в их определении. Вот примерный список возможных задач и того как их можно кратко описать. 

     Другая очень интересная задача - это исследование взаимосвязи двух подмножеств признаков между собой. Например, есть группа признаков Х1-Х9 (набор гематологических показателей) и другая группа признаков Y1-Y7 (набор биохимических показателей). Вопрос: имеется ли статистически достоверная связь этих двух подсистем организма?  Не менее интересна и такая задача, как выделение объективно существующих локальных подгрупп объектов основываясь на схожести и несхожести объектов (пациентов) по набору количественных признаков. Все возможные задачи исследования трудно даже перечислить, для этого надо иметь исходный набор данных и описание признаков и общей цели исследования. 

2. Достаточно подробно опишите собственные экспериментальные данные (матрицу). Это описание состоит из перечисления всех признаков (переменных - VAR) по порядку а также описания того, что являлось в Вашей матрице данных объектом наблюдения, строкой данных (случаем - CASE). Например, при исследовании пациентов объектом является пациент, при изучении экпериментальных крыс - крыса и т.д. Отметим,  что анализируемые данные должны состоять только из альтернативных признаков. Это означает, что значение, величина конкретного признака для одного наблюдения, признака должны иметь одно единственное значение. Например: Пол =1 (жен), возраст=35 лет, САД=120 мм рт ст, ДАД=80 мм рт ст и т.д. Если матрица состоит из нескольких групп, то нужно описать чем отличаются эти группы друг от друга и какая переменная (признак, столбец матрицы) является этим группирующим признаком. В самом начале этого описания напишите сколько объектов изучено и сколько при этом признаков использовано. Укажите сколько в том числе количественных признаков (возраст, САД, ДАД, СОЭ, IgA? IgG и т.д.), и сколько дискретных, качественных признаков (пол, группы больных, результат лечения и т.д.).

3. Если Ваши данные уже введены в какую-то базу данных, то сообщите в какой системе создана эта база. Например, данные введены с системе Excel97, или СУБД dBase III+ и т.д.  Для оценки наиболее перспективных методов анализа Ваших данных нам необходимо увидеть их. Поэтому высылайте свои массивы данных в том формате, в котором они есть: формат Excel, либо ASCII, либо DBF и т.д. В общем в любом формате, хотя более предпочтителен формат Excel. Если массив данных порядка нескольких сотен килобайт, то предварительно лучше его заархивировать каким-нибудь архиватором, например "zip" или "rar". Эту матрицу высылайте в виде Приложения к основному письму с описанием самой матрицы и Ваших задач исследования. Матрица должна состоять из строк - наблюдений (пациентов) и столбцов - признаков, переменных, свойств. 

Пропущенные значения (не измеренные по какой-то причине) никак не кодируются и представляют собой пустые клетки. И, конечно же, подробное описание каждого признаков. Если признак качественный, дискретный, например "Пол", то желательны кодировки не буквами, а цифрами: 1, 2 и т.д. А в текстовом описании расшифровать, что 1=жен., 2=муж. Если же массив уже введен и кодировка таких признаков задана буквами, то не переделывайте и оставьте как есть. Желательно наличие признака идентификатора объекта, наблюдения (строки). Если объекты - пациенты, то это может быть фамилия либо номер истории болезни, либо просто порядковый номер. 

Для количественных признаков необходимо указать их размерность, т.е. в каких единицах они измеряются. Например, систолическое и диастолическое давления в мм. рт.ст., рост - см., вес - кг и т.д. Если эти величины  измерены в условных единицах, то так и написать - усл. ед. Эта  первоначальная матрица не меняется, т.е. Заказчик гарантирует правильность ввода данных в матрицу.


Представление результатов анализа.

     Желательно чтобы Заказчик имел доступ к персональному компьютеру и умел читать электронные файлы. В этом случае результаты анализа передаются в виде файлов по электронной почте. Формат результатов -  WORD (*.rtf).

     К нашим решениям мы всегда даем описание как постановки задачи, так и использованного метода. Все результаты сопровождаются согласованным числом графиков, что облегчает понимание полученных результатов. Там же дается и подробное объяснение полученных результатов и ссылка на литературные источники с описанием использованных методов. Готовые файлы с этими материалами можно непосредственно загружать в компьютер и редактируя их получать окончательные варианты глав отчетов, статей и т.д.  


Наш адрес:

1997 - 2017.© Василий Леонов
  Возврат на главную страницу.

Возврат в КУНСТКАМЕРУ.