медицинский каталог




Медико-биологическая статистика

Автор С.Гланц

совокупности. На рис. 7.5Б изображены 95% доверительные интервалы для роста 95% членов совокупности

марсиан, построенные по трем выборкам с рис. 2.6. Теперь все три интервала покрывают не менее 95% членов совокупности.

Применение правила двух стандартных отклонений к выборкам небольшого объема приводит к зауживанию доверительного интервала значений. Упомянем еще об одной распространенной ошибке. Как говорилось в гл. 2, многие путают стандартную ошибку среднего со стандартным отклонением. Найдя интервал «выборочное среднее плюс-минус две стандартные ошибки среднего», они уверены, что в него попадет 95% совокупности (тогда как на самом деле 95% составляет вероятность, что в интервал попадет среднее по совокупности). В результате интервал допустимых значений оказывается еще более зауженным.

ЗАДАЧИ

7.1. По данным из задачи 2.6 найдите 90 и 95% доверительные

интервалы для среднего числа авторов статей, опубликованных в

медицинских журналах за 1946, 1956, 1966 и 1976 гг.

7.2. Ранее (задача 3.1) мы познакомились с исследованием

Ч. О'Херлихи и Г. Мак-Дональда (С. O'Herlihy, Н. MacDonald. Influence of preinduction prostaglandin E2 vaginal gel on cervical ripening and labor. Obstet. Gynecol, 54:708—710, 1979). Как выяснилось, гель с простагландином Е2 сокращает продолжительность родов. Позволяет ли он избежать кесарева сечения? В группе, получавшей гель с простагландином Е2, кесарево сечение потребовалось 15% женщин, в контрольной группе — 23,9%. В обеих группах было по 21 женщине. Найдите 95% доверительные интервалы для доли рожениц, которым требуется кесарево сечение в обеих группах. Найдите 95% доверительный интервал для разности долей. Можно ли утверждать, что простагландин снижает вероятность кесарева сечения?

7.3. По данным задачи 3.1 найдите 95% доверительный интервал для разности средней продолжительности родов у получавших гель с простагландином Е2 и получавших плацебо. Позволяет ли вычисленный доверительный интервал утверждать, что различия статистически значимы?

7.4. По данным задачи 5.1 найдите 95% доверительные интервалы для долей больных, которые не чувствовали боли при включенном и выключенном приборе. Можно ли по этим интервалам оценить статистическую значимость различий?

7.5. По данным задачи 3.2 найдите 95% доверительные интервалы для каждой из групп. В чем заключаются различия между группами?

7.6. По данным задачи 5.6 найдите 95% доверительные интервалы для доли работ, где данные были получены до планирования исследования.

7.7. По данным задачи 2.2 найдите 95% доверительные интервалы для 90 и 95% значений. Результаты представьте на одном рисунке с исходными данными.

Глава 8

Анализ зависимостей

Самый первый из рассмотренных нами примеров (рис. 1.2) был посвящен вопросу об эффективности диуретика. Пяти людям дали разные дозы препарата, измерили диурез и увидели, что чем больше доза, тем больше диурез. В дальнейшем оказалось, что этот результат не отражает реальной картины и что никакой связи между дозой и диурезом на самом деле нет. Тогда мы еще не знали о методах анализа зависимостей. Им посвящена эта глава. Мы узнаем, как с помощью уравнения регрессии выразить связь между дозой диуретика и диурезом (так называемый регрессионный анализ) и как с помощью коэффициента корреляции измерить силу этой связи.

Подобно тому как мы поступали в предыдущих главах, рассмотрим сначала уравнение регрессии для совокупности, а затем выясним, как оценивать его параметры по выборке. В гл. 3 и 4 мы брали нормально распределенную совокупность, находили параметры распределения (среднее ц и стандартное отклонение а), затем находили выборочные оценки этих параметров (X и s) и использовали их для оценки значимости различий между группами, например получавших препарат и не получавших. Теперь мы также будем иметь дело с нормально распределенной совокупностью, но группа будет только одна. Интересовать же нас будет связь между двумя количественными признаками, характеризующими членов этой группы, например между дозой препарата и эффектом, ростом и весом. Мы ограничимся случаем линейной зависимости двух переменных*.

Сколько весит марсианин?

Итак, начнем с совокупности. Совокупность марсиан нами уже достаточно хорошо изучена, особенно что касается роста. Но ведь мы их еще и взвешивали! Разберемся, как связаны вес и рост. Вы, конечно, помните, что на Марсе живет 200 марсиан. В гл. 2 мы обнаружили, что их рост подчиняется нормальному распределению со средним ц = 40 см и стандартным отклонением а = 5 см. Оказывается, что вес марсиан тоже подчиняется нормальному распределению с параметрами ц. = 12 г и а =2,5 г. Но самое замечательное, что отчетливо видно на рис. 8.1, — это зависимость веса от роста. Как правило, чем больше рост марсианина, тем больше вес, причем эта зависимость линейна.

Посмотрим, сколько весят марсиане, чей рост равен 32 см. Таких марсиан четверо, а их вес равен соответственно 7,1; 7,8; 8,3 и 8,8 г. Таким образом, средний вес марсиан ростом 32 см равен 8 г. Восемь марсиан ростом 46 см весят 13,7; 14,5; 14,8; 15,0; 15,1; 15,2; 15,3 и 15,8 г. Их средний вес 15 г. Если для каждого значения роста мы подсчитаем соответствующий ему средний вес, то окажется, что найденные значения лежат на прямой линии, как изображено на рис. 8.2.

* Линейная зависимость у от х определяется формулой у =а +fix. Возможна нелинейная зависимость, например у =а + fix2. Возможна и множественная зависимость, когда определяющих признаков более одного, например у = а + рх + yz- Она рассматривается в книге S. Glantz, В. SHnker. Primer of applied regression and analysis of variance. McGraw-Hill, New York, 1990.

Теперь, выбрав какой-то рост, мы всегда сможем примерно определить вес марсианина этого роста. Точнее, мы сможем оп

о °

о ° о о

° о

о

о

о

о

а = - 8 г (3 = 0,5 г/см 0 ЧН—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i i i i i i i i i i—i—i—i—i—i

25 30 35 40 45 50 55

Рост (X), см

Рис. 8.1. Рост и вес марсиан. Как известно, число обитателей Марса составляет 200; каждый из них был измерен и взвешен, результат нанесен на график в виде кружка. Распределение марсиан по росту и по весу нормально. Более того, средний вес марсиан определенного роста связан с ростом линейной зависимостью; разброс значений веса для всех ростов одинаков. Чтобы к совокупности можно было применить регрессионный анализ, она должна обладать всеми этими свойствами.

ределить средний вес марсиан этого роста, поскольку для каждого роста существует определенный разброс веса. Разброс этот, кстати, можно оценить, рассчитав стандартное отклонение веса для каждого роста. Оказывается, какой бы рост мы ни взяли, стандартное отклонение веса составит 1 г, что заметно меньше стандартного отклонения веса для всей, не разделенной по весам, совокупности марсиан.

УРАВНЕНИЕ РЕГРЕССИИ

Прежде чем перейти к обобщению этих закономерностей, дадим несколько определений. В уравнении регрессии одна из переменных, х, называется независимой переменной, а другая, у, — зависимой. Набор значений у, соответствующих определенному значению х, обозначим у\х.

* О том, как анализировать совокупность эпидемиологических и экспериментальных данных для выявления причинных связей, можно прочесть в работах: S. A. Glantz, W. W. Parmley. Passive smoking and

15-7038

В примере с марсианами рост мы будем рассматривать как независимую переменную, а вес — как зависимую. Понятно, что это не означает, что одна переменная действительно определяет другую. Просто по значению одного признака мы предсказываем значение второго. В условиях эксперимента мы произвольно меняем независимую переменную и смотрим, как меняется зависимая. При этом речь действительно идет о зависимости, то есть о причинной связи. В прочих же случаях выявление статистической связи двух переменных указывает на возможность причинной связи, но не доказывает ее. Разобраться в причинах и следствиях вообще невозможно чисто статистическими методами. Необходимо, в частности, найти биологический механизм, порождающий выявленную связь. Например, эпидемиологические данные о связи пассивного курения с заболеваемостью ишемичес-кой болезнью сердца еще не доказывают, что пассивное курение способствует развитию ИБС. Может быть, и то и другое — следствие какой-либо неизвестной причины, например нервной обстановки в рабочем коллективе. Однако экспериментальные данные* о том, что пассивное курение и отдельные компоненты табачного дыма вызывают поражение сердца у лабораторных животных, говорят в пользу именно причинной связи.

Вернемся к нашим марсианам. Для каждого значения независимой переменной х (в нашем примере это рост) рассчитаем среднее значение зависимой переменной у (вес). Это среднее в точке х обозначим \лу\х. Тогда обнаруженная нами линейная зависимость описывается уравнением

Здесь а — значение у в точке х = 0 (коэффициент сдвига), р — коэффициент наклона*. В нашем примере при увеличении роста на 1 см средний вес увеличивается на 0,5 г, поэтому р =0,5. Хотя представить марсиан весом -8 г не легче, чем ростом 0 см, тем не менее для прямой с рис. 8.2 имеем а = -8 г. Таким образом, прямая средних (для каждого роста) весов задается формулой

цу|х = -8+0,5*.

Теперь посмотрим, как распределены веса марсиан одного роста. В данном случае это нормальное распределение со средним

и стандартным отклонением <зу\х . Но этого еще недостаточно для применения методов, которые мы рассмотрим ниже. Помимо нормальности распределения требуется, чтобы Итак, значения переменных должны удовлетворять следующим условиям.

heart disease: epidemiology, physiology, and biochemistry. Circulation, 83:1—12,1991 и S. A. Glantz, W. W. Parmley. Passive smoking and heart disease: mechanisms and risk. JAMA, 273:1047—1053, 1995. * Эти обозначения совпадают с обозначениями ошибок I и II рода. Будем надеятся,

страница 29
< К СПИСКУ КНИГ > 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56

Скачать книгу "Медико-биологическая статистика" (7.41Mb)


[каталог]  [статьи]  [доска объявлений]  [обратная связь]


Химический каталог Rambler's Top100

Copyright © 2009
(20.08.2018)