медицинский каталог




Медико-биологическая статистика

Автор С.Гланц

ртная ошибка долей

* Как говорилось в гл. 5, для этого нужно, чтобы и пр и п{\-р) были больше 5 (здесь п — объем выборки, р —доля).

приближенно следует нормальному распределению (см. табл. 6.4).

Z =

SP

Отсюда уже знакомым способом получаем формулу для 100(1 -а)-процентного доверительного интервала для истинной доли:

P-ZaSp < Р< P+ZaSp.

Доля статей, содержащих статистические ошибки

Как видно из рис. 1.3, доля статей с ошибками в применении статистических методов за последние несколько десятков лет составляет 40—60%. Глядя на график, можно подумать, что доля эта с годами снижается. Однако рассмотрены были далеко не все статьи, поэтому точки — это всего лишь оценки истинной доли. Построим 95% доверительный интервал для последней точки — может быть, наше впечатление изменится.

Последняя точка соответствует периоду с января по март 1976 г. Из оригинальных статей, опубликованных в этот период, С. Гор и соавт.* рассмотрели 77, статистические ошибки были обнаружены в 32. Выборочная доля составляет р = Ъ2/11 =0,42, ее стандартная ошибка

0,42(1-0,42)

V 77

Тогда 95% доверительный интервал имеет вид

0,42 -1,96 х 0,056 < р < 0,42 +1,96 х 0,056, то есть

0,31 < р < 0,53.

* S. М. Gore, I. G. Jones, Е. С. Rytter. Misuse of statistical methods: critical assessment of articles in BMJ from January to March 1976. Br. Med. J., l(6053):85-87, 1977.

В этот интервал попадают обе оценки, сделанные в 60-х годах. Вряд ли это позволяет утверждать, что ситуация меняется к лучшему.

Ошибки плодят ошибки. Авторы обзоров, опираясь на неверные данные оригинальных статей, делают неверные выводы, которые воспринимаются читателями как последнее слово медицинской науки. Насколько широко распространено это явление? На несостоятельные данные оригинальных статей опирались авторы 5 из 62 обзорных статей, рассмотренных Гор. Таким образом,

? = —=0,081, 62

Тогда 95% доверительный интервал для доли обзорных статей, содержащих необоснованные выводы, имеет вид:

0,081 -1,960 х 0,035 < р < 0,081 +1,960х 0,035.

То есть это интервал от 1,2 до 15%.

Точные доверительные интервалы для долей

* Причина, позволившая нам (в этой главе и гл. 5) использовать нормальное распределение вместо биномиального, состоит в том, что с ростом объема выборки биномиальное распределение стремится к нормальному. Это следует из сформулированной в гл. 2 центральной предельной теоремы. Более подробное изложение можно найти в: W. J. Dixon, F. J. Massey. Introduction to statistical analysis, McGraw-Hill, New York, 1983, sec. 13-5, Binomial distribution: proportion, и В. W. Broun, Jr., M. Hollander. Statistics: a biomedical introduction, Wiley, New York, 1977, Chap. 7, Statistical Inference for Dichotomous Variable.

Часто объем выборки или наблюденная доля слишком малы, чтобы использовать приближение с помощью нормального распределения*. В подобных случаях следует воспользоваться точным распределением. Это так называемое биномиальное распределение. Оно чрезвычайно важно для медицинских исследоваВыборочная доля р

ний, в которых часто приходится иметь дело с редкими событиями и выборками малого объема.

Сначала покажем, к чему приводит неправомерное использование метода, основанного на нормальном распределении. Рассмотрим пример, в котором пр < 5, то есть нарушено одно из условий применимости нормального распределения. Испытывая новый препарат, мы дали его 30 добровольцам, и, к счастью, ни у

одного из них препарат не оказал побочного действия. Выборочная оценка риска побочного действия

Вряд ли можно на этом основании гарантировать, что препарат никогда не окажет побочного действия. Чтобы получить более реалистичную оценку, вычислим 95% доверительный интервал для р.

Какие результаты даст расчет, основанный на использовании нормального распределения? Имеем р = 0, поэтому

Тем самым, 95% доверительный интервал состоит из единственной точки — нуля. Возможно, это неплохо для рекламы нового препарата, но, увы, противоречит здравому смыслу.

Обратимся теперь к рис. 7.4. Чтобы определить доверительный интервал, основанный на биномиальном распределении, нужно сначала найти на горизонтальной оси точку, соответствующую выборочной доле р. Затем нужно провести из нее перпендикуляр и посмотреть, где его пересекает пара кривых, помеченных числом, равным объему выборки. Вертикальные координаты точек пересечения — это и есть границы 95% доверительного интервала. В нашем примере р = 0 и я = 30. Нижняя граница доверительного интервала — 0, верхняя — около 0,1. Тем самым с вероятностью 95% мы можем утверждать, что риск побочного действия не превысит 10%.

= 0,033.

Используя нормальное приближение, мы получили бы 0,033 -1,96 х 0,033 < р < 0,033 +1,96 х 0,033,

то есть

Предположим, что в одном случае из 30 препарат все-таки оказал побочное действие. Тогда р = 1/30 =0,033 и0,032 < р < 0,098.

Понятно, что ни в каком случае доля не может быть отрицательной величиной, хотя величина интервала, как окажется, определена правильно.

Какой интервал даст биномиальное распределение? По рис. 7.4 находим, что это интервал от 0 до примерно 0,13. Обратите внимание, что он не сильно отличается от интервала, найденного для р - 0. Так и должно быть, ведь различие между отсутствием осложнений и одним осложнением весьма незначительно.

Заметьте, что чем меньше объем выборки, тем сильнее он влияет на величину доверительного интервала. Предположим, мы бы дали препарат не 30, а 10 добровольцам. Тогда нижний предел 95% доверительного интервала, конечно, остался бы нулем, но верхний был бы уже не 13, а 33%.

ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ЗНАЧЕНИЙ*

* Описанные ниже методы применимы только к данным, приближенно подчиняющимся нормальному распределению.

До сих пор нас интересовали доверительные интервалы для тех или иных параметров распределения, например среднего ц. или доли р. Нередко, однако, нужен доверительный интервал для самих значений измеряемого признака. Например, мы хотим оценить диапазон, в который будет попадать 95% всех значений. Особенно часто подобные задачи возникают при определении границ нормы какого-нибудь лабораторного показателя. Обычно доверительный интервал значений определяют как выборочное среднее плюс-минус два стандартных отклонения. Если мы имеем дело с нормальным распределением и объем выборки достаточно велик (больше 100 человек), то правило двух стандартных отклонений дает верный результат. Как быть, если в нашем распоряжении не 100, а менее двух десятков человек, что довольно типично для клинических исследований? Разумеется, об определении границ нормы по столь малой выборке нечего и думать. Тем не менее оценку доверительного интервала можно получить и тут. Однако от правила двух стандартных отклонений

Рис. 7.5. 95% доверительные интервалы для роста марсиан, вычисленные по трем выборкам с рис. 2.6. А. В качестве доверительного интервала использовали среднюю величину плюс-минус два стандартных отклонения. Результат оставляет желать лучшего: два интервала из трех не покрывают истинного интервала, заключающего 95% значений. Б. Доверительные интервалы определили как среднее плюс-минус произведение К0 05 на стандартное отклонение. Ситуация улучшилась — теперь истинный интервал покрывают два интервала.

придется отказаться: при малых выборках интервал получается слишком узким.

Рассмотрим пример. На рис. 2.6 представлены распределение по росту всех 200 ныне живущих марсиан, а также три случайные выборки по 10 марсиан в каждой. Рост 95% всех марсиан лежит в пределах от 31 до 49 см. Средний рост марсианина — 40 см, стандартное отклонение — 5 см. Три выборки, изображенные в нижней части рисунка, дают следующие оценки среднего роста: 41,5, 36 и 40 см. Выборочные стандартные отклонения — соответственно 3,8, 5 и 5 см. Применим к этим выборочным оценкам правило двух стандартных отклонений. Полученные доверительные интервалы изображены на рис. 7.5А. Как видим, в двух из трех случаев интервалы не покрывают 95% всех членов совокупности.

Причина, в общем, понятна. Выборочное среднее и выборочное стандартное отклонение — не более чем оценки истинного среднего и стандартного отклонения. Точность этих оценок при малом объеме выборок невелика. Ошибка в оценке одного параметра накладывается на ошибку в оценке другого — в результате шансы получить правильный результат и вовсе низки. Рассмотрим выборку на рис. 2.6В. Нам повезло — оценка стандартного отклонения совпала с истинным его значением 5 см. Однако оценка среднего оказалась заниженной — 36 см вместо 40 см. Поэтому интервал смещен относительно истинного среднего и накрывает менее 95% всех значений.

Учитывая приблизительность оценок по выборкам небольшого объема, нужно брать интервал, более широкий, чем плюс-минус два стандартных отклонения (при выборках большого объема такая страховка не нужна). Этот интервал вычисляют по формуле

X-Kasгде X — выборочное среднее, s — выборочное стандартное отклонение, а Ка — коэффициент, который зависит от доли / членов совокупности, которые должны попасть в доверительный интервал, от вероятности того, что они действительно туда попали 1 -а и от объема выборки п. Этот коэффициент играет примерно ту же роль, что ta или za • Для вычисления 95% доверительного интервала нужно определить К0 05 ; зависимость К005 от объема выборки для различных значений / показана на рис. 7.6.

Заметим, что Ка больше, чем ta (как/а больше, чем za )> поскольку учитывает не только значение среднего, но и неопределенность оценок среднего и стандартного отклонения*.

* Вывод формулы для Ка, показывающий его связь с доверительными интервалами для среднего и стандартного отклонения, можно найти, например, в работе: А. Е. Lewis, Biostatistics, Reinhold, New York, 1966, Chap. 12. Tolerance limits and indices of discrirnination.

При объеме выборки от 5 до 25, типичном для медицинских исследований, Ка должен быть существенно больше двух. Если бы в рассматриваемом случае мы взяли интервал в плюс-минус два стандартных отклонения от среднего, то он покрыл бы заметно менее 95%

страница 28
< К СПИСКУ КНИГ > 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56

Скачать книгу "Медико-биологическая статистика" (7.41Mb)


[каталог]  [статьи]  [доска объявлений]  [обратная связь]


Химический каталог Rambler's Top100

Copyright © 2009
(18.08.2018)