медицинский каталог




Медико-биологическая статистика

Автор С.Гланц

он^) 2,41 (0,702) 10,19(0,789) 6,39(1,579)

Остаточное стандартное

отклонение^. 40,5 45,7 129,1

сии. Параметры уравнений регрессии и остаточные стандартные отклонения указаны в табл. 8.2. Вычислим объединенную оценку остаточной дисперсии

j2 _ (я,-2)^ ч-Qi,-2)^;

п{ + п2 -4

где л, ия2 — численность 1-й и 2-й групп, s2^ и — соответствующие остаточные дисперсии. Тогда

2 (25-2)40,52 +(25-2)45,72

s , = = 1864.

Ж,йщ 25 + 25-4

Теперь объединим группы и найдем уравнение регрессии для получившейся группы. Опустим вычисления, результат приведен в табл. 8.2. Линия регрессии изображена на рис. 8.9Б. Оста-точная дисперсия единой регрессии s )х = 129,1 = 16667. Выигрыш от использования раздельных регрессий:

(я, +п2 -2)52. - (л, +п2 -4)52,

sy\XB 357136

;2, 1864

у\х

,2

р = _^в_ = = т5%

Критическое значение F при уровне значимости а = 0,01 и числе степеней свободы утж = 2 и vBHy = 25 + 25 - 4равно 5,10, то есть гораздо меньше полученного нами. Таким образом, у здоровых людей сила сжатия зависит от размера предплечья иначе, чем у больных артритом.

В чем заключается отличие? Сравним коэффициенты регрессий. Начнем с коэффициента сдвигая.

Тогда

= 0,314.

я, -а2 3,3-(-7,3)

Sa^-cij 33,8

При уровне значимости а = 0,05 при числе степеней свободы v = л, + п2 -4 = 46 критическое значение t равно 2,013. Поскольку полученное нами значение t меньше критического, заключаем, что между я, и я2 нет значимого различия.

При сравнении коэффициентов наклона получим / = 7,367, что больше критического. Итак, линии регрессии различаются наклоном, который круче в группе здоровых.

КОРРЕЛЯЦИЯ

Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой переменной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют предсказать значение зависимой переменной и определить точность этого предсказания. Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или графической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом.

Эта характеристика называется коэффициентом корреляции, обычно ее обозначают буквой г. Коэффициент корреляции мог= 1,0

г = -1,0

В

г=0,8

г=0,0

• • •

. • • •• • • •

• • •

Рис. 8.10. Чем теснее связь между переменными, тем ближе абсолютная величина коэффициента корреляции к 1.

жет принимать значения от -1 до+ 1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), а абсолютная величина — тесноту связи. Коэффициент, равный -1, определяет столь же жесткую связь, что и равный 1. В отсутствие связи коэффициент корреляции равен нулю.

На рис. 8.10 приведены примеры зависимостей и соответствующие им значения г. Мы рассмотрим два коэффициента корреляции.

Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регрессионный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда имеют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать.

Коэффициент ранговой корреляции Спирмена можно использовать, когда связь нелинейна — и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.

О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки — это обычные числовые данные, такие, как рост, вес, температура. Значения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. Например, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например, результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3) умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И количественные, и порядковые признаки можно расположить по порядку — на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффициент ранговой корреляции Спирмена. С другими непараметрическими критериями мы познакомимся в гл. 10.

Коэффициент корреляции Пирсона

И все же, почему для описания тесноты связи нельзя воспользоваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклонение. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и другие показатели регрессионного анализа, будет иным. Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены две линии регрессии. В одном случае вес — зависимая переменная, во втором — независимая. Линии регрессии заметно разЗависимость веса от роста (рост - независимая переменная, вес - зависимая)

4h

25

30

35

п—г

40

Рост (X), см

451—г

50

н—г

55

Рис. 8.11. Если поменять местами х и у, уравнение регрессии получится другим, а коэффициент корреляции останется прежним.

ните на табл. 8.4 — в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее.

Связь регрессии и корреляции

Все примеры коэффициентов корреляции (табл. 8.4) мы первоначально использовали для построения линий регрессии. Действительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления коэффициента корреляции, которые мы при этом получим, позволят лучше понять смысл этого показателя.

Вспомним, что уравнение регрессии строится так, чтобы минимизировать сумму квадратов отклонений от линии регрессии.

Обозначим эту минимальную сумму квадратов Socl (эту величину называют остаточной суммой квадратов). Сумму квадратов отклонений значений зависимой переменной Y от ее среднего Y обозначим ?обш. Тогда:

е

2 _ |_ kJocr

С

'-'обш

Величина г2 называется коэффициентом детерминации — это просто квадрат коэффициента корреляции. Коэффициент детерминации показывает силу связи, но не ее направленность.

Из приведенной формулы видно, что если значения зависимой переменной лежат на прямой регрессии, то SOCT = О, и тем самым г = +1 или г = -1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то S0C1 = 50бш. Тогда г = 0.

Видно также, что коэффициент детерминации равен той доле общей дисперсии So6uii которая обусловлена или, как говорят, объясняется линейной регрессией*.

Остаточная сумма квадратов S0CT связана с остаточной дисперсией s2,. соотношением SOCT =(n-2)s2, , а общая сумма кваду\х ~ у\х _

ратов So6ui с дисперсией sv соотношением So6ui =(n-\)sy. В таком случае

г2 =\-n~2S^x

л-1 s2v

Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии s2y^js2. Чем эта доля меньше, тем больше (по абсолютной величине) коэффициент корреляции, и наоборот.

* Следует помнить, что в статистике слова «обусловлена» и «объясняется» не обязательно означают причинную связь.

Мы убедились, что коэффициент корреляции отражает тесноту линейной связи переменных. Однако если речь идет о предсказании значения одной переменной по значению другой, на

коэффициент корреляции не следует слишком полагаться. Например, данным на рис. 8.7 соответствует весьма высокий коэффициент корреляции (г =0,92), однако ширина доверительной области значений показывает, что неопределенность предсказания довольно значительна. Поэтому даже при большом коэффициенте корреляции обязательно вычислите доверительную область значении.

И под конец приведем соотношение коэффициента корреляции и коэффициента наклона прямой регрессии Ь\

r=b

где Ъ — коэффициент наклона прямой регрессии, sx и sY — стандартные отклонения переменных.

Если не брать во внимание случай sx = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда Ъ = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции.

Статистическая значимость корреляции

Поскольку из Ъ = 0 следует г = 0, гипотеза об отсутствии корреляции равнозначна гипотезе о нулевом наклоне прямой регрессии. Поэтому для оценки статистической значимости корреляции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия Ь от нуля:

Здесь число степеней свободы v = я - 2. Однако если коэффициент корреляции уже вычислен, удобнее воспользоваться формулой:

г

t =

Число степеней свободы здесь также v = л -2.

.2 , n-2sy\x п-1 s:

При внешнем несходстве двух формул для они тождественны. Действительно, из того, что

и-9 X2

.2

Г1 =1

следует

2 П — 1 Л 2 ч 2

г, = (l-r )sY.

У\* П_2У Y

У\Х

1 S

Подставив значение 5 I в формулу для стандартной ошибки

BH —

получим

sY п-Г

sx

sx V п-2 С другой стороны, поскольку

Г=Ъ

имеем b=r

SX

Теперь подставим выражения для sb и Ь в формулу

t = b/sb .

Получим:

t = - s*

SY /1 —Г2 \\-r'

'X

п-2 V n-2

Животный жир и рак молочной железы

В опытах на лабораторных животных показано, что высокое содержание животного жира в рационе повышает риск рака молочной железы. Наблюдается ли эта зависимость у людей? К. Кэр-рол* собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молочной железы оказался равен 0,90.

страница 32
< К СПИСКУ КНИГ > 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56

Скачать книгу "Медико-биологическая статистика" (7.41Mb)


[каталог]  [статьи]  [доска объявлений]  [обратная связь]


Химический каталог Rambler's Top100

Copyright © 2009
(21.08.2018)