Словарь

материал средней сложности

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

EHIPS - система СРЕДА-ЗДОРОВЬЕ


   В качестве коррелируемых факторов выбираются данные в координатных интервалах одного или двух блоков. (Например, концентрации ряда загрязнителей и обращаемость по ряду диагнозов.) Для каждой пары факторов рассчитывается обычный коэффициент корреляции. При этом суммирование производится по переменным развертки. Обычно это пространство и/или время. Таким образом, корреляция отражает пространственно-временную синхронность между, скажем, повышением концентрации некоторого загрязнителя и повышением обращаемости с некоторым диагнозом. Коэффициент корреляции отображается цветокодом клетки в таблице, по обеим осям которой - список факторов: по вертикали - первый фактор в паре, по горизонтали - второй.
   Значимость полученных высоких коэффициентов корреляции определяется числом точек в выборке, по которой они построены. Оно отражается насыщенностью цвета в цветокоде. Формируется список максимальных корреляций. Это пары факторов, для которых и значение коэффициента корреляции, и число точек превышают заданные пользователем пороги. Это кандидаты на более детальное изучение, в т.ч. и регрессионными методами.
   Цветокодированная таблица отображает лишь одно сечение " куба данных о корреляциях". Другие сечения, соответствующие другим переменным сравнения (половозрастным группам и т.д.), невидимы, но данные из них тоже входят в список максимальных корреляций.
   Помимо систем отсчета для данных коррелируемых блоков, у корреляций есть своя специфическая система отсчета: лаг между коррелируемыми блоками, взятый по переменным развертки. Например, это задержка во времени между повышением концентрации загрязнителя и откликом на него в виде обращаемости. Если коррелируемые факторы связаны как причина и следствие, зависимость коэффициента корреляции от лага должна иметь закономерный вид ("горб"). Пары факторов, отобранные в список максимальных корреляций, дополнительно проверяются на наличие такой зависимости от лага. Возможны ситуации, когда имеющаяся причинно-следственная связь нелинейна и поэтому не проявляется в линейном коэффициенте корреляции. На этот случай предусмотрен расчет коэффициента детерминации для квадратичной зависимости между всеми парами факторов. Сохраняется то же представление в виде цветокодированной таблицы.
   Возможно, что высокие значения корреляции вызваны причинно-следственной связью не напрямую между парой коррелируемых факторов, а косвенно - между ними обоими и некоторым третьим фактором. Он называется мешающим фактором. Система позволяет, при наличии "подозрительного" мешающего фактора, строить т.наз. условные коэффициенты корреляции при фиксированном значении этого фактора. Сравнение их с обычными корреляциями позволяет выявить те пары факторов, для которых зафиксированный фактор является мешающим.
   С целью создания подвыборки, где корреляции выявляются наиболее четко, для выбранной пользователем пары факторов строится дерево вкладов в их корреляцию отдельных координатных интервалов по каждой переменной развертки. Это позволяет удалить из выборки координатные интервалы переменной развертки, "портящие" корреляцию, а также проверить корреляцию на устойчивость к удалению уникальных событий.
   Дерево вкладов в корреляцию можно строить также по любой переменной сравнения. Это позволяет проверить устойчивость полученных высоких корреляций к сдвигу по переменной сравнения и ограничить выборку тем диапазоном переменной сравнения, для которого корреляции устойчивы. Следует отметить, что значимыми являются не только большие положительные, но и большие отрицательные коэффициенты корреляции.
   Корреляционный анализ является начальным этапом анализа, после которого возможны следующие переходы.

Оглавление

© ИКИ РАН, 1998-2001