Словарь: Кластерный анализ

материал средней сложности

КЛАСТЕРЫ

EHIPS - система СРЕДА-ЗДОРОВЬЕ


   Кластерный анализ - это разбиение выборки на группы (кластеры), состоящие из точек-данных. Кластеры должны быть компактными,т.е. расстояние между разными кластерами должно быть больше, чем среднее расстояние между точками внутри одного и того же кластера.
   При разбиении выборки на кластеры максимизируется отношение среднего межгруппового расстояния к среднему внутригрупповому расстоянию. Оба типа расстояния измеряются с помощью соответствующих критериев, которые могут модифицироваться пользователем. Техника оптимизации - та же, что и для любых критериев. Кроме того, пользователь может устанавливать желаемое число кластеров.
   В качестве точек могут фигурировать координатные интервалы и содержащиеся в них данные любого уровня иерархии (одного и того же для всех точек). Остальные координаты, которые учитываются при расчете расстояния, могут браться из одного или нескольких блоков. В последнем случае координаты, входящие в определение точки, должны присутствовать во всех задействованных блоках. Например: точка определяется днем и территорией (скажем, районом). Расстояние между парой точек определяется разностью концентраций по некоторой группе загрязнителей и разностью числа случаев обращаемости по некоторой группе диагнозов. Каждый загрязнитель и диагноз дает одно измерение в пространство, где размещаются кластеры и где рассчитываются расстояния.
   Полученные кластеры могут использоваться для следующих целей.
  1. Разделение выборки на части, соответствующие характерным (например, высоким и низким) значениям того или иного показателя: концентрации, обращаемости или иной переменной значения. Затем можно искать причины такого разделения выборки на кластеры: решать обратную задачу, выявлять пространственно-временные паттерны, характерные для каждого кластера и т.д.
  2. Выявление координат и координатных интервалов, вдоль которых расстояние между кластерами наибольшее. Это позволяет скорректировать набор координатных интервалов в выборке, в т.ч. и для улучшения результатов самого кластерного анализа. Например, можно ограничить выборку теми загрязнителями, которые меняются "синхронно", образуя отдельный кластер. Они могут соответствовать выбросам конкретного предприятия или группы предприятий.
  3. Разделение выборки на части с разным типом связи между факторами. Это необходимо для улучшения результатов регрессионного анализа в тех случаях, когда функция связи значительно изменяется (например, в пространстве-времени).
   В случае, когда в выборке существует несколько вариантов, их точки используются совместно.

Оглавление

© ИКИ РАН, 1998-2001