ОПИСАНИЕ ТЕКУЩЕЙ ВЕРСИИ СИСТЕМЫ ПО СОСТОЯНИЮ НА 1997 ГОД

Реализация методики
Подключенные к системе базы данных
Система координат и определение в ней выборки
Возможности обзора баз данных
Модель токсикологического (индивидуального) риска
Анализ корреляций
Гипертекстовая база знаний

Реализация методики
Система не представляет собой законченного продукта. В частности, методика, приведенная выше, реализована пока лишь в ее простейших функциях. Остановимся здесь на том, в какой мере система воплощает эту методику, а в какой пока использует упрощения.

Последовательность этапов обработки информации (в терминологии данной системы, подсистем) отображена в главном окне программы и полностью соответствует методике, изложенной в настоящем документе.
В системе задействованы 5 первых этапов ("выброс - концентрация - риск - заболеваемость - исход"). Причин этому две. Во-первых, только эти этапы пока хоть как-то обеспечены базами входных данных. Во-вторых, последующие этапы ближе к проблематике управления и поддержки принятия решений.
Важнейшее отличие текущей версиии системы состоит в том, что она работает непосредственно с данными из БД, в то время, как окончательная версия должна работать по модельной информации. БД будут для нее лишь средством для обучения моделей. Этот подход позволит снять массу проблем, обременяющих текущую версию системы (характерно, что в США, при наличии гораздо более достоверных БД, все шире используется моделирование в обеспечение принятия решений).
Алгоритм токсикологической оценки риска, задействованный на этапе "концентрация - риск", в основных чертах соответствует методике. Он будет доработан в двух направлениях: в плане уточнения коэффициентов применительно к конкретным территориям, группам и т.п. и в плане создания многоуровневой структуры расчета (как минимум два уровня - индивидуальный риск и популяционный риск - должны получить воплощение в ближайшем будущем).
Связь между величиной выброса и концентрацией в настоящее время может быть задана только коэффициентом пересчета, позволяющим трансформировать значения мощности выброса в ожидаемые концентрации. Согласно методике, пересчет должен производиться по модели распространения выброса (каковых к настоящему времени разработано очень много). То же относится к переходу от риска к заболеваемости и от заболеваемости к смертности.
Методы представления информации (карты, графики и т.д.) примерно соответствуют тем, что предусмотрены требованиями по представлению эколого-эпидемиологических сценариев. Разумеется, они не исчерпывают всех способов представления сценария, хотя бы уже потому, что в текущей версии системы отсутствует само понятие управления. Кроме того, они будут дорабатываться в отношении пользовательского интерфейса.
Корреляционный анализ сохранит свое место и в окончательной версии системы как средство быстрого, качественного обзора взаимосвязей показателей. Однако, кроме него, будут предоставлены средства количественного поиска и анализа взаимосвязей, которые должны представлять часть моделей эколого-эпидемиологических объектов. В настоящее время, ввиду отсутствия моделей, этих средств в системе нет.

Подключенные к системе базы данных
В настоящий момент к системе подключены следующие базы данных разного содержания и формата, за разный период времени и с разной пространственно - временной разбивкой.

по выбросам загрязнителей в атмосферу промышленных городов РФ;
по концентрациям загрязнителей в атмосфере (стационарные измерения) промышленных городов РФ;
по смертности населения во всех областях РФ;
по заболеваемости населения во всех областях РФ;
по детской заболеваемости, г. Череповец;
по концентрациям загрязнителей в атмосфере (стационарные измерения), г. Череповец;
по обращаемости (данные скорой помощи) в г. Нижний Тагил;
по концентрациям загрязнителей в атмосфере (стационарные измерения), г. Нижний Тагил;
по смертности населения, г. Нижний Тагил.

Имеются также следующие базы данных, которые находятся в стадии подключения:

по выбросам загрязнителей в атмосферу по отраслям промышленности и по областям РФ;
профессиональная заболеваемость по отраслям промышленности и по областям РФ;
численность населения по половозрастным группам по областям РФ;
по концентрациям загрязнителей в поверхностных водах в промышленных городах РФ;
по концентрациям загрязнителей в поверхностных водах в г. Череповце;
по концентрациям загрязнителей в поверхностных водах в г. Нижнем Тагиле;
по основным санитарно-гигиеническим показателям по районам Свердловской области.
по концентрациям загрязнителей в атмосфере (подфакельные измерения), г. Череповец;
по концентрациям загрязнителей в атмосфере (подфакельные измерения), г. Нижний Тагил.

Кроме того, подключены или планируются к подключению следующие карты:

областное деление РФ;
районное деление г. Череповца;
районное деление Свердловской области.

Система использует единое координатное представление этих БД, несмотря на их разноформатность. Она дает возможность представить содержание каждой из этих БД в единой форме - графиков, таблиц, карт,- и быстро оценить полноту данных и их пригодность для той или иной задачи. Кроме того, возможно сопоставление разноформатных БД через корреляционные матрицы. При этом данные приводятся к "общему знаменателю" пространственно - временного разбиения. Пользователь может определять группы данных для более обобщенного обзора. Правило агрегации, по которому рассчитываются групповые показатели, задается пользователем.

Система координат и определение в ней выборки
Представление данных в системе осуществляется в многомерной системе координат. В данной реализации системы выделяются следующие координаты.

Регион (пространственная координата, указывающая на конкретный район, город, область и проч.);
Период времени (временная координата, указывающая на конкретный интервал времени - день, месяц, год и т.д.);
Загрязнитель (указание конкретного вещества);
Отрасль промышленности, являющаяся источником загрязнения (по ведомственной принадлежности);
Вид заболевания (группа болезней по обращаемости);
Причина смерти (группа болезней и других причин, установленных для классификации смертности);
Половозрастная группа;
Когорта населения (по роду деятельности и т.д.);
Тип риска (канцерогенный риск, индекс опасности и другие параметры).

   На каждом этапе обработки данных используется не весь набор этих координат. В приведенной ниже таблице указываются те координаты, которые реализованы на каждом этапе.
   Координаты непосредственно связаны с процессом визуализации данных. Другое назначение координат связано с анализом и обработкой данных. Правильное задание координат важно для анализа (в частности, корреляционного) и передачи данных в рамках одного этапа обработки.
   Задание выборки по каждой координате в системе представляет из себя задание конкретной системы интервалов, соответствующих этой координате. Рассмотрим это на примере временной координаты. Данные в БД соответствуют не мгновенным значениям переменных (например, концентраций), а усредненным (явным или неявным образом) по определенному времени измерения - дню, месяцу, году. Так, в имеющихся БД по выбросам данные приведены по годам, а в БД по концентрациям - в основном по месяцам. В связи с этим, возникает задача согласования применяемых координат. В то же время координатные интервалы для первичной выборки из БД должны быть адаптированы к структуре этой БД, а координатные интервалы для оценок и анализа должны быть адаптированы к той группировке, которая интересует пользователя. В связи с этим вводится три системы координат для каждого этапа цикла обработки: входная система для импорта данных из БД, входная система для получения данных с предыдущего этапа обработки и выходная система для визуализации, анализа и передачи на следующий этап обработки.
   Применяемая в настоящей реализации системы достаточно гибкая система задания координат позволяет группировать интервалы в более сложные координатные интервалы. В связи с этим возникает представление о системе уровней в задании координат. Нижний уровень является подмножеством интервалов, непосредственно представленных в источнике данных. Более высокие уровни отражают последовательность группировки, которая соответствует последовательности уровней внутренних моделей и потребностям анализа.
   Так, по временной координате для первичной выборки из базы данных концентраций на нижнем уровне необходимо задавать месяцы. А для приема модельных оценок концентраций, рассчитанных на предыдущем этапе обработки на основании данных об объеме выбросов по моделям распространения загрязнителей надо задавать годы, поскольку в настоящий момент отсутствуют помесячные данные по выбросам, которые являются основой для оценки концентраций. Поскольку для сравнимости результатов выборки и оценки применяется одна и та же система координат, то ее нижний уровень должен быть одинаков. Это требование обязывает иметь в координатах для блоков первичной выборки и оценки годовые интервалы. Решение проблемы состоит во введении группирующих интервалов, позволяющих объединять интервалы более низкого уровня. При задании группирующих интервалов необходимо, помимо задания "дочерних" интервалов, указать правило группирования данных. В настоящей реализации системы применяется два варианта группирования данных - суммирование и усреднение. Конкретный выбор зависит от природы группируемых данных и от природы координаты.
   Рассмотрим теперь вопрос о том, когда надо группировать объекты для расчета.

Когда детализация по областям не представляет интереса. Например, разбивка выбросов по отраслям может быть неважна.
Когда не хватает данных. Например, по многим загрязнителям концентрации измерены всего за 1-2 года, и имеет смысл работать только со средними за все время.
Когда лишь групповые показатели имеют физический смысл. Например, расчленение канцерогенного риска по отдельным загрязнителям - всего лишь расчетный прием: реально существует лишь суммарный риск, и лишь он может как-то сопоставляться с заболеваемостью.
Когда на следующем шаге главного цикла расчета требуются менее детализированные координаты, чем на предыдущем. При этом создавать группы можно либо в разделе "переменные" предыдущего шага, либо в разделе "оценка" последующего шага. Важно лишь, чтобы списки областей опасности в этих двух разделах были согласованы.

Группировка облегчает осмысление таблиц, графиков и карт. Поэтому для их просмотра рекомендуется создавать группы типа "все" по каждой переменной.

Возможности обзора баз данных
   В системе имеется окно таблицы. Оно предназначено для просмотра данных в виде таблиц. Оно может также использоваться для перехода к просмотру данных в виде диаграммы и карты. Можно выбрать пару координат, которые показываются в таблице в явном виде по горизонтали и вертикали (строки и столбцы). Остальные координаты будут спрятаны и их значения можно будет менять стрелками в верхней части окна.
   Кнопка смены координат служит для изменения "развернутых" координат, представленных в виде строк и столбцов таблицы. Нажатие на эту кнопку приводит к появлению на экране окна выбора координат.
   Таблица - командный пункт визуализации данных и результатов расчета. Рассмотрим, например, следующую цепочку действий с таблицей по окончании расчета. Она предназначена для всестороннего просмотра некоторой выборки из данных.

Если в выборке были организованы обобщающие группы типа "все территории", "все годы", "все загрязнители", то сначала необходимо просмотреть диаграммы и карты (см. ниже) именно для них.
Просмотреть диаграмму в развертке по времени для группы "все территории". Просмотреть карту для группы "все годы". Просмотреть и диаграмму по времени, и карту для групп "все загрязнители", "все заболевания" и т.д.
Выбрать, в зависимости от решаемой задачи, одну из территорий, один загрязнитель, одну группу заболеваний и т.д. для более подробного изучения и повторять вышеуказанные операции визуализации. Делать это для разных территорий, загрязнителей и т.д. Конечная цель - уточнить координаты используемой выборки, исключив из нее территории, загрязнители и т.д., присутствие которых затушевывает изучаемую проблему (например, размывает связь загрязнения с заболеваниями).
Вызвать коррелятор для связи какого-либо показателя загрязнения (выброс, концентрации, рассчитанный по ним риск) с каким-либо медицинским показателем (заболеваемость, смертность).
При необходимости, консультироваться с гипертекстовой базой знаний, вызывая ее из таблицы для выделенного загрязнителя , территории или заболевания).
Если в результатах расчета четко виден представляющий интерес феномен - пространственный или временной паттерн, связь загрязнение - заболевание для данной выборки и т.д., то занести его в гипертекстовую базу знаний в раздел "результаты исследований" для соответствующего загрязнителя, территории, заболевания. При этом необходимо пользоваться редактором гипертекста.

   Окно диаграммы вызывается из окна таблицы после выделения соответствующего столбца или строки и нажатия кнопки диаграммы.
   Кнопка смены координат в диаграмме служит для изменения "развернутой" координаты, представленной в виде абсциссы, примерно так же, как это делается в окне таблицы.
   Диаграмму рекомендуется использовать следующим образом.

Развертывать данные по времени и переходить с помощью стрелки вдоль последовательности загрязнителей, заболеваний и т.д. с целью визуальной оценки их характерной динамики во времени. В частности, переходя от области к области, можно отбирать для дальнейшего анализа те, у которых визуализируемая переменная более или менее стабильна во времени.
Развертывать данные по территориям и переходить с помощью стрелки от года к году с целью выявления общей для всех территорий тенденции изменения переменной (например, смертности).
Развертывать данные вдоль координаты "загрязнитель", "заболевание" и т.п. и переходить стрелкой от года к году или от территории к территории с целью выявления смены общего паттерна загрязнения или заболеваемости.

Карту рекомендуется использовать для следующих задач.

Поиск характерного географического паттерна распределения тех или иных переменных. Например, для ряда показателей смертности выявляется зависимость от широтного расположения.
Выявление "горячих точек" по некоторой переменной для последующего более подробного изучения (при этом рекомендуется строить карту для средних значений переменной за весь период времени).
Поиск регионов с аналогичными значениями переменной для последующего группирования их в выборке с целью увеличения статистики.
Проверка на устойчивость по времени пространственных паттернов. Для этого необходимо последовательно отмечать в таблице строки (столбцы), соответствующие одному году и наблюдать смену паттернов на карте. Если необходимо проверить на устойчивость по времени данные для одного города или области, лучше делать это в окне диаграммы.

Модель токсикологического (индивидуального) риска
   В системе реализован хорошо известный алгоритм оценки риска, рекомендуемый EPA. Он основан на токсичностях отдельных загрязнителей, которые заданы по базе данных IRIS, концентрациях загрязнителей в среде, которые имеются в подключенных БД (пока рассматривается только воздушная среда) и стандартных сценариях экспозиции разных групп населения, которые также взяты из данных EPA.
   Используемый алгоритм, строго говоря, соответствует данным регионального типа. В применении к данным федерального уровня он требует ряда упрощающих приближений, что снижает точность результатов. Однако представляется, что эта степень грубости анализа соответствует, во-первых, качеству самих исходных данных федерального уровня, во-вторых, чисто прикидочным задачам, которые пока стоят, в-третьих, степени огрубления, которая "встроена" в сам алгоритм и связана с применением токсичностей, полученных из опытов на животных. С этими оговорками, система позволяет рассчитывать риск раковых и нераковых заболеваний в территориальном разрезе, во временной динамике, по разным комбинациям учитываемых загрязнителей, для разных групп населения. Таким образом, система играет роль обзорного средства, но уже применительно не к исходным БД, а к риску.
   В настоящее время возможно сопоставление расчетного риска с реальной заболеваемостью и смертностью путем вычисления корреляций. Планируется создание более мощных программных средств такого сопоставления. В ближайшем будущем расчет риска сможет производиться на основе не только концентраций загрязнителя в среде, но и величины среднего выброса загрязнителей предприятиями.
   Реальная ценность таких оценок риска зависит от усилий, вложенных в подбор используемых коэффициентов применительно к разным группам населения, территориям и т.д. Таким образом, здесь требуется работа экспертов по апробации и коррекции применяемого алгоритма. Помимо выполнения "полезной функции" расчета риска, часть системы, реализующая переход "концентрации - риск", играет методическую роль. На ее примере удобно отлаживать режим взаимодействия с внешними программами, в первую очередь моделями, что является важной частью концепции.
   Основная идея в том, что эксперты могут работать с внешними программами отдельно, в "ручном" режиме, без взаимодействия с главным циклом вычислений (информационным конвейером). При этом они отлаживают параметры и внутреннюю структуру модели, не меняя ее интерфейс с главным циклом. Когда же главному циклу требуетсяэта модель, он использует ее в автоматическом режиме, через вышеуказанный интерфейс, и при этом результаты предыдущей работы экспертов "идут в дело".

Анализ корреляций
   Основой для всей деятельности в эколого-эпидемиологической области является достаточно тесная взаимосвязь между загрязнением среды и состоянием здоровья населения. Хорошо известно, что при анализе произвольно взятой территории, группы населения и т.д. эта связь получается весьма размытой и вряд ли может служить надежной основой для практических действий. Важнейшая задача - формирование такой выборки для анализа, где эта связь, с одной стороны, была бы достаточно тесной, а с другой стороны, представительной для достаточно широкого круга задач. Индикатором тесноты связи в данной версии системы является корреляция между показателями загрязнения (величина выброса или концентрация) и показателями здоровья (заболеваемость, смертность). Она представляется в виде удобно обозримых корреляционных матриц. Корреляция здесь, по существу, играет роль не количественного параметра, а обзорного индикатора, который позволяет сосредоточить внимание на "перспективных" группах, территориях, комбинациях показателей. Далее должно следовать переопределение выборки и вновь - построение корреляционной матрицы. Используется также условная корреляция между двумя переменными при фиксированной третьей. Это позволяет в какой-то степени проверить наблюдаемую корреляцию на мешающие факторы, если таковые представлены в БД в чистом виде или в виде сильно коррелированных с ними показателей. Кроме того, условная корреляция позволяет провести более тонкий анализ внутри группы коррелированных показателей, задействованных в связи "загрязнение - заболевание", и выделить из них "ядро" - основной паттерн.
   Представляет интерес поиск оптимальной выборки не по прямой корреляции типа "концентрация - смертность" и т.п., а по корреляции показателей здоровья с риском, рассчитанным на основе показателей загрязнения. Предполагается, что изучение корреляционной картины побудит пользователя к перегруппировке показателей, включению или исключению части выборки и т.д. Анализа корреляций может работать как на одном блоке главного информационного цикла, так и на двух. Выбор того, корреляцию между какими блоками надо анализировать, производится по таблице, подобной рис. 9. Если выбрать диагональный элемент в этой таблице, корреляции будут строиться на основе данных, имеющихся в одном блоке. При выборе недиагонального элемента корреляции будут строиться как по каждому из двух блоков, так и по разным блокам.
   Суммирование для получения корреляций производится по временным и пространственным координатам.
   Последовательность координатных элементов по абсциссе (слева направо) и ординате (сверху вниз) одинаковая: сначала причины смерти, затем вещество-загрязнитель. Надписи вверху дают информацию об элементе матрицы, на котором стоит курсор. Цвета: от фиолетового (корреляция = -1) до красного (корреляция = +1).
    Назначение коррелятора - ориентировка пользователя в том,

какие переменные одного типа - одной подсистемы - образуют связанные группы (на пересечениях строк и столбцов, соответствующих всем элементам группы стоят красные или оранжевые клетки), так что группу можно брать как единое целое, например ввести новую переменную - среднее по группе;
какие переменные разных типов - подсистем, например, концентрации некоторого загрязнителя и заболеваемость по некоторой группе заболеваний, предположительно взаимосвязаны, так что на их более подробном изучении следует сосредоточиться (в первую очередь, подыскать более узкую выборку по координатам, так чтобы связь выявилась ярче);
какие переменные влияют на взаимосвязь других переменных, т.е. являются для нее мешающими факторами (это определяется по тому, что безусловная - "двухточечная" - корреляция рассматриваемой пары переменных резко отличается от условной корреляции с фиксированной третьей "мешающей" переменной.

На данном этапе разработки системы функции коррелятора - вспомогательные для более точного задания координат, которыми определяется выборка.

Гипертекстовая база знаний
Наряду с базами данных, система содержит и постоянно расширяемую гипертекстовую базу знаний о различных загрязнителях, включая медицинские данные о их влиянии на организм. Эта база знаний программно состыкована с базами данных и в перспективе позволит сочетать количественный и логический анализ информации. В настоящее время она может использоваться только как справочное пособие для работающего с системой эксперта.
По каждому конкретному загрязнителю установлены следующие разделы:

производство и источники выбросов;
пути поступления в организм;
источники данных;
влияние на здоровье;
данные эколого-эпидемиологических исследований;
данные из кратких сводок EPA по токсичности;
коррекция измерений;
выводы из анализа данных.

   Внутри них есть свои подразделы и т.д. Эта структура может быть детализирована как угодно глубоко, в т.ч. и самими пользующимися ею экспертами, с помощью средств редактирования гипертекста.
   Гипертекст организован следующим образом. На каждой его странице есть ключевые слова - "представители" других страниц, где дается более детальная информация, соответствующая этому слову. Ключевые слова - зеленого цвета. При нажатии мыши на ключевое слово совершается скачок, и на экран выводится та страница, с которой связано ключевое слово. По кнопке "назад" можно вернуться назад на исходную страницу. На каждой странице предусмотрены также ключевые слова для возврата к данному загрязнителю или в общий список загрязнителей, а также ключевые знаки << и >> для последовательного перемещения вперед и назад от раздела (страницы) к разделу.
   Информация в этой части гипертекста представляет собой организованные соответствующим образом отчеты-обзоры экспертов - эпидемиологов.
   Аналогичная база знаний имеется для групп заболеваний. Она включает рефераты эколого-эпидемиологических исследований, которые выявили данный тип заболеваний как следствие факторов, связанных с окружающей средой. В эту базу вводятся гипертекстовые связи типа "загрязнитель - вызванное им заболевание".
   Аналогичная же база знаний создается и по каждой территории (области РФ, промышленные города). В данный момент она включает доступ к полному комплекту баз данных по соответствующей территории и к рефератам эколого-эпидемиологических исследований, проведенных для данной территории. Планируется включение сюда любых специфичных для территории сведений.
   Имеется режим "Редактирование", в котором пользователь получает возможность добавлять и изменять текст базы знаний. Это делается, как в любом текстовом редакторе. Поддерживаются возможности переноса текста из и в другие документы с помощью стандартных операций "скопировать" и "вклеить".
   Наиболее важная возможность при редактировании - самостоятельно устанавливать ключевые слова и скачки (далее они называются для краткости ссылками). Для этого нужно отметить фрагмент текста, который предполагается сделать ключевым словом, и нажать кнопку "Установить ссылку". На экране появляется окно, в котором можно определить, в какой текстовый файл ведет ссылка, и на какое его место. Место в файле определяется специальными метками, которые видны в режиме редактирования.
   Возможность для эксперта оперативно редактировать систему ссылок - редкость среди известных средств поддержки гипертекста. Это весьма ценно для использования гипертекста в режиме базы знаний.
   Какие ссылки имеет смысл устанавливать? Первое соображение - удобство работы эксперта. Второе - то, что в своем развитии система получит возможность конструктивно использовать содержащуюся в системе ссылок информацию. Например, связи между страницами загрязнителей и страницами территорий или страницами заболеваний могут использоваться при формировании выборок для анализа как индикатор того, что нужно учитывать.

ОПИСАНИЕ ТЕКУЩЕЙ ВЕРСИИ СИСТЕМЫ ПО СОСТОЯНИЮ НА 1997 ГОД

&nbsp;

© ИКИ РАН, 1998-2001