Расчет квантово-химических параметров ФАВ и определение зависимости структура-активность на примере сульфаниламидов
Рефераты >> Химия >> Расчет квантово-химических параметров ФАВ и определение зависимости структура-активность на примере сульфаниламидов

Часто необходимые сведения могут быть получены с помощью значительно более простых методов. Одним из таких методов является оценка прогнозирующей способности отдельных признаков. Прогнозирующие способности отдельных признаков могут быть рассчитаны с помощью следующего алгоритма:

1. Значения дескрипторов упорядочиваются по возрастанию.

2. Начиная с наименьшего значения, отмечают количество элементов на класс, превышающее и не достигающее этого значения.

3. Выбирают следующее по величине значение дескриптора и повторяют расчеты до тех пор, пока не будут перебраны все значения данного дескриптора.

4. Отмечают наибольший процент правильных предсказаний для всей выборки и для каждого класса.

При отборе отдельных признаков полезно сопоставить значения различных статистических характеристик системы. Так, для каждого класса без труда могут быть рассчитаны выборочное среднее, стандартное отклонение, наибольшее значение, наименьшее значение и общее количество отличных от нуля значений. Таким образом, можно составить представление об информативности анализируемых данных, а также решить вопрос о том, оправдано ли включение в систему данного дескриптора.

Еще одним полезным критерием является коэффициент корреляции. Сильно коррелированные дескрипторы могут содержать в сущности одну и ту же информацию. Если несколько дескрипторов сильно коррелированны, то можно оставить какой-либо один из них при условии, что после такого отбора общее количество информации не изменится.

Многомерный скейлинг и нелинейное отображение

Очень часто рассматриваемое преобразование приводит к тому, что множества векторов-образов, не пересекавшиеся в исходном пространстве, начинают пересекаться в пространстве меньшей размерности. Этот недостаток вызывает затруднения при объяснении структуры данных. Его можно преодолеть с помощью других, нелинейных методов понижения размерности.

К ним относятся методы нелинейного отображения и многомерного скейлинга. Основная идея заключается в отыскании такой проекции в дву- или трехмерном пространстве, которая походила бы на исходное изображение. Можно использовать различные критерии сходства, однако чаще всего для этой цели используют расстояние. Обычно расстояние измеряют в евклидовой метрике, но в случае необходимости можно применить и другие метрики. Ошибка такого преобразования будет измеряться разностью расстояний в новом и старом представлениях.

Удобно описывать разность между новым и старым расстояниями с помощью такой функции критерия, которая была бы инвариантной по отношению к искажениям конфигурационных многогранников, а также к растяжениям векторов.

Помимо всего прочего многомерный скейлинг дает удобный метод визуального представления структуры данных. Это часто помогает подобрать наиболее подходящий к данному случаю метод классификации. Сфера применения методов скейлинга не ограничивается только предварительной обработкой. Если при нелинейном отображении не возникает существенных искажений исходных данных, классификация может быть проведена самим исследователем путем визуального анализа отображений на пространство низкой размерности.

Классификация

Представление о кластеризации объектов в пространстве информативных измерений является центральным в приложениях методов распознавания образов. Нахождение такого преобразования, с помощью которого можно кластеризовать исследуемую выборку и в результате получить классы объектов, обладающих заданным свойством, является общей целью процедур измерения, предварительной обработки и априорного отбора признаков. По существу, распознавание образов является методом выявления сходства между исследуемыми объектами. В результате классификации отыскиваются некоторые соотношения, характеризующие это сходство. Существует много различных методов классификации, однако в фармакологических приложениях преимущественно используются непараметрические методы. Для понимания основ непараметрических методов необходимо небольшое введение в теорию параметрических методов.

Параметрические методы классификации основаны на байесовской статистике. Эти методы формируют классификационное правило непосредственно из вероятностного распределения данных. Вид вероятностного распределения данных зависит от типа и числа датчиков, методов предварительной обработки и отбора признаков. Цель классификации заключается в максимальном увеличении доли правильных классификаций путем построения функции, определяющей границы между различными классами.

Классификатор может быть построен непосредственно из формулы Байеса

В этом соотношении X - вектор-образ, компоненты которого получены в результате работы различных датчиков. Численные значения этих компонент определяют распределение данных в N-мерном пространстве. Функция Р (Х) описывает распределение данных независимо от того, к какому классу они принадлежат. Р () — вероятность наблюдения класса Wi. Р(W/X) - условная вероятность того, что вектор X принадлежит классу Wi. P(X/Wi) — условная вероятность того, что из класса Wi будет выбран объект, описываемый вектором-образом X.

1.2.3 Методы кластеризации

Понятие о кластеризации - одно из наиболее привлекательных в классификационной задаче. Этот подход естественным образом возникает из геометрической интерпретации задачи. Смысл метода кластеризации ясен из приведенного выше примера, в котором мы искали границу, отделяющую кластер нормальных клеток от кластера аномальных клеток. Поскольку в этой задаче мы имели дело с системой низкой размерности, то достаточно было ограничиться визуальными методами построения разделяющей поверхности. Следовательно, необходимо разработать систематический подход, позволяющий дать более строгое определение кластера.

Есть несколько алгоритмов разделения множества исходных данных на кластеры. В большинстве из этих алгоритмов при выполнении кластеризации в качестве меры близости объектов используются различные способы определения расстояний. Использование расстояния в качестве меры близости является естественным, если учесть, что исследуемые объекты изображаются точками в евклидовом пространстве. Однако критерии, основанные на том или ином способе определения расстояния, являются только одним из возможных способов определения кластеров. Хартиган [18] указал шесть типов алгоритмов кластеризации, отличающихся друг от друга способами выделения кластеров.

1.Сортировка

Объекты разделяются на кластеры в соответствии со значениями, которые принимает какой-либо существенный признак, характеризующий объекты. Затем внутри выделенных таким образом кластеров проводится дальнейшая сортировка путем анализа значений другого признака и т. д.

2.Перегруппировка

Задается некоторое начальное распределение объектов по кластерам. Далее объекты перемещают из одного кластера в другой в соответствии с каким-либо критерием, например величиной стандартного отклонения для данного кластера. Алгоритмы перегруппировки отличаются высокой скоростью, однако конечный результат иногда зависит от вида начального распределения.


Страница: