Расчет квантово-химических параметров ФАВ и определение зависимости структура-активность на примере сульфаниламидов
1.1.4 Регрессионный анализ и статистические параметры
Обычно данные биологических испытаний бывают определены со значительно меньшей точностью, чем физико-химические характеристики. Поэтому биологические данные выбирают в качестве зависимых, а физико-химические параметры - в качестве независимых переменных регрессии. Далее выполняется процедура метода наименьших квадратов, и рассчитываются статистические параметры, на основании которых можно судить об адекватности предложенной модели. Обычно регрессионный анализ осуществляется путем последовательного добавления независимых переменных и одновременной проверки характера изменения статистических критериев (метод прямого отбора). Цель такой процедуры — отыскание минимального числа переменных, достаточного для построения статистически значимой корреляционной зависимости. Автоматизированный вариант такой программы приведен в работе [15]. Метод работает таким образом, что на каждом шаге добавляется та переменная, которая обеспечивает максимальное улучшение качества модели. И так до тех пор, пока добавление новой переменной не перестанет давать существенного улучшения точности описания экспериментальной зависимости. Аналогичным образом на каждом шаге проводится проверка каждой переменной по отдельности и исключение ранее включенных в регрессию переменных. Вся процедура отбора переменных основывается на предположении, что переменные, идентифицированные по отдельности как наилучшие, и в совокупности будут образовывать наилучший набор переменных. Такое предположение не всегда оправдывается, особенно в тех случаях, когда между переменными, имеется сильная связь.
1.1.5 Аддитивная модель Фри – Вильсона
В аддитивной модели предполагается, что биологический отклик соединения может быть представлен как сумма активностей заместителей плюс некая общая средняя активность.
Эта модель основана на предположении о том, что вклад данного заместителя, находящегося в структуре в данном положении, всегда одинаков независимо от того, в каком соединении присутствует рассматриваемый заместитель. Величины вкладов заместителей рассчитываются с помощью множественного линейного регрессионного анализа. Для построения линии регрессии необходима только информация о молекулярной структуре и биологической активности соединений, никакие физико-химические параметры не используются.
При анализе данных методом Фри - Вильсона для каждого соединения составляется линейное уравнение, а параметры рассчитываются методом наименьших квадратов. Здесь применяются те же статистические критерии, что и при анализе методом Ханша. Если рассчитанные статистические критерии являются удовлетворительными и тем самым обоснована применимость аддитивной схемы, то с помощью полученных таким образом параметров линейного соотношения можно восстановить величины биологической активности соединений, составляющих исходную выборку. При этом отдельные сильные отклонения от линейной зависимости могут быть сразу же идентифицированы. И наконец, наиболее важный результат состоит в том, что с помощью рассчитанных значений параметров можно предсказать активность соединений, образованных путем всевозможных сочетаний и перестановок исходных заместителей. Относительные вклады в биологическую активность различных заместителей, расположенных в соединении в различных положениях, могут быть упорядочены
Главный недостаток метода Фри — Вильсона заключается в том, что для описания всех заместителей требуется очень большое число переменных. К тому же иногда приходится иметь дело с вырожденными матрицами. Таким образом, при использовании метода Фри — Вильсона исследователю приходится выбирать одну из двух возможностей: либо испытывать большое количество производных, либо ограничивать количество заместителей и их положений в структуре. Результат выбора, очевидно, определяется спецификой конкретной задачи.
1.1.6 Метод Хюккеля, расширенный метод Хюккеля
Исторически метод, предложенный Эрихом Хюккелем в 1931 г., являлся первым полуэмпирическим квантово - химическим методом. В настоящее время он используется лишь для качественного объяснения свойств главным образом π - сопряженных молекул. Для количественных расчетов используется вариант данного метода, введенный в практику в 1961 г. Р. Хоффманом и получивший название расширенного метода Хюккеля. Он является простейшим, наиболее быстрым и вместе с тем наименее точным полуэмпирическим квантово-химическим методом. Его использование ограничивается в основном анализом структуры молекулярных орбиталей — определением их формы и последовательности.
Электрон - электронное взаимодействие в этом методе в явном виде не учитывается, диагональные элементы матрицы Н аппроксимируются потенциалами ионизации, взятыми с обратным знаком, а для недиагональных членов используется одно из приближений.
Рисунок 1.7.1. Вид молекулярных орбиталей HOMO (а) и LUMО (б) молекулы этилена, рассчитанных расширенным методом Хюккеля в программе HyperChem 7.0.
Подобный подход хорошо работает при расчете систем с относительно равномерным распределением заряда, например углеводородов, для которых он и был первоначально использован. Однако даже и в таких случаях бывают казусы. Например, в соответствии с предсказанием расчета, бензол должен распадаться на три молекулы ацетилена с выделением значительного количества теплоты. Что касается систем, содержащих гетероатомы, то для них более адекватным является интегративный расширенный метод Хюккеля. В этом методе уже учитывается зависимость гамильтониана от заряда на данном центре, причем зависимость полагается линейной.
1.2 Современные методы анализа «структура вещества – проявляемая физиологическая активность»
1.2.1 Принципы распознавания образов
Одна из основных предпосылок методов конструирования лекарств — предположение о том, что соединения сходной структуры имеют сходные типы биологической активности. Очень трудно дать строгое определение понятия структурного сходства, о чем свидетельствует обилие и разнообразие параметров, используемых при выводе эмпирических соотношений, связывающих структуру соединений с их биологической активностью. До сих пор наиболее распространенным методом чтения координат и методом построения таких соотношений был регрессионный анализ. Целью этого подхода является построение эмпирических соотношений, связывающих различные сочетания физических, химических или структурных параметров с биологической реакцией соединения. Этот метод особенно эффективен при исследовании не слишком длинных гомологических рядов соединений.
Методам распознавания образов посвящено множество монографий [16]. Этот факт, несомненно, является отражением широкой применимости методов распознавания. Применение методов распознавания образов к химическим задачам началось в середине 1960-х годов в связи с масс-спектральными исследованиями. После этого аналогичные работы стали проводиться во многих других областях химии.