Перейти в начало сайта Перейти в начало сайта
Электронная библиотека «Наука и техника»
n-t.ru: Наука и техника
Начало сайта / Раритетные издания / Биологически активные
Начало сайта / Раритетные издания / Биологически активные

Научные статьи

Физика звёзд

Физика микромира

Журналы

Природа

Наука и жизнь

Природа и люди

Техника – молодёжи

Нобелевские лауреаты

Премия по физике

Премия по химии

Премия по литературе

Премия по медицине

Премия по экономике

Премия мира

Книги

Архимед

Загадки простой воды

Механизм ответственной власти

Парадоксы науки

Приключения великих уравнений

Ученые – популяризаторы науки

Издания НиТ

Батарейки и аккумуляторы

Охранные системы

Источники энергии

Свет и тепло

Научно-популярные статьи

Наука сегодня

Научные гипотезы

Теория относительности

История науки

Научные развлечения

Техника сегодня

История техники

Измерения в технике

Источники энергии

Наука и религия

Мир, в котором мы живём

Лит. творчество ученых

Человек и общество

Образование

Разное

Биологически активные

Станислав Галактионов

Пример из детского сада

Их разработано очень много, этих процедур, и сами авторы обычно признают, что все они весьма, весьма далеки от совершенства. При этом имеются в виду два обстоятельства: сравнительно невысокая надежность получаемых предсказаний и чисто эмпирический характер, отсутствие в применяемых алгоритмах явных представлений о конкретных молекулярных механизмах, лежащих в основе того или иного вида биологической активности.

В третьей главе были, правда, вкратце рассмотрены подходы, базирующиеся именно на таких представлениях, изучающие требования, предъявляемые рецептором к пространственной структуре молекулы биологически активного соединения, взаимодействие отдельных функциональных групп рецептора и биорегулятора и т.п. Однако работы этого направления лишь самые, самые первые ласточки. Они касаются очень немногих, очень узких групп аналогов природных биорегуляторов, для которых в силу благоприятного стечения обстоятельств вообще оказалось возможным применение таких аналитических приемов (как говорят: «ищем не там, где потеряли, а там, где светло»). Да и надежность получаемых при этом оценок также далеко не стопроцентная.

Область применения эмпирических процедур анализа связи «структура – активность» (или, как часто говорят, структурно-функциональных отношений) – вещества сравнительно простые, состоящие из десятков атомов. Это и понятно, поскольку все такие процедуры – вероятностные, основанные на соотнесении каких-то характерных признаков молекулы, степени выраженности ее биологической активности в какой-то тестовой системе. Чем крупнее молекула, тем большим числом признаков она характеризуется. Значительная их часть окажется при этом несущественной с точки зрения наличия или отсутствия данного вида биологической активности, а для выявления в этой ситуации немногих существенных признаков нужны данные об активности очень большого числа сходных по структуре молекул. На самом деле все обстоит как раз наоборот: сведений, относящихся к более сложным молекулам, относительно мало, хотя бы потому просто, что их труднее синтезировать.

Впрочем, это уже начался разговор о сути методов анализа связи «структура – активность».

Для реализации подавляющего большинства таких методов необходимо, однако, решить еще одну техническую проблему: создать банки данных по биологическим активностям химических соединений. Это наиболее сложная часть подготовительного этапа, очень трудоемкая и дорогостоящая. Нужно «перевести» на принятые языки сведения о структуре вещества, его биологической активности, для многих процедур требуются еще и данные о физико-химических свойствах. Все эти данные вводятся в память ЭВМ; для организации их размещения и последующего извлечения для обработки создаются специальные пакеты программ.

Из-за огромного объема связанных с этим работ часто ограничиваются созданием узкоспециализированного банка данных, ориентированного на решение определенного класса частных задач; в последнее время, однако, предприняты успешные попытки создания более универсальных банков данных. Это очень сложно организованные службы (обычно международные), занятые обработкой существующей и сбором постоянно поступающей новой информации о биологической активности химических соединений.

Но, допустим, все эти, в сущности, технические трудности позади. Решены все языковые проблемы, создан банк данных, можно приступать наконец к анализу связи «структура– активность».

Наиболее универсальные подходы к решению задач подобного рода базируются на теории распознавания образов.

Предположим, идете вы по осеннему лесу, помахивая корзиной, в которой лежат две-три сыроежки, и жадно шарите взором по траве. Стоп – шляпка! Наклонившись, срезали. Осмотрели – типичная свинушка. Как вам удалось это установить? Все очень просто, ответит специалист по теории распознавания образов. Каждый гриб можно описать с помощью некоторого набора признаков: пластинчатый или губчатый, цвет шляпки, форма шляпки и ножки, глянцевитая или матовая поверхность, цвет «мяса» и т.п. Обучаясь различению грибов, вы рассматривали представителей различных их видов, причем знающий человек («учитель») вам говорил: вот это, мол, подберезовик, то – волнушка, а вон то – опенок. Иногда он специально указывал на какой-то отличительный признак – скажем, характерным образом подогнутые края шляпки, иногда вы просто полагались на зрительную память. Таким образом, вы вырабатывали для себя решающее правило, с помощью которого теперь уже без помощи учителя сумеете определить вид вновь найденного гриба, то есть отнести его к соответствующему классу подлежащих распознаванию объектов.

Не всегда вы сможете это правило сформулировать вполне четко. Есть признаки, совершенно однозначно определяющие вид (скажем, белые бородавки на ярко-красной шляпке), присущие многим видам (выпуклая форма шляпки) или практически бесполезные при определении вида (размер). Некоторые комбинации признаков, характерных для данного вида, мы часто воспринимаем «на глаз», и если нас спросят, почему мы решили, что это именно опенок, а не шампиньон или (чур, чур!) бледная поганка, объяснить будет трудно, хотя, положив рядом опенок и шампиньон, мы в конце концов сможем указать вполне конкретные различия в отдельных признаках или их комбинациях. Это – так называемая задача обучения распознаванию образов. Если же вы, к примеру, попали на обитаемый остров, где произрастают разные виды грибов, то, будучи человеком наблюдательным, рано или поздно сами создали бы для себя определенную их классификацию (таксономию), необязательно, конечно, совпадающую с общепринятой научной. Это случай так называемого самообучения.

Если описание объекта можно легко формализовать – например, в качестве признаков используются числа, наличие или отсутствие какого-либо элемента и т.п. – почему бы не поручить задачу распознавания вычислительной машине?

Пусть, для простоты, признаков только два, и оба – числа. Например, имеются результаты обследования ребятишек в детском саду; выяснилось, до скольких ребенок умеет считать (признак a) и измерялся его рост (признак b). Представим графически данные, относящиеся к двум группам, старшей и младшей, откладывая по оси абсцисс признак a, а по оси ординат – признак b, так что каждому объекту (ребенку) будет соответствовать точка. Окончив эту работу, мы убедимся, что точки располагаются на графике двумя «роями» – один поближе к началу координат, другой – подальше от него; если же при построении мы наносили разными цветами точки, соответствующие объектам младшей (зеленые) и старшей (красные) групп, мы обнаружим, что совершенно очевидно первый рой образован почти исключительно зелеными точками, второй – красными.

Вычислим средние значения признаков a и b для двух групп и пометим соответствующие точки на графике (центры групп). Можно предложить следующее решающее правило: данный объект принадлежит той группе, ближе к центру которой расположена соответствующая ему точка. Это – пример так называемой геометрической интерпретации задачи распознавания образов. Если теперь нам предстоит определить на основании параметров a и b, к младшей или старшей группе принадлежит данный курносый объект, нам достаточно нанести на график соответствующую точку, измерить расстояния до центров первой и второй групп и сравнить их между собой. ЭВМ, разумеется, такую процедуру выполняет безо всяких графиков, расчетным путем. Обучение в данном случае заключалось в вычислении средних для двух групп.

Внимательно исследовав еще раз график, мы обнаружим, что принятое нами решающее правило срабатывает не всегда: пара зеленых точек расположена ближе к «красному» центру, чем к своему, «зеленому», и наоборот. Действительно, может иногда встретиться в младшей группе вундеркинд, считающий, скажем, до тысячи, а если он к тому же и ростом заметно обогнал сверстников – наша процедура неминуемо совершит ошибку и отнесет его к старшей группе. Причем такие случаи вовсе не являются следствием несовершенства решающего правила: полностью безошибочная классификация на основании только значений параметров a и b здесь невозможна в принципе, а полученное указание на принадлежность объекта именно этой группе следует трактовать таким образом, что он с большей вероятностью относится к ней, чем к другой. (Вспоминается консилиум у постели Буратино: «Пациент скорее жив, чем мертв».)

Существует много способов вычисления этой вероятности; ясно, что такого рода оценку можно сделать уже на основании величин расстояний от рассматриваемой точки до двух центров. На нашем графике нетрудно провести прямую, точки которой в равной степени удалены от каждого из них, и если точка, соответствующая некоторому объекту, расположится именно на ней, мы с помощью нашего решающего правила вообще ничего не сможем сказать о принадлежности объекта той или иной группе.

Очень, конечно же, большое значение имеет выбор параметров, на основании которых происходит распознавание. В рассмотренном примере этот выбор был удачным в том отношении, что параметры a и b независимы (рост и умственное развитие ребенка в данном возрасте необязательно взаимосвязаны). Кроме того, что еще важнее, оба параметра являются существенными, то есть действительно в среднем различны в двух группах, или, как еще говорят, несут информацию о принадлежности объекта одной из групп.

Что же случается, если избранные параметры не удовлетворяют этим требованиям? Проиллюстрируем это на примерах. Пусть мы вначале решаем нашу задачу, используя всего один параметр – рост. Соответствующие различным объектам точки и центры групп располагаются в этом случае на прямой. Мы убедимся, что качество классификации ухудшится. В самом деле, если какой-то мальчуган из старшей группы ростом не вышел, он будет отнесен неправильно (на прямой соответствующая точка расположится, не доходя середины отрезка между двумя центрами); при классификации же на основании двух параметров расстояние до «неправильного» центра окажется уже большим в силу сдвига соответствующей точки по второй оси, параметру a, поскольку по умственному развитию наш объект находится вполне на уровне своего возраста.

Что произойдет, если в качестве второго параметра мы возьмем не независимое от роста умение считать, а величину, связанную с ростом, – например, вес? Точки на нашем графике расположатся узкой восходящей полоской, причем у верхнего ее конца сосредоточатся красные, у нижнего – зеленые. Качество классификации почти не улучшится: второй параметр несет мало дополнительной информации, чаще всего у ребят большего роста окажется и больший вес.

Выбор для описания объекта взаимозависимых (коррелированных) параметров, однако, ошибка не самая страшная; это лишь затрудняет вычисления, но не оказывает отрицательного влияния на результат. В отличие от этого введение несущественных параметров, значения которых не зависят от того, какой группе принадлежит объект, очень сильно сказывается на качестве распознавания, часто делая процедуру вообще неработоспособной.

Действительно, предположим, что в качестве второго параметра мы избрали нечто, совершенно не содержащее малейшего намека на принадлежность ребенка той или иной группе – скажем, номер квартиры, в которой он проживает. В этом случае наш график будет выглядеть следующим образом: ближе к началу координат вертикальной полосой расположатся зеленые точки, к ней будет примыкать и частично пересекаться же полоса зеленых точек. Часто будет наблюдаться такая ситуация: точка близка «своему» центру по существенному параметру – росту, но сильно удалена по значению параметра несущественного – номеру квартиры. В результате различие в расстояниях от нее до каждого из центров станет незначительным, а из-за небольшой даже разницы средних значений второго параметра в двух группах возможны неправильные отнесения. Введение второго, несущественного параметра, таким образом, ухудшает качество предсказания «Под влиянием таких параметров может происходить разнесение объектов одного класса и сближение объектов разных классов. Это явление лежит в основе так называемой «теоремы о гадком утенке»... (Ее доказательство и название принадлежит японскому ученому Ватанабэ. – С.Г.). Своим названием теорема обязана одному из ее частных следствий, согласно которому в таком пространстве расстояние между гадким утенком и лебедем будет таким же, как между двумя лебедями». Это цитата из книги А.Б. Розенблита и В.Е. Голендера «Логико-комбинаторные методы в конструировании лекарств» – несомненно, одной из лучших на русском языке монографий по проблеме анализа связи структура – активность. Книга эта, написанная на самом современном научном уровне, доступна тем не менее во многих частях также и непрофессионалам. Кроме того, ее очень украшают встречающиеся там и сям симпатичные искорки юмора. Пример – прямо на второй странице: «Тираж 300 экземпляров»; естественно, было бы просто издевательством отсылать к ней читателя, желающего глубже ознакомиться с этими вопросами.

 

Непосредственная связь с магией

Оглавление

 

Дата публикации:

10 ноября 2001 года

Электронная версия:

© НиТ. Раритетные издания, 1998

В начало сайта | Книги | Статьи | Журналы | Нобелевские лауреаты | Издания НиТ | Подписка
Карта сайта | Cовместные проекты | Журнал «Сумбур» | Игумен Валериан | Техническая библиотека
© МОО «Наука и техника», 1997...2018
Об организацииАудиторияСвязаться с намиРазместить рекламуПравовая информация
Яндекс цитирования
Яндекс.Метрика