Учебное пособие: Инфракрасная спектроскопия и спектроскопия кругового дихроизма. Методы определения вторичной структуры белков

. (1.2.10)

Аналогично для спектра КД исследуемого белка:

. (1.2.11)

Подставляя равенства (1.2.10) и (1.2.11) в уравнение (1.2.9), получим связь искомых коэффициентов с известными (из рентгеноструктурного анализа) коэффициентами :

. (1.2.12)

Проблема заключается в определении коэффициентов в разложении (1.2.9). В подобных задачах широко применяется метод наименьших квадратов, определяющий коэффициенты из следующего условия:

minimum (1.2.13)

с ограничениями

и. (1.2.14)

Здесь и - экспериментальное и рассчитанное по формуле (1.2.9) значения для эллиптичности на длине волны , - число точек в спектре.

Согласно теореме Гаусса-Маркова, среди линейных несмещенных оценок оценка, получаемая с помощью метода наименьших квадратов, является наиболее эффективной в том смысле, что рассчитанные с его помощью коэффициенты наиболее близки к своим истинным значениям. Однако, при больших значениях метод наименьших квадратов становится крайне неустойчивым к экспериментальной ошибке. Повышение стабильности метода за счет снижения величины , в свою очередь, также приводит к заметной ошибке.

Авторы метода [4] нашли выход в использовании вместо метода наименьших квадратов линейной смещенной оценки, определяемой следующим условием:

minimum. (1.2.15)

Эта оценка является смещенной и, следовательно, приводит к систематической ошибке. Тем не менее при больших значениях она дает значения более близкие реальным, чем получаемые с помощью метода наименьших квадратов. Очевидно, что уравнение (1.2.15) также необходимо дополнить условиями (1.2.14).

Рассмотрим критерий (1.2.15) более подробно. При a=0 мы получаем обычный метод наименьших квадратов, не пригодный в нашем случае. При a>0 второй член в левой части (1.2.15) является регуляризатором. Он стабилизирует решение, поддерживая коэффициенты малыми (близкими к 1/). Тем не менее, если некоторый спектр содержит компоненты, которые хорошо аппроксимируют , это ограничение не будет иметь такой силы, так как минимизация левой части уравнения (1.2.15) сможет быть достигнута в большей степени уменьшением первого члена, чем второго, что приводит к наиболее оптимальному значению . Таким образом получается очень гибкая, но стабильная модель, которая самостоятельно выбирает из большого набора базисных спектров те, которые аппроксимируют данные наилучшим образом. В случае анализа спектров КД белков уравнению (1.2.15) можно дать следующую интерпретацию. Поскольку априори нельзя сказать, какой из спектров будет аппроксимировать лучше, ни один из них не имеет преимущества, и все коэффициенты полагаются приблизительно равными, близкими к 1/ (смотри условия (1.2.14)).

При возрастании параметра a точность аппроксимации экспериментальных данных падает за счет уменьшения эффективного числа степеней свободы, соответствующего числу свободных параметров в обычном методе наименьших квадратов. Обычно при малых a это происходит медленно, но когда этот параметр становится слишком большим, число степеней свободы становится таким малым, что коэффициенты становятся равными 1/, и метод полностью теряет свою гибкость. Выбор параметра a определяется оптимальным компромиссом между гибкостью и стабильностью модели, тем самым давая наилучшие значения . Авторы данного метода осуществляли выбор a с помощью автоматического статистического теста на относительное увеличение отклонения аппроксимирующего спектра (реконструированного из спектров эталонных белков) от экспериментальных данных при увеличении этого параметра.

Если при анализе спектра КД белка нам известно, что среди белков базисного набора есть белки, структурно схожие с исследуемым, то в уравнение (1.2.15) можно ввести эти данные с помощью различного взвешивания отдельных членов второй суммы этого уравнения, тем самым давая соответствующим коэффициентам большую свободу изменения. Однако сделать это объективно и количественно довольно сложно, поэтому авторы метода не пользовались этим. Как показывают эксперименты, в случае структурной схожести белков соответствующие коэффициенты автоматически выбираются наибольшими без какой-либо дополнительной информации.

Метод "ортогональных спектров" [5,6]. О сновой данного метода является метод собственных векторов многокомпoнентного матричного анализа. Он позволяет проводить быструю обработку больших наборов данных с помощью формирования из них ортогональных компонент в виде собственных векторов с соответствующими собственными значениями.

Этот метод использует в качестве базисных спектры КД 16 белков с известной вторичной структурой в диапазоне 178-260 нм с интервалом в 2 нм (всего по 42 точки в каждом из 16 спектров). Пусть С - прямоугольная матрица размером 1642, содержащая в качестве строк спектры КД эталонных белков. Умножая ее на свою транспонированную матрицу, получим симметричную квадратную матрицу CC T размером 1616. Приведем эту матрицу к диагональному виду с помощью ортогональной матрицы U (1616):

(CC T ) U = UE . (1.2.16)

Матрица U будет состоять из 16 собственных векторов, а диагональная матрица Е - из 16 собственных значений матрицы CC T . Рассмотрим матрицу B , определяемую выражением

B = U T C . (1.2.17)

Это прямоугольная матрица, которая, также как и матрица исходных спектров КД базисных белков, имеет размер 1642. Ее строки можно использовать в качестве 16 новых ортогональных базисных спектров КД, каждый из которых представляет собой линейную комбинацию исходных белковых спектров. Разложение произвольного спектра КД по этим новым базисным спектрам, вместо исходных, оказывается более удобным, поскольку “значимость" каждого их них в этом разложении, то есть степень, в которой он представляет исходный набор базисных спектров, пропорциональна квадратному корню из соответствующего собственного значения. Из этого следует, что любой неполный набор из ортогональных базисных спектров, выбранный таким образом, что соответствующие им собственные значения максимальны, будет описывать произвольный белковый спектр КД лучше, чем любой неполный набор из исходных спектров базисных белков.

Ошибка, возникающая при аппроксимации экспериментального белкового спектра КД с помощью неполного набора наиболее “значимых" ортогональных базисных спектров, определяется следующей формулой:

. (1.2.18)

Здесь s - среднее квадратичное отклонение, n - число точек в спектре, m - число базисных спектров в исходном наборе, - число ортогональных базисных спектров в неполном наборе, используемом для реконструкции произвольного белкового спектра, а - собственные значения, расположенные в ряд в порядке убывания их величины. Случайная ошибка, связанная с погрешностью измерений при снятии спектров КД эталонных белков, приблизительно равна 0.3 единицы De. Сравним ее со значениями s, рассчитанными по формуле (1.2.18) для разных значений m (при m=16):

m s, ед. De
3 0.38
4 0.24
5 0.17
6 0.12

Из приведенной таблицы видно, что четыре ортогональных базисных спектра дают значение s, нe превышающее уровень случайной ошибки. Но эксперименты показывают, что форма реконструированного таким образом спектра плохо совпадает с реальной. Пять ортогональных базисных спектров дают значение s, в два раза меньшее уровня случайной ошибки, и при этом хорошо воспроизводят форму спектра. Шесть ортогональных базисных спектров дают лишь незначительное улучшение.

Это объясняется тем, что оставшиеся базисные спектры представляют собой ни что иное, как “шум”, и их учет приводит лишь к увеличению ошибки при вычислениях. Авторы данного метода использовали для вычислений пять "наиболее значимых" ортогональных базисных спектров (m=5), полагая это количество оптимальным. Эти спектры представлены на рисунке 1.2.2.

Из выражения (1.2.17) следует, что

К-во Просмотров: 322
Бесплатно скачать Учебное пособие: Инфракрасная спектроскопия и спектроскопия кругового дихроизма. Методы определения вторичной структуры белков