Roadmap

Develop engine core

about 24 months late (06/10/2010)

Molecular vector machine implementation and visualization

95%

51 closed (93%)   4 open (7%)

Engine architecture

about 13 months late (04/30/2011)

Define high-level artifacts, modules and their relations. Third-party software analysis and making a decision of usage.

94%

3 closed (75%)   1 open (25%)

MSc-Alexandrova

about 12 months late (06/10/2011)

Version for formal and documentation diploma tasks

79%

2 closed (50%)   2 open (50%)

Machine learning

about 11 months late (06/30/2011)

Use neural networks and Markov chains to define model parameters

59%

2 closed (50%)   2 open (50%)

Подсистема обучения

Средства реализации

Среди рассматриваемых вариантов реализаций подсистемы можно выделить:
  • Простой статистический анализ
  • Сложные вероятностные модели, основанные на анализе предметной области и статистических данных
  • Нейронные сети
  • Марковские цепи
В качестве основных взяты последние 2. Статистический анализ скорее всего не позволит отразить суть процесса синтеза белка из аминокислот из-за отсутствия возможности явно учесть зависимость от уже построенного участка цепи. Вероятностные модели требуют глубокого анализа статистических данных и возможных сочетаний аминокислот в цепи (надо лучше обосновать).
Рассматриваемые программные средства реализации:
  1. Нейронные сети
  2. Марковские цепи

Параметры обучения

  1. Базовый параметр обучения: при добавлении новой аминокислоты она располагается под фиксированными углами (Angle1, Angle2) к добавленным ранее аминокислотам
  2. У каждой аминокислоты есть параметр Attraction, который определяет, с какой силой она притягивает к себе новую аминокислоту
  3. Для числового расчета силы притяжения параметр Attraction домножается на некоторый коэффициент D, зависящий от расстояния до новой аминокислоты
Варианты параметров:
  1. два базовых угла поворота, 20 коэффициентов Attraction
  2. 40 углов поворота (два на каждую аминокислоту)
  3. 40 углов поворота, 20 коэффициентов Attraction

Кроме того, возможно, придется ввести параметр, отвечающий за поворот додекаэдра (сейчас вне этапа обучения для додекаэдра зафиксированы лишь две точки, и он может вращаться относительно оси, ими образуемой)

Нейронная сеть

Структура нейронной сети

На вход сети подаются расстояния от добавленной аминокислоты до альфа-углеродных атомов аминокислот пентафрагмента (4 числа) и расстояния от добавленной аминокислоты до вершин додекаэдра, соответствующих аминокислотам пентафрагмента (4 числа). На выходе - два угла поворота боковой цепи аминокислоты и, возможно, угол поворота додекаэдра вокруг оси, проходящей через центр и вершину Глицина

Описание получения входных и выходных данных

Проблемы:
  1. Вне этапа обучения мы не знаем точно, как располагается додекаэдр, и поэтому не можем получить точные расстояния от добавленной аминокислоты до его вершин.
  2. Надо учитывать, какая именно аминокислота была добавлена. На этапе обучения это учитывается самим расположением додекаэдра. Возможные решения вне этапа обучения:
    • передавать на вход сети 20 параметров, из которых ненулевой только один - соответствующий типу аминокислоты
    • создать 20 нейронных сетей - по одной на каждую аминокислоту

Последний вариант является более предпочтительным, так как позволит не вносить в сеть лишних параметров, непосредственно не относящихся к обучаемым. Сеть состоит из 3 слоёв, средний из них обычно называется скрытым. Предметом обсуждения является число перцептронов на скрытом уровне. При использовании нейронной сети скорее всего не удастся учесть влияние друг на друга строящихся последовательно пентафрагментов.

Марковская цепь

Освободиться от последнего недостатка нейронных сетей можно использованием k-марковских цепей (high-ordered Markov chains). С одной стороны марковская цепь позволяет описать процесс, с другой стороны л-марковская цепь позволяет отразить зависимость в процессе, распространяющуюся более чем на один шаг назад. Для построения марковской цепи необходимо выбрать вектор признаков