Roadmap
Develop engine core
about 24 months late (06/10/2010)
Molecular vector machine implementation and visualization
95%
Engine architecture
about 13 months late (04/30/2011)
Define high-level artifacts, modules and their relations. Third-party software analysis and making a decision of usage.
94%
MSc-Alexandrova
about 12 months late (06/10/2011)
Version for formal and documentation diploma tasks
79%
Machine learning
about 11 months late (06/30/2011)
Use neural networks and Markov chains to define model parameters
59%
Подсистема обучения¶
Средства реализации¶
Среди рассматриваемых вариантов реализаций подсистемы можно выделить:- Простой статистический анализ
- Сложные вероятностные модели, основанные на анализе предметной области и статистических данных
- Нейронные сети
- Марковские цепи
Рассматриваемые программные средства реализации:
Параметры обучения¶
- Базовый параметр обучения: при добавлении новой аминокислоты она располагается под фиксированными углами (Angle1, Angle2) к добавленным ранее аминокислотам
- У каждой аминокислоты есть параметр Attraction, который определяет, с какой силой она притягивает к себе новую аминокислоту
- Для числового расчета силы притяжения параметр Attraction домножается на некоторый коэффициент D, зависящий от расстояния до новой аминокислоты
- два базовых угла поворота, 20 коэффициентов Attraction
- 40 углов поворота (два на каждую аминокислоту)
- 40 углов поворота, 20 коэффициентов Attraction
Кроме того, возможно, придется ввести параметр, отвечающий за поворот додекаэдра (сейчас вне этапа обучения для додекаэдра зафиксированы лишь две точки, и он может вращаться относительно оси, ими образуемой)
Нейронная сеть¶
На вход сети подаются расстояния от добавленной аминокислоты до альфа-углеродных атомов аминокислот пентафрагмента (4 числа) и расстояния от добавленной аминокислоты до вершин додекаэдра, соответствующих аминокислотам пентафрагмента (4 числа). На выходе - два угла поворота боковой цепи аминокислоты и, возможно, угол поворота додекаэдра вокруг оси, проходящей через центр и вершину Глицина
Описание получения входных и выходных данных
Проблемы:- Вне этапа обучения мы не знаем точно, как располагается додекаэдр, и поэтому не можем получить точные расстояния от добавленной аминокислоты до его вершин.
- Надо учитывать, какая именно аминокислота была добавлена. На этапе обучения это учитывается самим расположением додекаэдра. Возможные решения вне этапа обучения:
- передавать на вход сети 20 параметров, из которых ненулевой только один - соответствующий типу аминокислоты
- создать 20 нейронных сетей - по одной на каждую аминокислоту
Последний вариант является более предпочтительным, так как позволит не вносить в сеть лишних параметров, непосредственно не относящихся к обучаемым. Сеть состоит из 3 слоёв, средний из них обычно называется скрытым. Предметом обсуждения является число перцептронов на скрытом уровне. При использовании нейронной сети скорее всего не удастся учесть влияние друг на друга строящихся последовательно пентафрагментов.
Марковская цепь¶
Освободиться от последнего недостатка нейронных сетей можно использованием k-марковских цепей (high-ordered Markov chains). С одной стороны марковская цепь позволяет описать процесс, с другой стороны л-марковская цепь позволяет отразить зависимость в процессе, распространяющуюся более чем на один шаг назад. Для построения марковской цепи необходимо выбрать вектор признаков