16.09.2023 13:07
Ретросинтетичний аналіз в один крок завдяки поєднанню знань хіміків з моделями ШІ
У сфері органічного синтезу, який передбачає створення молекул за допомогою хімічних процесів, ретросинтетичний аналіз відіграє вирішальну роль. Цей процес включає в себе пошук можливих реакцій з прекурсорами для досягнення бажаного хімічного результату. Щоб знайти найоптимальніші шляхи реакції з безлічі можливих, точне передбачення реагентів має важливе значення.
Дослідники Microsoft вивчають методи, засновані на машинному навчанні, для вирішення цієї проблеми. Багато з цих методів використовують авторегресійну генерацію за маркерами, де вихідна послідовність генерується крок за кроком. Вони часто використовують фреймворки кодер-декодер, де кодер перетворює молекулярну послідовність або графік у високорозмірні вектори, а декодер інтерпретує цю інформацію для отримання бажаного результату.
У контексті аналізу ретросинтезу цей процес можна порівняти з перекладом, де метою є перехід від представлення молекули продукту до представлення реагентів. Молекулярний трансформер, що використовує Байєсівську ймовірність, використовується для прогнозування ретросинтетичних маршрутів за допомогою дослідницьких методів. Сформулювавши аналіз ретросинтезу як проблему машинного перекладу, ці дослідники використовують добре відомі глибокі нейронні мережі, які зазвичай використовуються для обробки природної мови.
Етап декодування передбачає побудову вихідних рядків SMILES (Simplified Molecular Input Line Entry System — спрощена система введення молекулярних вхідних рядків) по символу за символом. У нотації SMILES елементарні токени зазвичай відповідають окремим атомам або молекулам. Однак це може інтуїтивно не збігатися зі способом мислення хіміків-синтетиків при розробці маршрутів синтезу. Хіміки часто покладаються на свої знання і досвід, поєднуючи знання існуючих шляхів реакцій з фундаментальним розумінням хімічних принципів.
В аналізі ретросинтезу хіміки починають з молекулярних фрагментів або субструктур, які нагадують цільові молекули або присутні в них. Ці фрагменти схожі на шматочки пазлу, які, коли їх правильно зібрати, призводять до кінцевого продукту через серію хімічних реакцій. Ці фрагменти або субструктури зазвичай отримують з великих наборів даних про відомі реакції, фіксуючи тонку схожість між реагентами і продуктами. Такий підхід дозволяє розглядати аналіз ретросинтезу як задачу послідовного навчання на рівні субструктур, що дає змогу більш автоматизованого синтезу на основі даних.
Моделювання виділених субструктур
В органічній хімії під “субструктурами” розуміють менші будівельні блоки або молекулярні фрагменти, які хімічно подібні до кінцевих молекул або містяться в них. Ці субструктури відіграють життєво важливу роль в аналізі ретросинтезу, оскільки вони дають уявлення про те, як побудовані складні молекули.
Фреймворк, розроблений дослідниками Microsoft, складається з трьох основних компонентів:
- Міжмовний пошуковий алгоритм пам’яті: На основі молекули продукту цей модуль визначає інші реакції, що призводять до утворення подібних продуктів. У ньому використовується ретривер з міжмовною пам’яттю, який навчається ефективно впорядковувати реагенти та продукти у високорозмірному векторному просторі.
- Молекулярний дактилоскопічний аналіз: Молекулярний дактилоскопічний аналіз використовується для виявлення спільних субструктур між молекулою продукту і найкращими перехресними можливостями. Ці спільні субструктури встановлюють зв’язок між фрагментами в реагентах і продуктах на рівні реакції.
- Встановлення взаємозв’язку між фрагментами: У процесі навчання початкова серія токенів перетворюється на послідовність субструктур. Вхідна послідовність починається з рядків SMILES підструктур, за якими йдуть рядки SMILES додаткових фрагментів, позначених віртуальними номерами. Вихідні послідовності складаються з цих віртуально пронумерованих фрагментів. Віртуальні номери позначають сайти, що утворюють зв’язки та з’єднують фрагменти.
Порівняно з іншими методами, цей підхід досягає подібної або вищої точності на різних наборах даних. Зокрема, продуктивність моделі значно покращується, коли підструктури успішно відновлюються з підмножини даних.
Метод демонструє свою узагальнювальну здатність, успішно витягуючи субструктури з 82% сполук у тестовому наборі даних USPTO (Відомство США з патентів і торгових марок).
Зосереджуючись на створенні фрагментів, пов’язаних з віртуально позначеними частинками в субструктурах, метод зменшує довжину рядкових представлень молекул і кількість передбачуваних атомів.
Таким чином, дослідники Microsoft розробили метод вилучення універсально консервативних субструктур для використання в прогнозуванні ретросинтезу. Цей метод може автоматично витягувати ці базові структури без втручання людини, майже імітуючи те, як вчені проводять аналіз ретросинтезу. Він перевершує раніше опубліковані моделі і підкреслює важливість вдосконалення процедур виділення субструктур для підвищення точності прогнозування ретросинтезу. Це дослідження є внеском у захоплюючу та мультидисциплінарну галузь прогнозування ретросинтезу.