BTC$29880

ETH$3666

Шукати

Нове дослідження в галузі штучного інтелекту пропонує простий, але ефективний структурно-орієнтований кодер для розпізнавання білків відповідно до їхньої 3D-структури

Білки, енергія клітини, беруть участь у різних сферах застосування, зокрема у виробництві матеріалів та лікуванні. Вони складаються з амінокислотного ланцюга, який складається в певну форму. Завдяки розвитку недорогих технологій секвенування останнім часом було знайдено значну кількість нових білкових послідовностей. Точні та ефективні методи функціональної анотації білків in silico необхідні для подолання існуючого розриву між послідовністю та функцією, оскільки функціональна анотація нової білкової послідовності все ще залишається дорогим і трудомістким процесом.

Багато підходів, що базуються на даних, покладаються на навчальні представлення білкових структур, оскільки багато функцій білків контролюються тим, як вони згорнуті. Ці уявлення можуть бути застосовані до таких завдань, як дизайн білків, класифікація структур, оцінка якості моделей і прогнозування функцій.

Кількість опублікованих структур білків на порядки менша, ніж кількість наборів даних в інших галузях застосування машинного навчання, через складність експериментальної ідентифікації білкової структури. Наприклад, Protein Data Bank містить 182 тис. експериментально підтверджених структур, порівняно з 47 млн білкових послідовностей у Pfam і 10 млн анотованих зображень в ImageNet. Кілька досліджень використовували велику кількість даних про немічені білкові послідовності для розробки належного представлення існуючих білків, щоб закрити цю прогалину в представленні. Багато дослідників використовували самонавчання для попереднього навчання білкових кодерів на мільйонах послідовностей.

Нещодавні розробки точних методів прогнозування структури білків на основі глибокого навчання зробили можливим ефективне і впевнене прогнозування структур багатьох білкових послідовностей. Тим не менш, ці методи не враховують і не використовують інформацію про структуру білка, яка, як відомо, визначає, як функціонують білки. Для кращого використання структурної інформації було запропоновано багато кодувальників білків, що базуються на структурі. На жаль, взаємодія між ребрами, яка має вирішальне значення для моделювання структури білка, ще не була явно врахована в цих моделях. Більше того, через брак експериментально встановлених структур білків, до недавнього часу було проведено відносно мало роботи зі створення методів попереднього навчання, які використовують переваги немічених 3D-структур.

Натхненні цим досягненням, вони створили білковий кодер, який може бути застосований до цілого ряду застосувань для прогнозування властивостей і попередньо навчений на найбільш вірогідних білкових структурах. Вони пропонують простий, але ефективний кодер на основі структури, названий нейронною мережею з урахуванням геометрії реляційних графіків (GeomEtry-Aware Relational Graph Neural Network), який здійснює передачу реляційних повідомлень на графах білкових залишків після кодування просторової інформації шляхом включення різних структурних або послідовних ребер. Вони пропонують розріджену техніку передачі повідомлень на ребрах для покращення кодера білкової структури, що є першою спробою реалізувати передачу повідомлень на рівні ребер у ГНМ для кодування білкової структури. Їх ідея була натхненна дизайном трикутника уваги в Evoformer.

Вони також пропонують геометричний підхід до попереднього навчання, заснований на добре відомому контрастному навчанні, для вивчення кодувальника білкової структури. Вони пропонують інноваційні функції доповнення, які підвищують схожість між набутими уявленнями субструктур одного білка, зменшуючи схожість між субструктурами різних білків, щоб знайти фізіологічно пов’язані білкові субструктури, які спільно зустрічаються в білках. Вони одночасно пропонують набір простих базових ліній, заснованих на самопрогнозуванні.

Вони створили міцну основу для попереднього навчання уявлень про білкову структуру, порівнявши свої методи попереднього навчання з кількома наступними завданнями прогнозування властивостей. Ці завдання включають приховане передбачення різних геометричних або фізико-хімічних властивостей, таких як типи залишків, евклідових відстаней і двогранних кутів. Численні тести з використанням різноманітних тестів, таких як передбачення номера ферментної комісії, передбачення термів генної онтології, класифікація згинів та класифікація реакцій, показують, що GearNet, вдосконалений передачею периферійних повідомлень, може стабільно перевершувати існуючі білкові кодувальники у вирішенні більшості завдань у контрольованому середовищі.

Більше того, використовуючи запропоновану стратегію попереднього навчання, модель, навчена на менш ніж мільйоні зразків, отримує результати, еквівалентні або навіть кращі, ніж у найсучасніших кодерів на основі послідовностей, попередньо навчених на мільйонах або мільярдах даних. Програмна база знаходиться у відкритому доступі на Github. Вона написана на PyTorch та Torch Drug.