Прорив у біології: завдяки «штучному інтелекту» створена база зі структурами майже всіх людських протеїнів
3D-структура білків може надати неоціненну інформацію як для розуміння біологічних процесів, так і для розробки лікарських препаратів на її основі. Оцініть прогрес – за всі попередні роки експериментально була "розшифрована" структура лише близько 17% білків організму людини. Водночас за допомогою нейронної мережі AlphaFold нещодавно таку структуру вдалося визначити ще для ~80% протеїнів, форма яких досі залишалася невідомою.
Завдяки моделі штучного інтелекту від DeepMind дослідники вперше з високою точністю дізналися про тривимірну структуру людських протеїнів, базуючись лише на послідовностях амінокислот, з яких ці протеїни складаються. Зараз ми знаємо структуру вже маже 98% всіх протеїнів, і більшу частину з них – з високою точністю. Загалом, на думку фахівців, з появою AlphaFold проблема передбачення структури протеїну за його послідовністю є розв'язаною, з практичного погляду.
Вчені сподіваються, що таке широкомасштабне та високоточне прогнозування структури стане важливим інструментом, завдяки якому можна зробити багато нових відкриттів у біології. Це дасть змогу значно ефективніше генерувати припущення, як функціонує той чи інший протеїн, а також як він взаємодіє з іншими складовими клітин: що дозволить суттєво прискорити наше розуміння біології живих організмів, механізми захворювань та створення ліків.
Нагадаємо, що у листопаді 2020 року команда дослідників ШІ з Google DeepMind виграла 14-й конкурс «Критична оцінка структурних прогнозів» – щодворічний "сліпий" тест, де обчислювальні біологи намагаються передбачити структуру кількох білків, форма яких була визначена експериментально, але не оприлюднена публічно.
Їхні результати були настільки дивовижними, а проблема настільки важливою для біології, що вразила весь світ і залишила цілу дисципліну, обчислювальну біологію, дивуватися: що сталося? Тепер ми маємо більше відповідей на це запитання
База даних щойно отриманої структури майже всіх білків людини розміщена Європейським інститутом біоінформатики.
Код та параметри натренованої моделі також розміщено у вільному доступі. Це означає, що будь-хто може її використати для будь-якого іншого протеїну, не лише людського, маючи лише його генетичне кодування (послідовність амінокислот, з яких він складається).
Стаття у Nature про результати дослідження структури протеїнів та базу даних, яку вже порівнюють з "пошуком гуглу для науки про життя".