Тазгодишната награда „Ласкер“ за фундаментални медицински изследвания беше присъдена на Демис Хасабис и Джон Джъмпър за техния принос в създаването на системата за изкуствен интелект AlphaFold, която предсказва триизмерната структура на протеините въз основа на последователността от аминокиселини от първи ред.
Резултатите им решават проблем, който отдавна измъчва научната общност, и отварят вратата за ускоряване на изследванията в биомедицинската област. Протеините играят ключова роля в развитието на заболяванията: при болестта на Алцхаймер те се сгъват и струпват; при рака регулаторната им функция се губи; при вродените метаболитни нарушения те са нефункционални; при кистозна фиброза те отиват в грешното пространство в клетката. Това са само някои от многото механизми, които причиняват заболявания. Подробните модели на протеиновата структура могат да осигурят атомни конфигурации, да стимулират проектирането или селекцията на молекули с висок афинитет и да ускорят откриването на лекарства.
Протеиновите структури обикновено се определят чрез рентгенова кристалография, ядрено-магнитен резонанс и криоелектронна микроскопия. Тези методи са скъпи и отнемат време. Това води до съществуващи 3D бази данни за протеинови структури само с около 200 000 структурни данни, докато технологията за ДНК секвениране е произвела повече от 8 милиона протеинови последователности. През 60-те години на миналия век Анфинсен и др. откриват, че 1D последователността на аминокиселините може спонтанно и многократно да се сгъва във функционална триизмерна конформация (Фигура 1А) и че молекулярните „шаперони“ могат да ускорят и улеснят този процес. Тези наблюдения водят до 60-годишно предизвикателство в молекулярната биология: предсказване на 3D структурата на протеините от 1D последователността на аминокиселините. С успеха на Проекта за човешки геном, способността ни да получаваме 1D аминокиселинни последователности се подобри значително и това предизвикателство стана още по-належащо.
Предсказването на протеиновите структури е трудно по няколко причини. Първо, всички възможни триизмерни позиции на всеки атом във всяка аминокиселина изискват много проучване. Второ, протеините използват максимално комплементарността в химическата си структура, за да конфигурират ефективно атомите. Тъй като протеините обикновено имат стотици „донори“ на водородни връзки (обикновено кислород), които трябва да са близо до „акцептора“ на водородната връзка (обикновено азот, свързан с водород), може да бъде много трудно да се намерят конформации, където почти всеки донор е близо до акцептора. Трето, има ограничени примери за обучение на експериментални методи, така че е необходимо да се разберат потенциалните триизмерни взаимодействия между аминокиселините въз основа на 1D последователности, използвайки информация за еволюцията на съответните протеини.
Физиката е използвана за първи път за моделиране на взаимодействието на атомите в търсенето на най-добрата конформация и е разработен метод за предсказване на структурата на протеините. Карплус, Левит и Уоршел са удостоени с Нобелова награда за химия за 2013 г. за работата си по компютърно симулиране на протеини. Методите, базирани на физика, обаче са изчислително скъпи и изискват приблизителна обработка, така че не могат да бъдат предсказани точни триизмерни структури. Друг „базиран на знанието“ подход е използването на бази данни с известни структури и последователности за обучение на модели чрез изкуствен интелект и машинно обучение (AI-ML). Хасабис и Джъмпър прилагат елементи както на физиката, така и на AI-ML, но иновациите и скокът в производителността на подхода произтичат предимно от AI-ML. Двамата изследователи креативно комбинираха големи публични бази данни с индустриални изчислителни ресурси, за да създадат AlphaFold.
Как знаем, че са „решили“ пъзела за структурно предсказване? През 1994 г. е учреден конкурсът за критична оценка на структурното предсказване (CASP), който се провежда на всеки две години, за да се проследи напредъкът на структурното предсказване. Изследователите ще споделят 1D последователността на протеина, чиято структура са разрешили наскоро, но чиито резултати все още не са публикувани. Предсказващият инструмент предсказва триизмерната структура, използвайки тази 1D последователност, а оценителят независимо преценява качеството на предсказаните резултати, като ги сравнява с триизмерната структура, предоставена от експериментатора (предоставена само на оценителя). CASP провежда истински слепи прегледи и записва периодични скокове в производителността, свързани с методологичните иновации. На 14-ата конференция на CASP през 2020 г. резултатите от предсказването на AlphaFold показаха такъв скок в производителността, че организаторите обявиха, че проблемът с 3D предсказването на структурата е решен: точността на повечето предсказвания е близка до тази на експерименталните измервания.
По-широкото значение е, че работата на Хасабис и Джъмпър убедително демонстрира как AI-ML може да трансформира науката. Изследванията показват, че AI-ML може да изгражда сложни научни хипотези от множество източници на данни, че механизмите за внимание (подобни на тези в ChatGPT) могат да откриват ключови зависимости и корелации в източниците на данни и че AI-ML може сам да преценява качеството на своите резултати. AI-ML по същество се занимава с наука.
Време на публикуване: 23 септември 2023 г.




