01.12.2023 16:16

Дослідження можливостей штучного інтелекту в одноклітинній біології

Застосування фундаментальних моделей в одноклітинній біології, таких як scGPT, GeneCompass і Geneformer, останнім часом є предметом дискусій серед дослідників. Дослідники представили документ, в якому ретельно оцінюють продуктивність цих моделей, особливо в умовах експериментальних вимірювань і відсутності чітких міток для точного налаштування в одноклітинній біології.

Оцінка була зосереджена на Geneformer і scGPT, обраних через наявність їхніх попередньо навчених ваг. Дослідники Microsoft оцінили їхню продуктивність при виконанні різних завдань, включаючи кластеризацію типів клітин, корекцію пакетного ефекту та реконструкцію вхідних даних. Для оцінки було використано п’ять різних наборів даних тканин людини, які створюють унікальні складнощі для одноклітинного аналізу.

Для кластеризації типів клітин використовували середню ширину силуету (ASW) і середню біологічність (AvgBIO), щоб виміряти унікальність типів клітин в межах простору вбудовування. Пакетну інтеграцію оцінювали за допомогою варіації показника AWS. Ефективність scGPT і Geneformer у виконанні завдань попереднього навчання оцінювали за допомогою середньоквадратичної похибки (MSE) і кореляції Пірсона.

Результати показали, що і scGPT, і Geneformer показали гірші результати, ніж базові стратегії для кластеризації типів клітин та пакетної інтеграції. Geneformer продемонстрував високу дисперсію між наборами даних, а scGPT перевершив scVI для одного набору даних, але відставав від нього для двох інших. Аналіз впливу наборів даних для попереднього навчання на продуктивність моделі, зосереджений на варіантах scGPT, показав покращення середніх оцінок для всіх варіантів моделі.

Огляд структури оцінювання. Система оцінювання базується на двох запропонованих базових моделях, Geneformer і scGPT, і порівнює їх з такими відомими методами, як scVI, і простішими стратегіями, такими як відбір високо варіабельних генів або прогнозування середньої експресії. Щоб забезпечити всебічну оцінку, ми курували різноманітний набір з п’яти наборів даних. Наша оцінка охоплює багато аспектів, включаючи якість вбудовування клітин для таких завдань, як кластеризація за типом клітин і пакетна інтеграція. Крім того, ми ретельно проаналізували продуктивність моделей щодо цілей попереднього навчання. Джерело

При оцінці пакетних ефектів обидві моделі показали погані результати порівняно з scVI, що свідчить про те, що вони не є повністю стійкими до пакетних ефектів у середовищах з нульовими даними. Крім того, при реконструкції експресії генів scGPT показав погані результати, тоді як Geneformer продемонстрував кращі показники. Однак обидві моделі перевершили базовий прогноз.

На завершення, дослідження підкреслює низьку ефективність scGPT та Geneformer в одноклітинній біології в додатках, що використовують нульовий прогноз. Отримані результати підкреслюють необхідність подальших досліджень для вивчення взаємозв’язку між завданнями попереднього навчання, наборами даних для попереднього навчання та продуктивністю при виконанні подальших завдань аналізу.