16.09.2023 13:58

Як оптимізація мережі прямого зв’язку підвищує ефективність і точність

Архітектура трансформерів, яка набула популярності в обробці природної мови (Natural Language Processing, NLP) і, зокрема, в машинному перекладі (Machine Translation, MT), відома своєю масштабованістю. Додавання додаткових параметрів моделі зазвичай призводить до покращення продуктивності при виконанні різних завдань NLP. Однак паралельно докладаються зусилля, щоб зробити ці моделі ефективнішими та практичнішими для реальних застосувань, вирішуючи проблеми, пов’язані із затримками, використанням пам’яті та дискового простору.

Однією з таких областей є мережа прямого поширення (Feed Forward Network, FFN) в архітектурі трансформерів. FFN відповідає за нелінійне перетворення кожного вхідного токену незалежно. Вона додає складності та виразності розумінню моделі кожного слова, виконуючи певні математичні операції над представленням кожного слова.

Нещодавні дослідження показали, що FFN демонструє високий ступінь надмірності, споживаючи при цьому значну кількість параметрів. Дослідники виявили, що вони можуть зменшити кількість параметрів моделі без значного погіршення точності. Вони досягли цього, внісши зміни як у кодер, так і в декодер:

Шари декодера: Замість того, щоб мати окремі FFN для кожного шару декодера, вони видалили FFN з шарів декодера.
Кодувальні шари: Замість того, щоб мати окремі FFN для кожного кодувального шару, було використано єдиний FFN, спільний для всіх кодувальних шарів.

Переваги цього підходу включають:

Зменшення параметрів: Видалення та спільне використання компонентів FFN дозволило значно зменшити кількість параметрів моделі.
Помірний вплив на точність: Незважаючи на видалення значної кількості параметрів, точність моделі зменшилася лише незначно. Це свідчить про те, що існує певна функціональна надлишковість у FFN як кодера, так і декодера.
Зменшення масштабу: Щоб відновити архітектуру до попереднього розміру, вони розширили прихований вимір спільного FFN. Це призвело до значного покращення точності та швидкості обробки моделі (затримки) порівняно з попередньою великомасштабною моделлю трансформатора.

На закінчення, це дослідження демонструє, що мережа прямого поширення в архітектурі трансформерів, особливо на рівнях декодерів, може бути оптимізована та спільна для всіх без значного впливу на продуктивність моделі. Це не тільки зменшує обчислювальне навантаження моделі, але й підвищує її ефективність та застосовність у різних завданнях NLP, роблячи її більш придатною для реальних застосувань з обмеженими ресурсами.