BTC$29880

ETH$3666

Шукати

Поглиблений аналіз відтворюваності та оптимізації в малих масштабах

Нещодавній прорив у галузі штучного інтелекту, пов’язаний з масштабуванням моделей трансформерів, відкриває нові можливості в різних додатках, таких як чат-боти та генерація зображень. Хоча ці великі трансформантні моделі здобули величезну популярність і увагу, дослідники зіткнулися з проблемами, пов’язаними зі стабільністю навчання.

Оскільки обчислювальні ресурси, необхідні для навчання великих трансформерних моделей, продовжують зростати, важливо розуміти фактори, які можуть призвести до нестабільності навчання. Зокрема, великі моделі на основі трансформерів схильні до проблем щодо нестабільності, які не виникають з меншими моделями, що використовують ті ж самі налаштування навчання.

Нещодавнє дослідження науковців з Google DeepMind було присвячене моделюванню та аналізу стабільності та нестабільності навчання у менших за розміром моделях. Спочатку дослідження було зосереджено на двох відомих причинах нестабільності навчання: зростання логів у шарах уваги та відхилення вихідних логів від логів ймовірностей. Ці проблеми були раніше виявлені у великомасштабних моделях.

Досліджуючи взаємозв’язок між швидкістю навчання і втратами під час навчання в різних масштабах, дослідники виявили, що ці нестабільності також впливають на менші моделі, особливо коли використовуються високі швидкості навчання. Вони також виявили, що методи, які застосовуються для пом’якшення цих нестабільностей у великих моделях, ефективні і в менших моделях зі схожими проблемами.

Далі в дослідженні було розглянуто, як інші широко використовувані методи і втручання, такі як розминка, µParam і зниження ваги, впливають на чутливість остаточної втрати до варіацій у швидкості навчання. Поєднуючи ці стратегії, дослідники успішно тренували менші моделі з незмінними показниками втрат, навіть коли швидкість навчання суттєво змінювалася.

Нестабільність зростання логіту уваги з’являється в малих моделях при високих швидкостях навчання. Запропоноване пом’якшення наслідків застосування qk-шарової норми є однаково ефективним і в режимі малого масштабу. Максимальний логіт уваги спостерігається для шару 0, який, як правило, має найбільші значення логіту. Джерело

Дослідження завершилося визначенням двох сценаріїв, в яких нестабільність можна було передбачити до того, як вона стане проблематичною. Це було досягнуто шляхом моніторингу змін у градієнтних нормах і патернах активації в міру масштабування моделі. Ця прогностична здатність дає цінну інформацію для завчасного виявлення та вирішення потенційних проблем у навчанні.

Таким чином, це дослідження розглядає нестабільність навчання у великих трансформерних моделях, вивчаючи це явище на менших масштабах. Дослідники прагнули глибше зрозуміти фактори, що впливають на стабільність навчання, вивчаючи відомі нестабільності та ефекти стратегій оптимізації. Вони також досліджували методи прогнозування, засновані на поведінці моделі, які можуть допомогти запобігти виникненню проблем нестабільності в першу чергу.