BTC$29880

ETH$3666

Шукати

Oбчислювально ефективне активне навчання для великих та незбалансованих наборів даних

У сфері обробки природної мови на еволюцію генеративних мовних моделей суттєво вплинула велика кількість доступних текстових даних в Інтернеті. Ці моделі, від базових багатоцільових варіантів до спеціалізованих попередньо навчених моделей для конкретних завдань, використовують величезні обсяги тексту для розуміння складних лінгвістичних структур і закономірностей. Це розуміння потім застосовується до цілого спектра подальших завдань.

Водночас ефективність цих моделей у конкретних завданнях значною мірою залежить від якості та кількості даних, що використовуються під час їхнього точного налаштування. Ця залежність стає особливо критичною в реальних сценаріях, коли необхідні точні прогнози щодо незвичних ідей або щодо меншинних класів. У сценаріях незбалансованої класифікації, коли певні класи є рідкісними, активне навчання стикається зі значними проблемами.

Щоб забезпечити адекватне реагування на такі випадки меншин, необхідно накопичити значний пул немаркованих даних. Традиційні підходи до активного навчання, що базуються на пулах даних, натрапляють на труднощі, коли мають справу з незбалансованими наборами даних. При роботі з великими пулами ці методи часто вимагають значних обчислювальних ресурсів і демонструють нижчі показники точності через потенційне перенастроювання початкової межі прийняття рішення. Як наслідок, вони не можуть адекватно дослідити вхідний простір або виявити приклади меншості.

Завдання бінарної класифікації, де ○, × і • позначають мічені меншості, мічені більшості та немічені екземпляри. Чорна (ліворуч) та кольорова (праворуч) лінії позначають початкову та кінцеву межі рішення. Типовий AL (вгорі) вибирає екземпляри поблизу поточної межі. AnchorAL (внизу) прив’язує вибір до позначених екземплярів (червоний ) і виявляє новий кластер меншості. Джерело

Щоб розв’язати ці проблеми, дослідники з Кембриджського університету розробили AnchorAL — нову методологію активного навчання, призначену для завдань незбалансованої класифікації. AnchorAL стратегічно вибирає приклади, що стосуються певного класу, так звані «якорі», з маркованого набору на кожній ітерації. Ці якорі слугують еталонами для визначення найбільш схожих немаркованих прикладів з масиву даних, які потім групуються в вкладений масив для активного навчання.

AnchorAL спрощує застосування будь-якого підходу активного навчання до великих наборів даних, використовуючи невеликий розмір вкладеного масиву, тим самим покращуючи масштабованість. Він підтримує баланс класів і запобігає надмірному наближенню до початкової межі рішення шляхом динамічного вибору нових якорів на кожній ітерації. Таке динамічне налаштування дозволяє моделі ефективно виявляти нові кластери міноритарних екземплярів у наборі даних.

Ефективність AnchorAL була продемонстрована під час експериментальних оцінок різних проблем класифікації, методологій активного навчання та архітектур моделей. Він має низку переваг над чинними методами, зокрема підвищену обчислювальну ефективність, покращену продуктивність моделі з погляду точності класифікації та генерування наборів даних з покращеним балансом, що має вирішальне значення для точної категоризації малих класів.