selvovervåget repræsentationslæring

Selvovervåget repræsentationslæring er en træningsmetode, hvor en model lærer nyttige repræsentationer af data ved at forudsige dele af inputtet fra andre dele, uden manuelle labels.

Kort fortalt

En teknik, hvor en AI lærer at forstå data ved at løse opgaver, der er automatisk genereret fra data selv, f.eks. at forudsige manglende ord i en sætning.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En læringsparadigme, hvor modellen konstruerer et overvågningssignal fra ustrukturerede data ved at benytte strukturen eller relationerne i data selv, typisk ved at forudsige en del af data fra en anden del.

    • Selvovervåget repræsentationslæring har muliggjort træning af sprogmodeller som BERT på enorme tekstmængder uden manuelle labels.
    • I computer vision anvendes kontrastive tab til selvovervåget repræsentationslæring ved at lære at skelne mellem forskellige augmenteringer af samme billede.

Hvornår bruges det

Selvovervåget repræsentationslæring anvendes ofte til at fortræne store modeller på store mængder umærkede data, hvorefter modellen finjusteres på specifikke opgaver med begrænsede labels. Det er grundpillen i moderne sprogmodeller som BERT og GPT.

Oprindelse

Begrebet opstod inden for deep learning omkring 2015-2018, med inspiration fra kontrastiv læring og autoencodere. Det blev populært med fremkomsten af BERT (2018) og senere kontrastive metoder som SimCLR.

Kilder

2
  • Kenton, J. D. M.-W. C., & Toutanova, L. K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
  • Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations (SimCLR).