selvovervåget repræsentationslæring
Selvovervåget repræsentationslæring er en træningsmetode, hvor en model lærer nyttige repræsentationer af data ved at forudsige dele af inputtet fra andre dele, uden manuelle labels.
Kort fortalt
En teknik, hvor en AI lærer at forstå data ved at løse opgaver, der er automatisk genereret fra data selv, f.eks. at forudsige manglende ord i en sætning.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En læringsparadigme, hvor modellen konstruerer et overvågningssignal fra ustrukturerede data ved at benytte strukturen eller relationerne i data selv, typisk ved at forudsige en del af data fra en anden del.
- Selvovervåget repræsentationslæring har muliggjort træning af sprogmodeller som BERT på enorme tekstmængder uden manuelle labels.
- I computer vision anvendes kontrastive tab til selvovervåget repræsentationslæring ved at lære at skelne mellem forskellige augmenteringer af samme billede.
Hvornår bruges det
Selvovervåget repræsentationslæring anvendes ofte til at fortræne store modeller på store mængder umærkede data, hvorefter modellen finjusteres på specifikke opgaver med begrænsede labels. Det er grundpillen i moderne sprogmodeller som BERT og GPT.
Oprindelse
Begrebet opstod inden for deep learning omkring 2015-2018, med inspiration fra kontrastiv læring og autoencodere. Det blev populært med fremkomsten af BERT (2018) og senere kontrastive metoder som SimCLR.
Kilder
2- Kenton, J. D. M.-W. C., & Toutanova, L. K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
- Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations (SimCLR).