Vision Transformer
forkortelse for ViT
Vision Transformer (ViT) er en neural netværksarkitektur, der anvender Transformer-modellen direkte på billeder ved at opdele dem i patches og behandle disse som en sekvens af tokens.
Kort fortalt
En metode til at bruge Transformer-modellen (oprindelig udviklet til tekst) på billeder ved at skære billedet i små bidder og behandle dem som ord.
- Kategori
- arkitektur
- Niveau
- øvet
- Udtale
- /ˈvɪʒən trænsˈfɔːrmər/
Betydninger
1- 1
En arkitektur, der opdeler et inputbillede i faste størrelser af patches, lineariserer hver patch til en vektor, tilføjer positionskodning og behandler sekvensen med en standard Transformer-encoder til klassifikation eller andre opgaver.
- Vision Transformer opnåede 88,55 % top-1 nøjagtighed på ImageNet ved at behandle billeder som sekvenser af 16×16 patches. — Dosovitskiy et al., 2020
- ViT-modellen anvender et [CLS]-token ligesom BERT til at repræsentere hele billedet.
Hvornår bruges det
Vision Transformer anvendes primært til billedklassifikation og andre synsopgaver. Det kræver store mængder træningsdata for at opnå state-of-the-art resultater, men kan overgå konvolutionelle netværk, når det prætrænes på store datasæt.
Kodeeksempel
import timm
model = timm.create_model('vit_base_patch16_224', pretrained=True)Indlæs en forudtrænet Vision Transformer-model (ViT-Base) med 16×16 patches og 224×224 inputstørrelse ved hjælp af timm-biblioteket.
Oprindelse
Termen blev introduceret af Dosovitskiy m.fl. i artiklen 'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale' (2020).