Vision Transformer

forkortelse for ViT

Vision Transformer (ViT) er en neural netværksarkitektur, der anvender Transformer-modellen direkte på billeder ved at opdele dem i patches og behandle disse som en sekvens af tokens.

Kort fortalt

En metode til at bruge Transformer-modellen (oprindelig udviklet til tekst) på billeder ved at skære billedet i små bidder og behandle dem som ord.

Kategori
arkitektur
Niveau
øvet
Udtale
/ˈvɪʒən trænsˈfɔːrmər/

Betydninger

1
  1. 1

    En arkitektur, der opdeler et inputbillede i faste størrelser af patches, lineariserer hver patch til en vektor, tilføjer positionskodning og behandler sekvensen med en standard Transformer-encoder til klassifikation eller andre opgaver.

    • Vision Transformer opnåede 88,55 % top-1 nøjagtighed på ImageNet ved at behandle billeder som sekvenser af 16×16 patches.Dosovitskiy et al., 2020
    • ViT-modellen anvender et [CLS]-token ligesom BERT til at repræsentere hele billedet.

Hvornår bruges det

Vision Transformer anvendes primært til billedklassifikation og andre synsopgaver. Det kræver store mængder træningsdata for at opnå state-of-the-art resultater, men kan overgå konvolutionelle netværk, når det prætrænes på store datasæt.

Kodeeksempel

import timm
model = timm.create_model('vit_base_patch16_224', pretrained=True)

Indlæs en forudtrænet Vision Transformer-model (ViT-Base) med 16×16 patches og 224×224 inputstørrelse ved hjælp af timm-biblioteket.

Oprindelse

Termen blev introduceret af Dosovitskiy m.fl. i artiklen 'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale' (2020).

Afledte ord

3

Kilder

1