DistilBERT

forkortelse for Distilled BERT

En mindre og hurtigere version af BERT, trænet ved hjælp af knowledge distillation.

Kort fortalt

En komprimeret udgave af BERT, der bevarer det meste af præstationen men er væsentligt mindre og hurtigere.

Kategori
model
Niveau
øvet
Udtale
/ˈdɪstɪl bɜːrt/

Betydninger

1
  1. 1

    En forkortet version af BERT-modellen, trænet ved at overføre viden fra en større BERT-model (lærermodel) til en mindre elevmodel ved hjælp af knowledge distillation.

    • DistilBERT bevarer 95 % af BERTs præstation på GLUE-benchmark, mens det er 40 % mindre og 60 % hurtigere.Hugging Face blog, 2019
    • Implementering af DistilBERT i produktion reducerede inferenstiden med en faktor 2 på vores servere.

Hvornår bruges det

DistilBERT bruges typisk i produktionsmiljøer, hvor begrænsninger på beregningsressourcer eller latens gør BERT upraktisk. Den kan anvendes med Hugging Face Transformers-biblioteket til opgaver som tekstklassifikation og spørgsmålsbesvarelse.

Kodeeksempel

from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
import torch

tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')

inputs = tokenizer('Hugging Face er fantastisk!', return_tensors='pt')
outputs = model(**inputs)
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

Eksempel på brug af DistilBERT med Hugging Face Transformers til tekstklassifikation.

Oprindelse

Navnet er en sammentrækning af 'distilled BERT', der henviser til knowledge distillation-teknikken brugt til at træne modellen.

Afledte ord

2

Kilder

2
  • DistilBERT: a distilled version of BERT: smaller, faster, cheaper and lighter
  • Hugging Face DistilBERT documentation