DistilBERT
forkortelse for Distilled BERT
En mindre og hurtigere version af BERT, trænet ved hjælp af knowledge distillation.
Kort fortalt
En komprimeret udgave af BERT, der bevarer det meste af præstationen men er væsentligt mindre og hurtigere.
- Kategori
- model
- Niveau
- øvet
- Udtale
- /ˈdɪstɪl bɜːrt/
Betydninger
1- 1
En forkortet version af BERT-modellen, trænet ved at overføre viden fra en større BERT-model (lærermodel) til en mindre elevmodel ved hjælp af knowledge distillation.
- DistilBERT bevarer 95 % af BERTs præstation på GLUE-benchmark, mens det er 40 % mindre og 60 % hurtigere. — Hugging Face blog, 2019
- Implementering af DistilBERT i produktion reducerede inferenstiden med en faktor 2 på vores servere.
Hvornår bruges det
DistilBERT bruges typisk i produktionsmiljøer, hvor begrænsninger på beregningsressourcer eller latens gør BERT upraktisk. Den kan anvendes med Hugging Face Transformers-biblioteket til opgaver som tekstklassifikation og spørgsmålsbesvarelse.
Kodeeksempel
from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
import torch
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
inputs = tokenizer('Hugging Face er fantastisk!', return_tensors='pt')
outputs = model(**inputs)
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)Eksempel på brug af DistilBERT med Hugging Face Transformers til tekstklassifikation.
Oprindelse
Navnet er en sammentrækning af 'distilled BERT', der henviser til knowledge distillation-teknikken brugt til at træne modellen.
Afledte ord
2Kilder
2- DistilBERT: a distilled version of BERT: smaller, faster, cheaper and lighter
- Hugging Face DistilBERT documentation