torchtext
Torchtext er et PyTorch-bibliotek til forbehandling og indlæsning af tekstdata, herunder tokenisering, ordforrådsopbygning og batch-generering.
Kort fortalt
Torchtext er et værktøj, der gør det nemt at arbejde med tekst i PyTorch ved at håndtere tokenisering, ordforråd og dataindlæsning.
- Kategori
- værktøj
- Niveau
- øvet
- Udtale
- /tɔːrtʃtɛkst/
Betydninger
1- 1
Et open-source Python-bibliotek til forbehandling af tekstdata til maskinlæring, specielt designet til at integrere med PyTorch.
- Torchtext gør det let at tokenisere tekster og bygge et ordforråd til en sentimentanalyse-model. — Officiel dokumentation
- Ved at bruge torchtext.datastes.IMDb kan vi hurtigt indlæse og forbehandle IMDb-filmanmeldelser. — Officiel dokumentation
Hvornår bruges det
Torchtext bruges typisk i NLP-projekter til at forberede tekstdata til træning af modeller. Det tilbyder færdigbyggede datasæt (f.eks. IMDb, AG_NEWS) og værktøjer til at oprette ordforråd og generere batches af tokeniserede sekvenser.
Kodeeksempel
from torchtext.datasets import IMDB
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator
tokenizer = get_tokenizer('basic_english')
train_iter = IMDB(split='train')
def yield_tokens(data_iter):
for _, text in data_iter:
yield tokenizer(text)
vocab = build_vocab_from_iterator(yield_tokens(train_iter), specials=['<unk>', '<pad>'])
vocab.set_default_index(vocab['<unk>'])Eksemplet viser, hvordan man indlæser IMDb-datasættet, tokeniserer teksterne og bygger et ordforråd med torchtext.
Oprindelse
Navnet er en sammentrækning af 'Torch' (fra PyTorch) og 'text', hvilket afspejler bibliotekets fokus på tekstbehandling inden for PyTorch-økosystemet.