torchtext

Torchtext er et PyTorch-bibliotek til forbehandling og indlæsning af tekstdata, herunder tokenisering, ordforrådsopbygning og batch-generering.

Kort fortalt

Torchtext er et værktøj, der gør det nemt at arbejde med tekst i PyTorch ved at håndtere tokenisering, ordforråd og dataindlæsning.

Kategori
værktøj
Niveau
øvet
Udtale
/tɔːrtʃtɛkst/

Betydninger

1
  1. 1

    Et open-source Python-bibliotek til forbehandling af tekstdata til maskinlæring, specielt designet til at integrere med PyTorch.

    • Torchtext gør det let at tokenisere tekster og bygge et ordforråd til en sentimentanalyse-model.Officiel dokumentation
    • Ved at bruge torchtext.datastes.IMDb kan vi hurtigt indlæse og forbehandle IMDb-filmanmeldelser.Officiel dokumentation

Hvornår bruges det

Torchtext bruges typisk i NLP-projekter til at forberede tekstdata til træning af modeller. Det tilbyder færdigbyggede datasæt (f.eks. IMDb, AG_NEWS) og værktøjer til at oprette ordforråd og generere batches af tokeniserede sekvenser.

Kodeeksempel

from torchtext.datasets import IMDB
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator

tokenizer = get_tokenizer('basic_english')
train_iter = IMDB(split='train')

def yield_tokens(data_iter):
    for _, text in data_iter:
        yield tokenizer(text)

vocab = build_vocab_from_iterator(yield_tokens(train_iter), specials=['<unk>', '<pad>'])
vocab.set_default_index(vocab['<unk>'])

Eksemplet viser, hvordan man indlæser IMDb-datasættet, tokeniserer teksterne og bygger et ordforråd med torchtext.

Oprindelse

Navnet er en sammentrækning af 'Torch' (fra PyTorch) og 'text', hvilket afspejler bibliotekets fokus på tekstbehandling inden for PyTorch-økosystemet.

Afledte ord

2

Kilder

1