NLP-pipeline
forkortelse for Natural Language Processing pipeline
En sekvens af forarbejdningstrin, der behandler rå tekst til en struktureret repræsentation, typisk i natural language processing.
Kort fortalt
En NLP-pipeline er en kæde af trin, der renser, analyserer og forbereder tekstdata, så en maskine kan arbejde med det.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En struktureret sekvens af forarbejdningstrin, der anvendes i natural language processing til at konvertere rå tekst til et format, der kan anvendes af maskinlæringsmodeller.
- Før træning af en tekstklassifikationsmodel skal teksten køres gennem en NLP-pipeline, der omfatter tokenisering og stopordsfjernelse. — eksempel
- spaCy tilbyder en indbygget NLP-pipeline med understøttelse af flere sprog. — dokumentation
Hvornår bruges det
NLP-pipelines anvendes i næsten alle tekstbehandlingssystemer for at standardisere input. Typiske trin inkluderer tokenisering, stamming/lemmatisering, POS-tagging og named entity recognition. Ofte implementeret med biblioteker som spaCy eller NLTK.
Kodeeksempel
import spacy
nlp = spacy.load('da_core_news_sm')
doc = nlp('Jeg elsker AI Ordbog.')
for token in doc:
print(token.text, token.lemma_, token.pos_)Oprettelse af en simpel NLP-pipeline med spaCy til dansk tekst, der udfører tokenisering, lemmatisering og POS-tagging.
Oprindelse
Udtrykket 'pipeline' metaforisk fra rørledning, hvor hvert trin udfører en specifik opgave.