NLP-pipeline

forkortelse for Natural Language Processing pipeline

En sekvens af forarbejdningstrin, der behandler rå tekst til en struktureret repræsentation, typisk i natural language processing.

Kort fortalt

En NLP-pipeline er en kæde af trin, der renser, analyserer og forbereder tekstdata, så en maskine kan arbejde med det.

Kategori: teknik
Niveau: øvet

Betydninger

1
En struktureret sekvens af forarbejdningstrin, der anvendes i natural language processing til at konvertere rå tekst til et format, der kan anvendes af maskinlæringsmodeller.
- Før træning af en tekstklassifikationsmodel skal teksten køres gennem en NLP-pipeline, der omfatter tokenisering og stopordsfjernelse. — eksempel
- spaCy tilbyder en indbygget NLP-pipeline med understøttelse af flere sprog. — dokumentation

Hvornår bruges det

NLP-pipelines anvendes i næsten alle tekstbehandlingssystemer for at standardisere input. Typiske trin inkluderer tokenisering, stamming/lemmatisering, POS-tagging og named entity recognition. Ofte implementeret med biblioteker som spaCy eller NLTK.

Kodeeksempel

import spacy

nlp = spacy.load('da_core_news_sm')
doc = nlp('Jeg elsker AI Ordbog.')
for token in doc:
    print(token.text, token.lemma_, token.pos_)

Oprettelse af en simpel NLP-pipeline med spaCy til dansk tekst, der udfører tokenisering, lemmatisering og POS-tagging.

Oprindelse

Udtrykket 'pipeline' metaforisk fra rørledning, hvor hvert trin udfører en specifik opgave.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →