NLP-pipeline

forkortelse for Natural Language Processing pipeline

En sekvens af forarbejdningstrin, der behandler rå tekst til en struktureret repræsentation, typisk i natural language processing.

Kort fortalt

En NLP-pipeline er en kæde af trin, der renser, analyserer og forbereder tekstdata, så en maskine kan arbejde med det.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En struktureret sekvens af forarbejdningstrin, der anvendes i natural language processing til at konvertere rå tekst til et format, der kan anvendes af maskinlæringsmodeller.

    • Før træning af en tekstklassifikationsmodel skal teksten køres gennem en NLP-pipeline, der omfatter tokenisering og stopordsfjernelse.eksempel
    • spaCy tilbyder en indbygget NLP-pipeline med understøttelse af flere sprog.dokumentation

Hvornår bruges det

NLP-pipelines anvendes i næsten alle tekstbehandlingssystemer for at standardisere input. Typiske trin inkluderer tokenisering, stamming/lemmatisering, POS-tagging og named entity recognition. Ofte implementeret med biblioteker som spaCy eller NLTK.

Kodeeksempel

import spacy

nlp = spacy.load('da_core_news_sm')
doc = nlp('Jeg elsker AI Ordbog.')
for token in doc:
    print(token.text, token.lemma_, token.pos_)

Oprettelse af en simpel NLP-pipeline med spaCy til dansk tekst, der udfører tokenisering, lemmatisering og POS-tagging.

Oprindelse

Udtrykket 'pipeline' metaforisk fra rørledning, hvor hvert trin udfører en specifik opgave.