text segmentation

Opdeling af tekst i mindre, meningsfulde enheder som sætninger, afsnit eller chunks.

Kort fortalt

En metode til at skære en lang tekst op i mindre stykker, så en computer lettere kan forstå og behandle den.

Kategori: teknik
Niveau: øvet
Udtale: /tɛkst sɛɡmɛnˈteːʁɪŋ/

Betydninger

1
Opdeling af en tekst i sproglige enheder såsom ord, sætninger eller afsnit.
- Tekstsegmentering på sætningsniveau er nødvendigt for at kunne oversætte en tekst korrekt.
- Moderne AI-systemer bruger ofte tekstsegmentering til at forbedre forståelsen af lange dokumenter.
2
Opdeling af tekst i meningsfulde blokke (chunks) til videre behandling, f.eks. i informationsgenfinding eller RAG-systemer.
- I et RAG-system udføres tekstsegmentering for at skabe chunks, der kan indekseres og genfindes.

Hvornår bruges det

Tekstsegmentering er en grundlæggende forbehandling i mange NLP-opgaver. I RAG-systemer bruges det til at opdele dokumenter i chunks af passende størrelse til indlejring og genfinding. Det anvendes også i maskinoversættelse og sentimentanalyse.

Kodeeksempel

import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize

text = "Tekstsegmentering er vigtig. Den bruges i mange NLP-opgaver."
sentences = sent_tokenize(text)
print(sentences)
# Output: ['Tekstsegmentering er vigtig.', 'Den bruges i mange NLP-opgaver.']

Eksempel på sætningssegmentering med NLTK's sent_tokenize.

Oprindelse

Fra engelsk 'text segmentation', dannet af 'text' (tekst) og 'segmentation' (segmentering), af latin 'segmentum' (et afskåret stykke).

Afledte ord

sentence segmentation chunking topic segmentation

Kilder

Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing.
Manning, C. D., & Schütze, H. (1999). Foundations of Statistical Natural Language Processing.

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i teknik →Tilfældigt opslag →