semi-supervised clustering
Halvovervåget clustering er en metode, hvor en lille mængde mærkede data bruges til at forbedre clustering af en stor mængde umærkede data.
Kort fortalt
Kort fortalt: en kombination af clustering og overvåget læring, hvor få mærkede punkter hjælper med at forme clusters.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
En clustering-metode, der inkorporerer en lille mængde mærkede data for at forbedre dannelsen af clusters, typisk ved at justere afstandsmålinger eller initialisere clusters baseret på mærkede punkter.
- I semi-supervised clustering af dokumenter kan nogle få håndmærkede dokumenter guide clusteringen af resten af korpus.
Hvornår bruges det
Bruges når man har en stor mængde data, men kun få er mærkede, f.eks. i billedsegmentering eller tekstkategorisering. Teknikken udnytter den strukturelle information i de umærkede data samtidig med, at de mærkede data styrer clustering-processen.
Oprindelse
Termen er sammensat af 'semi-' (halv), 'supervised' (overvåget) og 'clustering' (gruppering), og refererer til en mellemting mellem overvåget og uovervåget clustering.
Kilder
2- Semi-Supervised Clustering by Seeding, Basu et al., 2002
- Semi-Supervised Clustering: A Survey, Bair, 2013