dataset distillation
Dataset distillation er en teknik, hvor man komprimerer et stort datasæt til et lille syntetisk datasæt, der bevarer nok information til at træne en model med sammenlignelig ydeevne.
Kort fortalt
Kort sagt: dataset distillation handler om at lave et mini-datasæt, der kan træne en AI næsten lige så godt som det originale store datasæt.
- Kategori
- teknik
- Niveau
- øvet
- Udtale
- /ˈdeɪtəˌsɛt ˌdɪstɪˈleɪʃən/
Betydninger
1- 1
En teknik inden for maskinlæring, hvor et stort datasæt komprimeres til et lille syntetisk datasæt, der kan træne en model med lignende præstation som det originale datasæt.
- Forskerne anvendte dataset distillation til at reducere ImageNet til kun 10 billeder per klasse uden væsentligt præstationstab. — Konstrueret eksempel
- Dataset distillation er blevet udvidet til at omfatte gradient matching og distribution matching for forbedret robusthed. — Konstrueret eksempel
Hvornår bruges det
Dataset distillation bruges typisk til at reducere beregningsomkostninger ved træning, især ved hyperparameteroptimering eller continual learning, hvor man ønsker at bevare tidligere data i en komprimeret form.
Oprindelse
Termen 'dataset distillation' er sammensat af 'dataset' (datasæt) og 'distillation' (destillation), lånt fra kemi, og refererer til processen med at destillere essensen af data.
Kilder
1- Dataset Distillation by Tongzhou Wang et al. (2018)