dataset distillation

Dataset distillation er en teknik, hvor man komprimerer et stort datasæt til et lille syntetisk datasæt, der bevarer nok information til at træne en model med sammenlignelig ydeevne.

Kort fortalt

Kort sagt: dataset distillation handler om at lave et mini-datasæt, der kan træne en AI næsten lige så godt som det originale store datasæt.

Kategori
teknik
Niveau
øvet
Udtale
/ˈdeɪtəˌsɛt ˌdɪstɪˈleɪʃən/

Betydninger

1
  1. 1

    En teknik inden for maskinlæring, hvor et stort datasæt komprimeres til et lille syntetisk datasæt, der kan træne en model med lignende præstation som det originale datasæt.

    • Forskerne anvendte dataset distillation til at reducere ImageNet til kun 10 billeder per klasse uden væsentligt præstationstab.Konstrueret eksempel
    • Dataset distillation er blevet udvidet til at omfatte gradient matching og distribution matching for forbedret robusthed.Konstrueret eksempel

Hvornår bruges det

Dataset distillation bruges typisk til at reducere beregningsomkostninger ved træning, især ved hyperparameteroptimering eller continual learning, hvor man ønsker at bevare tidligere data i en komprimeret form.

Oprindelse

Termen 'dataset distillation' er sammensat af 'dataset' (datasæt) og 'distillation' (destillation), lånt fra kemi, og refererer til processen med at destillere essensen af data.

Kilder

1
  • Dataset Distillation by Tongzhou Wang et al. (2018)