foundation-model-arkitektur
Den underliggende arkitektur af en foundation model, typisk en transformer-baseret neurale netværksstruktur, der muliggør prætræning på store datasæt.
Kort fortalt
Foundation-model-arkitektur beskriver, hvordan en stor, prætrænet AI-model er bygget, ofte som en transformer, der kan tilpasses mange forskellige opgaver.
- Kategori
- begreb
- Niveau
- øvet
Betydninger
1- 1
Den strukturelle opbygning og designprincipper bag en foundation model, ofte kendetegnet ved en transformerblok med selvopmærksomhed og lagdeling, der muliggør prætræning og finjustering.
- Foundation-model-arkitekturen i GPT-4 bygger på en dyb transformer med flere opmærksomhedshoveder. — OpenAI dokumentation, 2023
- Effektiviteten af foundation-model-arkitekturen afhænger af valg af aktiveringsfunktioner og normaliseringslag. — Forskningsartikel, 2022
Hvornår bruges det
Begrebet anvendes inden for maskinlæring til at beskrive designet af modeller som GPT, BERT og andre, der deler en ensartet arkitektur på tværs af domæner. Det bruges især, når man diskuterer skalerbarhed, effektivitet og generaliseringsevne.
Oprindelse
Udtrykket 'foundation model' blev introduceret af Stanfords Center for Research on Foundation Models (CRFM) i 2021. 'Arkitektur' refererer til modellens struktur. Kombinationen betoner, at arkitekturen er central for modelgens egenskaber.