foundation-model-arkitektur

Den underliggende arkitektur af en foundation model, typisk en transformer-baseret neurale netværksstruktur, der muliggør prætræning på store datasæt.

Kort fortalt

Foundation-model-arkitektur beskriver, hvordan en stor, prætrænet AI-model er bygget, ofte som en transformer, der kan tilpasses mange forskellige opgaver.

Kategori: begreb
Niveau: øvet

Betydninger

1
Den strukturelle opbygning og designprincipper bag en foundation model, ofte kendetegnet ved en transformerblok med selvopmærksomhed og lagdeling, der muliggør prætræning og finjustering.
- Foundation-model-arkitekturen i GPT-4 bygger på en dyb transformer med flere opmærksomhedshoveder. — OpenAI dokumentation, 2023
- Effektiviteten af foundation-model-arkitekturen afhænger af valg af aktiveringsfunktioner og normaliseringslag. — Forskningsartikel, 2022

Hvornår bruges det

Begrebet anvendes inden for maskinlæring til at beskrive designet af modeller som GPT, BERT og andre, der deler en ensartet arkitektur på tværs af domæner. Det bruges især, når man diskuterer skalerbarhed, effektivitet og generaliseringsevne.

Oprindelse

Udtrykket 'foundation model' blev introduceret af Stanfords Center for Research on Foundation Models (CRFM) i 2021. 'Arkitektur' refererer til modellens struktur. Kombinationen betoner, at arkitekturen er central for modelgens egenskaber.

Kilder

On the Opportunities and Risks of Foundation Models (CRFM, 2021)

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i begreb →Tilfældigt opslag →