foundation-model-arkitektur

Den underliggende arkitektur af en foundation model, typisk en transformer-baseret neurale netværksstruktur, der muliggør prætræning på store datasæt.

Kort fortalt

Foundation-model-arkitektur beskriver, hvordan en stor, prætrænet AI-model er bygget, ofte som en transformer, der kan tilpasses mange forskellige opgaver.

Kategori
begreb
Niveau
øvet

Betydninger

1
  1. 1

    Den strukturelle opbygning og designprincipper bag en foundation model, ofte kendetegnet ved en transformerblok med selvopmærksomhed og lagdeling, der muliggør prætræning og finjustering.

    • Foundation-model-arkitekturen i GPT-4 bygger på en dyb transformer med flere opmærksomhedshoveder.OpenAI dokumentation, 2023
    • Effektiviteten af foundation-model-arkitekturen afhænger af valg af aktiveringsfunktioner og normaliseringslag.Forskningsartikel, 2022

Hvornår bruges det

Begrebet anvendes inden for maskinlæring til at beskrive designet af modeller som GPT, BERT og andre, der deler en ensartet arkitektur på tværs af domæner. Det bruges især, når man diskuterer skalerbarhed, effektivitet og generaliseringsevne.

Oprindelse

Udtrykket 'foundation model' blev introduceret af Stanfords Center for Research on Foundation Models (CRFM) i 2021. 'Arkitektur' refererer til modellens struktur. Kombinationen betoner, at arkitekturen er central for modelgens egenskaber.

Kilder

1