world model-læring

Læring af en intern model af verden, der kan simulere fremtidige tilstande og belønninger.

Kort fortalt

En metode, hvor en AI lærer at forudsige konsekvenserne af sine handlinger ved at opbygge en model af omgivelserne.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    En teknik inden for forstærkningslæring, hvor en agent lærer en model af omgivelserne (typisk en transitions- og belønningsmodel) for at kunne planlægge ved at simulere fremtidige forløb.

    • World model-læring gør det muligt for agenten at planlægge flere skridt frem i tiden.
    • Dreamer-algoritmen er et eksempel på en metode baseret på world model-læring.

Hvornår bruges det

Bruges primært i forstærkningslæring til planlægning og simulering, især i miljøer med sparsom belønning eller hvor interaktion er dyr.

Kodeeksempel

import torch
import torch.nn as nn

class WorldModel(nn.Module):
    def __init__(self, state_dim, action_dim, hidden_dim=256):
        super().__init__()
        self.fc = nn.Sequential(
            nn.Linear(state_dim + action_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, state_dim + 1)  # next_state + reward
        )
    
    def forward(self, state, action):
        x = torch.cat([state, action], dim=-1)
        out = self.fc(x)
        next_state = out[:, :-1]
        reward = out[:, -1:]
        return next_state, reward

# Example usage
model = WorldModel(state_dim=4, action_dim=2)
optimizer = torch.optim.Adam(model.parameters())
# Assuming data (s, a, ns, r) from environment
for s, a, ns, r in dataloader:
    pred_ns, pred_r = model(s, a)
    loss = nn.MSELoss()(pred_ns, ns) + nn.MSELoss()(pred_r, r)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

Simpel implementering af en neural world model, der forudsiger næste tilstand og belønning.

Oprindelse

Sammensat af 'world model' (eng.) og 'læring'.

Kilder

2
  • World Models (Ha & Schmidhuber, 2018)
  • Dream to Control: Learning Behaviors by Latent Imagination (Hafner et al., 2020)