white-box adversarial attack
Et white-box adversarial attack er et angreb mod en maskinlæringsmodel, hvor angriberen har fuld adgang til modellens arkitektur, vægte og parametre.
Kort fortalt
Et angreb, hvor man kender alt til modellen og udnytter det til at narre den.
- Kategori
- teknik
- Niveau
- øvet
Betydninger
1- 1
Et angreb på en maskinlæringsmodel, hvor angriberen har fuld kendskab til modellen, inklusive arkitektur, vægte og træningsdata. Angrebet konstrueres typisk ved at beregne gradienten af tabsfunktionen mht. inputtet og forstyrre dette i en retning, der maksimerer fejlklassifikation.
- Fast Gradient Sign Method (FGSM) er et klassisk white-box adversarial attack, der tilføjer støj i retning af gradientens fortegn.
- Projektive gradient descent (PGD) er et iterativt white-box angreb, der ofte bruges som reference i robusthedsforskning.
Hvornår bruges det
White-box adversarial attacks bruges primært til at evaluere models robusthed og til at udvikle forsvarsmekanismer. De giver ofte de stærkeste angreb, da gradientinformation kan udnyttes direkte.
Kodeeksempel
import torch
import torch.nn.functional as F
def fgsm_attack(model, x, y, eps=0.03):
x.requires_grad = True
output = model(x)
loss = F.cross_entropy(output, y)
model.zero_grad()
loss.backward()
# FGSM: x_adv = x + eps * sign(grad)
x_adv = x + eps * x.grad.sign()
return x_advEksempel på FGSM white-box angreb i PyTorch.
Oprindelse
'White-box' hentyder til, at angriberen ser 'indeni' modellen, i modsætning til black-box. 'Adversarial attack' kommer fra sikkerhedslitteraturen.