white-box adversarial attack

Et white-box adversarial attack er et angreb mod en maskinlæringsmodel, hvor angriberen har fuld adgang til modellens arkitektur, vægte og parametre.

Kort fortalt

Et angreb, hvor man kender alt til modellen og udnytter det til at narre den.

Kategori
teknik
Niveau
øvet

Betydninger

1
  1. 1

    Et angreb på en maskinlæringsmodel, hvor angriberen har fuld kendskab til modellen, inklusive arkitektur, vægte og træningsdata. Angrebet konstrueres typisk ved at beregne gradienten af tabsfunktionen mht. inputtet og forstyrre dette i en retning, der maksimerer fejlklassifikation.

    • Fast Gradient Sign Method (FGSM) er et klassisk white-box adversarial attack, der tilføjer støj i retning af gradientens fortegn.
    • Projektive gradient descent (PGD) er et iterativt white-box angreb, der ofte bruges som reference i robusthedsforskning.

Hvornår bruges det

White-box adversarial attacks bruges primært til at evaluere models robusthed og til at udvikle forsvarsmekanismer. De giver ofte de stærkeste angreb, da gradientinformation kan udnyttes direkte.

Kodeeksempel

import torch
import torch.nn.functional as F

def fgsm_attack(model, x, y, eps=0.03):
    x.requires_grad = True
    output = model(x)
    loss = F.cross_entropy(output, y)
    model.zero_grad()
    loss.backward()
    # FGSM: x_adv = x + eps * sign(grad)
    x_adv = x + eps * x.grad.sign()
    return x_adv

Eksempel på FGSM white-box angreb i PyTorch.

Oprindelse

'White-box' hentyder til, at angriberen ser 'indeni' modellen, i modsætning til black-box. 'Adversarial attack' kommer fra sikkerhedslitteraturen.

Afledte ord

3

Kilder

2