torchaudio

Torchaudio er et bibliotek i PyTorch-økosystemet, der giver værktøjer til indlæsning, behandling og transformation af lyddata med fokus på maskinlæring.

Kort fortalt

Torchaudio gør det nemt at arbejde med lyd i PyTorch ved at tilbyde effektive funktioner til at læse, skrive og omforme lydsignaler.

Kategori
værktøj
Niveau
øvet
Udtale
ˈtɔːrtʃˌɔːdioʊ

Betydninger

1
  1. 1

    Torchaudio er et open-source-bibliotek til PyTorch, der tilbyder lyd-I/O, almindelige lydforvandlinger (fx spektrogram, mel-spektrogram, MFCC) og værktøjer til at arbejde med lyddatasæt.

    • Jeg brugte torchaudio.load() til at læse en WAV-fil og konvertere den til en tensor.eksempel

Hvornår bruges det

Bruges typisk i forbindelse med træning af neurale netværk til lydgenkendelse, tale-til-tekst, musikanalyse og andre lydrelaterede opgaver, hvor man skal forberede lyddata som tensorer.

Kodeeksempel

import torchaudio

# Load an audio file
waveform, sample_rate = torchaudio.load('audio.wav')

# Apply a transformation
spectrogram = torchaudio.transforms.MelSpectrogram()(waveform)

print(spectrogram.shape)

Eksempel på indlæsning af en lydfil og beregning af et mel-spektrogram.

Oprindelse

Navnet er en sammentrækning af 'Torch' (refererer til PyTorch, som selv er en forkortelse af 'Pythonic torch' inspireret af Lua Torch) og 'audio'.

Afledte ord

2

Kilder

1