torchaudio
Torchaudio er et bibliotek i PyTorch-økosystemet, der giver værktøjer til indlæsning, behandling og transformation af lyddata med fokus på maskinlæring.
Kort fortalt
Torchaudio gør det nemt at arbejde med lyd i PyTorch ved at tilbyde effektive funktioner til at læse, skrive og omforme lydsignaler.
- Kategori
- værktøj
- Niveau
- øvet
- Udtale
- ˈtɔːrtʃˌɔːdioʊ
Betydninger
1- 1
Torchaudio er et open-source-bibliotek til PyTorch, der tilbyder lyd-I/O, almindelige lydforvandlinger (fx spektrogram, mel-spektrogram, MFCC) og værktøjer til at arbejde med lyddatasæt.
- Jeg brugte torchaudio.load() til at læse en WAV-fil og konvertere den til en tensor. — eksempel
Hvornår bruges det
Bruges typisk i forbindelse med træning af neurale netværk til lydgenkendelse, tale-til-tekst, musikanalyse og andre lydrelaterede opgaver, hvor man skal forberede lyddata som tensorer.
Kodeeksempel
import torchaudio
# Load an audio file
waveform, sample_rate = torchaudio.load('audio.wav')
# Apply a transformation
spectrogram = torchaudio.transforms.MelSpectrogram()(waveform)
print(spectrogram.shape)Eksempel på indlæsning af en lydfil og beregning af et mel-spektrogram.
Oprindelse
Navnet er en sammentrækning af 'Torch' (refererer til PyTorch, som selv er en forkortelse af 'Pythonic torch' inspireret af Lua Torch) og 'audio'.