torchaudio

Torchaudio er et bibliotek i PyTorch-økosystemet, der giver værktøjer til indlæsning, behandling og transformation af lyddata med fokus på maskinlæring.

Kort fortalt

Torchaudio gør det nemt at arbejde med lyd i PyTorch ved at tilbyde effektive funktioner til at læse, skrive og omforme lydsignaler.

Kategori: værktøj
Niveau: øvet
Udtale: ˈtɔːrtʃˌɔːdioʊ

Betydninger

1
Torchaudio er et open-source-bibliotek til PyTorch, der tilbyder lyd-I/O, almindelige lydforvandlinger (fx spektrogram, mel-spektrogram, MFCC) og værktøjer til at arbejde med lyddatasæt.
- Jeg brugte torchaudio.load() til at læse en WAV-fil og konvertere den til en tensor. — eksempel

Hvornår bruges det

Bruges typisk i forbindelse med træning af neurale netværk til lydgenkendelse, tale-til-tekst, musikanalyse og andre lydrelaterede opgaver, hvor man skal forberede lyddata som tensorer.

Kodeeksempel

import torchaudio

# Load an audio file
waveform, sample_rate = torchaudio.load('audio.wav')

# Apply a transformation
spectrogram = torchaudio.transforms.MelSpectrogram()(waveform)

print(spectrogram.shape)

Eksempel på indlæsning af en lydfil og beregning af et mel-spektrogram.

Oprindelse

Navnet er en sammentrækning af 'Torch' (refererer til PyTorch, som selv er en forkortelse af 'Pythonic torch' inspireret af Lua Torch) og 'audio'.

Afledte ord

torchaudio.transforms torchaudio.datasets

Kilder

Torchaudio Documentation

Ressourcer

Ingen ressourcer endnu — del en video, artikel eller PDF om begrebet.

Se også

Mere

Flere i værktøj →Tilfældigt opslag →