#856 in Audio

185 downloads per month

MIT license

16KB
232 lines

pyannote-rs

Pyannote audio diarization in Rust

Features

cargo add pyannote-rs

How it works

pyannote-rs uses 2 models for speaker diarization:

Segmentation: segmentation-3.0 identifies when speech occurs.
Speaker Identification: wespeaker-voxceleb-resnet34-LM identifies who is speaking.

Inference is powered by onnxruntime.

The segmentation model processes up to 10s of audio, using a sliding window approach (iterating in chunks).
The embedding model processes filter banks (audio features) extracted with knf-rs.

Speaker comparison (e.g., determining if Alice spoke again) is done using cosine similarity.

~3–10MB
~105K SLoC