4 releases
0.1.3 | Dec 21, 2023 |
---|---|
0.1.2 | Dec 20, 2023 |
0.1.1 | Dec 20, 2023 |
0.1.0 | Dec 20, 2023 |
#960 in Machine learning
315KB
7.5K
SLoC
Stonnx
Main Contributors:
Il nome deriva dalla fusione di Steelix (pokemon di metallo, scelto perchè il progetto è scritto in Rust) e ONNX. Inoltre è anche un gioco di parole con stonks.
Descrizione progetto:
Il progetto consiste nella realizzazione di un interprete ONNX utilizzando il linguaggio Rust. Le richieste da rispettare sono le seguenti:
- Creazione di un parser per estrarre dal file ONNX l'informazione necessaria per la creazione della rete;
- Implementazione di un sotto-set di operatori ONNX;
- Utilizzo di parallelismo per l'esecuzione della rete;
- (Opzionale) binding con altri linguaggi.
Modalità di utilizzo:
-
Scaricare i modelli ONNX utilizzando gli script
download_models.ps1
(windows) odownload_models.sh
(linux/macOS) presenti nella cartellascripts
oppure scaricarli manualmente da questo ed estrarli nella root del repository. Originariamente i modelli erano stati inseriti nel repository utilizzando git-lfs ma questo ha causato problemi con il repository fornitoci dal politecnico in quanto la quota di spazio e banda disponibile era troppo bassa; -
Eseguire il comando
cargo build --release
per compilare il progetto;- di default il progetto viene compilato utilizzando il parallelismo con
rayon
(per compilare con il parallelismo da noi implementato utilizzare il comandocargo build --features custom-threadpool --release
);
- di default il progetto viene compilato utilizzando il parallelismo con
-
Eseguire il comando
cargo run --release -- --model <modelname>
oppurecargo run --release --features custom-threadpool -- --model <modelname>
-
modelname
è il percorso alla cartella contenente il modello. Nel caso il percorso sia relativo, verrà assunto relativo a$pwd/models
dove$pwd
rappresenta la cartella in cui risiede l'eseguibile. Nella cartello contenente il modello ci dovrà essere un fileinputs.json
con il seguente schema:{ "inputs": [ "<percorso verso input del modello>", ... ], "outputs": [ "<percorso verso output attesi del modello>", ... ], "modelpath": "<percorso al file .onnx contenente il modello>" }
tutti i percorsi all'interno di questo file possono essere relativi o assoluti, se relativi, saranno assunti relativi a
$pwd/models/$modelname
. -
Dopo aver clonato il repository, ci saranno dei modelli non presenti all'interno della cartella
models
, questi verranno scaricati automaticamente da internet durante la prima build del progetto.
-
-
Nel caso in cui si volesse visualizzare l'esecuzione degli operatori è possibile aggiungere l'opzione
--verbose
al comando precedente (di default verbose è 0).- Esempio:
cargo run --release -- --model <modelname> --verbose 1
verbose = 0
: non visualizza nullaverbose = 1
: visualizza informazioni riguardanti l'esecuzione degli operatoriverbose = 2
: inserisce gli output di ogni operatore in un file.npy
verbose = 4
: inserisce anche gli output intermedi di ogni operatore in un file.npy
- Esempio:
-
Un esempio di esecuzione del modello
googlenet
è la seguente:cargo run --release --features custom-threadpool -- --verbose 0 --model googlenet-12
-
Inoltre può essere aggiunto il comando
--gengraph
per generare file che poi possono essere usati per disegnare grafi dei modelli. Il programma può generare il grafo in un formato proprietariojson
(che può essere letto da questo tool) oppure in generico formatodot
(da usare con graphviz). Il formato del grafo può essere controllato dall'opzione--graphtype
che può esserejson
odot
(default:json
). Il file generato sarà posto nella stessa cartella in cui risiede il modello eseguito. -
Eseguire il comando
cargo doc --open
per visualizzare la documentazione del progetto.
Modelli supportati:
I modelli testati fanno riferimento a quelli presenti nella sezione archive del repository ufficiale di ONNX, in quanto a inizio Dicembre 2023 sono stati aggiornati e aggiunti nuovi modelli, ma lo sviluppo di questo programma è cominciato molto prima dell'aggiornamento del Model Zoo. I modelli testati sono i seguenti:
- AlexNet
- MobileNet
- GoogleNet
- ResNet
- GPT2
- Emotion
- CaffeNet
- Inception
- Mnist
- SqueezeNet
- Shufflenet
- Super Resolution
- VGG
- ZFNet
Nota: durante la scelta dei modelli è stato selezionata la versione più recente presente nella sezione archive del repository di ONNX.
Crate più importanti utilizzati:
Sono state utilizzate le seguenti crate:
- ndarray: utilizzato per la gestione degli array multidimensionali;
- anyhow: utilizzato per la gestione degli errori;
- clap: utilizzato per la gestione degli argomenti da linea di comando;
- bytemuck: utilizzato per la conversione di tipi;
- petgraph: utilizzato per la creazione del grafo della rete;
- serde: utilizzato per la serializzazione e deserializzazione di strutture dati;
- protobuf: utilizzato per la gestione dei file protobuf;
Descrizione varie parti del progetto:
-
src/main.rs
: file principale del progetto, contiene la funzione main e la gestione degli argomenti da linea di comando; -
src/operators
: contiene i file con le implementazioni degli operatori ONNX;- tra gli operatori implementati si possono trovare (ma non solo):
Add
,AveragePool
,BatchNormalization
,Concat
,Conv
,Dropout
,Flatten
,Gemm
,GlobalAveragePool
,MaxPool
,MatMul
,Mul
,Relu
,Reshape
,Softmax
,Sum
,Transpose
;
- tra gli operatori implementati si possono trovare (ma non solo):
-
src/onnxparser
: contiene i file con l'implementazione del parser per estrarre le informazioni dal file ONNX;- I file in questa cartella vengono generati a tempo di build (vedere
build.rs
) dal compilatore di protobuf utilizzando la libreriaprotobuf_codegen
.
- I file in questa cartella vengono generati a tempo di build (vedere
-
src/executor
: contiene l'implementazione per l'esecuzione della rete, sono presenti:- logica per la creazione del grafo e l'esecuzione degli operatori;
- logica per la creazione di un pool di thread (personalizzato o utilizzando la libreria
rayon
) e la gestione della comunicazione tra i thread; - logica per il confronto degli output attesi con quelli ottenuti;
-
src/parallel
: contiene i file per l'implementazione del parallelismo con threadpool;- Il parallelismo è implmentato in due modi diversi:
- utilizzando la libreria
rayon
(di default); - utilizzando un thread pool custom (attivabile con il flag
--features custom-threadpool
);
- utilizzando la libreria
- Il parallelismo è implmentato in due modi diversi:
-
src/protograph
: contiene i file per l'implementazione della creazione di un file.json
contenente il grafo della rete; -
src/protos
: contiene il fileonnx.proto
utilizzato per la creazione del file.rs
contenente le strutture dati per la gestione dei file protobuf; -
src/common/mod.rs
: contiene le strutture dati utilizzate per la gestione dei file ONNX;- gestione del
verbose
; - gestione delle path per i file input e output dei vari modelli;
- gestione dei file
.json
contenenti il grafo della rete; - gestione del
opset_version
degli operatori; - gestione dei risultati ottenuti dall'esecuzione di un operatore;
- gestione dei tipi di dato;
- gestione di un tratto per la rappresentazione dei tensori (
ArrayElement
); - gestione della lettura dei dati da formato binario, per la creazione dei tensori;
- gestione del
-
src/utils
: gestione di operazioni utili per la creazione dei tensori e la gestione di questi ultimi;- Sono presenti tra le varie cose funzioni per la creazione di file .npy contenenti i tensori durante l'esecuzione della rete, se il verbose è impostato a valori sopra lo 0;
- Sono presenti anche funzioni per la creazione di tensori a partire shape e tipo di dato oppure shape, byte e tipo di dato;
- Sono presenti anche funzioni per la creazione di tensori di input e output a partire dalla descrizione del modello;
Architettura del programma:
Il programma ha quattro step principali:
- Parsing e lettura del file .onnx, dei suoi input provenienti dall'esterno e inizializzazione dei tensori iniziali con questi ultimi.
- Creazione di 2 grafi, rappresentati da due HashMap, uno che connette ogni operatore ai suoi input e uno che connette ogni input (tensore) agli operatori in cui viene usato, praticamente l'inverso del primo. Avere queste due rappresentazioni ci permette quindi di avere un grafo delle dipendenze di ciascun operatore, che verrà poi usato nell'esecuzione del modello stesso. Infatti, quando un operatore avrà soddisfatto tutte le sue dipendenze (e.g. i suoi input verranno prodotti da un operatore precedente), esso potrà essere messo in coda per l'esecuzione nel thread pool.
- Esecuzione dell'inferenza: il modello viene eseguito in parallelo, partendo dagli operatori che non hanno dipendenze o che hanno dipendenze già completamente soddisfatte, questi verranno messi in coda nel thread pool, ogni volta che un operatore viene portato a termine, il risultato di quest'ultimo verrà comunicato al thread principale che aggiornerà il grafo delle dipendenze e farà partire gli operatori che grazie a questo risultato hanno soddisfatto ora le loro dipendenze e così via, finchè il grafo delle dipendenze non sarà vuoto, e avremo quindi ottenuto il risultato finale.
- Implementazione del thread pool: La struttura principale che rappresenta il thread pool è composta da una
queue
(una coda sincronizzata per la gestione dei compiti),workers
(una collezione di thread) e unaqueuestate
(un contatore per tracciare il numero di operazioni in coda);- Quando un thread viene creato, esso inizia a ciclare in attesa di un'operazione da eseguire, quando un'operazione diventa disponibile perché le sue dipendenze sono state risolte, il thread che la aggiunge, notifica la queue dei workers tramite una
Condvar
, di conseguenza, uno dei thread liberi prende l'operazione e la esegue, quando questa viene completata, il thread notifica il thread principale che il compito è stato eseguito, il thread principale aggiorna il grafo delle dipendenze e aggiunge alla coda le operazioni che ora possono essere eseguiti, e così via, finchè non ci sono più compiti da eseguire; - Il codice utilizza
Mutex
eCondvar
per l'accesso sincronizzato alla coda e per la comunicazione tra i thread; - Per quanto riguarda il parallelismo all'interno degli operatori, questo è stato implementato solo in alcuni operatori (dove si è ritenuto più conveniente, così da non appesantire l'esecuzione del programma nel caso di calcoli molto semplici e veloci con la gestione dei vari lock, e context switch tra i vari thread), in particolare, tra questi si può trovare
Conv
,Exp
,Sqrt
,Pow
,MaxPool
,AveragePool
ma non solo. In particolare il parallelismo è stato introdotto nei punti dove vengono eseguiti loop molto pesanti, come ad esempio il calcolo della convoluzione, all'interno degli operatori, invece che usare il ThreadPool scritto da noi, viene utilizzata principalmente la feature di rayon degli iteratori paralleli;
- Quando un thread viene creato, esso inizia a ciclare in attesa di un'operazione da eseguire, quando un'operazione diventa disponibile perché le sue dipendenze sono state risolte, il thread che la aggiunge, notifica la queue dei workers tramite una
- I seguenti screenshot mostrano esempi d'uso dei thread in parallelo (ottenuti con VTune), associato alla porzione del grafico eseguito in quel lasso di tempo (ottenuto con Netron):
Googlenet
Inception
- Comparazione degli output: il programma legge inoltre anche gli output "di reference" che dovrebbero essere ottenuti dall'esecuzione del modello e li confronta con quelli effettivamente ottenuti, controllando che la differenza tra i singoli valori dei due risultati sia massimo 10e-4 e stampando qualche statistica del confronto.
Utilizzare Stonnx come libreria
Il programma viene compilato come libreria dinamica (.dll / .so / .dylib) con il nome stonnx_api
e può essere utilizzato normalmente attraverso i binding esposti.
Si è reso disponibile un binding verso i seguenti linguaggi:
- Python
- C
- C++
- C#
I bindings, molto limitati per il momento, sono stati fatti mettendo a disposizione qualche funzione per la creazione della rete e l'esecuzione della stessa.
Benchmark
Vedi BENCHMARKS
Dependencies
~14–28MB
~395K SLoC