Token/s
GPUs

Speicheranforderungen 679.52 GB

Benötigt 9 GPUs (basierend auf Speicherkapazität)

671 GB

Alle Modellgewichte

3.34 GB

Gesprächsverlauf-Cache

3.7 GB

Expertenmodell-Optimierung

1.48 GB

Temporärer Berechnungs-Cache

Durchsatzanforderungen 60 Token/s

Benötigt 9 GPUs (basierend auf Rechenleistung)

2,997 Token/s

Gesamte Rechenleistung aller GPUs

1,498 tokens/s

Gesamtdurchsatz ÷ 2 Benutzer

✅ Erfüllt Erwartung 30 Token/s

67 ms

100 Token durchschnittliche Antwortzeit

Szenario-Beispiele (GPU + Modell + Nebenläufigkeit):

Klicken Sie auf diese Beispiele, um schnell beliebte Modellbereitstellungsszenarien zu konfigurieren!