Token/s
GPUs

Speicheranforderungen 673.99 GB

Benötigt 9 GPUs (basierend auf Speicherkapazität)

671 GB

Alle Modellgewichte

0.5 GB

Gesprächsverlauf-Cache

2.07 GB

Expertenmodell-Optimierung

0.41 GB

Temporärer Berechnungs-Cache

Durchsatzanforderungen 10 Token/s

Benötigt 9 GPUs (basierend auf VRAM-Bandbreite und Rechenleistung)

1,042 Token/s

Gesamte Rechenleistung aller GPUs

1,042 tokens/s

Gesamtdurchsatz ÷ 1 Benutzer

✅ Erfüllt Erwartung 10 Token/s

96 ms

100 Token durchschnittliche Antwortzeit

Szenario-Beispiele (GPU + Modell + Nebenläufigkeit):

Klicken Sie auf diese Beispiele, um schnell beliebte Modellbereitstellungsszenarien zu konfigurieren!

📋 Berechnungsformel FAQ