Token/s
GPUs

Speicheranforderungen 237.14 GB

Benötigt 3 GPUs (basierend auf Speicherkapazität)

235 GB

Alle Modellgewichte

0.66 GB

Gesprächsverlauf-Cache

1.23 GB

Expertenmodell-Optimierung

0.25 GB

Temporärer Berechnungs-Cache

Durchsatzanforderungen 10 Token/s

Benötigt 3 GPUs (basierend auf VRAM-Bandbreite und Rechenleistung)

219 Token/s

Gesamte Rechenleistung aller GPUs

219 tokens/s

Gesamtdurchsatz ÷ 1 Benutzer

✅ Erfüllt Erwartung 10 Token/s

456 ms

100 Token durchschnittliche Antwortzeit

Szenario-Beispiele (GPU + Modell + Nebenläufigkeit):

Klicken Sie auf diese Beispiele, um schnell beliebte Modellbereitstellungsszenarien zu konfigurieren!

📋 Berechnungsformel FAQ