Token/s
GPUs

Speicheranforderungen 110.29 GB

Benötigt 2 GPUs (basierend auf Speicherkapazität)

109 GB

Alle Modellgewichte

0.15 GB

Gesprächsverlauf-Cache

0.95 GB

Expertenmodell-Optimierung

0.19 GB

Temporärer Berechnungs-Cache

Durchsatzanforderungen 10 Token/s

Benötigt 2 GPUs (basierend auf VRAM-Bandbreite und Rechenleistung)

133 Token/s

Gesamte Rechenleistung aller GPUs

133 tokens/s

Gesamtdurchsatz ÷ 1 Benutzer

✅ Erfüllt Erwartung 10 Token/s

752 ms

100 Token durchschnittliche Antwortzeit

Szenario-Beispiele (GPU + Modell + Nebenläufigkeit):

Klicken Sie auf diese Beispiele, um schnell beliebte Modellbereitstellungsszenarien zu konfigurieren!

📋 Berechnungsformel FAQ