Llama VRAM- & GPU-Anforderungsrechner
Berechnen Sie VRAM-Anforderungen und GPU-Anzahl für Llama-Bereitstellung. Unterstützung für NVIDIA, AMD, Apple und Huawei
Token/s
GPUs
Speicheranforderungen 110.29 GB
Benötigt 2 GPUs (basierend auf Speicherkapazität)
109 GB
Alle Modellgewichte
0.15 GB
Gesprächsverlauf-Cache
0.95 GB
Expertenmodell-Optimierung
0.19 GB
Temporärer Berechnungs-Cache
Durchsatzanforderungen 10 Token/s
Benötigt 2 GPUs (basierend auf VRAM-Bandbreite und Rechenleistung)
133 Token/s
Gesamte Rechenleistung aller GPUs
133 tokens/s
Gesamtdurchsatz ÷ 1 Benutzer
✅ Erfüllt Erwartung 10 Token/s
752 ms
100 Token durchschnittliche Antwortzeit
Szenario-Beispiele (GPU + Modell + Nebenläufigkeit):
Klicken Sie auf diese Beispiele, um schnell beliebte Modellbereitstellungsszenarien zu konfigurieren!