Gehäuse	Prozessor	Arbeitsspeicher	Festplatte	Specials
Mini Tower 1HE Rack Server 2HE Rack Server 3HE Rack Server 4HE Rack Server+ mm Netzteil redundant	AMD Intel 1 Sockel 2 Sockel 4 Sockel MHz	GB	mit HotSwap Stück TB Bus:	Neue Systeme Silent Edition 24h Lieferung

KI- und GPU-Server für maximale LLM Denkkraft

Unternehmen entdecken zunehmend das Potenzial großer Sprachmodelle, doch viele zögern sensible Daten in externe Cloud-Dienste zu geben. Genau hier setzen wir an, der lokale Betrieb von KI. Mit Lösungen wie Ollama oder LM Studio lassen sich leistungsfähige Sprachmodelle direkt auf der eigenen Infrastruktur betreiben.

Der größte Vorteil liegt im Datenschutz! Unternehmensdaten, interne Dokumente oder vertrauliche Kommunikation verlassen zu keinem Zeitpunkt das eigene Netzwerk. Gerade in regulierten Branchen oder im Mittelstand ist das ein entscheidender Faktor, um Compliance-Anforderungen zu erfüllen und gleichzeitig moderne KI-Infrastruktur zu nutzen.

Unternehmen profitieren von maximaler Kontrolle und Flexibilität. Modelle können individuell angepasst, Datenquellen gezielt integriert und Prozesse exakt auf die eigenen Anforderungen abgestimmt werden – ohne Abhängigkeit von externen APIs oder Preismodellen. Gleichzeitig ermöglicht der lokale Betrieb konstante Performance ohne Latenz durch Internetverbindungen sowie volle Transparenz über Kosten und Ressourcen.

Einer der Hauptvorteile ist, dass die Daten den Server oder Rechner nicht verlassen. Die meisten Tools funktionieren nach der Implementierung des Modells komplett ohne Internetverbindung.

KI-Anwendungsbereiche, in denen GPU-Server die Grundlage für maximale Leistung liefern.

Dokumentanalyse

Die KI merkt sich große Mengen von PDFs oder Office-Daten und Fragen zum Inhalt können gestellt werden.

LLM

Ein Large Language Model generiert und versteht menschliche Sprache, indem es Muster in großen Textmengen erkennt und darauf basierend Antworten erstellt.

Bild und Video

Eine Bildgenerierungs-KI erstellt neue Bilder aus Textbeschreibungen, indem sie gelernte Muster anwendet.

Der Einstieg ist einfacher als gedacht. Tools wie Ollama, LM Studio oder ComfyUI bieten eine benutzerfreundliche Umgebung, um KI schnell einzusetzen.

In professionellen KI-Anwendungen entscheidet der konkrete Einsatzzweck über die passende Hardware. Sobald Sie große Mengen unstrukturierter Daten wie Bilder, Videos oder freien Text verarbeiten, führt an GPU-Servern in vielen Fällen fast kein Weg mehr vorbei.

Welche Komponenten sind am wichtigsten und warum?

VRAM Grafikkarte	Prozessor	Arbeitsspeicher	Datenträger	Netzwerk
Bestimmt Modellgröße & Geschwindigkeit	Verarbeitung & System-Performance	Große Modelle & Kontext	Schnelles Laden großer Modelle	Relevant bei mehreren Nutzern

Im RECT 2HE Server - Sie haben die Wahl

Vier Grafikkarten mit 6x HotSwap oder zwei Grafikkarten mit 12x Wechselrahmen

High-End VRAM Empfehlung
für LLMs in FP16

7B - 14B Modelle: Laufen ab einer 24 GB GPU
30B - 40B Modelle: Benötigen optimal eine 96 GB Grafikkarte
70B - 100B+ Modelle: Erfordern mindestens 168 GB, eher mehr

AMD Turin + GPU Power

2HE Rack Server mit AMD EPYC 9005 CPUs bis 160 Kerne

RECT™ RS-8639G2

Starker 2HE Rack Server mit neuesten AMD EPYC™ 9005 Prozessoren - bis zu 160 Kerne:

Single-Sockel bis zu AMD EPYC 9845 (160 Cores, 2,10 GHz, 320 MB Cache)
bis zu 3 TB DDR5-5600 ECC RAM
bis zu 312 TB Speicher mit SSDs (NVMe/SATA/SAS*) in 12 Hot-Swap Trays
GPU: bis zu zwei Dual-Slot High-End Grafikkarten

5.705 €

KI-Workloads - Next Level!

2HE Rack Server mit AMD EPYC 9005 CPUs und 4 GPU-Karten

RECT™ RS-8639G4

Starker 2HE Rack Server mit neuesten AMD EPYC™ 9005 Prozessoren - bis zu 160 Kerne:

Single-Sockel bis zu AMD EPYC 9845 (160 Cores, 2,10 GHz, 320 MB Cache)
bis zu 1,5 TB DDR5 ECC RAM
bis zu 156 TB Speicher mit SSDs (NVMe/SATA/SAS*) in 6 Hot-Swap Trays
GPU: bis zu 4 Dual-Slot High-End Grafikkarten

6.977 €

Technologie entscheidet

Für hohe KI-Performance ist nicht allein die GPU entscheidend, sondern das Zusammenspiel der gesamten Systemarchitektur. Besonders die Anbindung zwischen Prozessor und Grafikeinheit ist ein kritischer Faktor: Eine ausreichend schnelle Anbindung zwischen CPU und GPU hilft dabei, datenintensive Workloads effizient zu verarbeiten und vermeidbare Engpässe zu reduzieren.

Bevor Daten auf der GPU verarbeitet werden, werden sie zunächst im System-RAM bereitgestellt und anschließend an den Grafikspeicher übergeben. Deshalb sind moderne Plattformen mit PCIe 5.0 und schnellem DDR5-Arbeitsspeicher ein entscheidender Vorteil. Sie sorgen für hohe Bandbreiten, reduzieren Latenzen und halten den Datenfluss zwischen CPU, RAM und GPU konstant auf hohem Niveau. Technologien für den direkten Zugriff auf den VRAM der Grafikkarte beschleunigen die Kommunikation zusätzlich und steigern die Effizienz bei anspruchsvollen KI-Workloads.

So entsteht eine leistungsstarke Plattform, die Wartezeiten minimiert, den Datentransfer optimiert und das volle Potenzial moderner GPU-Server ausschöpft.

Wie viel VRAM brauch ein lokales LLM?

Sie möchten ein LLM lokal in Ihrer eigenen Infrastruktur betreiben? Dann ist der verfügbare VRAM einer der wichtigsten Faktoren. Viele der bekanntesten leistungsstarken Modelle sind Closed Source, für den lokalen Einsatz stehen jedoch häufig leistungsstarke Open-Weight-Alternativen zur Verfügung. Als Faustregel gilt: Je mehr Milliarden Parameter ein Modell besitzt, desto mehr VRAM wird benötigt.

5 LLM-Beispiele in 4-Bit Quantisierung


KI-Familie	Parameter	VRAM-Bedarf
Qwen 3.5	32B	20 – 30 GB
Llama 4	70B	42 - 67 GB
GPT-oss	120B	72 - 115 GB
MiniMax-M2.5	229B	140 - 190 GB
Mistral-3-Large, DeepSeek V3/R1	675B	400 - 650 GB

Was ist Quantisierung?

Diese Techniken reduzieren die Genauigkeit der Modellgewichte minimal, verringern den Speicherbedarf aber massiv. Ein 4-Bit-Modell bietet oft das beste Verhältnis zwischen Leistung und Speicherbedarf. Für niedrige Fehlertoleranz ungeeignet.

RECT KI-Server im 4HE Gehäuse

mit drei NVIDIA RTX PRO 6000 Blackwell

Epyc Turin Rack Workstation!

mit brandneuen AMD Epyc 9005 Prozessoren bis 160 Kerne

RECT™ WS-8839C

Gemacht für KI-Leistung!
Brandneue RECT™ Rack Workstation mit AMD Epyc™ 9005 Series Prozessoren:

Neu: Single-Sockel bis zu AMD Epyc 9845 (160 Cores, 320 MB Cache)
bis zu 1,5 TB DDR5-5600 ECC RAM
bis zu 2x Nvidia RTX PRO 6000 Blackwell
skalierbarer klassischer Storage mit SSDs/HDDs bis zu 130 TB Kapazität
bis zu zwei M.2 NVMe SSDs (PCIe 4.0)
onboard: 2x 1Gbit oder 2x 10Gbit LAN

4.072 €

Ultimative Rack Workstation!

mit AMD Threadripper™ PRO 9000WX - die CPU für professionelle Workloads

RECT™ WS-8829C

ultimative 4HE RECT™ Workstation mit neuen AMD Threadripper™ PRO 9000WX Prozessoren:

Neu: bis zu 96 Kerne und 192 Threads,
bis zu 5,40 GHz und 384 MB L3-Cache
bis zu 1 TB DDR5-5600 ECC RAM
bis zu 3 Nvidia RTX PRO 6000 Blackwell
oder 2 Nvidia Geforce RTX 5090/5080
bis zu vier M.2 NVMe SSDs (PCIe 5.0)
AMD WRX90 Workstation Chipsatz
onboard: 2x 10Gbit LAN Ports

5.742 €

Warum sind Kontextfenster und Token wichtig?

Je mehr Text ein Modell gleichzeitig verarbeiten und im Kontext behalten soll, desto mehr VRAM wird in der Regel für das Kontextfenster beziehungsweise den sogenannten Key-Value-Cache benötigt.

Beispiel: ein Buch analysieren Das Kontextfenster muss groß genug sein um den gesamten Inhalt aufzunehmen und zu merken. Für ein Buch mit rund 500 Seiten können dafür etwa 166.000 bis 250.000 Tokens erforderlich sein. So kann dieser zusätzliche Speicherbedarf im Bereich von 10 bis 20 GB VRAM liegen.

Server und Software fusionieren zur KI-Lösung

Leistungsfähige Hardware ist die Grundlage, doch erst die richtige Software ermöglicht einen effizienten und komfortablen Betrieb von KI-Modellen. Moderne Interfaces vereinfachen Installation, Verwaltung und Nutzung erheblich. Deshalb haben wir für Sie Lösungen ausgewählt, die sich für den lokalen Server-Betrieb besonders gut eignen.

vLLM - der Platzhirsch

Fokus: Maximaler Durchsatz durch PagedAttention und effiziente VRAM-Verwaltung.
Vorteil: Vollständig lokal betreibbar und mit einer API ausgestattet, die sich eng an den OpenAI-Standard anlehnt.
Einsatz: Ideal für Unternehmen, in denen viele Nutzer gleichzeitig auf große Modelle zugreifen.

Ollama - die unkomplizierte Lösung

Fokus: Maximale Einfachheit bei Installation, Betrieb und Nutzung.
Vorteil: Weniger technische Hürden, saubere API und ein schneller Weg von der Einrichtung bis zum produktiven Einsatz.
Einsatz: Geeignet für Prototyping, interne Anwendungen und kleinere Teams mit hohem Anspruch an Bedienkomfort und Geschwindigkeit.

Lemonade Server - das Schweizer Taschenmesser

Fokus: Schlankes Open-Source Server-Framework
Vorteil: Dank OpenAI-kompatibler API können bestehende Workflows einfach migriert werden. Stark optimiert auf Quantisierungsformate, die sogar auf günstiger Consumer-Hardware laufen.
Einsatz: Für den Air-Gapped-Betrieb (komplett offline) optimiert. Daten werden als binäre Datei oder Docker-Container geladen.

Kleine KI-Modelle direkt am Arbeitsplatz

KI-Workstation für lokale Modelle unter ihrem Schreibtisch

mehr Leistung mit KI

mit den neuesten Intel Core Ultra Prozessoren der Series 2

RECT™ WS-2274C

Brandneue Intel Core Ultra Prozessoren im RECT Workstation:

Intel Core Ultra Prozessoren mit bis zu 24 Kernen und bis zu 5,70 GHz
Workstation-Mainboard mit Intel Z890
oder B860 Chipsatz
NEU: bis zu 256 GB DDR5 RAM
bis zu vier M.2 NVMe SSDs und bis zu
104 TB HDD/SSD-Speicher
Wasserkühlung optional
NPU für KI-Performance (13 TOPS)

1.139 €

Der fortschrittlichste PC-Prozessor

mit den neuesten AMD Ryzen™ 9000

RECT™ WS-2228C

Neueste AMD Ryzen™ Prozessoren der 9000 Serie im RECT™ Workstation:

NEU: bis AMD Ryzen™ 9 9950X3D
(4,30 GHz, 16 Kerne, 128 MB Cache)
Workstation-Mainboard mit AMD X870/E
oder B850 Chipsatz
NEU: bis zu 256 GB DDR5 RAM
bis zu vier M.2 NVMe SSDs und bis zu
104 TB HDD/SSD-Speicher
Wasserkühlung optional
bis zu zwei High-End Grafikkarten

1.161 €

Auch wenn kein Server-Raum im Unternehmen zur Verfügung steht, sind kleinere KI-Modell-Versionen jederzeit möglich. Sollen Llama, Mistral oder Gemma lokal auf eurem Desktop betreiben werden, sind vor allem die Hardware-Ressourcen und die Wahl der richtigen Software entscheidend.

Llama 4 (8B): ~8 GB VRAM. Geforce RTX 5060, Radeon RX 9060
Mistral 3 (14B): ~12 GB VRAM. Geforce RTX 5070 , Radeon RX 9070
Gemma 3 (27B): ~20 GB VRAM. Geforce RTX 5090, Radeon RX 7900 XTX

Desktop KI-Software

Mit modernen KI-Interfaces setzen Sie lokale KI-Modelle deutlich einfacher um. Einige Lösungen sind so aufgebaut, dass Sie auch ohne Programmierkenntnisse schnell starten und arbeiten können.

LM Studio – die oft Erwähnte

Ermöglicht den einfachen Test, Einsatz und die Verwaltung lokaler Sprachmodelle.
Interface: Chat-ähnlich (wie ChatGPT), schnelle Einarbeitung.
Vorteil: Integrierte Modellsuche, VRAM-Hinweise und Nutzung als lokaler Server.

AnythingLLM - die Dokumentenanalyse

Verbindet lokale Sprachmodelle mit Dokumenten-Workflows für Wissensabfragen aus eigenen Dateien.
Interface: Workspace-basiert, thematische Strukturierung von Inhalten.
Vorteil: Drag-and-Drop für Dokumente, KI bezieht Inhalte in Antworten ein, lokal und datenschutzfreundlich.

ComfyUI – die Kreative

Eignet sich ideal für Bild- und Videogenerierung (z. B. mit Stable Diffusion) und die Integration von Sprachmodellen in komplexe Abläufe. Interface: Node-basiert, Funktionen werden visuell zu logischen Ketten verknüpft.
Vorteil: Automatisiert kreative Prozesse und verbindet Einzelschritte, z. B. für Prompt-Optimierung oder Bildbeschreibung.

In einigen Hybrid-Fällen empfehlen wir eine GPU

Ob eine GPU erforderlich ist, hängt in diesen Szenarien vor allem von der Datenmenge, der Komplexität der Aufgaben und der Anzahl gleichzeitiger Nutzer ab. Je höher die Last im praktischen Einsatz ausfällt, desto eher empfiehlt sich GPU-Beschleunigung.

Echtzeit-Videoanalyse Für die Analyse von Videodaten in Echtzeit ist GPU-Leistung in vielen Szenarien die sinnvollere Grundlage, insbesondere bei hohen Bildraten, mehreren parallelen Streams oder komplexeren Modellen. Auch beim Training von KI-Modellen für Objekterkennung oder Bildklassifizierung sorgt GPU-Beschleunigung dafür, dass aus sehr langen Rechenläufen praxistaugliche Trainingszeiten werden.

Bei der Umwandlung von Sprache in Text oder von Text in Sprache profitieren Sie mit einer GPU von deutlich höheren Verarbeitungsgeschwindigkeiten. Das macht sich besonders dann bemerkbar, wenn Sie mit größeren Datenmengen arbeiten, Echtzeitanforderungen abdecken oder mehrere Anfragen gleichzeitig verarbeiten möchten.

Bei Reinforcement Learning verbessert ein Modell seine Entscheidungen durch kontinuierliches Ausprobieren, direktes Feedback und schrittweise Optimierung. Damit Sie solche rechenintensiven Trainingsprozesse effizient umsetzen können, bietet GPU-Beschleunigung die entscheidende Grundlage für leistungsfähige und praxistaugliche Ergebnisse.

KI-Training als Sonderfall

Wenn Sie KI-Modelle selbst trainieren möchten, brauchen Sie eine Infrastruktur, die auf maximale Rechenleistung ausgelegt ist. Denn beim Training werden große Datenmengen verarbeitet und unzählige Modellanpassungen in kurzer Zeit berechnet. Genau dafür sind leistungsstarke GPU-Systeme mit hohem Grafikspeicher ausgelegt. Der spätere Einsatz eines fertigen Modells ist deutlich genügsamer, weil keine aufwendigen Lernprozesse mehr stattfinden, sondern vorhandene Strukturen nur noch genutzt werden. Deshalb reicht für viele Anwendungen im laufenden Betrieb bereits ein solider GPU-Server aus, während das Training selbst deutlich höhere Anforderungen stellt.

Training versus Inferenz
	Inferenz (Benutzen)	Training (Anlernen)
VRAM	Niedrig bis moderat	hoher Speicherbedarf pro GPU
Präzision	Quantisiert reicht	BF16 / FP32 zwingend
GPU-Anzahl	Oft genügen 1 bis 4 GPUs	GPU-Server-Cluster empfohlen
Leistung	Kurzfristige Lastspitzen	Dauerhafte hohe Last über längere Zeiträume