Neuer Kurs im Vorverkauf: Lokalen KI-Server (LLM) selbst betreiben

Hallo zusammen,

viele von euch werden es sicherlich schon mitbekommen haben: Es gibt eine neue Masterclass im Vorverkauf:

Dieser Kurs ist mir ein ganz besonderes Anliegen, weil ich in der Praxis unglaublich oft sehe, dass fast schon leichtsinnig mit ChatGPT und Co. umgegangen wird: Privatpersonen, die das LLM nach medizinischen Beschwerden bezüglich einer Diagnose befragen oder auch Unternehmer, die ihre Kundendaten an solche Dienste abfließen lassen.

Wir setzen in unserer Firma selbst in vielen Bereichen auf KI, achten aber penibel darauf, dass sensible Daten wie Kundendaten oder auch Geschäftsstrategien ausschließlich auf unseren lokalen Servern verarbeitet werden.

Und genau das möchte ich euch in diesem Kurs zeigen:

Wir setzen gemeinsam einen geeigneten Server auf (Hardware-Invest bei Kauf einer gebrauchten GPU liegt bei ca. 500 Euro für den PC und nochmal ca. 200 bis 700 Euro für die GPU, je nach Anspruch an die LLMs, die darauf laufen können sollen), richten die Software ein und erhalten ein System, das sich ganz ähnlich wie ChatGPT über ein Webinterface bedienen lässt.
Außerdem zeige ich dir, wie du deine LLMs über eine API nutzen kannst und so mit anderen Diensten verbinden kannst.

Das letzte Kapitel wird sicherlich für die meisten am interessantesten sein: Wir bearbeiten gemeinsam mehrere Praxis-Projekte, von einfach bis komplex, wobei das komplexe Projekt von euch als Vorverkaufs-Kunden mitbestimmt wird. Eure Ideen hierzu könnt ihr vorab in der geschlossenen Vorverkaufs-Gruppe teilen, wir entscheiden dann im ersten Vorverkaufs-Call gemeinsam darüber:
Ideensammlung für komplexes Projekt

Timeline: Die erste Fassung des Kurses wird noch vor Weihnachten 2025 fertig sein, sodass ihr über die Feiertage gut versorgt seid :smiley:

Danke für eure wertvollen Fragen, die mich bis jetzt schon erreicht haben, es macht wirklich Spaß, mit euch zu arbeiten!

Schöne Grüße
Stefan

Welche Arten von KI sollen lokal aufgebaut und betrieben werden? Geht es ausschließlich um textbasierte LLMs, oder werden auch multimodale Modelle für Bilder, Audio und Video behandelt?

Werden zudem Automatisierungen integriert, zum Beispiel über n8n (Browsersteuerung, API Anbindungen, Speech to Text, Text to Action)?

Umfasst der Kurs auch Codefunktionen wie das Generieren, Ausführen und Debuggen von Code?

Und wird vermittelt, wie man verschiedene Ausgabeformate wie JSON, Tabellen oder PDFs mit lokalen KI Modellen erzeugen oder verarbeiten kann?

Wird es auch etwas zur Synology AI Konsole geben?

1 „Gefällt mir“

Für den Start des Kurses werden nur textbasierte LLMs vorgestellt, aber es ist sehr wahrscheinlich, dass es um multimodale LLMs und auch Modelle wie Whispr erweitert wird.

Automatisierungen mit n8n stehen sogar aktuell schon im Kapitelplan (siehe Produktbeschreibung), hier starten wir zunächst mit einer Anleitung, wie n8n mit dem LLM verbunden wird, im Rahmen der Praxisprojekte wird aber auch ein oder mehrere Workflows vorgestellt.

Ausgabeformate werden zum Start des Kurses angeschnitten (in Form eines Prompts), eine Erweiterung um ein Sanitizing und das Erzwingen spezieller Formate ist für spätere Erweiterungen geplant.

Zur Synology AI Konsole ist leider nichts geplant.

1 „Gefällt mir“

Was ich aus den ersten Kursteilen nicht verstanden habe:
Brauche ich einen extra Rechner für die KI, oder kann ich den vorhandenen PC für die normale Arbeit und KI gleichermaßen nutzen?

Du kannst den PC theoretisch auch ganz normal weiternutzen. Es muss nur eine GPU verbaut sein und Ollama laufen.
Ich zeige im Kurs Linux als OS, es geht aber auch mit Windows und MacOS.

Kann man auch die vorhandenen NAS (Synology “+”-Versionen) verwenden? Oder benötigt man separate Hardware, die dann auch wieder durchgängig läuft?

Das kommt ganz darauf an, was du damit machen möchtest. Ganz kleine Modelle können auch auf der CPU eines NAS laufen, die taugen dann aber nur für Text-Zusammenfassungen und Co und sind ggf. recht langsam. Für Hintergrundaufgaben kann das aber sogar genügen.

Im Kurs soll der Fokus ohnehin darauf gerichtet werden, dass man mit möglichst kleinen Modellen möglichst sinnvolle Dinge tut (anders als ich das häufig bei YouTube sehe).

Wenn du mehr Leistung und größere Modelle laufen lassen möchtest, wirst du um einen separaten Rechner nicht herumkommen. Den könntest du aber natürlich mit Proxmox und TrueNAS komplett als Open-Source-NAS aufbauen, mit der Besonderheit, dass eben eine GPU verbaut ist.

Also Essenzen aus Schriftstücken u. U. (z. B. Rechnung→Auto→ Reifen) möglich sein? Und kann man später auf potentere Hardware portieren?

Eignet sich eigentlich auch eine NVIDIA Tesla P100 Grafikkarte für die KI Anwendungen?

Leider nicht, sie ist schon sehr alt und hat keine Tensor-Cores. Siehe auch diese Diskussion:
https://www.reddit.com/r/StableDiffusion/comments/1au8dol/is_the_nvidia_p100_a_hidden_gem_or_hidden_trap/

Nachdem nun schon einige Inhalte im Kurs hinterlegt sind (wie versprochen werden die zunächst veröffentlichten Themen auch bis Weihnachten fertig sein), kann ich schon ein kurzes Zwischenfazit ziehen:

Euer Feedback ist wirklich wertvoll, danke dafür! Im ersten Call unter den Vorverkaufs-Teilnehmern kamen wirklich gute Ideen und sehr gutes Feedback, danke dafür! Ich freue mich schon sehr, kommenden Samstag um 10:00 Uhr mit euch und den neuen Teilnehmern weiter zu diskutieren und die finale Abstimmung für das komplexe Kursprojekt durchzuführen.

Ich könnte mir tatsächlich gut vorstellen, in unregelmäßigen Abständen solche Gruppen-Calls zu führen, um besser zu verstehen, wie ihr die Kurse nutzt und wo ihr noch Unterstützung braucht. Hättet ihr Interesse an sowas?

Außerdem ist mir aufgefallen, dass euer Fokus beim KI-Kurs nicht unbedingt der ist, den ich am Anfang im Kopf hatte (Hardware, LLM-Modelle, etc), sondern wirklich der Praxiseinsatz davon.
Daher habe ich mich dazu entschieden, diesen Kurs deutlich zu erweitern und im Laufe der Zeit immer wieder neue spannende Praxisprojekte mit hineinzubringen.

Was noch geplant ist:

  • Grundlagenteil
  • Wann Cloud-Modelle nutzen, wann lokale LLMs
  • Lokale LLMs mithilfe von mächtigeren Cloud-Modellen verbessern
  • Umfangreicherer Praxisteil

Weitere Ideen sind herzlich willkommen! Auch negative Rückmeldung ist wichtig, seid gerne offen!

Sollte ich die SSD mit Kühlkörper oder ohne Kühlkörper kaufen?
Könnte eine SSD mit Kühlkörper eingebaut werden oder gibt das da Schwierigkeiten?
Ich beziehemich auf die Komponenten, die Stefan im Kurs zum Kauf empfohlen hat.

Im Zusammenbau-Video zeige ich es sogar: Das Mainboard, das ich verlinkt habe, hat Kühlkörper direkt montiert.

An sich ist es sicherlich eine gute Idee, Kühlkörper zu verwenden, weil das Laden der Modelle in den VRAM viele GB Lesen bedeutet und gleichzeitig Wärmeeintrag durch die GPU entsteht. Es ist aber nicht so, dass die SSD dauerhaftem Stress ausgeliefert ist.

Die Kursteile Hardware und LLM-Modelle finde ich sehr interessant, um vernünftige Grundlagen zu haben.
Praxisprojekte finde ich genauso wichtig - die geben auf jeden Fall Anstöße für den praktischen Einsatz.

1 „Gefällt mir“

Es gibt auch Kühlkörper für m2 SSD’s…

Achtung ! Bitte vorher auf die Maße achten um Frust zu ersparen

https://www.ekwb.com/shop/ek-quantum-convection-m-2-nvme-black?srsltid=AfmBOoqbmXOWVly60iqrDiE1nbbM5_2JX-B8JyN1HfsqgkIUrtjUq5cP

Beispiel da selbst im Einsatz aber End of Life

Hi zusammen,

ich habe mir den Kurs gekauft, um noch weitere Ideen und konkrete Verbesserungen für mein Setup mitzunehmen. Vielleicht könnt ihr auch einmal darauf eingehen, wie sich das Ganze mit einer Mac mini M4 als Hardware sinnvoll umsetzen lässt – den setze ich bei mir produktiv ein.

Was mich besonders interessiert: Wie halte ich lokale LLMs aktuell? Ich möchte ungern dauerhaft mit veralteten Modellen arbeiten und wüsste gern, wie Updates sauber und praxisnah gelöst werden können.

Zusätzlich nutze ich Paperless-AI mit Anbindung an meine lokale LLM. Dabei habe ich das Problem, dass der RAG-Chat regelmäßig die Verbindung verliert. Erst nach erneutem Einrichten funktioniert es wieder. Gibt es dafür eine stabile Lösung oder bekannte Best Practices?

Ich bin gespannt auf neue Ideen, Setups und Optimierungen, die in dem Kurs vorgestellt werden.

Hallo Stefan, danke Dir für die Rückmeldung.
Habe mir hier nun eine NVIDIA RTX 5060 Ti mit 16 GB besorgt. Hoffe mit der kann ich in das Thema einsteigen.

Hallo,
Ich verwende einen Mac Mini M4 Pro mit 64 GB RAM und 20 Core GPU. Bis jetzt habe ich sehr gute Erfahrungen mit LLM’s bis 30B gemacht, ab 70B und höher ist die Leistungs-Performance spürbar flau oder es kommt gar kein Resultat mehr zurück (bei (zu) grossen Modellen schritt ich zu einem Reboot des Systems). Sensationell finde ich den Stromverbrauch im Wartemodus (nicht Ruhemodus), dieser liegt bei ca. 4.5W! Beste Grüsse

1 „Gefällt mir“

Damit bist du gut ausgerüstet. Ich habe die gleiche Karte. Modelle wie Ministral3-14B laufen gut.

1 „Gefällt mir“

Ich habe in den Praxisprojekten bewusst kleine LLMs genutzt, sodass man auch mit 12 GB VRAM sehr gut auskommt.
Mit 16 GB VRAM läuft auch GPT-OSS 20B hervorragend.