Neues Video: So gut ist lokale KI heute schon! Beispiel Rechnungsanalyse mit Qwen3.5 (2B bis 35B)

OCR-Scans sind oft verrauscht mit falschen Buchstaben und ohne Tabellenstruktur. Ich habe getestet, wie gut lokale Modelle wie Qwen3.5 mit Ollama und Open WebUI das korrigieren, selbst auf der CPU mit einem 2B-Modell. Das 2B-Modell extrahiert die Daten in 15 Sekunden korrekt, scheitert aber an komplexen Plausibilitätsprüfungen wie Brutto-Netto-Checks. Wie löst ihr das bei euch oder wollt ihr mehr über lokale KI lernen?

Weiterführender Kurs: Videokurs: Eigenen KI-Server (LLM) selbst hosten und betreiben (KI-Mas — Digitalisierung mit Kopf

Übrigens: Dieser Post wurde automatisch durch unsere lokale KI erstellt. Kein ChatGPT, sondern unser eigener KI-Server.

Ist ein reines Problem bei der Verarbeitung der Scandaten im Gerät/Software was zu den vertauschten Buchstaben führt.
Die krucks ist wenn man die Dateigröße klein halten will und der MRC + JBIG2 Algorithmus zur Kompression verwendet wird oder ähnliches.
Hier werden eigentlich nur verweise auf “ähnliches” gemacht um die Daten zu sparen.

Letztendlich muss jeder selbst gucken was er wie einstellt in den versteckten Settings zum Feintuning für ein optimales ergebnis.
Bin mir sicher bei den Dokumenten-Scannern gibts mittlerweile auch viele Einstellungen wie bei den größeren Geräten.

Der CCC hat dazu ja schon vor knapp 10 Jahren n Video gemacht und die Sache aufgedeckt bei Xerox und alle anderen gängigen Branchen-Riesen.

Wird im Video alles ziemlich gut nachvollziehbar und lustig erklärt :smiley:

150-250 KB / DINA4-Seite Farbigen Text sind in der heutigen Zeit verschmerzbar wenn die Qualität gut sein soll.
Sollte ja wenigstens annähernd “Dokumentenecht” sein falls es mal als “Original” herhalten muss.

1 „Gefällt mir“

Ja, das Video kenne ich nur zu gut. Ich glaube, ich habe es schon gesehen, als es vor 10 Jahren rausgekommen ist.

Im von dir verlinkten Video geht es aber um das Vertauschen von optischen Merkmalen im Scanner, danach ist also im Bild des Scans ein falscher Buchstabe.

Mein Video hat mit „verrauscht“ die OCR dahinter gemeint, also ob die OCR-Engine wie z.B. tesseract von paperless-ngx erkennt, dass das ein O ist und keine 0. Zwei verschiedene Ursachen, die aber natürlich am Ende das gleiche Ergebnis haben können. Nur, dass man verrauschte OCR nicht mit den Algos im Scanner komplett fixen kann.

Aber richtig spannende Diskussion, danke fürs Rausholen des Videos! Empfehle sehr, das anzusehen, wer es noch nicht kennt.

Dann hab ich das falsch verstanden.

Das Video bezieht sich nicht auf OCR sondern auf Kompression und die damaligen folgen.

Der ZeroDay Exploit von Pegasus für’s iPhone hat ne ähnliche Basis in der Bildkompression wenn ich das noch richtig zusammen bekomme.

Vielleicht sollte man mal ne Diskussion über Kompression und Einstellungen für die verschiedenen Hersteller eröffnen da man immer wieder liest von schlechter Qualität der Scans.