← Zurück zu Labs

Schnellere und präzisere Erfassung von Fertigungsprozessen mit VLMs

Wie Vision-Language-Modelle stundenlange manuelle Erfassung, Bearbeitung und Pflege von Arbeitsanweisungen auf Minuten verkürzen — und was nötig ist, damit das in der Produktion zuverlässig läuft.

Die Azumuta-Anwendung im Einsatz: eine Prozedur erfassen, in Schritte gliedern und für die Werkshalle veröffentlichen.

TL;DR

Problem

  • Arbeitsanweisungen in der Fertigung manuell zu erstellen ist viel Arbeit (Aufnahme, Medien, Texten).
  • Anweisungen sind schwer zu pflegen; Updates bedeuten oft, den gesamten Workflow neu zu durchlaufen.

Kontext

  • Vision-Language-Modelle (VLMs) verbinden Bild und Text: Sie können Demonstrationen, Frames und Prompts in einer Pipeline interpretieren — und sie werden immer leistungsfähiger und einfacher einsetzbar (in der Cloud und zunehmend auch lokal).

Lösung

  • VLMs sind ein Durchbruch für schnellere, reichhaltigere Prozessdokumentation — in unseren Tests sank die Erstellungszeit gegenüber rein manuellen Methoden um bis zu ~90 %.
  • Selbst die Kontrolle darüber zu behalten, wie man erstellt — Capture, Prompts und Review feintunen, und entscheiden, wo das Modell läuft — ist das, was das Ganze in der Produktion zuverlässig macht.
Ein Beispiel aus einem recht einfachen Vorgang, gefilmt mit einer Decken­kamera. Die feste Kameraposition liefert eine Semi-POV-Sicht, die das Erlernen des Arbeitsschritts erleichtert.

Probleme

Erfassen

Genaue und zugängliche Fertigungsprozeduren zu erstellen ist für viele Organisationen eine zentrale, aber zeitintensive Aufgabe. Der Prozess wird durch mehrere hartnäckige Herausforderungen erschwert, die das Tempo bremsen und Fehlerquellen einführen. Im Vordergrund stehen technische Hürden. Die Aufnahme der nötigen Fotos und Videos für jeden Schritt erfordert oft das Jonglieren mit mehreren Geräten — Kameras, Tablets, Smartphones — die jeweils eigene Medienformate produzieren und unterschiedliche Methoden zur Dateiübertragung verlangen. Diese Dateien müssen meist manuell verschoben werden — per SD-Karte, Kabel oder unzuverlässige Drahtlosübertragung — was zu einem mühsamen und fehleranfälligen Workflow führt. Dateien können verloren gehen, dupliziert oder beschädigt werden, was zusätzlich Frust und Zeitverlust bedeutet.

Bearbeiten

Sind Bilder und Videos schließlich gesammelt, verlagert sich die Herausforderung auf die Dokumentation. Es gibt kein allgemein akzeptiertes Tool, das speziell für die Erstellung reichhaltiger, multimedialer Arbeitsanweisungen in der Fertigung entworfen wurde. Viele Teams greifen daher auf generische Office-Anwendungen zurück — Word, PowerPoint, Excel — um ihre Inhalte zu strukturieren. Keine dieser Anwendungen ist jedoch für diesen Zweck optimiert. Medien einzubetten und anzuordnen ist umständlich, und die Zusammenarbeit ist eingeschränkt oder unhandlich, vor allem wenn Teams die Dokumentation bei sich weiterentwickelnden Prozessen aktuell halten wollen. Zudem erschweren diese Formate die Standardisierung von Prozeduren über Abteilungen oder Standorte hinweg, was zu Inkonsistenzen in Qualität und Darstellung führt.

Pflegen

Dieser Mangel an wirkungsvollen Tools und integrierten Workflows wirkt sich direkt auf die operative Effizienz aus. Technisch versiertes Personal verbringt unverhältnismäßig viel Zeit mit grundlegenden Dokumentationsaufgaben statt mit höherwertigen Aktivitäten wie Prozessverbesserung. Auch die Pflege von Anweisungen ist mühsam — Updates oder Revisionen verlangen typischerweise, den gesamten manuellen Workflow erneut zu durchlaufen, sodass es weniger wahrscheinlich wird, dass Prozeduren die jeweils besten Praktiken auf der Werkshalle widerspiegeln. In Summe verlangsamen diese technischen und prozeduralen Engpässe den Wissenstransfer in der Fertigung, schränken die Reaktionsfähigkeit auf Veränderungen ein und bremsen die Einführung neuer oder verbesserter Arbeitsmethoden.

Kontext

Auf hoher Ebene kombiniert ein Vision-Language-Modell (VLM) einen Bildpfad (Preprocessor → ViT → Projektion in den Token-Raum) mit einem Textpfad (Tokenizer → Embeddings) innerhalb eines gemeinsamen LLMs, und dekodiert dann Sprach-Tokens zurück in Text (Embeddings → De-Tokenizer). Das folgende Schema folgt diesem multimodalen Aufbau — abgestimmt auf die folgenden Absätze.

Vision-Language-Modelle?

Vision-Language-Modelle (VLMs), auch bekannt als Visuelle Sprachmodelle, repräsentieren den Stand der Technik bei der Integration visueller und textueller Informationen. VLMs sind Erweiterungen der leistungsstarken Transformer-Architektur, die den Fortschritten in der natürlichen Sprachverarbeitung zugrunde liegt, aber so angepasst, dass sie Bilder (oder Videos) und Text gemeinsam verarbeiten können. Im technischen Kern empfangen diese Modelle visuelle Eingaben (etwa Frames einer Kamera oder Screenshots) und Texteingaben (etwa Anweisungen oder Prompts) und lernen, beide Modalitäten in einen gemeinsamen semantischen Raum zu kodieren. Dadurch „verstehen” die Modelle nicht nur, was auf einem Bild zu sehen ist, sondern auch, wie es zu Sprache, Aufgaben oder Schritt-für-Schritt-Anleitungen in Beziehung steht.

Wie werden VLMs trainiert und was können sie?

Aktuelle VLMs — darunter OpenAIs GPT-4V, Googles Gemini, Metas LLaVA und IDEFICS sowie Alibabas Qwen-VL — werden auf riesigen Datensätzen aus Bild-Text-Paaren vortrainiert, die aus dem Web stammen, ergänzt durch zunehmend kuratierte Sammlungen wie Bedienungsanleitungen oder domänenspezifische Datensätze. Während des Trainings lernen sie, Beschreibungen (Captions) zu erzeugen, Fragen zu Bildern zu beantworten („Was passiert hier?”) und sogar Schrittlisten oder detaillierte Anweisungen zu formulieren, die im Sichtbaren verankert sind. Ihre Vision-Encoder basieren typischerweise auf leistungsstarken Modellen wie CLIP oder Vision Transformers (ViT), während ihre Sprach-Encoder/-Decoder auf großen Transformer-LLMs aufbauen. Nach dem Vortraining können diese Modelle für spezialisierte Aufgaben weiter feinabgestimmt werden — etwa Prozessdokumentation oder Fertigungsanweisungen.

Multimodale Verarbeitung und praktischer Nutzen

Wichtig ist: VLMs arbeiten multimodal, das heißt, sie verknüpfen, was sie „sehen”, mit dem, was sie „lesen” oder „schreiben”. Bei einem Demonstrationsvideo eines Montagevorgangs kann ein VLM den Prozess in einzelne Schritte zerlegen, Schlüsselframes extrahieren und prägnante, gut lesbare Erklärungen für jede Phase erzeugen. Das ermöglicht einen schlanken Dokumentations-Workflow, in dem viel mühsame manuelle Beschreibung und Screenshot-Arbeit vom Modell übernommen wird. Fortgeschrittene VLMs lassen sich in der Cloud und zunehmend auch lokal betreiben — flexible Bereitstellung also, je nach Sicherheits- oder Datenschutzanforderungen der Organisation. Mit zunehmender Reife der Technologie schließen VLMs schnell die Leistungslücke zwischen proprietären (Cloud-)Angeboten und Open-Source-Modellen, die lokal einsetzbar sind — eine attraktive Option, um die Erfassung von Prozesswissen zu beschleunigen und zu verbessern.

Lösung / Ergebnisse

Beschleunigte Prozesserstellung

Die Einführung von Vision-Language-Modellen (VLMs) in den Prozessdokumentations-Workflow hat sich als transformierend erwiesen und reduziert Zeit und Aufwand für die Erstellung präziser Fertigungsprozeduren drastisch. In unseren Tests beschleunigte der Einsatz von VLMs für Prozesserfassung und Schrittbeschreibung die Prozesserstellung um bis zu 90 % gegenüber traditionellen, rein manuellen Methoden. Was früher Stunden dauerte — Schlüsselframes aus Videos extrahieren, Schritt-für-Schritt-Anweisungen formulieren, Medien organisieren — geht jetzt in wenigen Minuten. VLMs können Demonstrationsvideos automatisch interpretieren, Prozeduren in logische Schritte zerlegen, prägnante Captions erzeugen und Dokumentation sogar mit kontextuell relevanten Details anreichern, die sonst übersehen worden wären.

Qualität, Sicherheit und Kontrolle

Über die reine Geschwindigkeit hinaus bieten VLMs zusätzliche Vorteile in puncto Qualität und Sicherheit. Die leistungsfähigsten VLMs kommen aktuell zwar von proprietären Cloud-Anbietern und liefern Best-in-Class-Performance, doch jüngste Fortschritte bei Open-Weight- und lokal einsetzbaren Modellen beginnen, diesen Vorsprung aufzuholen. Viele Organisationen sind verständlicherweise besorgt um die Privatsphäre ihrer Fertigungsdaten. Die gute Nachricht: VLMs lassen sich zunehmend auf lokaler Hardware betreiben, sodass sensible Videos und Prozessinformationen die abgesicherte Umgebung der Organisation nie verlassen. Open-Source-Modelle hinkten in der Vergangenheit kommerziellen Alternativen vielleicht hinterher, sind heute aber zuverlässig genug, um spürbare Effizienzgewinne zu liefern — und bieten einen vielversprechenden Weg für Unternehmen, die mehr Kontrolle über ihre Daten wollen.

Auswirkungen auf die Dokumentation

Zusammengefasst: Durch die Integration von VLMs in die Erfassung von Fertigungsprozessen können Organisationen ihre Dokumentationsgeschwindigkeit deutlich steigern, repetitive manuelle Aufgaben reduzieren und sicherstellen, dass Arbeitsanweisungen genau und aktuell bleiben. Ob mit State-of-the-Art-Cloud-Diensten oder mit datenschutzfreundlichen lokalen Deployments — die aktuelle Welle von VLMs ermöglicht es, Prozesswissen in einer Weise zu systematisieren und zu skalieren, die zuvor nicht erreichbar war.