← Terug naar Labs

Snellere en nauwkeurigere procescaptatie in de productie met VLM's

Hoe visie-taalmodellen het uren werk van handmatig capteren, redigeren en onderhouden van werkinstructies reduceren tot minuten — en wat er nodig is om dit betrouwbaar in productie in te zetten.

De Azumuta-applicatie in actie: een procedure vastleggen, opdelen in stappen en publiceren voor de werkvloer.

TL;DR

Probleem

  • Werkinstructies maken in de productie kost handmatig veel werk (capteren, media, redigeren).
  • Instructies zijn moeilijk te onderhouden; updates betekenen vaak dat je de volledige workflow opnieuw doet.

Context

  • Visie-taalmodellen (VLM’s) combineren beeld en tekst: ze kunnen demonstraties, frames en prompts in één pijplijn interpreteren — en ze worden steeds krachtiger en beter inzetbaar (in de cloud en in toenemende mate lokaal).

Oplossing

  • VLM’s zijn een doorbraak voor snellere, rijkere procesdocumentatie — in onze proeven daalde de aanmaaktijd met tot ~90% ten opzichte van volledig handmatige methoden.
  • Zelf controle houden over hoe je creëert — capture finetunen, prompts, review en waar het model draait — is wat het werkbaar maakt in productie.
Een voorbeeld van een vrij eenvoudige procedure, opgenomen met een camera van bovenaf. De vaste camerapositie geeft een semi-POV-perspectief, wat het werk makkelijker te leren maakt.

Problemen

Capteren

Accurate en toegankelijke productieprocedures maken is een kritieke maar tijdrovende taak voor veel organisaties. Het proces wordt bemoeilijkt door verschillende hardnekkige uitdagingen die de voortgang vertragen en ruimte laten voor fouten. De voornaamste obstakels zijn technisch van aard. Het maken van de nodige foto’s en video’s om elke stap te illustreren vereist vaak het jongleren met meerdere apparaten — camera’s, tablets, smartphones — die elk hun eigen mediaformaten produceren en verschillende manieren vereisen om bestanden over te zetten. Die bestanden moeten meestal handmatig verplaatst worden — via SD-kaarten, kabels of onbetrouwbare draadloze overdrachten — wat een omslachtige en foutgevoelige workflow oplevert. Bestanden raken zoek, worden gedupliceerd of beschadigd, wat extra frustratie en verloren tijd oplevert.

Redigeren

Zijn de beelden en video’s eenmaal verzameld, dan verschuift de uitdaging naar het documenteren. Er bestaat geen breed geaccepteerde tool die specifiek ontworpen is voor het maken van rijke, multimediale werkinstructies in de productie. Veel teams grijpen daarom naar generieke kantoorapplicaties — Word, PowerPoint, Excel — om hun content te organiseren. Helaas is geen van die tools echt geoptimaliseerd voor dit doel. Media insluiten en ordenen is omslachtig, en samenwerken is beperkt of onhandig, zeker wanneer teams de documentatie actueel willen houden naarmate processen evolueren. Bovendien maken deze formaten het moeilijk om procedures te standaardiseren over afdelingen of vestigingen heen, met inconsistente kwaliteit en presentatie als gevolg.

Onderhouden

Dit gebrek aan effectieve tools en geïntegreerde workflows heeft een directe impact op de operationele efficiëntie. Technisch onderlegd personeel besteedt onevenredig veel tijd aan basis-documentatietaken in plaats van aan hoogwaardigere activiteiten zoals procesverbetering. Het onderhoud van instructies is even moeizaam — updates of revisies betekenen meestal dat de volledige handmatige workflow opnieuw doorlopen moet worden, waardoor het minder waarschijnlijk wordt dat procedures de meest recente best practices op de werkvloer weerspiegelen. Uiteindelijk vertragen deze technische en procedurele knelpunten de kennisoverdracht in de productie, beperken ze de mogelijkheid om snel op verandering te reageren en remmen ze de adoptie van nieuwe of verbeterde werkmethoden.

Context

Op hoog niveau combineert een visie-taalmodel (VLM) een beeldpad (preprocessor → ViT → projectie in de tokenruimte) met een tekstpad (tokenizer → embeddings) binnen een gedeelde LLM, en decodeert vervolgens taaltokens terug naar tekst (embeddings → de-tokenizer). Het onderstaande schema volgt die multimodale opbouw — afgestemd op de prose in de volgende paragrafen.

Visie-taalmodellen?

Visie-taalmodellen (VLM’s), ook bekend als Vision-Language Models, vertegenwoordigen de state of the art op het vlak van het integreren van visuele en tekstuele informatie. VLM’s zijn uitbreidingen van de krachtige transformer-architectuur die de basis vormt voor de vooruitgang in natuurlijke taalverwerking, maar dan aangepast om zowel beelden (of video’s) als tekst gezamenlijk te verwerken. Technisch gezien ontvangen deze modellen visuele input (zoals frames van een camera of screenshots) én tekstuele input (zoals instructies of prompts), en leren ze beide modaliteiten te coderen in een gedeelde semantische ruimte. Hierdoor “begrijpen” de modellen niet alleen wat er in een beeld te zien is, maar ook hoe het zich verhoudt tot taal, taken of stap-voor-stap-procedures.

Hoe worden VLM’s getraind en wat kunnen ze?

Hedendaagse VLM’s, waaronder OpenAI’s GPT-4V, Google’s Gemini, Meta’s LLaVA en IDEFICS, en Alibaba’s Qwen-VL, worden voorgetraind op enorme datasets met beeld-tekstparen die van het web zijn opgehaald, aangevuld met steeds zorgvuldiger samengestelde collecties zoals instructiehandleidingen of domeinspecifieke datasets. Tijdens de training leren ze beschrijvingen (captions) te genereren, vragen over beelden te beantwoorden (“wat gebeurt hier?”), en zelfs stappenlijsten of gedetailleerde instructies te formuleren op basis van wat zichtbaar is. Hun visie-encoders zijn doorgaans gebaseerd op modellen met hoge capaciteit zoals CLIP of vision transformers (ViT), terwijl hun taal-encoders/-decoders gebruikmaken van grote transformer-LLM’s. Na de voortraining kunnen deze modellen verder worden gefinetuned voor gespecialiseerde taken, zoals procesdocumentatie of productie-instructies.

Multimodale verwerking en praktische voordelen

VLM’s werken multimodaal: ze kunnen koppelen wat ze “zien” aan wat ze “lezen” of “schrijven”. Bij een demonstratievideo van een assemblageproces kan een VLM het proces opdelen in afzonderlijke stappen, sleutelframes extraheren en bondige, leesbare uitleg per fase genereren. Dat zorgt voor een gestroomlijnde documentatieworkflow waarbij veel van het saaie handmatige beschrijven en screenshotten door het model wordt overgenomen. Geavanceerde VLM’s kunnen in de cloud draaien en steeds vaker ook lokaal op eigen hardware, wat flexibele inzet mogelijk maakt afhankelijk van organisatorische beveiligings- of privacy-eisen. Naarmate de technologie volwassener wordt, dichten VLM’s snel de prestatiekloof tussen proprietary (cloudgebaseerde) varianten en open-source, lokaal inzetbare modellen — wat ze een aantrekkelijke optie maakt voor het versnellen en verbeteren van proceskennis-captatie.

Oplossing / Resultaten

Versnelde procescreatie

De introductie van visie-taalmodellen (VLM’s) in de procesdocumentatie-workflow bleek transformerend: het bespaart drastisch tijd en moeite bij het maken van accurate productieprocedures. In onze proeven versnelde het inzetten van VLM’s voor procescaptatie en stapsgewijze beschrijving het maken van een procedure met tot 90% vergeleken met traditionele, volledig handmatige methoden. Wat vroeger uren duurde — sleutelframes uit video halen, stap-voor-stap-instructies opstellen, multimedia ordenen — kan nu in enkele minuten. VLM’s kunnen demonstratievideo’s automatisch interpreteren, procedures in logische stappen opsplitsen, beknopte captions genereren en documentatie zelfs verrijken met contextueel relevante details die anders misschien over het hoofd waren gezien.

Kwaliteit, beveiliging en controle

Naast pure snelheid bieden VLM’s bijkomende voordelen op het vlak van kwaliteit en beveiliging. De krachtigste VLM’s komen vandaag nog van proprietary cloudaanbieders en bieden best-in-class prestaties, maar recente vooruitgang in open-weight en lokaal inzetbare modellen begint dat verschil te dichten. Veel organisaties zijn begrijpelijkerwijs bezorgd over de privacy van hun productiedata. Het goede nieuws: VLM’s kunnen steeds vaker op lokale hardware draaien, zodat gevoelige video’s en procesinformatie nooit de beveiligde omgeving van de organisatie verlaten. Hoewel open-source-modellen vroeger achterliepen op commerciële alternatieven, zijn ze nu betrouwbaar genoeg om substantiële efficiëntiewinsten te leveren — en bieden ze een interessant pad voor bedrijven die meer controle over hun data willen.

Impact op documentatie

Samengevat: door VLM’s te integreren in productieprocescaptatie kunnen organisaties hun documentatiesnelheid sterk verhogen, repetitieve handmatige taken verminderen en ervoor zorgen dat werkinstructies accuraat en up-to-date blijven. Of het nu via state-of-the-art clouddiensten gaat of via privacybewuste lokale deployments — de huidige generatie VLM’s maakt het mogelijk om proceskennis te systematiseren en op te schalen op een manier die eerder niet haalbaar was.