Het is 13 mei 2024 en het Teams-kanaal van onze Emerging Technology Practice (ET) Artificial Intelligence barst uit zijn voegen: ChatGPT-4o is er! Direct wordt er druk gezocht naar wat de nieuwe versie allemaal kan en wat er verbeterd is sinds de vorige versie. Al snel wordt besloten dat er maar één manier is om er echt achter te komen: zelf testen. Zo gezegd, zo gedaan: op donderdag 16 mei kwam er een groep van AI-experts samen om ChatGPT-4o een uur lang gezamenlijk te testen. Hieronder de eerste bevindingen.
Scope
Als eerst de scope van het ChatGPT-4o sessie. Op het moment van testen was de nieuwe (real time) video en voice functie nog niet beschikbaar. Er is dus gefocust op input van tekst en afbeeldingen. We wilden weten hoe deze nieuwe en bestaande features werken in vergelijking met ChatGPT-3.5 en ChatGPT-4.
Afbeelding herkenning: de bruginspectie
In Nederland staan er veel bruggen die allemaal regelmatig onderhoud nodig hebben. Onlangs was er een brug in de Verenigde Staten in het nieuws, omdat de brug gevaarlijk bleek te zijn om over te rijden, iets wat we in Nederland natuurlijk willen voor zijn.
In de eerste test willen we uitzoeken of we, door middel van ChatGPT-4o, geautomatiseerd mankementen kunnen spotten van bruggen, enkel op basis van foto’s van het object.
De eerste poging om te zien of ChatGPT-4o de scheur in de brug kon vinden was direct positief. Dit kan als een geslaagd experiment worden gezien. Echter kwam ChatGPT-4o ook nog met een tweede conclusie, namelijk dat volgens het nieuwe model de scheur te wijten zou zijn aan roest. Dit is niet te zien op de ingevoerde afbeelding en lijkt dus voorbarig.
Naar grote waarschijnlijkheid komt dit door de logica die in het model zelf zit: hoewel het niet ondenkbaar is dat roest in het algemeen een oorzaak kan zijn bij mankementen bij bruggen, was dat hier niet het geval. Desalniettemin stelde het model voor dat dit wel het geval was: niet op basis van bewijs uit de foto, maar hoogstwaarschijnlijk op een interne, impliciete, redenatie.
Bij een tweede poging, waar we opnieuw een afbeelding invoeren, vragen we het model of er iets opvallends te zien is. In dit geval krijgen we te horen dat er enkel wat roest is. Dit klopt helaas niet. Er is dus een tweede prompt (bericht in GPT) nodig, waarbij we additioneel vragen of het echt niet vervormd is. Nu geeft het model wel het juiste antwoord, namelijk dat er inderdaad een schuur in de brug zit.
Tenslotte hebben we nog een laatste poging gedaan. Bij deze poging gaven we het model een foto van de brug waarop geen fout is te zien. Ook hier vragen we aan het model hoe de brug eruitziet, wat voor materiaal er is gebruikt en of er geen scheur of schade aan zit. In eerste instantie geeft het model een accuraat antwoord. Waarop we iets gemeens proberen en het model vragen of het wel zeker weet dat er geen schade is. Ditmaal geeft Chat4o helaas aan dat er wel schade is. Zo te merken is het model nog steeds gemakkelijk voor de gek te houden, enkel door een vervolgvraag te stellen.
Onderzoek naar sneller werken met ChatGPT-4o
Sneller werken of minder hoofdrekenen biedt grote voordelen. Daarom willen we weten of ChatGPT-4o ons kan helpen Knowledge Graphs in elkaar kan zetten. We uploaden Figuur 3 en gaan onderzoeken of ChatGPT-4o het begrijpt.
We vragen of ChatGPT-4o voor ons de verhoudingen tussen de verschillende nodes kan uitrekenen. Hoewel de wiskundige methode erachter indrukkend was en klopte, zat er toch nog fouten in. Het had de verhouding tussen de C en F niet correct, en maakte nog enkele wat kleinere fouten. Dit is echter een tekort van de vision-extraction module, die er niet goed in slaagde om de afbeelding juist te extraheren. De vervolgstappen voor het berekenen van “bottleneck nodes” waren wel correct uitgevoerd. Als “one-shot” experiment was dat zeker indrukwekkend.
Logicapuzzel oplossen
We vragen ChatGPT-4o om de puzzel in Figuur 4 op te lossen. Deze puzzel is extra uitdagend voor LLM-modellen, omdat het succesvol oplossen niet alleen abstract beredeneren (“abstract reasoning”) vereist, maar ook patroonherkenning (“pattern-recognition”). Daarnaast wordt er ook gebruik gemaakt van axiomen die misbruik maken van inherente tekorten in “tokenization” (het proces van input-karakters “inlezen” voor het model). Hierdoor zien we dat het model moeite had om bijvoorbeeld “B#” en “#B” te onderscheiden in het toepassen van de regels.
Sneller en beter, maar niet altijd slimmer
Als je op dit moment de gratis ChatGPT-3.5 versie gebruikt en dan overstapt naar ChatGPT-4o zal je merken dat dit model slimmer, beter, en vooral sneller is. Voor zij die al langere tijd ChatGPT-4 gebruiken zullen vooral merken dat het model sneller is, en beter geformuleerde antwoorden geeft, maar niet bijster veel slimmer. We zien wel weer vooruitgang in de capaciteit om code te genereren en uit te voeren als onderdeel van het leveren van antwoorden.
We wachten met smart op meer Voice en (Real Time) videofeatures. Wanneer deze features beschikbaar zijn, gaan we ze uiteraard direct testen.
Opvallend aan het nieuwe model is dat de focus ligt op multimodaliteit. Het werkt aardig goed, alleen moeten ook hier nog rekening houden met hallucinaties. Wij voorzien dat meerdere bedrijven hiervan gebruik kunnen maken om onderzoeken te versnellen, echter blijft het belangrijk om een mens erbij betrokken te hebben.
Wil je meer weten over ChatGPT-4o of aan de slag gaan met ChatGPT-4o, neem dan contact op met onze experts