AI och maskininlärning är några av de hetaste ämnena idag. Inte bara generellt utan också för många företag som har eller vill kunna utnyttja tekniken för innovation eller optimering av verksamheten. Oavsett om det handlar om att utveckla chattbottar, automatisera rutinmässiga arbetsuppgifter, hitta nya sätt att kvalitetsgranska produktionen eller för att kunna anpassa produkter och tjänster efter kundernas ombytliga preferenser, har tekniken mycket att erbjuda. Oberoende av teknikval, kräver lösningen tillgång till högkvalitativ data. Därav begreppet, som ofta används inom datavetenskap ”Garbage In Garbage Out” (GIGO), som syftar på att teknikens resultat ofta har en stark korrelation med kvaliteten på dess in-data.
Utmaningar med träningsdata
AI- och maskininlärningsmotorerna kräver enorma mängder data för att tränas, så att de kan utföra de tänkta uppgifterna. Tillgång till data borde inte vara ett hinder, då både privatpersoner och företag i princip kontinuerligt producerar data. Det finns dock en rad problem kopplat till dataanvändning, som kan vara värda att gå igenom.
Idag omfattas dataanvändning av ett betydande regelverk, som främst fokuserar på att skydda individers integritet. Ett tydligt exempel på detta är den allmänna dataskyddsförordningen (GDPR), som är en av de mer omfattande EU-lagstiftningarna inom området. GDPR syftar till att säkerställa att individernas personliga information hanteras på ett ansvarsfullt och säkert sätt, samtidigt som den ger individer större kontroll över sin data. Denna lagstiftning begränsar också hur data samlas in, används och hur länge den får sparas. Det medför bland annat att det inte går att använda data om kunder och anställda helt fritt för att träna din AI-motor.
För att kunna använda individbaserad data lagligt krävs ofta också en ganska omfattande anonymisering av datan, som är både komplicerad och dyr. Det är också viktigt att poängtera att anonymisering av data inte är en garanti för säkerhet. Den bästa effekten för att träna AI- och maskininlärningsteknik uppnås dock om datan är historisk, alltså att den producerats över längre tid. Även om mycket data produceras idag, är det inte säkert att datan bakåt i tiden är lika rik och omfattande, om den alls finns tillgänglig.
Viss data kan också vara upphovsrättsskyddad. Här pågår mycket debatt och diskussion. Därför är det inte otroligt att det kommer att komma riktlinjer som innebär att verksamheter tydligt måste redogöra för vilken publik data som använts för att träna en viss funktion eller modul.
Dessa delar är viktiga att ta hänsyn till när du planerar för dina AI- och maskininlärningsinitiativ och bör vara en grundsten i er AI-strategi.
Ett annat viktigt område är kvalitetsaspekten på data. Befintlig data kan innehålla en rad fel, som är mer eller mindre enkla att åtgärda. Bara för att datan är organiskt producerad betyder det inte att den håller en hög kvalitet.
Syntetisk data
Ett alternativ till organiskt producerad data är syntetisk data. Det är data, som till skillnad från data insamlad från verkliga händelser, har genererats artificiellt. Syntetisk data innehåller alltså inte någon verklig data, men har samma statistiska egenskaper och ger därför samma statistiska slutsatser som verklig data. Det gör den mycket användbar för AI-lösningar.
Syntetisk data kan skapas för en rad ändamål och av en mängd olika typer, från enkel tabelldata till mer avancerade datatyper som bild, text och tal. Syntetisk data gör att verksamheter kan undvika många av de ovan nämnda utmaningarna kopplade till träningsdata. Den syntetiska datan kan skapas i önskad mängd, vilket löser databristen och helt anonymiserad utan personuppgifter, för att säkerställa regelefterlevnad, men samtidigt ge samma statistiska slutsatser som verklig data.
En mycket viktig aspekt på syntetisk data är kvaliteten. Det är ett relativt outforskat område, som blir extra viktigt när datan är artificiellt producerad. Med syntetisk data kan du nämligen bestämma vilken kvalitet datan måste ha. Det kan finnas användningar där kvaliteten kan vara låg, som exempelvis testdata för utveckling av system. Då ska du inte behöva investera i högkvalitativ data. Det finns samtidigt en rad olika områden som kräver data av mycket hög kvalitet för att uppnå önskat resultat. Idag finns inte någon samsyn kring eller ens någon definition av hur datakvaliteten bestäms för syntetisk data.
Syntetisk data är ett spännande område som erbjuder en lösning på några av de största utmaningarna inom datahantering, såsom integritet, datatillgång och kvalitet, vilket öppnar upp för en mängd olika affärsområden. Genom att demokratisera data kan företag och forskare utföra omfattande analyser och utveckla AI-modeller utan riskerna och begränsningarna som följer med användning av verklig, känslig data. Syntetisk data kan också ha en besparingsaspekt, då insamling av verklig data kan vara kostsam. Syntetisk data kan öppna upp nya möjligheter för utforskande av innovationer och förbättringar av befintliga processer, samtidigt som en hög nivå av dataskydd och regelefterlevnad upprätthålls.
Vi på CGI har stort fokus på AI- och maskininlärningsprojekt och hjälper kunder både med datatillförsel och hela projekt. Just området datakvalitet för syntetisk data är något jag intresserar mig för lite extra. Jag hoppas kunna berätta mer om ett spännande projekt vi är på gång att starta upp, kopplat till datakvalitet. Till dess går det utmärkt att höra av sig till mig för att diskutera datautnyttjande, AI-projekt eller bara uppdatera er lite kring definitioner och mätning av datakvalitet för att mäta datakvalitet för syntetisk data.