Många företag har numera, genom mer eller mindre aktiv datainsamling, stora mängder data tillgängliga. Allt fler har insett att data ger möjligheter att skapa värde, vilket har gjort data science till lite av ett buzzword. Mycket av arbetet inom data science handlar om att strukturera data, framställa information och göra den begriplig, genom visualiseringar, statistiska tester och data mining.
Carl Rydholm och Isabelle Attle har tidigare skrivit en artikel om värdet av hypotesdrivet arbete. Genom att analysera informationen går det att visa hur effektiva olika delar av affärsprocesser faktiskt är, och använda data som beslutsunderlag. Men vad mer kan informationen användas till? En stor del av attraktionen med data science är möjligheten att använda maskininlärning, som tidigare främst var en forskningsorienterad metodik.
Maskininlärning identifierar mönster i data, som antingen är svåra, eller tar lång tid för en människa att hitta manuellt. Det möjliggör generaliseringar av stora informationsmängder eller förenklar en problemställning och kan användas som ett hjälpfullt verktyg inom många olika områden. Genom tillgången av data finns möjligheten att göra komplexare analyser än någonsin tidigare. Men vad används maskininlärning till, och hur skapar det värde?
Vi kommer att gå igenom tre konkreta användningsområden: beslutsstöd, processoptimering och omvärldsbevakning.
1. Beslutsstöd
Maskininlärning har inom många områden visat sig vara ett effektivt beslutstöd. Tidigare var beslutsunderlag baserade på kvalitativ forskning, intuitiva beslut, eller noggranna genomgångar av data. Det moderna tillvägagångssättet är att istället låta en maskininlärningsmodell aggregera mycket information och bistå med stöd för framtida beslut och strategier.
En väl beprövad skola inom maskininlärning är supervised learning. Syftet med supervised learning är att kunna besvara frågor på basis av att ha identifierat mönster i historiska data. Genom att använda en algoritm på ett dataunderlag och indela det i klasser, går det att förutsäga framtida händelser.
Med supervised learning finns möjligheten att förutse vilka patienter som löper risk att bli sjuka
Ett konkret exempel där vi försöker förutsäga framtiden, är när vi avgör vilka patienter som inom en snar framtid riskerar att bli inlagda på sjukhus. Personer med kroniska sjukdomar, som KOL eller njursvikt, gör oftast regelbundna besök på vårdcentraler. Där kontrolleras deras hälsa och värden som lungkapacitet och blodtryck mäts. Genom att lagra mätvärdena, och länka dem till information i journaler om medicinering och tidigare hospitaliseringar, skapas ett dataunderlag där patienternas historiska hälsotillstånd är dokumenterade. En supervised learning-modell hittar mönster i dataunderlaget, som visar vad som föranlett en inläggning på sjukhus. Modellen tar sedan in nya mätvärden och journaler, och använder dem till att förutsäga vilka patienter som löper stor risk för att bli kritiskt sjuka.
Ett annat exempel är Churn-modeller, där vi försöker förutsäga vilka kunder som slutar köpa en tjänst eller produkt, eller säger upp en prenumeration. Genom att använda persondata från kunder: exempelvis kön, ålder eller geografisk plats, försöker modellen hitta mönster i data, som förutsäger vilka kunder som riskerar att hoppa av. För marknadsanalyser har data främst använts för att visa trender eller segmentering av kunder, men med maskininlärning finns möjligheten att blanda olika datakällor och vikta information från hundratals olika variabler. Istället för att bara analysera segment baserade på kön och ålder, eller enbart använda svar från enkätundersökningar, går det att sammanfoga alla datakällor och låta modellen visa vilka faktorer som har störst betydelse. Churn-modellen gör det möjligt att snabbt identifiera kunder som ligger i riskzonen för att säga upp sina abonnemang, vilket gör det lätt att agera med riktade kampanjer och erbjudanden.
Prediktionerna i en supervisor learning-modell når sällan 100 procents träffsäkerhet, vilket gör att de inte är helt säkra, utan de är endast ett estimat av verkligheten. Träffsäkerhet är oftast beroende av kvaliteten på datakällorna, mängden data och problemställningen.
Läs mer
Vi omvandlar data till affärer, läs om vårt erbjudande inom BI och beslutsstöd.
En annan fördel med supervised learning-modeller som beslutsstöd är den stora kapaciteten att aggregera mycket information. I exemplet med hospitaliseringar bland kroniskt sjuka patienter finns möjligheten att sammanfoga många år av mätvärden och information i journaler, och låta modellen hitta de viktigaste symtomen och diagnoserna för att förutsäga diabetes, istället för att gå igenom dem manuellt. Modellen ger en snabb bedömning som inte kräver manuell genomgång av en patients historik och agerar som ett effektivt beslutsstöd.
2. Processoptimering
Många moderna företag har insett värdet i att strukturera och sammanfoga data för logistik och försäljning, vilket gör att hela processflöden dokumenteras. Genom att använda data science hittar vi eventuella flaskhalsar, och använder sedan maskininlärningsmetoder för att förebygga dem. Tidigare gjordes processoptimering genom upprepade försök, kontrollgrupper och manuella felsökningar. Det moderna tillvägagångssättet är att integrera och övervaka stora dataflöden och visa korrelationer mellan olika delar i processen, göra ändringar i realtid och snabbt mäta resultat. Vi kan enkelt genomföra komparativa studier där olika scenarion jämförs, som vi sedan tar beslut på.
Inom logistik och supply chain management finns flera konkreta användningsområden för maskininlärning. Prediktiv analys med exempelvis supervised learning-metoder används för att förutsäga hur olika delar i logistikkedjan kommer att påverka nästa steg. Om vi exempelvis vet hur stor efterfrågan på en produkt kommer att vara vid en viss tidpunkt, kan lagrets storlek anpassas efter det. Ett annat exempel är transport. En optimeringsalgoritm hittar snabbt de billigaste och mest effektiva rutterna för en transport och optimerar matematiskt risker för frakt. På så sätt tas tydliga flaskhalsar bort, vilket ger stora kostnadsreduktioner.
Historiska data kan användas för att testa olika framgångsfaktorer i fysiska butiker
Inom butiksförsäljning finns möjligheten att jämföra olika scenarion i olika butiker. För internetbaserade tjänster har så kallad A/B-testning använts, där designen ändras för en delgrupp av användare, för att se vad effekten blir. I och med tillgången till historiska data går det att göra liknande jämförelser i fysiska butiker. Effekten av kampanjer och ändringar i sortimentet som historiskt slagit väl ut i vissa butiker kan mätas och visar huruvida faktorer som personalstyrka, butikens utformning eller extra tjänster som packhjälp har en signifikant effekt på försäljningen. Det ger ett bra beslutsunderlag för att införa framgångsrika ändringar i fler butiker, medan onödiga satsningar slopas.
3. Omvärldsbevakning
Via internet finns enorma mängder av företagsinformation, nyheter, recensioner, rapporter och blogginlägg tillgängliga, som ofta används för olika typer av omvärldsbevakning. Att kunna överskåda och sammanställa all information inom ett visst område tar väldigt lång tid, men flera maskininlärningsmetoder gör det möjligt att filtrera och sammanställa stora mängder information.
Unsupervised learning-metoder har som syfte att hitta underliggande strukturer i data. Data definierar de grupperingar som finns i den information som matas in. Ett praktiskt exempel på när unsupervised learning användas till omvärldsbevakning finns i forskningsartikeln “Application of Unsupervised Learning Techniques to Business Meta-Data, using Yelp Data”.
Yelp är en internetbaserad stadsguide som marknadsför företag genom recensioner från användare. Genom att använda olika unsupervised learning-modeller på ett stort dataset med information om hundratusentals fysiska butiker, kunde forskarna definiera ett antal kluster med liknande värden. De identifierade vilka typer av affärsverksamheter som är vanligast och liknar varandra, och delade in dem i kategorier. Verksamheterna visualiseras på en karta och ger en snabb överblick av affärsidkare i olika städer. Unsupervised learning går alltså att använda till att snabbt kartlägga en marknad och aggregera information.
Läs mer
En annan metod för omvärldsbevakning är NamedEntityRecognition(NER). NER extraherar relevanta personer, organisationer och platser ur artiklar, tweets eller recensioner, och visar i vilka kontexter de förekommer. Metoden används ofta av redaktionshus när de vill kunna överskåda enorma mängder av nyheter och data. De extraherade termerna används som taggar för att enkelt sortera artiklar och gör det lättare att hitta relevant information. En annan funktion för NER, som används av många större företag, är funktionen att hitta text där företaget och produkter omnämns. Funktionen visar även vilka ord och begrepp som associeras med varumärket. Detta gör det enkelt för ett företag att snabbt upptäcka såväl positiv som negativ uppmärksamhet, och ger dem möjlighet att agera på den.
De föregående exemplen visar hur maskininlärning används för att skapa värde hos företag. De utgör dock bara en bråkdel av allt som kan göras, i och med att tillgången till information är oändlig och metodiken kan tillämpas på otaliga områden. Sitter du som läser på data och vill veta hur de kan användas? Eller kanske har en problemställning du tror kan lösas med maskininlärning? Tveka inte att kontakta oss!