Data lake, eller datasjö, är ett av de tvetydiga ord som cirkulerat i big data-världen under den senaste tiden. Allt sedan begreppet myntades av James Dixon (CTO, Pentaho) år 2010 har intresset växt markant. Men vad innebär det egentligen?

En majoritet av de lösningar inom beslutsstöd som används idag är så kallade data warehouse-lösningar. Det innebär att alla data som samlats in också har bearbetats för att passa i en bestämd struktur. I en data lake sker däremot ingen bearbetning. Insamlade data varken filtreras eller struktureras, utan sparas i sin råa form.

Olika typer av data från olika typer av källor kan finnas lagrade i samma data lake - vill man kombinera informationen får man göra det senare i kedjan. Denna lagringsmetod erbjuder möjligheter att plocka fram nya typer av insikter på en betydligt djupare nivå än vad som tidigare varit möjligt. Med en bottenlös lagringsmodell går inga data förlorade och kundernas aktiviteter blir tillgängliga på ett helt nytt sätt. Än så länge nyttjar de flesta bara mindre mängder av informationen. Däremot har många kommit långt i form av lagring - man samlar på sig enorma mängder data för att kunna använda dem i framtiden.

För att det ska fungera i praktiken behöver man etablera nya verktyg och arbetssätt för att bland annat säkerställa datakvalitet och personlig integritet. Ett data lake-projekt kräver en öppen datastruktur och om inte behörigheten återspeglar den som finns i organisationen kan fel personer få tillgång till känsliga data. Sådana problem är extra tydliga bland de företag som sparar ner alla transaktioner till kund eller löneuppgifter till sina anställda.

Analysföretaget Gartner har höjt ett varnande finger i hypen kring data lake. Man menar att företagen måste genomföra flera förändringar innan man tar sig an ett data lake projekt. 


Läs även

Att förenkla affären med machine learning


Att börja i rätt ände av värdekedjan

För den som är insatt i lagring kan det vara lätt att blanda ihop förutsättningarna för en data lake med ett data warehouse. Men skillnaderna är stora. I ett data warehouse är de samlade data redan strukturerade för enkel åtkomst. Exempelvis underlättar detta för att kunna visa upp specifika nyckeltal i rapporter. Men en data lake är betydligt mer komplex än så. Förbestämda mätetal saknas och specifika åtgärder krävs för att initiera nya dataströmmar. Detta gör att en data lake kan vara mer svårhanterad att arbeta med än ett data warehouse.

En annan betydande utmaning är legala krav på EU-nivå. Dessa direktiv fastslår bland annat rätten för den enskilde att bli glömd. Med en så stor mängd data som samlats i en data lake är de tekniska utmaningarna betydande. Företag blir tvungna att göra alla insamlade data spårbar, vilket är ett massivt arbete i sig.

"Visserligen är all data i en data lake helt omärkt, men det finns stora fördelar med att dokumentera vilken källa eller kvalitet informationen tillhör. Det är inte så enkelt att efter två år veta hur man tänkt när man igen gräver i samma data" - Magnus Carlsson.

Molnet skapar nya möjligheter

Kostnaden för att lagra data har blivit betydligt lägre - bakgrunden är prissänkningar på hård- och mjukvara i kombination med höjd prestanda. Men det är inte molnets kostnadsfördelar som lockar företagen. Istället är det den ständiga uppkopplingen som gör molnet till en attraktiv lagringsplats. Olika källor blir betydligt lättare att koppla samman och interoperabiliteten sträcker sig hela vägen till mobila enheter med bland annat Internet of Things.

Genom att koppla ihop data från olika källor i molnet kan man få fram insikter från fler enheter än tidigare. Förutsatt att företaget gör en grundlig analys av de utmaningar man ställs inför under ett arbete med en data lake, och att man har en plan för hur dessa ska hanteras, är en data lake en möjlighet med extremt stor potential i företagets affärsutveckling.

"Trots billigare teknik kostar det fortfarande för de större företagen att driva ett data lake-projekt. Det är därför viktigt att man först beaktar affärsvärdet. Fundera igenom hur data kommer att växa över tiden och vilket värde som kan fås av att ha dem lagrade.” Stefan Gustafsson.


Vi omvandlar data till affärer

Läs mer om vårt erbjudande inom Analytics


 

3 tips inför ett data lake-projekt

1. Tänk över vad det får kosta

Det kan vara dyrt att bygga kluster med flera terabyte data. Fundera igenom hur datamängden kommer att växa över tiden och vilket värde det kan ge i framtiden.

2. Dokumentera hur data lagras och dess kvalitet 

Det är inte så enkelt att veta hur tankarna gick när lösningen utvecklades, två år senare.

3. Ha en plan för säkerhets- och integritetsfrågor

Det kan leda till problem i framtiden, då exempelvis alla kundtransaktioner eller personalens löneuppgifter lagras.