Is het u al opgevallen dat de functie van data scientist helemaal bovenaan alle lijstjes staat van de meest gevraagde functies in data en technologie jobs van 2020? Niet voor niets noemde Harvard School de data scientist ‘The sexiest job of the 21st century’. Daarnaast hebben veel organisaties het moeilijk om goed opgeleide data scientists te vinden.

Onze 10-daagse opleiding ‘Data Science van A tot Z’ is bedoeld voor iedereen die een beter beeld wilt krijgen van de taken van een data scientist, data science in de dagelijkse praktijk wil brengen en een boost wil geven aan zijn of haar carrière.

Statistiek, data blending en datavisualisatie behoren tot de kerncompetenties maar goede communicatieve vaardigheden, het organiseren van BI & data governance, het opstellen van business cases en onvervalste KPI’s, datakwaliteit, privacy en consultancyvaardigheden zijn ook van groot belang.

Doelstellingen

Er wordt veel verwacht van een Data Scientist. Data science 'doen' betekent zoveel meer dan alleen programmeren in R. We benaderen de opleiding via de verschillende stappen die worden uitgevoerd in een Data Science-project:

  • Introductie tot data science
  • De vraag van uw interne klant begrijpen
  • De data zoeken
  • De data opslaan
  • De data opschonen
  • De data verkennen
  • De data analyseren
  • De data visualiseren
  • Het resultaat presenteren

We plaatsen elk onderwerp binnen elke fase in de lijst met de verschillende taken die een Data Scientist uitvoert.

Pluspunten

  • Interactie staat centraal in deze opleiding. Er is voldoende gelegenheid om vragen te stellen en ervaringen met andere deelnemers uit te wisselen. Tijdens deze Data Science opleiding werkt u aan een concrete case (Data Science project) die zoveel mogelijk als rode draad loopt doorheen de 10 dagen opleiding. Hierdoor onstaat de ideale mix tussen theorie en praktijk.
  • De opleiding is in handen van trainers met bakken ervaring die innovatie en kwaliteit hoog in het vaandel dragen. En zij kennen de uitdagingen van een Data Scientist door en door.
  • Na afloop hebt u een goed beeld van de mogelijkheden van Data Science en de verschillende onderdelen van een Data Science project.

Uw resultaten

  • De opleiding biedt dé volledige toolbox die u nodig hebt om uw rol als Data Scientist met kennis van zaken aan te pakken.
  • U krijgt de veelgevraagde harde en softe data-science vaardigheden onder de knie: statistische analyse, datamining, R, datavisualisatie & -presentatie, data preprocessing, ...
  • U kunt vragen van de business correct vertalen naar de juiste data-probleemstelling en daarna gefundeerde aanbevelingen doen aan de business op basis van een data science proces. 

 

Bestemd voor

Deze opleiding is een abolute must voor elke professional die een rol als data scientist ambieert. Het is duidelijk dat in een wereld die even turbulent is als degene waarin we ons nu bevinden, deze data scientists uit alle hoeken van de onderneming kunnen komen. Bijvoorbeeld:

  • business managers, 
  • business en functionele analisten,
  • data of IT-architecten,
  • BI analisten,
  • data-analisten, 
  • proceseigenaars en -analisten,
  • ...

Het doel van deze opleiding is om een breed kader te schetsen waarop u kunt verder bouwen aan de vereiste expert skills.

Deze opleiding is dus niet geschikt voor professionals die willen opgeleid worden tot R of Python expert/programmeur, professor in de statistiek of datatool-gebaseerd expert.

Programma

Dag 1 - voormiddag: Uw actieplan opstellen en data verzamelen

Eerst kaderen we de rol van de data scientist waarbij we stilstaan bij de hard en soft skills die van hem of haar verwacht wordt. Op die manier wordt de structuur duidelijk waar de rest van de opleiding op is gebaseerd. Daarna introduceren we de case die doorheen de opleiding als rode draad loopt om de onderwerpen praktisch in te vullen. In het laatste deel beantwoorden we vragen als: Waar kunnen we onze gegevens vinden? Hoe kunnen we er toegang tot krijgen? Zijn we vrij om het commercieel te gebruiken? Dit is concreet de 1e fase van elk data science project en wordt dusdanig onmiddellijk toegepast op de dataset die u doorheen deze opleiding gebruikt.

  • De 'hard' & 'soft' skills van een data scientist
  • The Pyramid Principle
  • Case in Point
  • Introductie case
    • Eerste inzicht in de dataset
    • Toegang verschaffen tot de dataset
  • Data verzamelen
    • Interne databronnen
    • Web scraping
    • Toepassing op de case

Trainer: Sven Vermeulen

Dag 1 - namiddag: Databases

Vooraleer we ons volledig kunnen verdiepen in de data zelf, is het noodzakelijk om een sterke theoretische basis te hebben. Enkel zo kunnen we onze kansen op succes, en daarbij de kwaliteit van onze resultaten, maximaliseren. Een essentieel theoretisch element is het belang van en de mogelijke soorten databases.

  • Belang van databases
  • Databasebeheersystemen of DBMS

Trainer: Sven Vermeulen 

Dag 2: BigData & (No)SQL: overzicht

In dit gedeelte laten we u kennismaken met de complexiteit van de big data-wereld en de manier waarop we ermee omgaan. We bestuderen het ontwerp van de relationele database die nodig is voor onze case en we bekijken enkele alternatieve NoSQL-indelingen om een deel van de informatie op te slaan. Tot slot vergelijken we de verschillende alternatieven.

  • Big Data
    • Wat en waarom?
    • Distributiemodellen
    • Denormalisatie
  • NoSQL databanken
    • Key-Value
    • Document
    • Column-Family
    • Graph

Trainer: Ann Van Eyken

Dag 3: Pre-processing data

In dit gedeelte leren we u hoe u van een vervuilde en onvolledige gegevensset naar een schone dataset kunt gaan die klaar is voor analyse. U leert over opschonen, integreren, transformeren, reduceren en discretiseren van onbewerkte gegevens, zowel in theorie, als in praktijk.

Gedurende deze dag zullen we voornamelijk de tool - OpenRefine - gebruiken om de ruwe gegevens van onze case voor te bereiden.

  • Data in de 'echte' wereld
  • De 5 taken in pre-processing
    • Opschonen
    • Integreren
    • Transformeren
    • Reduceren
    • Discretiseren
  • Reproduceerbaarheid
    • Ruwe data
    • Schone data
    • Codeboek
    • Expliciet en exact
  • Pre-processing in OpenRefine

Trainer: Ann Van Eyken

Dag 4: Business Intelligence

In dit gedeelte bespreken we waarom BI waardevol is, wie u nodig heeft in uw team en waar u moet beginnen. We praten over data warehousing en dimensioneel modelleren en waarom ze zo belangrijk zijn.

Tenslotte ontwerpen we een dimensionaal model voor de case en extraheren, laden en transformeren de gegevens die we tot nu toe hebben gevonden en verwerkt in een datawarehouse.

  • Introductie tot Business Intelligence
  • BI-architectuur
  • Wie betrekt u bij een BI-project?
  • Waar begint u?
  • Wat zijn valkuilen?
  • Data Warehousing
  • Dimensioneel modelleren
  • ETL

Trainer: Ann Van Eyken

Dag 5: Kennismaking met R

R verwijst naar een open source programmeertaal en softwareomgeving. R is zeer relevant in de context van datamining en statistiek.

In deze dag zetten we u op weg met R. We introduceren de basisbeginselen en laten u een aantal geavanceerde functies zien. We gebruiken R om enkele modellen voor de dataset in onze case te bouwen en proberen ook een aantal voorspellingen te doen.

  • Wat is R?
  • Vectoren
  • Matrixen
  • Factoren
  • Lijsten
  • Dataframes
  • Conditionals en flow controle
  • Loops
  • Functies
  • Toepassen
  • Hulpmiddelen
  • Visualisatie

Trainer: Ann Van Eyken

Dag 6 - voormiddag: EDA in R

EDA, of Exploratory Data Analysis, is de fase waarin we voor het eerst de data onder de loep nemen vanuit een descriptief standpunt. De essentie van deze stap is om de eigenschappen van de dataset te begrijpen en zo onze verdere analyse een meer geschikte vorm te geven. In dit onderdeel combineren we R, dat op dag 5 aan bod komt, met de theoretische benadering in de voormiddag en daarnaast passen we het ook toe op de case.

  • Omschrijving van de opdracht
  • Descriptieve statistiek in R
  • Descriptieve visualisaties in R

Trainer: Sven Vermeulen

Dag 6 - namiddag: Statistiek

Een gefundeerde beslissing maken over welke testen kunnen leiden tot nuttige en relevante resultaten is heel belangrijk. Daarbij mag statistiek niet ontbreken. Door een voormiddag de tijd te nemen om de onderdelen te bespreken die bepalen hoe statistische principes leiden tot specifieke soorten testen, kunt u als data scientist op een gefundeerde manier keuzes maken wanneer u naar de effectieve implementatie van uw analyse overgaat.

  • Overzicht van statistische testen
  • Descriptieve statistiek en kanstheorie
    • Kansverdelingen
    • Significantietesten
    • Hypothesetesten
    • Regressie
  • Bayensiaanse statistiek
    • Conditionele kanstheorie
    • Prior en posteriore verdeling

Trainer: Sven Vermeulen

Dag 7 en dag 8 - voormiddag: Data Mining

Data Mining is het proces waarbij patronen in datasets worden herkend. In dit gedeelte onderzoeken we verschillende soorten patronen en passen we ze toe op de business vragen. Bijvoorbeeld: het vinden van verschillende klantengroepen, het voorspellen van churn of het ontdekken van een bepaalde frequentie van sets. We gebruiken een tool om enkele relevante algoritmes toe te passen.

  • Introductie
    • Definitie
    • Proces
    • Overzicht van de technieken
  • Classificatie
    • OneRule (1R)
    • Beslissingsbomen
  • Regressie
    • Lineaire regressie
    • Logistieke regressie
    • Artificiële neurale netwerken
  • Frequente itemset mining
    • Apriori
  • Clustering
    • K-means clustering
    • Hiërarchische clustering

Trainer: Ann Van Eyken

Dag 8 - namiddag: Presenteren van uw resultaat

Als u ervoor zorgt dat uw boodschap zorgvuldig is opgebouwd doorheen uw Data Science proces kunt u de desision makers gemakkelijker overtuigen om uw bevindingen om ze zetten naar concrete verbeteringen. Tijdens deze namiddag bieden we u allerlei tools om uw resultaat en bevindingen om te zetten in een verhaal.

  • Het verhaal vertellen
    • Simpel
    • Onverwacht
    • Concreet
    • Geloofwaardig
    • Emotioneel
    • Verhalen
  • Tips & tricks
  • Effectieve slides opmaken

Trainer: Sven Vermeulen

Dag 9: Kennismaking met Python

Python is een open-source programmeertaal waarbij simpliciteit en leesbaarheid van de code centraal staat. Daarnaast bestaat er een heel gamma aan packages die specifiek zijn toegespitst op data science. Om die reden is Python onmisbaar in de toolkit van elke data scientist.

Gedurende de dag maakt u kennis met de basisbeginselen van programmeren in Python, maar ook met de meest gebruikte packages voor data science.

  • Introductie
  • Variabelen en functies
  • Loops en arrays
  • Flow control
  • Jupyter Notebooks
  • Statistiek met Numpy
  • Hypothesetesten met Scipy
  • Dataframes met Pandas
  • Machine Learning met Scikit-learn

Trainer: Gianni Noulez de Miguel

Dag 10 - voormiddag: Datavisualisatie

Wanneer we het punt bereiken waar we de gevormde inzichten kunnen communiceren naar de klant, moeten we beslissen welke visualisaties hiervoor het meest geschikt zijn. Niet elk grafieksoort of infographic draagt dezelfde boodschap. Het kan daarom schadelijk zijn om in de laatste fases toch nog de verkeerde keuzes te maken, ondanks alle moeite die ervoor in het project werd gestopt. De essentie van elk project blijft namelijk dat we onze klant moeten kunnen overtuigen om onze inzichten om te zetten naar actie. In het eerste onderdeel van deze voormiddag geven we vanuit de theorie een overzicht van de belangrijkste visualisaties en hun eigenschappen.

Dit wordt opnieuw praktisch ingevuld door de case om te zetten naar een Power BI dashboard. Het tweede onderdeel van de voormiddag bespreekt de werking van Power BI en hoe het kan gebruikt worden om inzichten weer te geven op een overzichtelijke manier.

  • Visualisaties
    • Methodes
    • Visuele designs
    • The Good
    • The Bad
    • The Ugly
  • Power BI

Trainer: Sven Vermeulen

Dag 10 - namiddag: Visualisaties in Python

In de namiddag zetten we het thema van visualisaties voort, maar dan in Python. Ook hier zullen we de manieren onderzoeken waarmee we data en bevindingen kunnen voorstellen met allerhande grafieken. U zult leren hoe u de meest gebruikte grafieken kunt tekenen in Python, en hoe u deze in een mooi overzicht toont aan de klant via Jupyter Notebooks in samenwerking met de visualisatiepackage matplotlib.

  • Installeren van matplotlib
  • Eigen Jupyter Notebooks maken
  • Visualisaties met matplotlib en Jupyter

 Trainer: Gianni Noulez de Miguel

Docent(en)

d_04014
Ann Van Eyken

Ann Van Eyken heeft een diploma Licenciaat (Master) Wiskunde – Informatica en is een gedreven docent met meer dan 25 jaar relevante ervaring. Momenteel is zij aan de slag als trainer voor The Master Labs. Zij zal alles in het werk stellen om de trainingen die ze geeft en de opleidingsprojecten waarvoor ze verantwoordelijk is tot een goed einde te brengen. Haar lessen zijn zeer interactief en gestructureerd, zij kan vlot inspelen op vragen van de deelnemers en de trainingen aanpassen aan hun niveau en interesses.

Lees meer
d_04016
Sven Vermeulen

Sven Vermeulen is een gemotiveerd business analist met de nodige relevante ervaring en een diploma Master Handelswetenschappen – Management en Informatica. Door de combinatie van zijn ervaring als assistent aan de universiteit Gent en zijn praktijkervaring als business analist, is Sven een van de dedicated lesgevers bij The Master Labs. Hij focust zich hierbij op trainen met voldoende praktische invulling en interactie met cursisten zonder de nodige theoretische elementen naar achter te schuiven.

Lees meer
d_04281
Gianni Noulez de Miguel

Gianni Noulez de Miguel is een gemotiveerd business analist met de nodige relevante ervaring en een diploma Master Handelsingenieur in de Beleidsinformatica.Hij heeft een sterke analytische geest en is goed in staat om door te dringen tot de kern van de zaak. Deze eigenschappen gebruikt hij zowel in zijn projecten als tijdens het lesgeven, waar hij zijn theoretische kennis en praktijk ervaring combineert!

Lees meer

Praktische informatie

Prijs: 4 051 EUR (excl btw)

De opleidingen komen in aanmerking voor verschillende subsidies. Handig: zo betaalt u zelf maar een deel van het inschrijvingsgeld.

  • Tot 30% subsidie met kmo-portefeuille op klassikale opleidingen, live webinars en congressen. Meer info vindt u hier.
Extra:

Gelieve uw laptop mee te brengen naar deze opleiding. Zo garanderen wij u het maximum leerresultaat.

Incompany: Hebben meerdere collega’s behoefte aan deze opleiding? En trekt u liever niet naar een andere plaats? Breng de opleiding naar uw afdeling of onderneming: handig! Bovendien spitst de trainer zich dan toe op uw situatie, op uw sector en op de vragen van uw medewerker. Vraag uw incompany opleiding aan.

Partner

Inschrijven

Data