Advanced3 dagen

Azure Databricks

Data engineering en machine learning met Apache Spark

Overview

Azure Databricks is het voorkeursplatform voor grootschalige data engineering en machine learning op Azure. Deze training behandelt Spark-grondslagen, Delta Lake, Structured Streaming, MLflow voor experiment-tracking en productie-implementatiepatronen.

What you'll learn

Databricks-workspaces en clusters inrichten en configureren
Grote datasets efficiënt verwerken met PySpark en Spark SQL
Robuuste data-pipelines bouwen met Delta Lake en medallion-architectuur
Real-time datastromen verwerken met Structured Streaming
ML-experimenten bijhouden en modellen implementeren met MLflow
Databricks integreren met Azure Data Lake, Synapse en Azure ML

Programme

Dag 1 — Spark & Databricks-grondslagen

Databricks-architectuur: clusters, notebooks en de workspace
Apache Spark-kernconcepten: RDD's, DataFrames en partitionering
PySpark: grote datasets lezen, transformeren en wegschrijven
Spark SQL: analytische queries op schaal
Clusterconfiguratie en kostenoptimalisatie
Practicum: een dataset van meerdere GB's verwerken met PySpark-transformaties

Dag 2 — Delta Lake & medallion-architectuur

Delta Lake: ACID-transacties, time travel en schema-evolutie
Medallion-architectuur: brons-, zilver- en goudlaag
Delta-tabellen optimaliseren: Z-ordering, compactie en vacuüm
Delta Live Tables: declaratieve pipeline-ontwikkeling
Structured Streaming: real-time dataverwerking met Databricks
Practicum: een end-to-end medallion-lakehouse-pipeline bouwen

Dag 3 — Machine learning & productiepatronen

MLflow: experiment-tracking, modelregister en implementatie
Feature engineering op schaal met Databricks Feature Store
Gedistribueerde ML-modellen trainen met Spark ML en scikit-learn
Model serving: REST-endpoints vanuit het Databricks-modelregister
CI/CD voor Databricks: Repos, jobs en geautomatiseerd testen
Practicum: een classificatiemodel end-to-end trainen, bijhouden en implementeren

Who is this for?

Data engineers die grootschalige data-pipelines bouwen
Data scientists die een schaalbaar ML-experimenteerplatform nodig hebben
Platform-engineers die Databricks evalueren voor enterprise-workloads

Prerequisites

Solide Python-ervaring
Bekendheid met SQL en datamodellering
Basiskennis van gedistribueerd rekenen is nuttig

Tools & technologies covered

Azure DatabricksApache SparkPySparkDelta LakeMLflowStructured StreamingDelta Live Tables

Not sure which course fits your team?

Talk to us — we'll match you to the right training path.

Get in touch