Advanced3 dagen
Azure Databricks
Data engineering en machine learning met Apache Spark
Overview
Azure Databricks is het voorkeursplatform voor grootschalige data engineering en machine learning op Azure. Deze training behandelt Spark-grondslagen, Delta Lake, Structured Streaming, MLflow voor experiment-tracking en productie-implementatiepatronen.
What you'll learn
- Databricks-workspaces en clusters inrichten en configureren
- Grote datasets efficiënt verwerken met PySpark en Spark SQL
- Robuuste data-pipelines bouwen met Delta Lake en medallion-architectuur
- Real-time datastromen verwerken met Structured Streaming
- ML-experimenten bijhouden en modellen implementeren met MLflow
- Databricks integreren met Azure Data Lake, Synapse en Azure ML
Programme
Dag 1 — Spark & Databricks-grondslagen
- Databricks-architectuur: clusters, notebooks en de workspace
- Apache Spark-kernconcepten: RDD's, DataFrames en partitionering
- PySpark: grote datasets lezen, transformeren en wegschrijven
- Spark SQL: analytische queries op schaal
- Clusterconfiguratie en kostenoptimalisatie
- Practicum: een dataset van meerdere GB's verwerken met PySpark-transformaties
Dag 2 — Delta Lake & medallion-architectuur
- Delta Lake: ACID-transacties, time travel en schema-evolutie
- Medallion-architectuur: brons-, zilver- en goudlaag
- Delta-tabellen optimaliseren: Z-ordering, compactie en vacuüm
- Delta Live Tables: declaratieve pipeline-ontwikkeling
- Structured Streaming: real-time dataverwerking met Databricks
- Practicum: een end-to-end medallion-lakehouse-pipeline bouwen
Dag 3 — Machine learning & productiepatronen
- MLflow: experiment-tracking, modelregister en implementatie
- Feature engineering op schaal met Databricks Feature Store
- Gedistribueerde ML-modellen trainen met Spark ML en scikit-learn
- Model serving: REST-endpoints vanuit het Databricks-modelregister
- CI/CD voor Databricks: Repos, jobs en geautomatiseerd testen
- Practicum: een classificatiemodel end-to-end trainen, bijhouden en implementeren
Who is this for?
- Data engineers die grootschalige data-pipelines bouwen
- Data scientists die een schaalbaar ML-experimenteerplatform nodig hebben
- Platform-engineers die Databricks evalueren voor enterprise-workloads
Prerequisites
- Solide Python-ervaring
- Bekendheid met SQL en datamodellering
- Basiskennis van gedistribueerd rekenen is nuttig
Tools & technologies covered
Azure DatabricksApache SparkPySparkDelta LakeMLflowStructured StreamingDelta Live Tables
Not sure which course fits your team?
Talk to us — we'll match you to the right training path.