Advanced3 dagen

Azure Databricks

Data engineering en machine learning met Apache Spark

Overview

Azure Databricks is het voorkeurs­platform voor grootschalige data engineering en machine learning op Azure. Deze training behandelt Spark-grondslagen, Delta Lake, Structured Streaming, MLflow voor experiment-tracking en productie-implementatiepatronen.

What you'll learn

  • Databricks-workspaces en clusters inrichten en configureren
  • Grote datasets efficiënt verwerken met PySpark en Spark SQL
  • Robuuste data-pipelines bouwen met Delta Lake en medallion-architectuur
  • Real-time datastromen verwerken met Structured Streaming
  • ML-experimenten bijhouden en modellen implementeren met MLflow
  • Databricks integreren met Azure Data Lake, Synapse en Azure ML

Programme

Dag 1 — Spark & Databricks-grondslagen
  • Databricks-architectuur: clusters, notebooks en de workspace
  • Apache Spark-kernconcepten: RDD's, DataFrames en partitionering
  • PySpark: grote datasets lezen, transformeren en wegschrijven
  • Spark SQL: analytische queries op schaal
  • Clusterconfiguratie en kostenoptimalisatie
  • Practicum: een dataset van meerdere GB's verwerken met PySpark-transformaties
Dag 2 — Delta Lake & medallion-architectuur
  • Delta Lake: ACID-transacties, time travel en schema-evolutie
  • Medallion-architectuur: brons-, zilver- en goudlaag
  • Delta-tabellen optimaliseren: Z-ordering, compactie en vacuüm
  • Delta Live Tables: declaratieve pipeline-ontwikkeling
  • Structured Streaming: real-time dataverwerking met Databricks
  • Practicum: een end-to-end medallion-lakehouse-pipeline bouwen
Dag 3 — Machine learning & productiepatronen
  • MLflow: experiment-tracking, modelregister en implementatie
  • Feature engineering op schaal met Databricks Feature Store
  • Gedistribueerde ML-modellen trainen met Spark ML en scikit-learn
  • Model serving: REST-endpoints vanuit het Databricks-modelregister
  • CI/CD voor Databricks: Repos, jobs en geautomatiseerd testen
  • Practicum: een classificatiemodel end-to-end trainen, bijhouden en implementeren

Who is this for?

  • Data engineers die grootschalige data-pipelines bouwen
  • Data scientists die een schaalbaar ML-experimenteerplatform nodig hebben
  • Platform-engineers die Databricks evalueren voor enterprise-workloads

Prerequisites

  • Solide Python-ervaring
  • Bekendheid met SQL en datamodellering
  • Basiskennis van gedistribueerd rekenen is nuttig

Tools & technologies covered

Azure DatabricksApache SparkPySparkDelta LakeMLflowStructured StreamingDelta Live Tables
Not sure which course fits your team?
Talk to us — we'll match you to the right training path.
Get in touch