Back to jobs

Cloud AI Architect (m/w/d)

KI performance GmbH
Munich, Bavaria, Germany
Full-time
AI tools:
Azure
Databricks

Als Cloud AI Architect bist du verantwortlich für die hands‑on Konzeption, Implementierung und den stabilen Betrieb von AI‑ und datengetriebenen Systemen in komplexen Enterprise‑Umgebungen.

Du arbeitest AI‑first, produktionsnah und mit hoher Ownership: von der ersten Architekturentscheidung über Deployment‑Strategien bis hin zu Stabilität, Security und Kostenkontrolle im Live‑Betrieb.

Diese Rolle ist keine reine Konzept‑ oder Beratungsrolle. Du triffst konkrete technische Entscheidungen, setzt sie selbst um und übernimmst Verantwortung dafür, dass agentische Systeme, Datenplattformen und AI‑Workloads zuverlässig, skalierbar und wirtschaftlich laufen.

Deine Aufgaben & Verantwortlichkeiten

AI‑First Plattform‑ & Betriebsarchitektur

Du verfolgst einen konsequenten AI‑First Engineering Ansatz. Plattformen und Betriebsmodelle werden von Beginn an so entworfen, dass sie den spezifischen Anforderungen von LLMs, agentischen Systemen und AI‑Workloads gerecht werden.

Dazu gehören:

* Aufbau und Weiterentwicklung von Cloud‑Plattformen auf Microsoft Azure für AI‑ und Data‑Systeme (Compute, Storage, Netzwerk, Identity, Tooling)

* Einsatz und Betrieb von Databricks als zentrale Plattform für Data Engineering, Machine Learning und AI‑Workloads

* Architektur von Agent‑Orchestrierung, Laufzeitumgebungen, Control Planes und Tool‑Integrationen

* Sicherstellung, dass Plattformen produktionsreif, skalierbar, beobachtbar und betrieblich beherrschbar sind

DevOps, Deployment & Release Management

Du verantwortest die technische Umsetzung und den stabilen Betrieb von AI‑, Agenten‑ und Data‑Systemen über ihren gesamten Lifecycle hinweg.

* Aufbau und Betrieb von CI/CD‑Pipelines für AI‑, Agenten‑ und Data‑Komponenten in Azure

* Definition und Umsetzung von Release‑ und Update‑Strategien (z. B. Canary Releases, Versionierung, kontrollierte Agenten‑Updates)

* Reproduzierbare Deployments und saubere Rollbacks, insbesondere für Databricks‑ und AI‑Workloads

* Enge Zusammenarbeit mit Engineering Manager und Produktverantwortlichen bei Architektur‑ und Betriebsentscheidungen

Stabilität, Security & Governance

Du übernimmst Verantwortung für den sicheren und stabilen Betrieb geschäftskritischer Systeme.

* Verantwortung für Verfügbarkeit, Performance, Fehlertoleranz und Incident‑Handling

* Umsetzung von Security by Design in Azure‑ und Databricks‑Umgebungen, u. a.:

* Rollen‑ und Berechtigungskonzepte (Azure IAM)

* Secrets‑Management

* Netzwerk‑ und Systemisolation

* Audit‑ und Compliance‑Anforderungen

* Aufbau und Durchsetzung von Governance‑Regeln für agentische Systeme (Zugriffe, Guardrails, Policies, Kontrollmechanismen)

Kosten, Performance & Skalierung

Du stellst sicher, dass technische Exzellenz und Wirtschaftlichkeit zusammenpassen.

* Transparenz und aktive Steuerung der Betriebskosten in Azure und Databricks (Compute, Storage, Token‑Kosten, Latenz)

* Design von Architekturen, die mit wachsenden Datenmengen und Agenten‑Netzwerken skalieren

* Bewertung technischer und wirtschaftlicher Trade‑offs gemeinsam mit Engineering Manager und Product Strategist

Produktivsetzung & Betrieb

Du begleitest Systeme bis in den produktiven Enterprise‑Betrieb – und darüber hinaus.

* Verantwortung für Go‑Live‑Vorbereitung, Stabilisierung und Übergang in den Regelbetrieb

* Erstellung von Runbooks, Betriebsdokumentation und Architecture Decision Records

* Vorbereitung der Übergabe an Kunden‑IT oder interne Betriebsteams

* Technischer Ansprechpartner in kritischen Projekt‑ und Betriebssituationen

Was wir suchen

Core Profile

* Sehr erfahrener, hands‑on Engineer mit Schwerpunkt auf Cloud‑Plattformen (Microsoft Azure), DevOps und Enterprise‑Betrieb

* Nachweisliche produktive Erfahrung mit Azure und Databricks in Enterprise‑Umgebungen

* Erfahrung mit AI‑ und Data‑Workloads im produktiven Einsatz (keine reine Infrastruktur‑ oder Konzeptrolle)

* Starkes AI‑First‑Mindset mit klarem Verständnis für Stabilität, Security und Betrieb

AI‑ & Data Engineering

* Erfahrung mit LLM‑basierten Systemen und agentischen Architekturen

* Verständnis für ML‑Lifecycle‑Konzepte (Training, Inferenz, Monitoring)

* Architektur von agentischen Systemen inkl. Guardrails, Policies und Kontrollmechanismen

Cloud, DevOps & Plattform

* Sehr gute praktische Erfahrung mit:

* Microsoft Azure (Compute, Networking, Storage, IAM, Security)

* Databricks (Data Engineering, ML‑ & AI‑Workloads)

* CI/CD‑Pipelines und Infrastructure as Code (z. B. Terraform, Bicep)

* Monitoring, Logging und Observability im Enterprise‑Umfeld

Security & Governance

* Cloud‑Security‑Patterns

* Identity‑ & Access‑Management

* Compliance‑ und Audit‑Anforderungen in Enterprise‑Umgebungen

Soft Skills & Arbeitsweise

* Sehr gute Kommunikationsfähigkeiten:

* Du erklärst technische Entscheidungen, Risiken und Kosten verständlich – intern wie gegenüber Kunden

* Starkes Business‑ und Produktverständnis

* Forward‑Deployed‑Mindset:

* Du arbeitest gern nah am Kunden und übernimmst Verantwortung in realen Projektsituationen

* Hohes Ownership‑Denken, Pragmatismus und Umsetzungsstärke

Sprachkenntnisse

* Fließende und verhandlungssichere Deutsch‑ und Englischkenntnisse

Warum du bei uns genau richtig bist

* Anspruchsvolle Data‑ & AI‑Projekte mit State‑of‑the‑Art‑Technologien (Microsoft Azure, Databricks, moderne AI‑Plattformen)

* High‑Performance‑Kultur mit viel Verantwortung und Gestaltungsspielraum

* Steile Lernkurve & Entwicklungsmöglichkeiten, inkl. Azure‑ & Databricks‑Zertifizierungen

* Hands‑on Engineering‑Kultur mit starkem Teamspirit

* Enge Zusammenarbeit mit Kunden, Partnern und dem breiten AI‑Ökosystem

Applications go to the hiring team directly