AI Personal Work OS: Autonome Multi-Agenten Orchestrierung
In einer Welt zunehmender digitaler Fragmentierung verbringen wir oft mehr Zeit damit, Arbeit zu verwalten, als sie tatsächlich zu erledigen. Dieses Projekt stellt ein “AI-Driven Personal Work OS” vor – ein autonomes System, das nicht nur Befehle ausführt, sondern Kontext versteht. Es nutzt ein Hub-and-Spoke-Modell, bei dem ein zentraler Orchestrator spezialisierte KI-Agenten (Kalender & Backlog) steuert, um komplexe, tool-übergreifende Workflows durchzuführen. Es ist der Schritt von einfacher Automatisierung hin zu echter Agentic AI.
Zielgruppe & Jobs to be Done
Abschnitt betitelt „Zielgruppe & Jobs to be Done“Dieses System wurde für Knowledge Worker, Freelancer und Projektmanager entwickelt, die unter “Kontextwechsel-Müdigkeit” leiden und mehrere Tools (Kalender, Projektmanagement, Recherche) parallel bedienen müssen.
Core Jobs to be Done (JTBD):
- Seamless Planning: “Wenn ich ein Meeting plane, möchte ich, dass die vorbereitenden Aufgaben automatisch in meiner To-Do-Liste erscheinen, ohne die App zu wechseln.”
- Contextual Scheduling: “Ich möchte wissen, wann ein externes Event stattfindet (Recherche) und diesen Termin sofort blocken, ohne manuell Daten übertragen zu müssen.”
- Single Source of Truth: Sicherstellung, dass Kalender (Zeit) und Backlog (Aufgaben) synchron bleiben.
Problem & Auswirkungen
Abschnitt betitelt „Problem & Auswirkungen“Die größte Herausforderung im persönlichen Wissensmanagement ist die Diskrepanz zwischen Zeitplanung (Kalender) und Aufgabenplanung (Airtable/Jira/Notion).
- Pain Point: Informationen sind isoliert. Ein Kalendereintrag “Abgabe Projekt X” existiert oft ohne korrespondierende Aufgabe im Backlog.
- Auswirkung: Termine werden vergessen oder unvorbereitet wahrgenommen. Der manuelle Abgleich zwischen Recherche (Google Suche), Kalender und Task-Manager kostet täglich bis zu 30-60 Minuten und erzeugt unnötige kognitive Last.
Lösungsansatz & Technische Architektur
Abschnitt betitelt „Lösungsansatz & Technische Architektur“Die Lösung basiert auf einer Multi-Agenten-Architektur in n8n, angetrieben durch Google Gemini. Anstatt einem einzigen LLM alle Aufgaben zu übergeben, werden spezialisierte Agenten eingesetzt, die über einen zentralen Router (Orchestrator) gesteuert werden.
Der Orchestrator-Workflow: Empfängt den Chat-Input und routet an den korrekten Sub-Agenten.
Der Tech Stack
Abschnitt betitelt „Der Tech Stack“- Orchestrierung: n8n (LangChain Nodes)
- Intelligence (Brain): Google Gemini (PaLM) via API
- Datenbank: Airtable (Task Management)
- Zeitmanagement: Google Calendar
- External Knowledge: SerpAPI (für Echtzeit-Websuche)
Workflow-Logik
Abschnitt betitelt „Workflow-Logik“Das System folgt einem klaren Delegations-Muster, wie im Sequenzdiagramm dargestellt:
- Input: Der User sendet eine komplexe Anfrage (z.B. “Wann ist die TechConf? Blocke den Tag und setze eine Task für Slides.”).
- Orchestrator: Analysiert den Intent. Er erkennt, dass externe Informationen (Datum) und Kalenderzugriff nötig sind.
- Delegation (Schritt 1): Der Calendar Agent nutzt SerpAPI, um das Datum zu finden, und Google Calendar, um den Slot zu buchen.
- Context Passing: Das Ergebnis (Event-ID & Datum) wird an den Orchestrator zurückgegeben.
- Delegation (Schritt 2): Der Orchestrator nutzt das gefundene Datum, um den Backlog Agent anzuweisen, eine Task mit korrekter Deadline in Airtable zu erstellen.
Ablaufdiagramm: Vom User-Prompt über die Recherche bis zur Task-Erstellung.
Technischer Deep Dive
Abschnitt betitelt „Technischer Deep Dive“Die wahre Stärke dieses Projekts liegt in der Implementierung der LangChain-Agenten innerhalb von n8n.
1. Der Orchestrator als “Guardrail”
Abschnitt betitelt „1. Der Orchestrator als “Guardrail”“Der Orchestrator-Agent (@n8n/n8n-nodes-langchain.agent) verfügt über einen strikten System-Prompt, um Endlosschleifen zu vermeiden und Halluzinationen zu reduzieren.
System Prompt Auszug: “If the input comes from another agent (output), DO NOT forward it again to that same agent. […] Only forward user inputs to specialized agents. If an agent already responded, summarize or reformat it…”
Dies verhindert, dass Agenten sich gegenseitig Bälle zuspielen, ohne dass der User ein Ergebnis erhält.
2. Backlog Agent: Structured Output Parsing
Abschnitt betitelt „2. Backlog Agent: Structured Output Parsing“Der Backlog Agent ist nicht nur ein Chatbot, sondern eine Schnittstelle zur Datenbank. Er nutzt n8n-nodes-base.airtableTool für CRUD-Operationen (Create, Read, Update, Delete).
Besonders bemerkenswert ist die Fähigkeit des LLMs, unstrukturierte Sprache (“Erinnere mich morgen an die Steuer”) in strukturierte JSON-Objekte für Airtable zu parsen (Mapping von Title, Due Date, Priority etc.), wie im JSON-Code des Backlog Agents ersichtlich ist.
Backlog Agent: Nutzt Gemini, um Airtable Records intelligent zu erstellen, zu suchen oder zu löschen.
3. Calendar Agent: Grounding durch SerpAPI
Abschnitt betitelt „3. Calendar Agent: Grounding durch SerpAPI“Der Calendar Agent (🦾 Calendar Agent.json) besitzt eine entscheidende Zusatzfähigkeit: SerpAPI. Bevor er einen Kalendereintrag erstellt, kann er das Web nach fehlenden Informationen durchsuchen.
- Szenario: User sagt “Blocke Zeit für das Apple Event”.
- Problem: Der Agent kennt das Datum nicht.
- Lösung: Der Agent führt selbstständig eine Google-Suche via SerpAPI durch, extrahiert das Datum und führt dann die
create-Operation im Google Calendar Tool aus. Dies verbindet Weltwissen mit persönlichem Datenmanagement.
Calendar Agent: Kombination aus Google Calendar Tools und SerpAPI für kontextbewusste Terminplanung.
Ergebnis & Mehrwert
Abschnitt betitelt „Ergebnis & Mehrwert“Das AI Personal Work OS transformiert n8n von einem reinen Automatisierungstool in einen intelligenten Assistenten.
- Zeitersparnis: Reduktion der administrativen Klicks um ca. 90% pro komplexem Task (Recherche + Kalender + ToDo).
- Datenintegrität: Durch die automatisierte Datenübergabe zwischen Agenten (Context Passing) werden Übertragungsfehler (z.B. falsches Datum in der Task-Liste) eliminiert.
- Skalierbarkeit: Das Hub-and-Spoke-Design erlaubt das einfache Hinzufügen weiterer Agenten (z.B. ein “Email Agent” oder “Research Agent”), ohne die Kernlogik des Orchestrators komplett neu schreiben zu müssen.
Dieses Projekt demonstriert, wie moderne LLMs genutzt werden können, um APIs nicht nur anzusprechen, sondern intelligent zu orchestrieren.