Insights

"Vertraue nichts, was du nicht selbst getestet hast"

Ein Gespräch mit Leonard Wossnig von Forgent AI über Vertrauen, Benchmarks und den Aufbau zuverlässiger KI-Agenten.

03.03.2026

Bar chart on the weighting of sustainability criteria in public tenders in the energy sector

Felicitas von Rauch

Founding Growth Lead

Leo, Forgent AI entwickelt KI-Agenten für die öffentliche Beschaffung – ein Bereich, in dem Fehler kostspielig sein können. Wie denkst du über Vertrauen nach, wenn du KI in dieser Umgebung einsetzt?

Man kann Vertrauen in KI-Agenten nicht als selbstverständlich ansehen. Vertrauen muss man sich durch rigide Tests erarbeiten. In der öffentlichen Beschaffung reicht ein einziges übersehenes Kriterium, um ein Unternehmen von einer Ausschreibung zu disqualifizieren. Das ist kein UX-Problem, das ist ein geschäftskritischer Fehler. Ein Auftrag über 500.000 Euro, der verloren geht, weil die KI einen Fehler gemacht hat. Wir haben uns daher abTag eins gefragt: Wie wissen wir tatsächlich, dass unser System funktioniert? Und die ehrliche Antwort ist: Man muss die Infrastruktur dazu aufbauen, um es immer wieder zu beweisen.

In einem Artikel, den du vor einiger Zeit veröffentlicht hast, sprichst du viel darüber, allgemeinen Benchmarks nicht zu vertrauen. Das scheint fast provokant. Warum sollten Menschen veröffentlichten Benchmarks nicht vertrauen?

Benchmarks sind nicht auf dein spezifisches, reales Problem optimiert. Wir sind mit unserer Recherche bei forgent mit der Erwartung gestartet, dass die state-of-the-art Modelle und KI-gestützte Dokumentenanalyse sofort funktionieren würden. Das taten sie nicht. Beispielsweise wurden mit Tools, die auf öffentlichen Leaderboards hervorragend abschnitten, nur 50-80% der Anforderungen aus den Ausschreibungsdokumenten extrahiert. Für uns ist diese Quote für die Beantwortung von RFPs einfach nicht gut genug. Das Versagen allgemeiner Benchmarks ist ein Phänomen, das als „overfitting to evaluations“ bekannt ist. Unser Rat: Führen Sie Ihre eigenen Tests mit Ihren eigenen Daten durch, bevor Sie irgendetwas glauben, das Sie auf LinkedIn oder X lesen.

Nehmen wir das Extraktionsbeispiel. Sogar menschliche Experten können uneinig sein, was extrahiert werden soll. Wie baut man Vertrauen in einen KI-Agenten auf, wenn die Grundlage selbst unklar ist?

Das war wahrscheinlich unsere größte Lektion zu Beginn. Wir haben Domain-Experten hinzugezogen, um unser Evaluierungsdatensatz zu erstellen, und festgestellt, dass sie nicht einmal untereinander übereinstimmten. Einige würden „offensichtliche“ Anforderungen basierend auf stillschweigendem Wissen überspringen. Andere würden implizite Annahmen hinzufügen. Das bedeutet, dass Agenten leicht scheitern können, da ihnen der Kontext fehlt – und man es möglicherweise nicht einmal bemerkt. Die Lösung bestand darin, zurückzutreten und zuerst zu bestimmen, wie ein idealer Workflow aussehen würde, dem alle Experten zustimmen konnten. Dies ermöglichte konsistente Ergebnisse bei unseren verschiedenen Expertennutzern. Dann haben wir die Aufgabe für den Agenten so umgestaltet, dass zuerst alle Anforderungen umfassend extrahiert werden; dann werden sie gefiltert anhand von konsistenten, expliziten Kriterien, die unser Expertengremium festgelegt hat. Die Modularisierung des Problems gab uns auch eine viel genauere Kontrolle darüber, wo Fehler entstanden, und machte jeden Schritt einzeln testbar.

Welche Rolle spielt die Evaluierungsinfrastruktur beim Aufbau vertrauenswürdiger Agenten?

Die Evaluierungsinfrastruktur ist wesentlich. Zu Beginn haben wir Experimente mit Standard Tracing Tools nachvollzogen. Damit befanden wir uns im Blindflug. Wir konnten Muster nicht schnell erkennen, nicht-technische Teammitglieder konnten sich nicht beteiligen, und die Iteration war viel zu langsam. Die Lösung: Wir haben eine ordentliche Evaluierungs-UI erstellt, in der sowohl Experten als auch technische Benutzer eine Testschleife starten, Ergebnisse visuell inspizieren und Metriken nebeneinander vergleichen können. Unser Lerntempo hat sich dramatisch beschleunigt. Das Vertrauen in einen Agenten beginnt mit Sichtbarkeit. Wenn du nicht sehen kannst, was der Agent tut und wo er scheitert, kann man die Fehler nicht beheben,

Modelle ändern sich so schnell. Wie erhalten Sie das Vertrauen in ein System, das auf Grundlagen basiert, die sich alle paar Monate ändern?

Wir bauen für die Zukunft, nicht für die Gegenwart. Als wir von Gemini 2.5 auf 3.0 und 3.1 wechselten, waren viele der von uns verglichenen Drittanbieterlösungen über Nacht einfach nicht mehr konkurrenzfähig. Das ist ein Signal: Die Fähigkeiten der Frontmodelle entwickeln sich schneller als spezielle Tools. Also verfolgen wir immer die neuesten Modelle, nutzen die Evaluierungsinfrastruktur, um schnelles Testen zu ermöglichen, halten unsere Architektur modular, damit wir Komponenten austauschen können, und evaluieren immer wieder neu. Vertrauen ist keine einmalige Zertifizierung. Es ist ein kontinuierlicher Prozess.

Leonard Wossnig ist Mitbegründer und CTO von Forgent AI, einem Berliner Start-up, das domänenspezifische KI-Agenten für den Gewinn öffentlicher Ausschreibungen entwickelt.

Insights

28.04.2026