KI-Systeme sind nicht deterministisch
Klassische Softwaretests basieren häufig auf klar definierten Eingaben und erwarteten Ausgaben. KI-Systeme hingegen sind nicht deterministisch. Das bedeutet, dass gleiche Eingaben je nach Kontext unterschiedliche Ergebnisse liefern können.
Sprachmodelle erzeugen ihre Ausgaben wahrscheinlichkeitsbasiert. Sie wählen das nächste Wort nicht nach festen Regeln, sondern anhand von Wahrscheinlichkeiten. Die Qualität und Ausprägung einer Antwort hängen dabei nicht nur vom Prompt ab, sondern auch von mehreren Faktoren, unter anderem von:
der Gesprächshistorie
eingesetzten System Prompts
kontextuell eingebundenen Dokumenten, etwa über Indexierung oder RAG
der verwendeten Modellversion
Diese Abhängigkeiten machen reproduzierbare Testergebnisse deutlich komplexer als bei klassischer Software.
Wenn Daten die Antwort verändern
Ein weiterer zentraler Aspekt in der Qualitätssicherung von KI-Systemen ist der Umgang mit Wissensquellen. KI-Lösungen greifen häufig nicht ausschließlich auf das allgemeine Wissen des Modells zurück, sondern binden gezielt interne Dokumente oder SharePoint-Inhalte ein.
Ändern sich diese Dokumente oder Datenquellen, können sich auch die KI-Antworten ändern, selbst bei identischer Fragestellung. Dadurch wird deutlich, dass Qualität nicht ausschließlich anhand fixer Erwartungswerte geprüft werden kann.
Qualität bewerten statt richtig oder falsch prüfen
Die Prüfung von KI-Ergebnissen erfolgt daher nicht nach dem klassischen Prinzip richtig oder falsch. Stattdessen wird Qualität anhand inhaltlicher und kontextbezogener Kriterien beurteilt. Im Fokus stehen dabei Fragen wie:
Nutzt die KI die richtigen und freigegebenen Quellen?
Ist die Antwort verständlich und konsistent?
Ist sie sinnvoll und fachlich korrekt?
Entspricht das Ergebnis den individuellen Anforderungen der jeweiligen Kund:innen?
Diese Kriterien bilden die Grundlage für eine differenzierte Bewertung von KI-Ausgaben.
Manuelles Testing bleibt unverzichtbar
Manuelle Tests spielen bei KI-Systemen eine besonders wichtige Rolle. Sie ermöglichen die Bewertung von Aspekten, die sich nicht rein technisch messen lassen. Dazu zählen vor allem inhaltliche Korrektheit, Sinnhaftigkeit, Sprachqualität, Lesbarkeit sowie das Kontextverständnis der KI.
Gerade bei Funktionen wie Chat, Zusammenfassungen oder Übersetzungen ist das menschliche Urteil nach wie vor unverzichtbar, um Qualität aus Nutzer:innensicht zu bewerten.
Automatisierte Tests als technische Basis
Ergänzend zum manuellen Testing kommen automatisierte Tests zum Einsatz, um eine stabile technische Grundlage sicherzustellen. Dazu zählen unter anderem API- und Integrationstests für KI-Services, Regressionstests, Smoke-Tests für kritische Kernfunktionen sowie das Monitoring von Antwortzeiten und Fehlerraten. Auch Visual Tests helfen dabei, unerwartete Veränderungen frühzeitig zu erkennen.
Automatisierung unterstützt vor allem dabei, bei häufigen Releases und Feature-Erweiterungen ein verlässliches Qualitätsniveau zu halten.
KI-Ergebnisse systematisch bewerten
Eine der größten Herausforderungen in der Qualitätssicherung von KI-Systemen ist die Bewertung der generierten Ergebnisse selbst. Anstelle fixer Erwartungswerte werden Qualitätsdimensionen herangezogen, wie etwa Genauigkeit, Konsistenz, Verständlichkeit, Vollständigkeit und Relevanz.
Auf dieser Basis werden Akzeptanzkriterien und Heuristiken definiert, die je nach Feature und Anwendungsfall variieren können. Zusätzlich werden Ergebnisse über mehrere Durchläufe hinweg verglichen, um unerwünschte Abweichungen zu erkennen.
Unterschiedliche Kontexte erfordern unterschiedliche Tests
KI-Lösungen werden von unterschiedlichen Kund:innen genutzt. Sie verfügen über verschiedene aktivierte Features, verwenden unterschiedliche Datenquellen und bringen spezifische fachliche, rechtliche oder organisatorische Anforderungen mit.
Für die Qualitätssicherung bedeutet das konfigurationsabhängige Tests, separate Testdaten sowie die Prüfung von Zugriffsrechten, Datenisolation und Indexierungslogiken. Qualitätssicherung ist hier kein Einheitsprozess, sondern klar auf den jeweiligen Kontext zugeschnitten.
Qualität als kontinuierlicher Prozess
Testing und Qualitätssicherung enden nicht mit dem Release. Qualität wird als kontinuierlicher Prozess verstanden, der auch das Monitoring von Nutzer:innen-Feedback, die Analyse realer Nutzungsszenarien sowie die Bewertung von Modell-Updates und Prompt-Anpassungen umfasst.
Eine enge Zusammenarbeit zwischen Entwicklung, Qualitätssicherung und Fachbereichen ist dabei essenziell.
Praxisbezug: Erfahrungen aus dem smartAI-Portal
Diese Prinzipien wurden auch bei der Entwicklung des smartAI-Portals angewendet. Das Zusammenspiel aus unterschiedlichen KI-Funktionen, internen Wissensquellen und individuellen Anforderungen hat deutlich gemacht, wie wichtig eine strukturierte Qualitätssicherungsstrategie ist.
Die Kombination aus manuellem Testing, automatisierten Prüfungen und klar definierten Qualitätskriterien für KI-Ergebnisse war dabei ein zentraler Erfolgsfaktor.
Fazit
KI stellt Qualitätssicherung vor neue Herausforderungen. Klassische Testansätze reichen nicht mehr aus. Stattdessen braucht es ein Verständnis von Qualität, das Kontext, Inhalte und Nutzererwartungen berücksichtigt.
Qualitätssicherung wird damit zu einem entscheidenden Erfolgsfaktor für den nachhaltigen Einsatz von Künstlicher Intelligenz.




