Daniel Krupka ist Geschäftsführer der Gesellschaft für Informatik, der größten Informatik-Fachgesellschaft im deutschsprachigen Raum und leitet die Geschäftsstelle in Berlin. Er ist verantwortlich für Projekte der GI u.a. zu künstlicher Intelligenz, Green Coding/ Digital Green Tech sowie zu digitaler Bildung und digitaler Souveränität, zu Data Literacy und Data Science. Er vertritt die Gesellschaft für Informatik u.a. im Beirat „Digitalstrategie Deutschland“ des Bundesministeriums für Digitales und Verkehr, im Fachbeirat der Allianz für Cybersicherheit sowie in den Beiräten der Bundesweiten Informatikwettbewerbe, des KI-Campus, des Council of European Professional Informatics Societies (CEPIS) oder der International Federation for Information Processing (fifp) und wirkt im Themennetzwerk Informations- und Kommunikationstechnologie der Akademie der Technikwissenschaften (acatech) mit.
Wo stehen wir heute beim Testen mit KI?
Dazu wurde hier im Blog schon viel geschrieben. Eine Frage, die uns als Gesellschaft für Informatik aktuell umtreibt, ist die, wo wir beim Testen von Künstlicher Intelligenz stehen. Das ist natürlich einerseits eine sehr politische Frage vor dem Hintergrund der gerade verabschiedeten KI-Verordnung und wird derzeit bei der Entwicklung harmonisierter Normen zur Operationalisierung der KI-Verordnung bis Ende 2025 ausgehandelt. Im Rahmen der Verordnung, wird der Einsatz von KI-Systemen nach deren Risikopotential bewertet werden müssen und dann bedarf es der Bereitstellung neuer Methoden und Verfahren für Design und Bewertung von KI- und insbesondere Machine-Learning-Modellen, angepasst an ihre Anwendungsanforderungen wie Genauigkeit, Robustheit, Vorhersagesicherheit, Transparenz und Erklärbarkeit. Denn eines ist klar: Die Strategien und Methoden zur Minimierung von Risiken durch KI-Systeme haben sich nicht in der gleichen Geschwindigkeit entwickelt, wie die KI-Systeme selbst. Entsprechend sehen sich Entwickelnde und Anwendende in einem Spannungsfeld zwischen Diskriminierungsgefahr und dem erfolgversprechenden Einsatz der Technologie.
Wie wird KI Softwaretesten in den kommenden fünf Jahren verändern?
Viele Testverfahren werden durch KI noch viel stärker automatisiert werden. Klar ist aber auch: Die Letztentscheidung wird immer beim Menschen liegen müssen. Und mit dem Testen von KI-Systemen kommen große Herausforderungen aber auch immense Chancen auf die Test-Community zu. Da werden neue Verfahren Einzug halten und auch neue viele Player am Markt erscheinen. Ein Beispiel: Im Rahmen des Projekts „Exam AI“, dass wir als GI zusammen mit dem Fraunhofer Institut für Experimentelles Software Engineering, dem Algorithm Accountability Lab von Katharina Zweig an der TU Kaiserslautern und der Rechtsinformatik an der Universität des Saarlandes durchgeführt haben, schlagen wir für den Anwendungsbereich Personalauswahlverfahren eine Kombination aus Akzeptanztestgetriebener Entwicklung (Acceptance Test Driven Development) und den aus der Safety-Forschung bekannten Assurance Cases als Prüfmethode vor. Dieser Ansatz verspricht, gleichzeitig unspezifische Qualitätskriterien wie Fairness zu definieren und testen zu können und mittels eines Assurance Cases zu begründen, inwieweit die getesteten Kriterien tatsächlich sicherstellen können, dass die untersuchte KI-Anwendung im betrachteten Anwendungsfall nicht unzulässig diskriminiert. Solche Verfahren werden in den kommenden Jahren zu Standard insbesondere bei den sogenannten Hochrisiko-Anwendungen von KI werden.
Welche Skills benötigen Testerinnen und Tester dafür?
Für Tester:innen wird das Thema KI enorm an Bedeutung gewinnen, deshalb sind Fähigkeiten in diesem Bereich enorm wichtig. Ich gehe allerdings davon aus, dass sich die Anforderungen an das Testen deutlich verändern werden: Die Bedeutung von Programmierkompetenzen wird abnehmen, die Bedeutung des Systemverständnisses aber auch Fähigkeiten wie Lernbereitschaft, Teamfähigkeit und Kommunikationsstärke werden an Bedeutung gewinnen. Denn insbesondere beim Testen von funktionaler Sicherheit und Fairness von KI-Systemen bedarf es neuer Denkweisen, Verfaren und Methoden. Statt auf standardisierte Gestaltungsvorgaben zu setzen, sind flexibel gestaltbaren Argumentationsprozess beispielsweis zum Nachweis von Sicherheit sinnvoll.
Die Assurance Cases aus dem Saftey Engineering sind ein gutes Beispiel dafür. Dazu müsste die Industrie ganz grundsätzlich mehr Wert auf Safety Engineering legen, auch in vormals nicht Safety-kritischen Bereichen. Im Rahmen des Projekts „Exam AI“ haben wir ein Framework zur Systematisierung von KI-Audits und -Tests entwickelt, das sämtliche Bestandteile eines KI-Systems betrachtet. Innerhalb des technischen Frameworks lassen sich die gesetzlichen Anforderungen an sicherere und faire KI verorten.
Wird es die Rolle des Testens in 10 Jahren noch geben?
Ich bin davon überzeugt, dass es die Rolle des Software-Testens in zehn Jahren noch geben wird. Insbesondere im Kontext der zunehmenden Verbreitung von KI-Systemen und dem Gefahrenpotential, das von der zunehmenden Integration von KI-Verfahren in andere Software-Anwendungen ausgeht, wird die Rolle des Testens enorm an Bedeutung gewinnen. Die Funktionalität dieser Systeme sicherzustellen wird zu einer Kernaufgaben bei der Entwicklung dieser Systeme und muss von Anfang an mitgedacht werden. Klar ist aber auch: das Testen wird in zehn Jahren komplett anders aussehen als heute und ganz neue Fähigkeiten benötigen. Das Testen von KI-Systemen erzeugt viel mehr Komplexität, eine größere Integration in die Softwareentwicklungsverfahren erfahren und in weiten Teilen auch automatisiert werden können.
Und wenn ich zum Schluss einen Wunsch an die Test-Community richten dürfte, dann wäre es, sich mit ihrer Expertise noch viel stärker in die Ausgestaltung von politischen Entscheidungen einzubringen. Und damit meine ich insbesondere die Gestaltung von Normen- und Standardisierungsverfahren und damit verbunden die Entwicklung von Testverfahren insbesondere für KI-Systeme. Und das natürlich gerne auch im Rahmen der Arbeit der Gesellschaft für Informatik, beispielsweise in unserer Fachgruppe „Test, Analyse und Verifikation von Software“.