Für uns als Universität ist gerade die Aussicht, mit realer Schadsoftware zu arbeiten, ein ganz wichtiger Punkt des Forschungsprojektes. Da kann uns G DATA die aktuellen Angriffsszenarien zur Verfügung stellen, die wir dann testen können.
Bei G DATA CyberDefense pflegen wir einen intensiven und regelmäßigen Austausch mit Lehre und Forschung. Zurzeit forscht ein Team gemeinsam mit der Universität Passau und innowerk daran, den Stand der Virtual-Machine-Introspection (VMI) für die Malware-Erkennung zu verbessern. Im Gespräch erklären Dorian Eikenberg, R&D Engineer bei G DATA CyberDefense, und Prof. Dr. Hans P. Reiser, Associate Professor am Department of Computer Science der University of Reykjavik und Affiliate an der Fakultät für Informatik und Mathematik der Universität Passau, die Idee und die Ziele des Projektes.
Im April 2022 haben die Fakultät für Informatik und Mathematik der Universität Passau, die innowerk-IT GmbH und G DATA CyberDefense ein Forschungsprojekt gestartet, um den Stand der In-Memory-Analyse unter Windows und Linux zu verbessern. Das Projekt "Synthesizing ML training data in the IT security domain for VMI-based attack detection and analysis" (SmartVMI) wird vom Bundesministerium für Bildung und Forschung (BMBF) gefördert und vom Deutschen Zentrum für Luft- und Raumfahrt (DLR) koordiniert.
Hans: Ich beschäftige mich schon länger mit VMI, also der Analyse Virtueller Maschinen (VM) von außen. Es gibt hier verschiedene Anwendungsfelder: Ganz klassisch die Einbruchserkennung bei Systemen, aber auch digitale Forensik oder Debugging, also Fehler bei Anwendungen zu diagnostizieren und zu beheben.
Der Vorteil: Wir arbeiten isoliert außerhalb eines Systems, im Gegensatz zu anderen Ansätzen, wo wir auf dem System unterwegs sind. Das Problem bei Ansätzen auf dem System: Die Aktivitäten sind für die Angreifenden sichtbar, sodass sie dieses Vorgehen auch direkt angreifen oder deaktivieren können.
Die große Herausforderung, wenn ich ein System von außen beobachte, ist es zu verstehen, was in dem System passiert. Gerade wenn es sich um ein völlig unbekanntes System handelt. Hinzu kommt: Zwischen Windows- oder Linux-Systemen bestehen große Unterschiede. Darauf muss ich mein Analysesystem vorbereiten.
Dorian: VMI ist wie ein Blick durch ein Mikroskop. Dieses spezielle Verfahren setzen wir bei G DATA bereits ein: Wir betrachten von außen den Speicherzustand einer VM. Im Grunde machen wir dabei mehrere Sachen. Wir scannen den Speicher mit einem In-Memory-Scanner, wenden die Regeln der Virus Analysten im Prozess-Speicher an und erkennen über diesen Weg Schadsoftware.
Der Vorteil: Wir können die gesamte VM anhalten, sodass der Speicherzustand konsistent bleibt und anschließend kann die VM normal weiterarbeiten. Die Malware kann darauf nicht reagieren, weil im Moment der Analyse das System quasi eingefroren ist. Wir könnten auch eingreifen, aber das ist nicht unser Ziel, wir wollen nur analysieren.
Hans: Ziel des Projektes ist es, SmartVMI praxistauglich zu machen. Es geht darum, die auf künstlicher Intelligenz (KI) basierenden Angriffserkennung zu verbessern, Angriffsabwehr und -analyse zu ermöglichen sowie die digitale Forensik durch die Generierung maßgeschneiderter synthetischer Angriffsmuster zu unterstützen. Dies macht die Simulation neuartiger Angriffsszenarien und das Testen bestehender Angriffserkennungs- und Analysemechanismen sowie die Optimierung dieser Mechanismen für neue Angriffe möglich. In dem Konsortium arbeiten eine Universität und zwei Unternehmen eng zusammen.
Auf dem Weg stehen wir vor einer großen Herausforderung: Wir müssen das Analysesystem immer auf das Zielsystem anpassen. In der Forschungsarbeit lässt sich das manuell machen, aber in der Praxis ist diese manuelle Anpassung zu aufwendig. Wir setzen genau hier an, um solche Aufwände zu automatisieren. Wir wollen also den Stand der Technik verbessern. Im Idealfall entsteht am Ende ein perfektes System. Die zentrale Frage dabei ist, wie gut mein Analysesystem ein unbekanntes System auf Knopfdruck analysieren kann. Ganz perfekt wird die Lösung am Ende nicht sein. Aber wir werden den manuellen Aufwand deutlich reduzieren.
Wir haben schon eine klare Vorstellung, was wir erreichen wollen. Aber es ist ein Forschungsprojekt und in der Forschung weiß man nie, was am Ende exakt herauskommt. Daher setzen wir uns Ziele, die realistisch erreichbar sind, aber ein Restrisiko bleibt.
Dorian: Das Projekt teilt sich in zwei Phasen: In der ersten bauen wir die Infrastruktur auf und machen VMI nutzbar. In dieser Phase liegt der Fokus darauf, die Zielsysteme zu verstehen und automatisch Profile für unbekannte Zielsysteme zu erstellen. In Stufe zwei wollen wir mit funktionierenden VMI-Methoden Angriffe erkennen und analysieren, Systeme beobachten, Daten gewinnen und auf verschiedenen Ebenen – dem Betriebssystem oder auf Anwendungsebene - Daten extrahieren und Anomalien erkennen. Das System soll automatisch entscheiden, welche Daten hilfreich sind, um mit wenig Aufwand und hoher Genauigkeit normales und anormales Verhalten zu trennen.
Das Besondere des Projekts ist, dass wir gemeinsam Methoden zur Generierung von maßgeschneiderten synthetischen Trainingsdaten für maschinelles Lernen entwickeln. Das bedeutet, dass Daten nicht mühsam und möglicherweise zeitverzögert gesammelt werden müssen, sondern zeitnah und gezielt generiert werden können. Der große Vorteil ist die schnellere Anpassung von Angriffserkennungsmechanismen an neuartige Angriffe sowie an neue Softwaresysteme.
Die Werkzeuge sowie die generierten und validierten Trainingsdaten machen wir der Öffentlichkeit zugänglich, sodass Dritte sie an ihre eigenen Mechanismen und Infrastrukturen anpassen können. Vor allem kleine und mittlere Unternehmen sollen von diesem Angebot profitieren. Sie sollen die resultierenden Datengenerierungsalgorithmen als Open-Source-Lösung nutzen und diese Referenzimplementierung als Ausgangspunkt für eigene Produktentwicklungen und Dienstleistungen verwenden.
Alle im Rahmen des SmartVMI-Projekts entwickelten Tools stellen wir unter einer Open-Source-Lizenz zur Verfügung und veröffentlichen die Trainingsdaten im öffentlichen Datensatzmodell. Den Code stellen wir auf GitHub, einer Plattform für Open-Source-Projekte, bereit.
Dorian: Wir werden zunächst extra für das Projekt entwickelte Schadsoftware nutzen und testen, ob das grundsätzlich funktioniert. Danach kommen sicherlich echte Samples zum Einsatz, die unsere Analyst*innen in ihrer täglichen Arbeit entdecken. Das ist dann auch die Phase, in der wir Daten sammeln
Für uns als Universität ist gerade die Aussicht, mit realer Schadsoftware zu arbeiten, ein ganz wichtiger Punkt des Forschungsprojektes. Da kann uns G DATA die aktuellen Angriffsszenarien zur Verfügung stellen, die wir dann testen können.
Wir haben zwei Ziele: Wir sind daran interessiert, unsere VMI-Implementation zu verbessern, damit sie leistungsfähiger wird. Das ist das Hauptziel. Und dann hoffen wir, dass wir mit den Ergebnissen des Forschungsprojekts die auf maschinellem Lernen basierenden Erkennungstechnologien verbessern und den Schutz unserer Kunden vor neuartigen Angriffen weiter erhöhen können.
Dorian: Ich bin in einer Community bei Slack, die sich über VMI austauschen und an Open-Source-Projekten interessiert sind. Als ich mich und meine Arbeit bei G DATA vorgestellt habe, hat mich ein Doktorand der Uni Passau angeschrieben. Er war überrascht, dass eine deutsche Firma sich mit VMIs auskennt und damit arbeitet. Die VMI-Community ist klein und spezialisiert. So ist der erste Kontakt zustande gekommen und wir sind dann im Austausch geblieben.
Hans: Örtlich ist die Kollaboration sicherlich ungewöhnlich, aber es bestanden schon vor der Projektidee lose Kontakte zu der VMI-Gruppe bei G DATA. Gerade bei der zweiten Projektphase macht die Zusammenarbeit mit G DATA sehr viel Sinn, denn Erkennung von Schadsoftware ist ein Hauptgeschäftsfeld des Unternehmens. Auch bei der ersten Phase ist die Zusammenarbeit sinnvoll, denn in der Forschung arbeiten wir überwiegend mit Linux-Systemen, G DATA mehr mit Windows-Systemen. Die Dimension wollten wir auch abdecken, denn so können wir sehen, welchen Einfluss unterschiedliche Anwendungen haben, die auf den Systemen laufen.
Prof. Dr. Hans P. Reiser, Associate Professor am Department of Computer Science der University of Reykjavik und Affiliate an der Fakultät für Informatik und Mathematik der Universität Passau.
Die Forschungsschwerpunkte von Prof. Dr. Hans P. Reiser sind Zuverlässigkeit und Sicherheit in verteilten Systemen, darunter Algorithmen und Architekturen für einbruchtolerante Systeme, Anpassungsfähigkeit und Selbstoptimierung von zuverlässigen Gruppenkommunikationssystemen, Konzepte für sicheres und zuverlässiges Cloud Computing sowie Methoden zur Malware-Analyse und Incident Investigation in Cloud-Umgebungen auf der Basis von Virtual Machine Introspection.
Dorian: Wir stehen am Anfang, da klären wir gerade organisatorische Fragen und setzen die Infrastruktur auf. Wir arbeiten gemeinsam an Features, die wir für das Projekt für den VMI-Teil benötigen. Bei den betriebsspezifischen Fragen macht jeder Projektpartner seine Sachen selbst.
Wir tauschen uns regelmäßig im Weekly via Videokonferenzen zwischen Passau, Bochum und Reykjavík aus. Zusätzlich finden alle sechs Monate Projekttreffen in Bochum oder Passau statt. Das hilft, sich persönlich auszutauschen. Und wir kommunizieren per Chat.
Hans: An der Uni Passau kümmern sich drei Doktoranden um das Projekt mit dem Ziel, im Rahmen des Projekts die Promotion abzuschließen. Die Zusammenarbeit ist sehr gut – auch über die Entfernung hinweg. Durch meinen Wechsel nach Reykjavík muss ich schauen, wie ich mit den Doktoranden Kontakt bleibe.
Dorian: Die Arbeit ist gerade am Anfang ungleich verteilt. Bei uns liegt der Fokus auf der Implementation und weniger auf der Forschung. Hier hat die Uni den Hut auf. Es sind zwei Lehrstühle beteiligt: Der eine interessiert sich für den VMI-Teil, was aber auch für uns von Interesse ist; der andere für den Machine-Learning-Teil, der übernimmt den Mammutanteil der Forschung.
Hans: Jede Entwicklungsphase dauert ein Jahr, wobei es dabei auch Überlappungen zwischen den Projektphasen gibt. G DATA wird in der zweiten Phase schon früher aktiv werden, wenn wir auf unserer Seite sicherlich noch Restarbeiten der ersten Phase abschließen.
Aus meiner Sicht ist es ein großer Vorteil, dass G DATA auf Open Source setzt. Das ist bei anderen Projekten mit Industrie-Partnern anders. Die setzen häufig proprietäre, also firmeneigene und damit geschlossene Systeme ein. Das erschwert manche Dinge. So haben wir uns jetzt entschieden, unsere eigene Library bei GitHub zu veröffentlichen – auf Basis des Source-Codes von G DATA. Das ist eine gute Entscheidung. Und daran arbeiten wir in den nächsten Monaten intensiv.
Dorian: Wir brauchen für unsere VM auch Hardware-Kisten – das ist eine Besonderheit, weil wir Zugriff auf die Hardware an sich benötigen. Ein Teil der Hardware steht bei G DATA, der andere Teil bei einem dritten Projektpartner in Passau, innowerk. Die Systeme sind stark isoliert, aber bei G DATA haben wir Erfahrung mit derartigen Systemen. Mit unseren Partnern tauschen wir auch kontinuierlich unser Wissen und unsere Erfahrungen aus.
Dorian: Forschung ist grundsätzlich ein spannendes Thema, deswegen arbeite ich bei G DATA auch im Research & Development-Bereich. Ich freue mich über diese Herausforderung, abseits von der täglichen Arbeit etwas Neues zu machen. Offiziell arbeite ich jetzt Vollzeit in dem Projekt, weil ich auch über das Projektbudget finanziert werde. Aber ich spreche regelmäßig mit meinen Kolleginnen und Kollegen und schaue mir aktuelle Themen an.
Mir ist aufgefallen, dass die Doktoranden der Uni Passau anders vorgehen als wir bei G DATA. Bei uns ist der Teamgedanke stark ausgeprägt. Es gilt das Vier-Augen-Prinzip, um Fehler zu vermeiden oder die Qualität des Codes zu verbessern. Der Wissensaustausch steht dabei im Vordergrund.
Die Doktoranden arbeiten eher alleine und folgen ihrem Forschungsziel. Sie müssen sich auch weniger Gedanken um die Qualität ihres Codes machen, weil es sich oft um Prototypen handelt. Sie verfolgen andere Ziele.
Hans: In diesem Projekt treffen zwei Welten aufeinander – Wirtschaft und Forschung. Das merken wir an der einen oder anderen Stelle. Für Doktoranden steht aus Forschungssicht das Thema Veröffentlichungen weit oben auf der Agenda. Gerade Doktoranden haben daran ein großes Interesse, weil sie das für ihre Promotion benötigen. Das diskutieren wir dann aber eher in unserer lokalen Forschungsgruppe.
Das Projekt werden wir hier im Blog begleiten und nach Abschluss der ersten Projektphase mit den Beteiligten über den Fortschritt und die ersten Erkenntnisse sprechen.