Föderiertes maschinelles Lernen schützt Daten

Veranschaulichung der vorgeschlagenen föderierten Multi-Task-Lernszenarien. Verschiedene Clients bearbeiten verschiedene Klassifizierungsaufgaben, die auf die acht Hautläsionstypen im öffentlichen Dermoskopiedatensatz ISIC2019-Datensatz angewendet werden.

In den letzten zehn Jahren hat das Gebiet des sogenannten tiefen Lernens, des »Deep Learning«, exponentielles Wachstum erfahren. Bei der Nutzung besteht jedoch ein Risiko hinsichtlich des Datenschutzes und der Privatsphäre. Föderiertes Lernen ermöglicht mehreren unabhängigen Endgeräten, gemeinsam ein globales Modell zu trainieren, ohne private Daten auszutauschen, sodass der Datenschutz sichergestellt werden kann. Die unterschiedlichen Anforderungen der Benutzer an das maschinelle Lernverfahren führen jedoch häufig zu Annotationsunterschieden in den Datensätzen, d. h. zu Unterschieden in der Art und Weise, wie Daten in einem Datensatz gekennzeichnet oder beschriftet werden. Dies hat Auswirkungen auf die Gesamtleistung des Systems.

Forschende am Fraunhofer ITEM haben im Projekt PrivacyUmbrella eine Multi-Task-Föderierte-Lernsoftware erstellt, die Wissensdestillation, das sogenannte Knowledge Distillation) umsetzt. Knowledge Distillation wird verwendet, um große, präzise Modelle in kleinere, effizientere Modelle zu komprimieren. Dadurch sollen sowohl heterogene Geräte als auch heterogene Labels integriert werden, um so ein globales Modell zur Klassifikation zu trainieren. Experimentelle Ergebnisse mit dem öffentlichen Dermatoskopiedatensatz ISIC 2019 zeigen, dass das Framework die Rechen- und Kommunikationskosten für ressourcenbeschränkte Clients (Endgeräte) erheblich reduziert und gleichzeitig hochleistungsfähigen Clients die flexible Auswahl von neuronalen Netzwerken ermöglicht. Verschiedene Clients bearbeiten verschiedene Klassifizierungsaufgaben für die acht Hautläsionstypen im ISIC2019-Datensatz: melanozytärer Nävus (NV), aktinische Keratose (AK), vaskuläre Läsion (VASC), gutartige Keratose (BKL), Dermatofibrom (DF), Melanom (MEL), Plattenepithelkarzinom (SSC), Basalzellkarzinom (BCC).

  • Client 1 verwendet ein einfaches binäres Klassifikationssystem, das Bilder als »gesund« oder »ungesund« kategorisiert, um schnell Hautzustände zu identifizieren, die weitere Aufmerksamkeit erfordern.
  • Client 2 nutzt ein dreistufiges Klassifikationssystem: »gesund«, »gutartig« und »bösartig«; die Unterscheidung zwischen gutartigen und bösartigen Zuständen ist relevant für eine detaillierte Analyse im klinischen Umfeld.
  • Client 3 verfeinert die Klassifikation weiter und kategorisiert Bilder in vier Gruppen: MEL, BCC, SCC und »Sonstige«. Dies ist besonders relevant für Spezialanalysen, die verschiedene Formen von Hautkrebs unterscheiden müssen.
  • Client 4 verwendet das detaillierteste Klassifikationssystem, das die Bilder in acht verschiedene Hautläsionstypen gemäß dem ISIC2019-Datensatz unterteilt. Dieses System unterstützt umfassende diagnostische Prozesse und präzise Behandlungsplanung.

Die experimentellen Ergebnisse zeigen, dass Clients, die Knowledge Distillation nutzen, eine bessere Leistung erzielen. Zukünftige Forschungen sollen die Robustheit und Vielseitigkeit des Ansatzes durch Anwendung des Frameworks auf weitere Datensätze und Szenarien validieren.

Kontakt

Lena Wiese

Contact Press / Media

Prof. Dr. Lena Wiese

Arbeitsgruppenleiterin Bioinformatik & Leiterin der Attract-Gruppe IDA

Telefon +49 511 5350-303