{"id":2505,"date":"2026-04-21T07:43:27","date_gmt":"2026-04-21T06:43:27","guid":{"rendered":"https:\/\/katharina-schmidt-engineering.de\/?p=2505"},"modified":"2026-04-21T07:52:31","modified_gmt":"2026-04-21T06:52:31","slug":"kleine-datensaetze-im-machine-learning","status":"publish","type":"post","link":"https:\/\/katharina-schmidt-engineering.de\/en\/kleine-datensaetze-im-machine-learning\/","title":{"rendered":"L\u00f6sungen f\u00fcr kleine Datens\u00e4tze"},"content":{"rendered":"<h2 class=\"wp-block-heading\">Motivation<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">In vielen industriellen Anwendungen ist Datenverf\u00fcgbarkeit die zentrale Einstiegsh\u00fcrde: zu wenig, teure und schwer zu beschaffende Daten.\u00a0<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Historische Daten sind h\u00e4ufig nur begrenzt verf\u00fcgbar, unvollst\u00e4ndig oder gar nicht vorhanden. Eine systematische Datenerhebung ist kostenintensiv \u2013 sie erfordert spezialisierte Hardware, Zeit und personelle Ressourcen. Auch das Labeling (Erstellung von Ground Truth) bindet Kapazit\u00e4ten, die im operativen Gesch\u00e4ft oft fehlen.\u00a0Zus\u00e4tzlich sind relevante Ereignisse wie Oberfl\u00e4chenfehler, Risse oder fehlende Komponenten typischerweise selten. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Das f\u00fchrt zu stark unausgeglichenen Datens\u00e4tzen, sogenannter <strong>Class Imbalance<\/strong>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die Konsequenz: Modelle lernen dominante Klassen zu bevorzugen und erreichen scheinbar gute Metriken, w\u00e4hrend sie die eigentlich kritischen F\u00e4lle nicht zuverl\u00e4ssig erkennen. <\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\"><strong>Ein Modell, das \u201eimmer OK\u201c vorhersagt, kann hohe Accuracy erreichen \u2013 und ist dennoch unbrauchbar.<\/strong><\/p>\n<\/blockquote>\n\n\n\n<p class=\"wp-block-paragraph\">Die Herausforderung hier lautet also: Wie lassen sich robuste Modelle trainieren, wenn Datenmenge und -qualit\u00e4t stark begrenzt sind? Ein naheliegender Ansatz ist Data Augmentation oder die Erzeugung von synthetischen Daten mit Simulationen. Im Folgenden m\u00f6chte ich auf diese und weitere Techniken im Umgang mit kleinen Datens\u00e4tzen f\u00fcr Supervised Learning eingehen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Data Augmentation<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Mit Data Augmentation k\u00f6nnen Trainingsdaten k\u00fcnstlich erweitert werden, der Datensatz wird sozusagen aufgeblasen, um ein l\u00e4ngeres und dadurch tieferes Training zu erm\u00f6glichen. In der Praxis geschieht das oft durch Transformationen bestehender Daten, z. B.:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Rotation<\/li>\n\n\n\n<li>Translation<\/li>\n\n\n\n<li>Hinzuf\u00fcgen von Rauschen<\/li>\n\n\n\n<li>Skalierung<\/li>\n\n\n\n<li>Helligkeit und Kontrast<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Ziel ist es, die effektive Datenmenge zu erh\u00f6hen und das Modell robuster gegen\u00fcber Variationen zu machen. Dabei basiert das Konzept Data Augmentation auf der Annahme, dass das Label unter der Tranformation erhalten bleibt, also konsistent mit dem Input zusammen transformiert wird. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">In der Praxis bedeutet das, dass bei Klassifikation das Label, also die Klassenzuordnung identisch bleibt und bei strukturierten Labels (z. B. Bounding Boxes, Segmentierungsmasken), dass die selben Transformationen auch auf das Label angewendet werden m\u00fcssen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Beispiele:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Input Bild wird rotiert \u2192 Bounding Box wird mitrotiert \u00a0<\/li>\n\n\n\n<li>Input Bild wird gespiegelt \u2192 Segmentierungsmaske wird gespiegelt<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Nur dann decken sich die Darstellung eines Objekts im Inputbild und das Label im Ground Truth Bild noch miteinander. Ansonsten wird das Loss (der Fehler zwischen Prediction und Ground Truth) verzerrt und das Training f\u00fchrt zu keinem sinnvollen Ergebnis<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Durch Data Augmentation kann das Modell eine bessere Generalisierung lernen und die Gefahr in ein Overfitting Problem zu laufen wird reduziert. <strong>Overfitting<\/strong> bezeichnet ein Auswendig lernen des Modells anhand der Trainingsdaten. Das Modell performt dann sehr gut auf den bekannten Trainingsdaten, versagt aber bei unbekannt Testdaten oder in der tats\u00e4chlichen Anwendung.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Synthetische Daten<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Synthetische Daten gehen einen Schritt weiter als Data Augmentation: Statt bestehende Daten zu transformieren, werden neue Trainingsdaten vollst\u00e4ndig k\u00fcnstlich erzeugt. Dabei kann man einen bestehenden kleinen Datensatz mit weiteren Daten erweitern oder einen kompletten synthetischen Datensatz f\u00fcr Training und Testing erzeugen. Typische Ans\u00e4tze f\u00fcr die Generierung von synthetischen Daten sind Simulationen (z. B. physikbasierte Renderings), Game Engines und 3D-Umgebungen oder auch generative Modelle. In den gro\u00dfen LLMs wie ChatGPT, Gemini oder Claude werden ebenfalls solche generativen Modelle zur Bilderzeugung verwendet.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Das Ziel ist dabei gezielt Daten zu erzeugen, die im realen Datensatz selten oder schwer erfassbar sind, z. B. seltene Defekte oder spezielle Beleuchtungen in einzelnen Fertigungslinien.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ein zentraler Vorteil ist die volle Kontrolle \u00fcber den Datensatz. So kann die Datenmenge beliebig skaliert werden, je nach Anwendungsfall und Modellgr\u00f6\u00dfe. Generell gilt je gr\u00f6\u00dfer ein Modell ist (also je mehr Gewichte es hat), desto gr\u00f6\u00dfer sollte der Datensatz sein, aber desto l\u00e4nger dauert das Training dann auch. Ein weiterer Vorteil an Simulationsdaten ist, dass die Ground Truth Label automatisch verf\u00fcgbar sind und man sich die zeitaufwendige Annotation erspart. Der gr\u00f6\u00dfte Nachteil synthetischer Daten ist allerding die sogenannte <strong>Reality Gap<\/strong>:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\"><strong>Die Verteilung synthetischer Daten unterscheidet sich von realen Daten.<\/strong><\/p>\n<\/blockquote>\n\n\n\n<p class=\"wp-block-paragraph\">Typische Ursachen daf\u00fcr sind die vereinfachte Physik in Simulationen, unrealistische Texturen oder Materialien, fehlendes Sensorrauschen oder optische Artefakte. Einige dieser Randbedingungen wie das Sensorrauschen kann man in Simulationen mit einflie\u00dfen lassen, jedoch ist es sehr immer noch schwierig die Realit\u00e4t dadurch korrekt abzubilden und alle Einzelf\u00e4lle mit einzubeziehen. Synthetische Daten k\u00f6nnen also Datenengp\u00e4sse adressieren, l\u00f6sen jedoch nicht automatisch das Problem der Generalisierung.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Transfer Learning<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Transfer Learning verfolgt einen anderen Ansatz als Data Augmentation oder synthetische Daten. Statt neue Daten zu erzeugen, wird bereits gelerntes Wissen aus bestehenden Modellen wiederverwendet. Dabei wird ein Modell, das auf gro\u00dfen Datens\u00e4tzen (z. B. ImageNet) trainiert wurde (sogenanntes Pre-Training), auf eine neue, meist kleinere Zielaufgabe angepasst. Diese oben-drauf trainieren nennt man Fine Tuning oder oder Transfer Learning, da ja neues Wissen in das Modell transferiert wird, aber altes Grundlagenwissen trotzdem erhalten bleibt. Das Ziel ist es, die bereits gelernten generischen Features, wie Kanten, Texturen oder grundlegende Formen zu nutzen und nur die aufgabenspezifischen Teile des Modells neu zu traineren.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img data-opt-id=1615813806  fetchpriority=\"high\" decoding=\"async\" width=\"787\" height=\"211\" src=\"https:\/\/mll2xneynph8.i.optimole.com\/cb:Y_xD.62c\/w:auto\/h:auto\/q:mauto\/f:best\/https:\/\/katharina-schmidt-engineering.de\/wp-content\/uploads\/2026\/04\/TransferLearningPrinzip.png\" alt=\"\" class=\"wp-image-2560\" srcset=\"https:\/\/mll2xneynph8.i.optimole.com\/cb:Y_xD.62c\/w:787\/h:211\/q:mauto\/f:best\/https:\/\/katharina-schmidt-engineering.de\/wp-content\/uploads\/2026\/04\/TransferLearningPrinzip.png 787w, https:\/\/mll2xneynph8.i.optimole.com\/cb:Y_xD.62c\/w:300\/h:80\/q:mauto\/f:best\/https:\/\/katharina-schmidt-engineering.de\/wp-content\/uploads\/2026\/04\/TransferLearningPrinzip.png 300w, https:\/\/mll2xneynph8.i.optimole.com\/cb:Y_xD.62c\/w:768\/h:206\/q:mauto\/f:best\/https:\/\/katharina-schmidt-engineering.de\/wp-content\/uploads\/2026\/04\/TransferLearningPrinzip.png 768w, https:\/\/mll2xneynph8.i.optimole.com\/cb:Y_xD.62c\/w:18\/h:5\/q:mauto\/f:best\/dpr:2\/https:\/\/katharina-schmidt-engineering.de\/wp-content\/uploads\/2026\/04\/TransferLearningPrinzip.png 18w\" sizes=\"(max-width: 787px) 100vw, 787px\" \/><figcaption class=\"wp-element-caption\">Prinzip von Pre-Training und anschlie\u00dfendem Transfer Learning<\/figcaption><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Dabei kann ein Modell auch auf einer Deketionsausgabe vortrainiert und dann hinterher f\u00fcr eine Segmentierungsaufgabe nachtrainiert werden. Dazu ersetzt man die letzten Layer in der Architektur und ver\u00e4ndert somit das Ausgabeformat von BoundingBoxen und Klassen hin zu Masken.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Eine weitere h\u00e4ufig genutzte Technik im Transfer Learning ist das <strong>Einfrieren<\/strong>. Dabei werden die Gewichte von vordefinierten Layern (z.B. den ersten Layern, welche f\u00fcr die Feature Extraktion zust\u00e4ndig sind) festgesetzt und w\u00e4hrend des Transfer Learning nicht mehr angepasst. Es werden also nur die restlichen Layer weiter hinten angepasst. Dadurch verk\u00fcrzt sich die Trainingszeit, da ja auf bereits vorhandene Gewichte zur\u00fcckgegriffen werden kann.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Grenzen und Limitationen von Tranfer Learning<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Leider ist auch Transfer Learning ist kein Selbstl\u00e4ufer. H\u00e4ufige Probleme sind:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Dom\u00e4nenunterschiede<\/strong>: Trainingsdaten des Foundation Modells unterscheiden sich stark von der Zielaufgabe \u00a0<\/li>\n\n\n\n<li><strong>zu aggressives Fine-Tuning<\/strong>: vortrainierte Features werden \u201e\u00fcberschrieben\u201c \u00a0<\/li>\n\n\n\n<li><strong>zu wenig Anpassung<\/strong>: Modell bleibt zu nah an der urspr\u00fcnglichen Aufgabe \u00a0<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Das Modell kann dann das vorhandene Wissen nicht mit den neuen Trainingsdaten verkn\u00fcpfen und dementsprechend schlecht schneidet es in Tests ab. W\u00e4hrend des Trainings kann man das aber gezielt \u00fcberpr\u00fcfen, z.B. mit einem zus\u00e4tzlich Validierungsdatensatz, welcher neben den neue auch alte Daten enth\u00e4lt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Fazit<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Kleine Datens\u00e4tze sind kein Randproblem, sondern der Regelfall in industriellen Machine-Learning-Anwendungen. Leider gibt es keine Patentl\u00f6sung f\u00fcr dieses Problem, sondern nur eine Kombination aus Methoden, deren Wirksamkeit stark vom konkreten Anwendungsfall abh\u00e4ngt. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Data Augmentation ist eine sinnvolle M\u00f6glichkeit, solange die gew\u00e4hlten Transformationen reale Invarianten widerspiegeln. Andernfalls f\u00fchrt sie zu systematischen Verzerrungen und verschlechtert die Modellleistung. Synthetische Daten erweitern den L\u00f6sungsraum deutlich, sto\u00dfen jedoch an die fundamentale Grenze des Reality Gaps. Ihre Qualit\u00e4t bemisst sich nicht an der Menge, sondern an der \u00dcbereinstimmung mit der realen Datenverteilung. Transfer Learning ist in vielen Szenarien der praktikabelste Ansatz, da es erm\u00f6glicht, vorhandenes Wissen aus gro\u00dfen Datens\u00e4tzen zu nutzen und mit begrenzten Daten robuste Modelle weiter zu trainieren. Allerdings erfordert es ein kontrolliertes Fine-Tuning und ein klares Verst\u00e4ndnis der Dom\u00e4nenunterschiede, um die oben benannten Fallstricke zu vermeiden.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><span class=\"wp-rich-text-font-awesome-icon wp-font-awesome-icon\"><svg aria-hidden=\"true\" focusable=\"false\" data-prefix=\"fas\" data-icon=\"check-double\" class=\"svg-inline--fa fa-check-double\" role=\"img\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" viewbox=\"0 0 384 512\"><path fill=\"currentColor\" d=\"M249.9 66.8c10.4-14.3 7.2-34.3-7.1-44.7s-34.3-7.2-44.7 7.1l-106 145.7-37.5-37.5c-12.5-12.5-32.8-12.5-45.3 0s-12.5 32.8 0 45.3l64 64c6.6 6.6 15.8 10 25.1 9.3s17.9-5.5 23.4-13.1l128-176zm128 136c10.4-14.3 7.2-34.3-7.1-44.7s-34.3-7.2-44.7 7.1l-170 233.7-69.5-69.5c-12.5-12.5-32.8-12.5-45.3 0s-12.5 32.8 0 45.3l96 96c6.6 6.6 15.8 10 25.1 9.3s17.9-5.5 23.4-13.1l192-264z\"><\/path><\/svg><\/span> In der Praxis ist eine gezielte Kombination dieser Ans\u00e4tze zu empfehlen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>","protected":false},"excerpt":{"rendered":"<p>In vielen industriellen Anwendungen ist Datenverf\u00fcgbarkeit die zentrale Einstiegsh\u00fcrde: zu wenig, teure und schwer zu beschaffende Daten.\u00a0<br \/>\nHistorische Daten sind h\u00e4ufig nur begrenzt verf\u00fcgbar, unvollst\u00e4ndig oder gar nicht vorhanden. Eine systematische Datenerhebung ist kosten- und zeitintensiv. Augmentierung, synthetischen Daten und Transfer Learning sind m\u00f6gliche L\u00f6sungsans\u00e4tze.<\/p>","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_kad_post_transparent":"","_kad_post_title":"","_kad_post_layout":"","_kad_post_sidebar_id":"","_kad_post_content_style":"","_kad_post_vertical_padding":"","_kad_post_feature":"","_kad_post_feature_position":"","_kad_post_header":false,"_kad_post_footer":false,"_kad_post_classname":"","footnotes":""},"categories":[14],"tags":[16,18,17,19,15],"class_list":["post-2505","post","type-post","status-publish","format-standard","hentry","category-machine-learning","tag-data-augmentation","tag-datensatz","tag-reality-gap","tag-simulation","tag-transfer-learning"],"_links":{"self":[{"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/posts\/2505","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/comments?post=2505"}],"version-history":[{"count":76,"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/posts\/2505\/revisions"}],"predecessor-version":[{"id":2582,"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/posts\/2505\/revisions\/2582"}],"wp:attachment":[{"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/media?parent=2505"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/categories?post=2505"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/katharina-schmidt-engineering.de\/en\/wp-json\/wp\/v2\/tags?post=2505"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}