Wie man die ML-Entwicklung mit vortrainierten Datenmodellen beschleunigt
Die jüngsten Fortschritte im Bereich der künstlichen Intelligenz (KI) wie autonome Systeme, Computer Vision, natürliche Sprachverarbeitung (NLP) und prädiktive Analysen werden alle durch maschinelles Lernen (ML) durchgeführt. In diesen Szenarien hilft ML dabei, Daten in der Wertschöpfungskette von der Informationsebene auf die Wissensebene zu bringen.
Die meisten intelligenten Systeme, mit denen Sie heute zu tun haben, wurden wahrscheinlich mit Hilfe des überwachten Lernens entwickelt. Beim überwachten Lernen geht es darum, ML-Modelle von Grund auf zu erstellen. Dieser Ansatz ist jedoch nicht immer der beste. Viele KI- und ML-Projekte scheitern an fehlenden Ressourcen und natürlich an einem Mangel von nützlichen KI-Trainingsdatensätzen.
Überwachtes Lernen erfordert viel Zeit, Geld und erheblichen menschlichen Einsatz, damit es funktioniert. Deshalb ist es für Unternehmen wichtig, praktikable Alternativen zum überwachten Lernen zu finden. Während es viele Jahre lang keine Möglichkeit gab, dieses Problem zu umgehen, haben ML-Ingenieure kürzlich neue Wege zur Optimierung von ML-Modellen gefunden.
Was ist Transfer Learning?
Transfer Learning beschreibt den Prozess der Nutzung von Wissen aus einer bereits erlernten Aufgabe, um die Leistung einer anderen (aber ähnlichen) Aufgabe zu verbessern. Zum Beispiel die Verwendung eines Fußballspielers als Kicker im American Football.
Dieser Ansatz trägt dazu bei, die Menge der erforderlichen Trainingsdaten zu reduzieren. Außerdem können ML-Modelle Vorhersagen in einer neuen Zieldomäne treffen, indem sie das aus der Quelldomäne (oder bestehenden ML-Modellen) oder aus einem anderen Datensatz gelernte Wissen nutzen.
Das ML-Modell wurde für eine bestimmte Aufgabe trainiert, so dass es bei einer neuen Aufgabe nicht zu 100% genau sein wird. Sie müssen also das Modell bereinigen und es auf Basis Ihres speziellen Anwendungsfalls fein-justieren. Nehmen wir an, Sie haben ein ML-Modell, das darauf trainiert wurde, Hunde zu identifizieren. Wenn Sie nun Transfer Learning hinzufügen, können Sie dieses Modell wiederverwenden und es für die Identifizierung von Wölfen optimieren.
Wann sollten Sie vortrainierte Datenmodelle verwenden?
Der Hauptvorteil der Verwendung von vortrainierten Datensätzen beim Transfer Learning ist die Tatsache, dass sie kostengünstig ist. Außerdem lassen sich so die Projektentwicklung und die Markteinführung beschleunigen. Allerdings sollten Sie TransferLearning-Techniken nur dann einsetzen, wenn Ziel-Trainingsdaten fehlen. Die Quell- und die Zieldomäne sollten außerdem viele Ähnlichkeiten aufweisen, auch wenn sie nicht identisch sind.
Im Allgemeinen ist es immer besser, kleine Trainingsdatensätze und einfache ML-Algorithmen zu verwenden. Das liegt daran, dass kleine Daten keine komplexen oder stark verzerrten Modelle erfordern. Auf diese Weise lassen sich Szenarien wie eine Überanpassung des Modells an die Daten vermeiden.
Die Ressourcen, die für die Erstellung eines ML-Modells von Grund auf erforderlich sind, sind beträchtlich, so dass dies keine Option für jeden darstellt. Dies liegt daran, dass Sie ein hochspezialisiertes Team von Datenwissenschaftlern, ML-Ingenieuren und Datenkommentatoren mit umfangreichem Fachwissen einstellen müssen.
Außerdem benötigen Sie eine enorme Menge Daten, deren Erhebung viel Geld kostet und Monate (oder sogar Jahre) in Anspruch nimmt. Sie müssen Zeit und Ressourcen aufwenden, um Ihre Daten genau zu kennzeichnen, den Algorithmus zu programmieren, das Modell zu trainieren, es zu testen, einzusetzen und kontinuierlich zu überwachen. Für ein Startup oder ein kleines bis mittelständiges Unternehmen ist dies wahrscheinlich unerschwinglich.
Transfer Learning gleicht das Spielfeld aus und ermöglicht es kleineren Unternehmen, mit Branchenriesen zu konkurrieren. Transfer Learning beschleunigt auch die Markteinführung, weil Sie die Daten nicht beschriften müssen (auch wenn Sie einige davon je nach Verwendungszweck anpassen müssen). Außerdem sind Sie nicht von einem Expertenteam abhängig, weil Sie kein neues Modell von Grund auf erstellen müssen.
Angesichts des anhaltenden Fachkräftemangels im technischen Bereich könnte Transfer Learning für viele Unternehmen, die einen Wettbewerbsvorteil oder geschäftliche Relevanz erhalten wollen, die Rettung sein. Wenn also Daten fehlen, ist es am besten, das durch die Lösung einer verwandten Aufgabe gewonnene Wissen zu nutzen.
Was sind die verschiedenen Arten von vortrainierten ML-Modellen?
Unüberwachtes Transfer Learning mit vorab trainierten Modellen folgt in der Regel dem unten aufgeführten Prozess:
Wählen Sie ein vortrainiertes Datenmodell
Die Auswahl des Modells ist entscheidend für das Transfer Learning. Es ist wichtig, diesen ersten Schritt richtig zu machen, um die Projektentwicklung zu beschleunigen und Ihre vordefinierten Ziele erfolgreich zu erreichen. In diesem Fall müssen Sie ein Modell wählen, das dem Anwendungsfall oder dem Problem, das Sie zu lösen versuchen, so ähnlich wie möglich ist.
Sie können verschiedene ML-Modelle aus freien und Open-Source-Ressourcen oder spezifischere Trainingsdaten von Anbietern wie uns finden. Es gibt eine Vielzahl von vortrainierten Modellen für Anwendungsfälle wie Gesichtserkennung, Objekterkennung und -segmentierung und vieles mehr.
An dieser Stelle ist es wichtig, die Qualität des Modells zu berücksichtigen. Vergessen Sie also nicht, bei der Auswahl eines Modells Ihre Sorgfaltspflicht zu erfüllen, um die gewünschten Ergebnisse zu erzielen.
Tipp:
Lassen Sie modellspezifische Trainingsdaten von der Crowd erstellen.
Mehr über KI-Trainingsdaten
Beschneiden und Verbessern des Modells
Welche Attribute des Ausgangsmodells möchten Sie für eine neue Aufgabe nutzen? Das können einige oder alle Attribute sein. Allerdings muss dies festgelegt werden, bevor Sie mit dem ML-Projekt beginnen.
Wenn Sie jedoch nur Teile eines Modells verwenden möchten, können Sie auch nur die Modellarchitektur übernehmen. Wenn es sich um ein neuronales Netz handelt, können Sie bestimmte Schichten im Netz auswählen, um das Transfer Learning zu ermöglichen.
Die richtige Wahl hängt von der Art des Problems ab, das Sie lösen wollen, und von dem vortrainierten Modell, mit dem Sie arbeiten. Sie müssen es immer wieder „beschneiden“ und optimieren, bis es für das ML-Training perfekt ist.
Trainieren Sie das Modell, um die Leistung zu maximieren
Um die Leistung zu optimieren, müssen Sie Ihr Modell ständig optimieren. Durch Feinabstimmung und Bestätigung seiner Präzision mit zusätzlichen Trainingsdaten haben Sie eine bessere Chance, Ihre Projektziele zu erreichen.
Der Grund dafür ist, dass Transfer Learning am besten funktioniert, wenn man verschiedene Datensätze hat, aus denen man Wissen ableiten kann. Wenn es eine Herausforderung ist, die erforderlichen Daten zu finden, können Sie Datenaggregation nutzen. In diesem Fall können Sie einen kleinen Datensatz ändern, um verschiedene Variationen zu erstellen, mit denen das Modell trainiert wird.
Wenn Sie über eigene Trainingsdatensätze verfügen, kann es hilfreich sein, Daten von Drittanbietern einzubeziehen, um sofortigen Zugriff auf Kommentatoren für eine effiziente Beschriftung zu ermöglichen. Obwohl KI und ML in den letzten Jahren einen weiten Weg zurückgelegt haben, ist es nach wie vor eine große Herausforderung, qualitativ hochwertige beschriftete Daten zu finden.
Es ist von entscheidender Bedeutung, zusätzliche Daten mit beschrifteten Datensätzen zu sammeln, um eine robuste Daten-Trainings-Pipeline aufzubauen. Dieser Ansatz kann den Lernprozess beschleunigen und ist im Laufe der Zeit nach Bedarf skalierbar.
Da immer mehr Unternehmen Transfer Learning-Protokolle mit vortrainierten Daten einsetzen, können Sie davon ausgehen, dass regelmäßig mehr hochwertige KI-gestützte Produkte auf den Markt kommen werden. Dies ermöglicht auch mehr Innovation und Experimente, ohne die Bank zu sprengen, und das ist ein großer Gewinn für alle.