Datenaufbereitung für KI

Datenaufbereitung

Künstliche Intelligenz fürs Marketing? Her damit. KI macht Prozesse möglich, die noch vor kurzer Zeit undenkbar waren. Konsequente Digitalisierung mit Machine Learning sorgt für mehr Umsatz mit wenig Aufwand – aber nur mit intelligenter Datenaufbereitung. Lesen Sie hier, wie Sie Ihre Daten fit für KI machen.

Die Datenqualität entscheidet

Maschinelles Lernen (Machine Learning) nutzt Daten, um Strukturen und Zusammenhänge zu erkennen. KI-Programme entdecken auf dieser Grundlage neue Lösungen, um spezifische Probleme zu bearbeiten. Aber ohne ausreichenden Input gibt es keinen guten Output. Software, die auf Künstlicher Intelligenz beruht, benötigt deshalb Daten, die

in großen Mengen vorliegen,
vollständig sind
und eine gute Qualität aufweisen.

Diese drei Eigenschaften sind die Basis für den erfolgreichen Einsatz von KI. In den meisten Fällen bedeutet dies, dass die vorhandenen Daten überprüft werden müssen. Gerade für Big Data aus der Cloud ist dies wichtig. Grob gesagt sind es drei Punkte, die für eine gute Datenaufbereitung stehen: Speicherung, Kompatibilität und Umfang.

1. Speichern

Eine jederzeitige Sicherung von Daten ist fundamental. Dazu gehört natürlich, dass Programme für das Customer Relationship Management inklusive aller Marketing Tools immer auf dem neuesten Stand sind. Unternehmen nutzen hierfür die Cloud – auch als Sicherheits-Plus für die Inhouse-Speicherung. So gehen die wichtigsten KPIs oder andere Daten, die für Artificial Intelligence genutzt werden, nicht verloren.

Wichtig: Wenn nur ein Teil der relevanten Kennzahlen für Ihr Business verloren geht, kann ein KI-System daraus falsche Schlüsse ziehen. Sorgen Sie deshalb für Vollständigkeit schon durch konsequente Speicherung.

2. Kompatibilität

Die vorhandenen Daten müssen exportiert werden können. Wer ein eigenes KI-Modell für sein Unternehmen entwickelt, benötigt dafür einen reibungslosen Export. Es ist wichtig, sich möglichst frühzeitig für ein bestimmtes System zu entscheiden, das möglichst viele Schnittstellen zu leistungsfähigen Programmen anderer Anbieter für Maschinelles Lernen aufweist. Dadurch wird die Arbeit der KI-Systeme deutlich beschleunigt.

3. Umfang

Weniger ist mehr? Für KI gilt diese Weisheit zumindest nicht in puncto Ausgangsmaterial. Wenn die Qualität und Relevanz der Daten verschiedener Anbieter stimmen, lautet das Motto: Nicht kleckern, sondern klotzen. Ein Beispiel: KPIs werden umso aufschlussreicher, je weiter diese zeitlich zurückliegen. Denn dadurch wird eine historische Entwicklung von Prozessen deutlich, aus der KI lukrative Schlüsse ziehen kann. Auch vermeintlich veraltete Informationen können einen großen Mehrwert bieten.

Wie funktioniert die Datenaufbereitung?

Die Vorbereitung der Daten für KI-Tools (Data Preparation) macht oft bis zu 80 Prozent des gesamten Arbeitsaufwands im Rahmen der Implementierung von KI-Systemen aus. Je stärker die Daten fragmentiert oder je unstrukturierter sie sind, desto größer ist der Zeit- und Arbeitsaufwand für die zwei Schritte, die in der Datenaufbereitung notwendig sind: Export und Bereinigung.

Datenexport

Gerade im Marketing ist das Herkunftsproblem bekannt. Hier liegen Daten verschiedener Anbieter aus den unterschiedlichsten Quellen vor. Beispiele:

Social Media-Kanäle
Websites
Mobile Anwendungen
CRM
Mailings

Aus all diesen Tools lassen sich wertvolle Daten gewinnen, um sie mithilfe Künstlicher Intelligenz auszuwerten – sofern die Anbieter der Programme effektive Möglichkeiten für den Datenexport anbieten. Automatisierte Schnittstellen (APIs) sind die Grundlage für einen sauberen und effektiven Datenexport.

Datenbereinigung

Die Bereinigung der Daten stellt sicher, dass sich diese für das Trainieren eines Systems eignen. In diesem Prozess geht es vor allem um die Eliminierung falscher oder fehlerhafter Daten. Zur Datenbereinigung gehört ebenfalls, sehr ähnliche oder sich widersprechende Datensätze herauszufinden. Hier können Logarithmen eingesetzt werden, um Daten zu normieren. Dadurch werden sie transformiert beziehungsweise normalisiert.

So lässt sich die Datenbereinigung beispielsweise zur Lösung folgender Probleme einsetzen:

Es sind große Datenmengen vorhanden, diese decken aber nicht das gesamte Spektrum ab. So gibt es zum Beispiel keine Daten über vorab aussortiere Objekte. Diese sind jedoch gerade für das KI-Training und für aufschlussreiche Analytics so wichtig.
Aber auch ein großes Spektrum garantiert per se keine Datenqualität. Denn die jeweils eigenen Regeln unterschiedlicher Datensätze können die Datenmenge letztlich so reduzieren, dass am Ende zu wenig für die Künstliche Intelligenz übrigbleibt.
Die unterschiedliche Verwendung von Klassen und Hierarchien mag bei einem vorher behandelten Datensatz effektiv für die Nutzer sein, sie kann aber im Hintergrund die Daten verfälschen. So kommt auch KI zu falschen Ergebnissen.

Optimieren Sie Ihre KI-Trainingsdaten – clickworker unterstützt Sie bei der Datenaufbereitung; evaluiert, kategorisiert und labelt bestehende Datensätze.

Unternehmen aus Dienstleistung und Industrie, die das erste Mal auf Künstliche Intelligenz setzen, sind oft überrascht. Ansonsten nutzlose Daten werden im Kontext von Machine Learning plötzlich wichtig. Deshalb beginnt jedes erfolgreiche KI-Projekt zuerst mit der Analyse vorhandener Daten.

Fazit

Die Digitalisierung scheitert oft nicht an unzureichenden KI-Tools, sondern an der mangelhaften Datenaufbereitung. Deshalb ist das Aufbereiten von Daten kein Selbstzweck. Und gerade beim Einsatz in sensiblen Bereichen, zum Beispiel in der Industrie, fordern KI-Tools hochwertige Daten – schon aus Gründen der Sicherheit. Deshalb gilt es vor der Implementierung eines Trainingssystems zu prüfen,

wo die Daten gesichert sind,
dass sie exportfähig sind,
dass sie konsistent sind
und eine hohe Qualität aufweisen.

Im Zweifel werden zu wenige Datensätze nicht reichen, um effektive Ergebnisse zu erzeugen. Gerade bei KPIs ist es im Zweifel vernünftiger, alle vorhandenen historischen Daten der KI zur Verfügung zu stellen. Auch dann, wenn sie auf den ersten Blick veraltet erscheinen.

Clickworker