Die Gesichtserkennung ist eine Technologie, die zur Identifizierung von Personen anhand ihrer Gesichter verwendet wird und stellt eine Art der biometrischen Software dar. Sie wird häufig in Sicherheitsumgebungen eingesetzt, hat aber auch andere Verwendungszwecke, z. B. in sozialen Medien und beim Foto-Tagging.
Damit eine Künstliche Intelligenz (KI) in der Lage ist, eine Person anhand ihres Gesichts zu erkennen, müssen ihr genügend Trainingsdaten vorgelegt werden, d. h. Daten, die der KI beibringt, Menschen anhand ihrer Gesichter zu erkennen. Die Trainingsdaten müssen genau sein, und sie müssen umfassend genug sein, um eine große Vielfalt an Beispielen zu liefern.
In den 1960er Jahren stellte David Marr ein dreischichtiges Modell vor, um zu beschreiben, wie das menschliche Gehirn visuelle Informationen verarbeitet. Er ging davon aus, dass das visuelle System zunächst ein Rohbild empfängt, das auf der untersten Schicht des Modells dargestellt wird, und dann eine Reihe von Operationen durchführt, um diese Informationen in eine Darstellung der Welt zu verarbeiten, die verstanden werden kann. Diese Repräsentation wird dann an höhere Ebenen des Systems zur Verarbeitung auf höherer Ebene gesendet.
In den 1980er Jahren entwickelten die Forscher Fukushima und Miyake ein Modell, das dem von Marr ähnelte, aber eine vierte Schicht hinzufügte. Diese zeigte, wie das Gehirn die verarbeiteten Informationen aus den ersten drei Schichten kombiniert, um eine Wahrnehmung der Welt zu schaffen.
Das Drei-Schichten-Modell von Marr und das Vier-Schichten-Modell von Fukushima und Miyake ähneln sich insofern, als dass beide beschreiben, wie visuelle Informationen verarbeitet werden. Sie unterscheiden sich jedoch insofern, als dass das Modell von Marr den Prozess als eine Reihe von Operationen beschreibt, während das Modell von Fukushima und Miyake den Prozess als eine Kombination der verarbeiteten Informationen aus den vorherigen Schichten darstellt.
Die Technologie der Gesichtserkennung basiert auf dem dreischichtigen Modell der visuellen Verarbeitung von Marr und stützt sich auch auf das vierschichtige Modell der visuellen Verarbeitung von Fukushima und Miyake.
Trainingsdaten sind entscheidend für die Entwicklung der Gesichtserkennungstechnologie. Neben der Quantität der Daten ist hier auch die hohe Qualität ausschlaggebend für das optimale Training der Algorithmen. Wenn die Trainingsdaten von geringer Qualität sind oder viele Fehler enthalten, wirkt sich dies negativ auf die Genauigkeit der Gesichtserkennungssoftware aus.
Tipp:
Hochwertige Trainingsdaten zum Anlernen der Algorithmen von Gesichtserkennungstools erhalten Sie in allen benötigten Mengen bei clickworker.
Foto-Datensätze – Jetzt mehr zum Service erfahren
Die Qualität der Trainingsdaten hängt von der Art der verwendeten Gesichtserkennungstechnologie ab. Es gibt drei Arten von Gesichtserkennungstechnologien:
Die Trainingsdaten für jede dieser drei Arten der Gesichtserkennungstechnologie müssen unterschiedliche Anforderungen erfüllen:
Die Trainingsdaten für jede dieser drei Arten der Gesichtserkennungstechnologie müssen auch für die zu entwickelnde Gesichtserkennungssoftware relevant sein. Zum Beispiel sollten die Trainingsdaten für eine Gesichtserkennungssoftware, die in einer Sicherheitsumgebung verwendet wird, von hoher Qualität sein und Personen vieler verschiedener Ethnien, Altersgruppen und Geschlechter umfassen. Trainingsdaten für eine Gesichtserkennungssoftware, die für Social Media-Zwecke verwendet wird, sollte insbesondere Menschen vieler verschiedener Altersgruppen und Geschlechter enthalten.