Emotion Detection mit Python

Die Erkennung von Gesichtsausdrücken ist ein spannendes und vielseitiges Feld der künstlichen Intelligenz, das Computer Vision und Deep Learning vereint. In diesem ausführlichen Beitrag stelle ich ein Python-Programm vor, das Emotionen sowohl über die Webcam als auch aus Videodateien in Echtzeit analysiert – mit einer modernen, professionellen Benutzeroberfläche basierend auf PyQt6. Ich erkläre die Funktionsweise des Codes im Detail, gebe eine Schritt-für-Schritt-Anleitung zur Installation, beleuchte die technischen Grundlagen der Mimikerkennung und diskutiere abschließend umfassend ethische, kulturelle und datenschutzrechtliche Implikationen mit zahlreichen Quellenverweisen. Am Ende finden Sie den vollständigen Quellcode.

Was macht der Code?

Dieses Programm ist eine erweiterte Anwendung zur Erkennung von Gesichtsausdrücken mit einer eleganten grafischen Benutzeroberfläche (GUI). Hier sind die Hauptmerkmale im Detail:

Flexible Eingabequellen:
- Webcam: Live-Stream von der Standardkamera (Index 0).
- Videodateien: Unterstützt Formate wie MP4, AVI oder MOV, auswählbar über einen Dateidialog.
- Ein modernes Dropdown-Menü ermöglicht die Umschaltung zwischen den Quellen.
Gesichtserkennung: Der Haarcascade-Classifier von OpenCV lokalisiert Gesichter in jedem Frame.
Emotionsklassifikation: Ein vortrainiertes Deep-Learning-Modell (fer_model.h5) analysiert die Gesichtsausdrücke und ordnet sie sieben Kategorien zu: Angry (Wut), Disgust (Ekel), Fear (Angst), Happy (Freude), Sad (Trauer), Surprise (Überraschung) und Neutral.
Professionelle GUI mit PyQt6:
- Video-Feed: Ein großes Fenster (1000×700 Pixel) zeigt den Stream mit Echtzeit-Visualisierung.
- Steuerung: Stilvolle „Start“ (grün) und „Stop“ (rot) Buttons mit Hover-Effekten kontrollieren die Analyse.
- Statusanzeige: Eine Statusleiste am unteren Rand informiert über den Zustand (z.B. „Läuft“, „Gestoppt“).
- Emotionsanzeige: Zeigt die aktuell erkannte Emotion in klarer Typografie an.
Visualisierung: Erkannte Gesichter werden mit grünen Rechtecken umrahmt, die Emotion wird darüber angezeigt.
Performance-Optimierung:
- Ein separater QThread trennt Video-Verarbeitung von der GUI.
- Signale (pyqtSignal) übertragen Frames und Informationen effizient.

Die GUI basiert auf PyQt6, was ein modernes, ansprechendes Design mit abgerundeten Ecken, Hover-Effekten und einem professionellen Look ermöglicht – weit entfernt von der Einfachheit von tkinter.

Installation

Die Installation ist unkompliziert, erfordert jedoch einige Vorbereitungen. Hier ist eine detaillierte Anleitung:

Voraussetzungen

Hardware:
- Ein Computer mit Webcam (für Live-Modus).
- Mindestens 8 GB RAM und eine moderne CPU/GPU für flüssige KI-Berechnungen.
Software: Python 3.8 oder höher (empfohlen: 3.10).
Modell: Das vortrainierte Modell fer_model.h5, z.B. basierend auf FER-2013.

Bibliotheken installieren

Installieren Sie die erforderlichen Pakete über pip:

bash

pip install PyQt6 opencv-python numpy tensorflow

PyQt6: Moderne GUI-Bibliothek (PyQt6 Docs).
opencv-python: Bildverarbeitung (OpenCV Docs).
numpy: Numerische Operationen (NumPy Docs).
tensorflow: Deep Learning (TensorFlow Docs).

Code einrichten

Code speichern: Kopieren Sie den Quellcode (am Ende dieses Beitrags) in eine Datei, z.B. emotion_detector.py.
Modell bereitstellen: Platzieren Sie fer_model.h5 im gleichen Verzeichnis oder passen Sie den Pfad an.
Testvideo (optional): Bereiten Sie eine Videodatei vor (z.B. MP4 mit Gesichtern).

Ausführen

Starten Sie das Programm:

bash

python emotion_detector.py

Die GUI öffnet sich mit einem Dropdown-Menü („Webcam“ oder „Videodatei“).
Bei „Videodatei“ wählen Sie eine Datei über den Dateidialog.
Klicken Sie auf „Start“, um die Erkennung zu beginnen.

Modell beschaffen

Falls Sie kein fer_model.h5 haben:

Download: DeepFace oder FER-2013 Modelle.
Training: Nutzen Sie den FER-2013-Datensatz (Kaggle) mit TensorFlow (Tutorial).

Wie funktioniert die Mimikerkennung?

Die Technologie kombiniert klassische Bildverarbeitung mit Deep Learning:

1. Eingabeverarbeitung

Webcam: cv2.VideoCapture(0) liest Frames live.
Videodatei: cv2.VideoCapture(‚pfad.mp4‘) liest sequenziell.

2. Gesichtserkennung

Graustufen: cv2.cvtColor reduziert die Datenmenge.
Haarcascade: Viola-Jones-Algorithmus (Paper, 2001) mit Parametern wie scaleFactor=1.1.

3. Bildvorverarbeitung

Skalierung auf 48×48 Pixel, Normalisierung auf 0-1, Umwandlung in 4D-Tensor.

4. Emotionsklassifikation

CNN aus fer_model.h5 gibt Wahrscheinlichkeiten für sieben Emotionen zurück.

5. Visualisierung

Rechtecke und Text auf dem Frame, übertragen via PyQt6-Signale.

Wissenschaftliche Grundlagen stammen von Ekman (1992), FER-2013 (Goodfellow et al., 2013), und CNN-Entwicklungen (Krizhevsky et al., 2012).

Kritische Auseinandersetzung

Die Mimikerkennung ist technisch beeindruckend, birgt jedoch komplexe ethische, kulturelle und datenschutzrechtliche Herausforderungen. Dieser Abschnitt wurde erheblich erweitert, um die Tiefe dieser Themen zu beleuchten.

Ethische Perspektive

Genauigkeit und Bias: Studien zeigen, dass KI bei subtilen Emotionen oder in komplexen Kontexten unzuverlässig ist (Barrett et al., 2019). Eine Fehlklassifikation (z.B. „Angry“ statt „Neutral“) könnte in sicherheitskritischen Szenarien wie Flughafenkontrollen zu ungerechtfertigten Eingriffen führen. Zudem neigen Modelle zu Bias, wenn sie auf unausgewogenen Datensätzen wie FER-2013 trainiert werden, die überwiegend westliche Gesichter enthalten (Crawford, 2021).
Manipulation: Unternehmen könnten Emotionen ohne Zustimmung analysieren, z.B. in Verkaufsräumen (Forbes, 2019) oder bei Online-Bewerbungen (HireVue Kritik). Dies wirft Fragen zur Autonomie und Fairness auf.
Verantwortung: Wer haftet bei Fehlern? Entwickler, Betreiber oder niemand? Die IEEE Ethikrichtlinien für KI (IEEE, 2019) fordern klare Verantwortlichkeiten, die oft fehlen.
Psychologische Auswirkungen: Eine ständige Überwachung von Emotionen könnte Stress oder Verhaltensänderungen auslösen, wie Studien zur Überwachung zeigen (Zuboff, 2019).

Kulturelle Unterschiede

Universalität vs. Variation: Ekman postulierte universelle Emotionen (1992), doch Russell kritisiert dies und hebt kulturelle Unterschiede hervor (1994). Ein Lächeln kann in Japan Höflichkeit statt Freude bedeuten (Matsumoto, 2001).
Trainingsdaten: Modelle wie FER-2013 sind auf westliche Gesichter ausgerichtet, was zu schlechterer Leistung bei anderen Ethnien führt (Buolamwini & Gebru, 2018). Dies verstärkt digitale Ungleichheit.
Kontext: Emotionen sind oft kontextabhängig – ein Ausdruck in einem Film unterscheidet sich von einem echten Szenario. Ohne Kontextverständnis bleibt die KI begrenzt (MIT Technology Review, 2020).

Datenschutz

Rechtliche Rahmen: In der EU verlangt die DSGVO explizite Zustimmung für biometrische Daten (EU GDPR). Verstöße können hohe Strafen nach sich ziehen (CNIL, 2022). In den USA variieren die Gesetze, z.B. der California Consumer Privacy Act (CCPA).
Überwachung: China nutzt Mimikerkennung zur Massenüberwachung, z.B. in Schulen zur Überwachung von Schülern (BBC, 2021). Amnesty International warnt vor Menschenrechtsverletzungen (Amnesty, 2021).
Datenmissbrauch: Gespeicherte Emotionsdaten könnten gehackt (Wired, 2020) oder für Profiling/Diskriminierung genutzt werden, z.B. durch Versicherungen (The Guardian, 2019).
Langzeitfolgen: Die Akkumulation solcher Daten könnte zu einer „Überwachungskapitalismus“-Gesellschaft führen, wie Shoshana Zuboff beschreibt (2019).

Potenzial und Verantwortung

Mimikerkennung könnte in Psychotherapie (Emotionsüberwachung), Bildung (Engagement-Messung) oder barrierefreier Kommunikation (z.B. für Autisten) hilfreich sein (ScienceDirect, 2021). Doch ihre Entwicklung erfordert:

Transparenz: Offenlegung von Trainingsdaten und Grenzen.
Ethikrichtlinien: Einhaltung von Standards wie denen der UNESCO (UNESCO AI Ethics, 2021).
Datenschutz: Verschlüsselung und Anonymisierung der Daten (ENISA, 2020).

Ohne diese Maßnahmen riskieren wir eine Technologie, die mehr schadet als nützt. Entwickler und Nutzer müssen sich ihrer Verantwortung bewusst sein, um Vertrauen und Gerechtigkeit zu gewährleisten.

Quellcode

Hier ist der vollständige Code:

python

import sys
import cv2
import numpy as np
from tensorflow.keras.models import load_model
from PyQt6.QtWidgets import (QApplication, QMainWindow, QLabel, QPushButton, QComboBox, 
                            QFileDialog, QVBoxLayout, QWidget, QStatusBar)
from PyQt6.QtGui import QImage, QPixmap
from PyQt6.QtCore import QThread, pyqtSignal, Qt

class VideoThread(QThread):
    frame_signal = pyqtSignal(np.ndarray)
    emotion_signal = pyqtSignal(str)
    status_signal = pyqtSignal(str)

    def __init__(self, source, face_detector, emotion_classifier, emotion_labels):
        super().__init__()
        self.source = source
        self.face_detector = face_detector
        self.emotion_classifier = emotion_classifier
        self.emotion_labels = emotion_labels
        self.running = False

    def run(self):
        cap = cv2.VideoCapture(self.source)
        if not cap.isOpened():
            self.status_signal.emit("Fehler beim Öffnen der Quelle")
            return

        while self.running:
            ret, frame = cap.read()
            if not ret:
                self.status_signal.emit("Videoende erreicht")
                self.running = False
                break

            gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
            faces = self.face_detector.detectMultiScale(gray, scaleFactor=1.1, 
                                                      minNeighbors=5, minSize=(150, 150))

            for (x, y, w, h) in faces:
                face = gray[y:y+h, x:x+w]
                face = cv2.resize(face, (48, 48))
                face = face.astype("float") / 255.0
                face = np.expand_dims(face, axis=0)
                face = np.expand_dims(face, axis=-1)

                predictions = self.emotion_classifier.predict(face, verbose=0)[0]
                label = self.emotion_labels[np.argmax(predictions)]
                self.emotion_signal.emit(f"Erkannte Emotion: {label}")

                cv2.rectangle(frame, (x, y), (x+w, y+h), (0, 255, 0), 2)
                cv2.putText(frame, label, (x, y-10), cv2.FONT_HERSHEY_SIMPLEX, 
                           0.9, (0, 255, 0), 2)

            self.frame_signal.emit(frame)

        cap.release()

    def stop(self):
        self.running = False

class EmotionDetectorGUI(QMainWindow):
    def __init__(self):
        super().__init__()
        self.setWindowTitle("Emotion Detection System")
        self.setGeometry(100, 100, 1000, 700)
        self.setFixedSize(1000, 700)

        # Modelle laden
        self.face_detector = cv2.CascadeClassifier(
            cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')
        if self.face_detector.empty():
            raise ValueError("Fehler beim Laden des Gesichtserkennungs-Modells")
        
        self.emotion_classifier = load_model('fer_model.h5', compile=True)
        self.emotion_labels = {0: 'Angry', 1: 'Disgust', 2: 'Fear', 
                             3: 'Happy', 4: 'Sad', 5: 'Surprise', 6: 'Neutral'}

        # GUI Setup
        self.central_widget = QWidget()
        self.setCentralWidget(self.central_widget)
        self.layout = QVBoxLayout(self.central_widget)

        # Video Label
        self.video_label = QLabel(self)
        self.video_label.setAlignment(Qt.AlignmentFlag.AlignCenter)
        self.layout.addWidget(self.video_label)

        # Control Panel
        self.control_widget = QWidget()
        self.control_layout = QVBoxLayout(self.control_widget)
        
        # Source Selection
        self.source_combo = QComboBox()
        self.source_combo.addItems(["Webcam", "Videodatei"])
        self.source_combo.currentTextChanged.connect(self.select_source)
        self.source_combo.setStyleSheet("""
            QComboBox {
                padding: 5px;
                font-size: 14px;
                border: 1px solid #ccc;
                border-radius: 5px;
            }
        """)
        self.control_layout.addWidget(self.source_combo)

        # Buttons
        self.start_btn = QPushButton("Start")
        self.start_btn.clicked.connect(self.start_detection)
        self.start_btn.setStyleSheet("""
            QPushButton {
                background-color: #4CAF50;
                color: white;
                padding: 10px;
                font-size: 14px;
                border-radius: 5px;
            }
            QPushButton:hover {
                background-color: #45a049;
            }
        """)
        self.control_layout.addWidget(self.start_btn)

        self.stop_btn = QPushButton("Stop")
        self.stop_btn.clicked.connect(self.stop_detection)
        self.stop_btn.setEnabled(False)
        self.stop_btn.setStyleSheet("""
            QPushButton {
                background-color: #f44336;
                color: white;
                padding: 10px;
                font-size: 14px;
                border-radius: 5px;
            }
            QPushButton:hover {
                background-color: #da190b;
            }
        """)
        self.control_layout.addWidget(self.stop_btn)

        self.layout.addWidget(self.control_widget)

        # Emotion Label
        self.emotion_label = QLabel("Erkannte Emotion: -")
        self.emotion_label.setStyleSheet("font-size: 14px; padding: 5px;")
        self.layout.addWidget(self.emotion_label)

        # Status Bar
        self.status_bar = QStatusBar()
        self.setStatusBar(self.status_bar)
        self.status_bar.showMessage("Status: Bereit")

        # Variablen
        self.source = 0
        self.thread = None

    def select_source(self, value):
        if value == "Videodatei":
            file_path, _ = QFileDialog.getOpenFileName(self, "Videodatei auswählen", 
                                                     "", "Video Files (*.mp4 *.avi *.mov)")
            if file_path:
                self.source = file_path
                self.status_bar.showMessage(f"Status: Videodatei ausgewählt ({file_path.split('/')[-1]})")
            else:
                self.source_combo.setCurrentText("Webcam")
                self.source = 0
        else:
            self.source = 0
            self.status_bar.showMessage("Status: Webcam ausgewählt")

    def start_detection(self):
        if not self.thread or not self.thread.isRunning():
            self.thread = VideoThread(self.source, self.face_detector, 
                                    self.emotion_classifier, self.emotion_labels)
            self.thread.frame_signal.connect(self.update_frame)
            self.thread.emotion_signal.connect(self.update_emotion)
            self.thread.status_signal.connect(self.update_status)
            self.thread.running = True
            self.thread.start()
            
            self.start_btn.setEnabled(False)
            self.stop_btn.setEnabled(True)
            self.status_bar.showMessage("Status: Läuft")

    def stop_detection(self):
        if self.thread and self.thread.isRunning():
            self.thread.stop()
            self.thread.wait()
            self.start_btn.setEnabled(True)
            self.stop_btn.setEnabled(False)
            self.status_bar.showMessage("Status: Gestoppt")
            self.emotion_label.setText("Erkannte Emotion: -")

    def update_frame(self, frame):
        rgb_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        h, w, ch = rgb_frame.shape
        bytes_per_line = ch * w
        q_image = QImage(rgb_frame.data, w, h, bytes_per_line, QImage.Format.Format_RGB888)
        pixmap = QPixmap.fromImage(q_image)
        self.video_label.setPixmap(pixmap.scaled(self.video_label.size(), 
                                               Qt.AspectRatioMode.KeepAspectRatio))

    def update_emotion(self, emotion):
        self.emotion_label.setText(emotion)

    def update_status(self, status):
        self.status_bar.showMessage(status)
        if status == "Videoende erreicht":
            self.stop_detection()

    def closeEvent(self, event):
        self.stop_detection()
        event.accept()

if __name__ == "__main__":
    app = QApplication(sys.argv)
    app.setStyle("Fusion")
    window = EmotionDetectorGUI()
    window.show()
    sys.exit(app.exec())

Schreibe einen Kommentar Antwort abbrechen