Ich habe eine leistungsstarke Anwendung namens „Audio Transcriber“ entwickelt, die Audiodaten aufzeichnet, transkribiert und vieles mehr – alles mit einer benutzerfreundlichen GUI basierend auf PyQt5. Sie nutzt das KI-Modell Whisper von OpenAI für präzise Transkripte und bietet erweiterte Funktionen wie Sprachauswahl, Modellwahl und Export. In diesem Beitrag erkläre ich euch, wie ihr sie installiert, zeige…
In diesem Beitrag stelle ich meine selbst entwickelte Anwendung vor, die Audiodaten aufzeichnet und mithilfe von OpenAIs Whisper-Modell in Text umwandelt. Die Anwendung nutzt eine grafische Benutzeroberfläche (GUI) basierend auf PyQt5 und bietet Funktionen wie Aufnahme, Transkription, Übersetzung und sogar das Vorlesen des Ergebnisses. Ich erkläre euch, wie ihr sie installiert, zeige den vollständigen Code…
Ich habe das LoRA-Modell „lith_orwo_dokumentenpapier_D“ trainiert, das auf Civitai verfügbar ist. Es überträgt den Look von Orwo-Dokumentenpapier, entwickelt mit LITH-Chemie, in die Stable Diffusion. Hier ist, wie es entstanden ist und was es kann. Hintergrund und Idee Die Grundlage stammt aus meiner Arbeit mit analogen Fotodrucken. Ich habe Scans von Aufnahmen auf Orwo-Dokumentenpapier verwendet, einem…
Ich habe das LoRA-Modell „KB_Kentmere400“ trainiert, das auf Civitai verfügbar ist. Es bringt den Look des Kentmere 400 Schwarz-Weiß-Films, aufgenommen mit einer Zenit-Kamera und einem Helios-Objektiv, in die Stable Diffusion. Hier ist, wie es entstanden ist und was es kann. Hintergrund und Idee Die Grundlage stammt aus meiner Arbeit in der Dunkelkammer. Ich habe mit…
Das Training von c41_hasselblad_portra400: Ein LoRA für analoge Ästhetik Ich habe das LoRA-Modell „c41_hasselblad_portra400“ trainiert, das auf Civitai verfügbar ist. Es überträgt den Look des Kodak Portra 400 Films, aufgenommen mit einer Hasselblad-Kamera und im C-41-Prozess verarbeitet, in die Stable Diffusion. Hier ist, wie es entstanden ist und was es kann. Hintergrund und Idee Die…
Die Erkennung von Gesichtsausdrücken ist ein spannendes und vielseitiges Feld der künstlichen Intelligenz, das Computer Vision und Deep Learning vereint. In diesem ausführlichen Beitrag stelle ich ein Python-Programm vor, das Emotionen sowohl über die Webcam als auch aus Videodateien in Echtzeit analysiert – mit einer modernen, professionellen Benutzeroberfläche basierend auf PyQt6. Ich erkläre die Funktionsweise…
In der heutigen digitalen Welt sind wir oft mit einer Flut von Dokumenten konfrontiert – sei es für die Arbeit, das Studium oder private Projekte. Aber wie behält man den Überblick über Metadaten, Inhalte und Strukturen dieser Dateien? Hier kommt der Document Folder Analyzer ins Spiel – ein Python-Tool mit einer modernen PyQt6-GUI, das Ordner…
Die alte Instagram-API (Public API), die bis zu ihrer Einschränkung im Jahr 2018 umfassenden Zugriff auf öffentliche Daten ermöglichte, war ein mächtiges Werkzeug für Marktforschung. Besonders für spezifische Fragestellungen, wie den Vergleich von Schuhmarken in einer dynamischen Metropole wie Hongkong, bot sie vielfältige Möglichkeiten. In diesem Blogbeitrag zeige ich, wie man mit dieser API eine…
Der DNID-Deepfake-Scanner für Videos, zugänglich unter https://dnid.me/, ist ein Werkzeug, das jedes einzelne Frame eines Videos auf seine Pixel-Konsistenz hin überprüft. Ziel ist es, Manipulationen in Videomaterial zu erkennen und so die Authentizität von Inhalten zu überprüfen. In einer Zeit, in der digitale Inhalte zunehmend durch Deepfake-Technologien gefährdet sind, kann der Scanner dazu beitragen, die…
Instagram war vor der Einschränkung seiner Public API im Jahr 2018 ein Datenparadies: Über 4 Millionen Locations weltweit konnten über die alte Instagram Public API (Archivierte Dokumentation) überwacht werden, um Postings zu Themen wie COVID-19 und Fridays for Future zu analysieren. In meinen 8 Projekten zwischen 2016 und 2020 habe ich diese Möglichkeiten genutzt, um…