paint-brush
Hier ist die KI-Synchronisation, die weltweit Alarm auslöstvon@terrychoi
849 Lesungen
849 Lesungen

Hier ist die KI-Synchronisation, die weltweit Alarm auslöst

von TerryChoi2m2024/01/30
Read on Terminal Reader

Zu lang; Lesen

Kürzlich ging die KI-Synchronisierung der Rede des argentinischen Präsidenten Javier Milei auf dem Weltwirtschaftsforum 2024 durch das Video-Startup Heygen in den sozialen Medien viral.
featured image - Hier ist die KI-Synchronisation, die weltweit Alarm auslöst
TerryChoi HackerNoon profile picture

Kürzlich erfolgte die KI-Synchronisation des argentinischen Präsidenten Rede von Javier Milei beim Weltwirtschaftsforum 2024 vom Video-Startup Heygen ging in den sozialen Medien viral.


Die Software übersetzte nicht nur seine spanischen Wörter präzise ins Englische, sondern erledigte auch nahtlos die Lippensynchronisation, eine Aufgabe, die in der Videobranche traditionell nur menschlichen Profis vorbehalten war.


Obwohl einige Beobachter beanspruchen dass Heygens Version von Milei ein bisschen wie ein „Bangladescher nach einem Jahrzehnt in Swansea“ klingt, würde ich diese Gerüchte zurückweisen. Was schwer zu ignorieren ist, sind die mechanische Stimme und der Tonfall des KI-gesteuerten argentinischen Präsidenten.


Ehrlich gesagt klingt der echte Milei besser und emotionaler ausdrucksvoller.

Bis vor kurzem waren Emotionen und Intonation die größten Herausforderungen für KI-Startups, die die Medienbranche revolutionieren wollten. Menschen sind immer noch besser darin, Leidenschaft, Trauer oder Wut durch ihre Stimme auszudrücken. Aber es sieht so aus, als würden sich die Dinge bald ändern.


Ein anderer Aktuelles Schaufenster Das blieb weitgehend unbemerkt und kam von einem Amsterdamer KI-Synchronisations-Startup namens Dubformer. Das Unternehmen gibt an, eine Technologie zur Übersetzung von Emotionen und Intonationen in Liedern entwickelt zu haben.


Sie können selbst beurteilen:

Das Startup lokalisierte die berühmteste Version von „House of the Rising Sun“, die 1964 von der britischen Rockband The Animals aufgenommen wurde. Es sieht so aus, als hätte dieses Schaufenster eine menschenähnliche Qualität, wenn es darum geht, die Essenz und emotionale Tiefe des musikalischen Ausdrucks einzufangen.


Laut Anton Dvorkovich, CEO von Dubformer, verlässt sich das Unternehmen auf seine firmeneigene Technologie, darunter automatische Spracherkennung (ASR), Text-to-Speech (TTS) und Sprachbiometrie.


Micah Berkley, Spezialist für KI-Implementierung, Lösungsarchitekt und Pädagoge, sagte, dass die Technologie von Dubformer eine Zukunft präge, in der KI die globale Reichweite des künstlerischen Ausdrucks erweitert.


Persönlich kann ich mir einfach nicht vorstellen, dass KI-Stimmen oder -Übersetzungen jemals mit der emotionalen Ausdruckskraft und dem Engagement von Menschen mithalten könnten. Aber es scheint, als stünden wir direkt an der Front einer großen Transformation.