W najnowszym przełomie technologicznym, zespół badaczy z MIT, Uniwersytetu Tsinghua oraz kanadyjskiego startupu MyShell, opracował OpenVoice – innowacyjne narzędzie do klonowania głosu. OpenVoice, wykorzystując zaledwie kilka sekund nagrania audio, umożliwia precyzyjne kopiowanie głosu z niezwykłą kontrolą nad tonem, emocjami, akcentem, rytmem i wieloma innymi aspektami.
MyShell przedstawił OpenVoice w swoim ostatnim poście, udostępniając link do recenzowanej pracy badawczej opisującej tę technologię oraz do stron demonstracyjnych na MyShell i HuggingFace, gdzie użytkownicy mogą wypróbować to narzędzie.
"Z dumą udostępniamy nasz algorytm OpenVoice jako open source, podkreślając nasze główne założenie – AI dla wszystkich. Doświadcz tego już teraz: https://t.co/zHJpeVpX3t. Klonuj głosy z niezrównaną precyzją, kontrolując każdy aspekt tonu, od emocji po akcent, rytm, pauzy i intonację, używając tylko..." - napisał MyShell na Twitterze.
OpenVoice składa się z dwóch modeli AI, które współpracują w celu konwersji tekstu na mowę i klonowania tonu głosu. Pierwszy model zajmuje się stylem językowym, akcentami, emocjami i innymi wzorcami mowy. Został on wytrenowany na 30 000 próbkach audio z różnymi emocjami od mówców angielskich, chińskich i japońskich. Drugi model, "konwerter tonu", uczył się z ponad 300 000 próbek obejmujących 20 000 głosów.
Łącząc uniwersalny model mowy z próbką głosu użytkownika, OpenVoice może klonować głosy przy użyciu bardzo małej ilości danych. Dzięki temu generuje sklonowaną mowę znacznie szybciej niż alternatywy, takie jak Voicebox od Meta.
MyShell, startup z Kalifornii, założony w 2023 roku, z początkowym finansowaniem w wysokości 5,6 miliona dolarów i ponad 400 000 użytkowników, reklamuje się jako zdecentralizowana platforma do tworzenia i odkrywania aplikacji AI.
Udostępniając swoje możliwości klonowania głosu jako open source przez HuggingFace, jednocześnie monetyzując szerszy ekosystem aplikacji, MyShell ma szansę zwiększyć liczbę użytkowników w obu obszarach, jednocześnie promując otwarty model rozwoju AI.