Nvidia arată model AI care poate modifica vocile, poate genera sunete noi

De Stephen Nellis

(Reuters) – Nvidia a prezentat luni un nou mannequin de inteligență artificială pentru generarea muzicii și audio care poate modifica vocile și genera sunete noi – tehnologie care vizează producătorii de muzică, filme și jocuri video.

Nvidia, cel mai mare furnizor din lume de cipuri și software program folosite pentru a crea sisteme AI, a declarat că nu are planuri imediate de a lansa public tehnologia, pe care o numește Fugatto, prescurtare de la Foundational Generative Audio Transformer Opus 1.

Se alătură altor tehnologii prezentate de startup-uri, cum ar fi Runway și jucători mai mari, cum ar fi platformele Meta, care pot genera audio sau video dintr-un mesaj textual content.

Versiunea Nvidia, cu sediul în Santa Clara, California, generează efecte sonore și muzică dintr-o descriere textual content, inclusiv sunete noi, cum ar fi a face o trompetă să lătre ca un câine.

Ceea ce îl face diferit de alte tehnologii AI este capacitatea sa de a prelua și de a modifica sunetul existent, de exemplu, luând o versuri interpretate pe un pian și transformându-l într-o versuri cântate de o voce umană sau prin înregistrarea și schimbarea unui cuvânt rostit. accentul folosit și starea de spirit exprimată.

„Dacă ne gândim la sunetul sintetic în ultimii 50 de ani, muzica sună diferit acum din cauza computerelor, din cauza sintetizatoarelor”, a declarat Bryan Catanzaro, vicepreședinte al cercetării aplicate de deep studying la Nvidia. „Cred că IA generativă va aduce noi capabilități muzicii, jocurilor video și oamenilor obișnuiți care vor să creeze lucruri.”

În timp ce companii precum OpenAI negociază cu studiourile de la Hollywood dacă și cum ar putea fi folosită IA în industria divertismentului, relația dintre tehnologie și Hollywood a devenit tensionată, mai ales după ce starul de la Hollywood Scarlett Johansson a acuzat OpenAI că i-a imitat vocea.

Noul mannequin Nvidia a fost instruit pe date open-source, iar compania a spus că încă dezbate dacă și cum să-l lanseze public.

„Orice tehnologie generativă prezintă întotdeauna anumite riscuri, pentru că oamenii ar putea folosi asta pentru a genera lucruri pe care noi am prefera să nu le facă”, a spus Catanzaro. „Trebuie să fim atenți la asta, motiv pentru care nu avem planuri imediate să lansăm acest lucru”.

Creatorii de modele AI generative nu au stabilit încă cum să prevină abuzul de tehnologie, cum ar fi un utilizator care generează informații greșite sau care încalcă drepturile de autor prin generarea de caractere protejate prin drepturi de autor.

OpenAI și Meta nu au spus în mod related când intenționează să lanseze publicului modelele lor care generează audio sau video.

(Reportaj de Stephen Nellis la San Francisco; Editare de Will Dunham)

Leave a Comment Cancel reply