Microsoft анонсувала ШІ, який може імітувати голос людини за невеликим записом голосу
Компанія Microsoft вирішила ввірватися на ринок прикладних штучних інтелектів із Vall-E — нейронною мережею, яку в компанії називають “мовною моделлю нейронного кодека”. Вона здатна озвучувати текст, імітуючи голос людини за 3-секундним аудіозразком.
Такого результату вдалося досягнути використанням технології EnCodec, анонсованої компанією Meta у жовтні 2022 року. Завдяки ній, Vall-E може аналізувати голос людини, розбиваючи його на окремі “токени”, після чого погоджувати їх із даними, отриманими в процесі навчання нейронної мережі. До речі, для навчання настільки просунутого штучного інтелекту компанія використала записи голосів 7 тисяч людей. Сумарна тривалість записів — 60 тисяч годин. Як результат, Vall-E здатен імітувати не тільки тембр людини, а і її емоційний тон, ба навіть умови запису аудіозразка.
Коли продукт стане доступним широкому загалу поки не зрозуміло, та за посиланням уже зараз можна ознайомитися з результатами роботи штучного інтелекту.
Окрім того, в Microsoft вже передбачили, що Vall-E можуть використати з незаконною метою, тож розробники поспішили заявити, що розробити модель, яка здатна виявити підроблений голос цілком можливо.
Джерело: Arstechnica.com