computing / social media, futuristas / iDea, tech talk / science

Μίμηση κάθε φωνής με το Microsoft VALL-E

gadgetfreak

3 years ago

Η Microsoft αποκάλυψε ένα νέο AI μοντέλο. Ερευνητές Researchers ισχυρίζονται πως το VALL-E μπορεί να ακούσει και να…

…προσομοιώσει τη φωνή οποιουδήποτε. Αν και τα περισσότερα AI μπορούν να κάνουν κάτι σχετικό, συνήθως απαιτείται τουλάχιστον ένα λεπτό ηχογραφημένης φωνής ή και περισσότερο. Το VALL-E χρειάζεται μόλις 3 ΔΕΥΤΕΡΟΛΕΠΤΑ ως δείγμα.

Στον δρόμο για τη δημιουργία του VALL-E επιστήμονες έχουν χρησιμοποιήσει την βιβλιοθήκη Libri-Light Meta που αφορά 7,000 ομιλητές. Στην συνέχεια χρησιμοποίησαν AI για την ανάλυση 60,000 ωρών ομιλίας στα Αγγλικά.

Η εταιρία ορίζει το VALL-E ως “neural codec language model,” που βασίζεται σε παρόμοια δουλειά της Meta που χρησιμοποιεί το AI για να φτιάξε text-to-speech ήχο.

Μερικές VALL-E φωνές είναι ρεαλιστικές ενώ άλλες όχι και τόσο. Φαίνεται ότι για να δημιουργηθεί μια προσομείωση η φωνή που θα μπει στο σύστημα θα πρέπει να είναι παρόμοια με αυτή πάνω στην οποία δουλεύτηκαν τα μοντέλα.

Η Microsoft σχεδιάζει να βελτιώσει την ακρίβεια αλλά σήμερα ο κώδικας δεν είναι open-source εξαιτιάς των deepfakes. Υπάρχει όμως demo του VALL-E.

Surprised there isn't more chatter around VALL-E

This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice ?

Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc

— Steven Tey (@steventey) January 9, 2023

Related posts

Νέο Nvidia GPU roadmap

Τα βραβεία Grammy προσθέτουν την κατηγορία ‘video games’ σε τέσσερις κατηγορίες!

Μπαταρία επανάσταση – 10 ώρες με 5 λεπτά φόρτιση…