Η Microsoft αποκάλυψε ένα νέο AI μοντέλο. Ερευνητές Researchers ισχυρίζονται πως το VALL-E μπορεί να ακούσει και να…

…προσομοιώσει τη φωνή οποιουδήποτε. Αν και τα περισσότερα AI μπορούν να κάνουν κάτι σχετικό, συνήθως απαιτείται τουλάχιστον ένα λεπτό ηχογραφημένης φωνής ή και περισσότερο. Το VALL-E χρειάζεται μόλις 3 ΔΕΥΤΕΡΟΛΕΠΤΑ ως δείγμα.

Στον δρόμο για τη δημιουργία του VALL-E επιστήμονες έχουν χρησιμοποιήσει την βιβλιοθήκη Libri-Light Meta που αφορά 7,000 ομιλητές. Στην συνέχεια χρησιμοποίησαν AI για την ανάλυση 60,000 ωρών ομιλίας στα Αγγλικά.

Η εταιρία ορίζει το VALL-E ως “neural codec language model,” που βασίζεται σε παρόμοια δουλειά της Meta που χρησιμοποιεί το AI για να φτιάξε text-to-speech ήχο.

Μερικές VALL-E φωνές είναι ρεαλιστικές ενώ άλλες όχι και τόσο. Φαίνεται ότι για να δημιουργηθεί μια προσομείωση η φωνή που θα μπει στο σύστημα θα πρέπει να είναι παρόμοια με αυτή πάνω στην οποία δουλεύτηκαν τα μοντέλα.

Η Microsoft σχεδιάζει να βελτιώσει την ακρίβεια αλλά σήμερα ο κώδικας δεν είναι open-source εξαιτιάς των deepfakes. Υπάρχει όμως demo του VALL-E.