นักวิจัยจาก Google เผยรายละเอียดของ AudioLM ปัญญาประดิษฐ์ตัวใหม่ที่สามารถสร้างเสียงได้จากการป้อนข้อมูลเข้าไป

AudioLM สามารถสังเคราะห์เสียงที่ซับซ้อนอย่างเพลงที่ใช้เปียโนเล่น หรือแม้แต่เสียงคนคุยกัน ผลก็คือได้เสียงที่มีคุณภาพแทบไม่ต่างจากเสียงจริง ๆ

Google ฝึกปัญญาประดิษฐ์ชนิดนี้ด้วยการป้อนฐานข้อมูลเสียง ซึ่ง AudioLM จะใช้ Machine Learning ในการบีบอัดไฟล์เสียงให้เป็นไฟล์ข้อมูลเสียงชิ้นเล็ก ๆ ที่เรียกว่าโทเค็น ก่อนที่จะป้อนโทเค็นนี้เข้าไปให้โมเดล Machine-Learning เรียนรู้แบบแผนและรายละเอียดปลีกย่อยของเสียงนั้น ๆ

สำหรับการใช้งาน AudioLM ในการสังเคราะห์เสียงนั้น เพียงแค่ป้อนเสียงความยาวไม่กี่วินาทีเข้าไป ตัว AudioLM ก็จะคาดเดาความต่อเนื่องของเสียงที่ควรจะมาหลังจากนั้น โดย AudioLM สามารถสังเคราะห์ได้ทั้งเสียงคนพูดหรือเสียงเครื่องดนตรี จากเสียงต้นฉบับความยาวเพียง 3 วินาที ให้กลายเป็น 10 วินาที โดยไม่ซ้ำรูปแบบกันได้

ทั้งนี้ เราสามารถให้ AudioLM ผลิตเสียงได้โดยไม่ต้องป้อนเสียงเข้าไปก็ได้ แต่ให้ผลิตเสียงจากข้อมูลที่มีอยู่แล้ว

จากตัวอย่าง จะพบว่า AudioLM สามารถสังเคราะห์เสียงได้โดยเป็นธรรมชาติ และรักษาลักษณะของเสียงต้นฉบับไว้ได้ โดยไม่มีความผิดปกติในลักษณะเสียงที่สังเกตได้ชัดเลย

โรเจอร์ แดนเนนเบิร์ก (Roger Dannenberg) นักวิจัยเสียงเพลงที่คอมพิวเตอร์สร้างขึ้น จากมหาวิทยาลัยคาร์เนกีเมลลอน ในสหรัฐอเมริกา ระบุว่า AudioLM สร้างเสียงที่มีคุณภาพมากกว่าโปรแกรมอื่น ๆ ที่เคยมีมาทั้งหมด

ขณะที่ รูพัล พาเทล (Rupal Patel) นักวิจัยวิทยาศาสตร์สารสนเทศและการพูดจากมหาวิทยาลัยนอร์ทอีสเทิร์น ระบุว่า AudioLM สามารถเรียนรู้ความแตกต่างเพียงน้อยนิดที่อยู่ในเสียงต้นฉบับ

อย่างไรก็ดี ปัญญาประดิษฐ์ที่สามารถผลิตเสียงได้เหมือนจริงขนาดนี้อาจนำไปใช้บิดเบือนคำพูดของคนจริง ๆ และนำไปสู่การเผยแพร่ข้อมูลเท็จได้ในอนาคต

ที่มา MIT Technology Review, Google

พิสูจน์อักษร : สุชยา เกษจำรัส