Google อวดโฉม Imagen Video โมเดล AI ที่สามารถสร้างวีดิโอจากข้อความได้

Google เผยว่ากำลังพัฒนา Imagen Video ปัญญาประดิษฐ์ที่สามารถแปลงข้อความเป็นวีดิโอได้

วีดิโอที่ Imagen Video สร้างขึ้นมามีความละเอียดถึง 1280×768 พิกเซล และมีอัตราเฟรม 24 fps โดย Imagen Video มีลักษณะเฉพาะตัวที่น่าสนใจหลายประการ อาทิ การประมวลภาพจากผลงานศิลปินระดับโลก การสร้างวัตถุ 3D ที่หมุนได้โดยยังรักษาโครงสร้างของวัตถุนั้น ๆ ไว้อยู่ และการสร้างข้อความได้หลายรูปแบบ

หลักการทำงานของ Imagen Video คือการแปลงข้อความที่ป้อนไปออกมาเป็นวีดิโอความละเอียดต่ำ (16 เฟรม ความละเอียด 24×48 พิกเซล อัตราเฟรม 3 fps) จากนั้นตัวโมเดลจะเพิ่มความละเอียดขึ้นเรื่อย ๆ จนมีอัตราเฟรมสูงขึ้น จนมีความยาวถึง 5.3 วินาที โดย Imagen Video เป็นการพัฒนาบนโมเดลที่ซ้อนกันถึง 5 รุ่น

ชุดข้อมูลที่ใช้ฝึก Imagen Video คือชุดข้อมูล LAION-400M ที่จับคู่ข้อความเข้ากับภาพ นอกจากนี้ยังมี คู่ข้อความและวีดิโอจำนวน 14 ล้านคู่ และคู่ข้อความและภาพจำนวน 60 ล้านคู่อีกด้วย

Google หวังว่าโมเดลที่ใช้ในการสังเคราะห์วีดิโอเหล่านี้จะช่วยลดความยากในการสร้างคอนเทนต์ที่มีคุณภาพได้มากขึ้น อย่างไรก็ดี Google กังวลว่าอาจมีผู้ไม่หวังดีนำ Imagen Video ไปใช้สังเคราะห์ภาพปลอมที่สร้างความเกลียดชังหรือส่งผลร้ายได้ จึงยังไม่ปล่อยออกมาสู่สาธารณะเร็ว ๆ นี้ เพื่อให้มีเวลาในการป้องกันการนำไปใช้ในทางที่ผิดก่อน

นอกจาก Imagen Video ของ Google แล้ว ยังมีโมเดลปัญญาประดิษฐ์คล้าย ๆ กันที่เพิ่งปล่อยออกมาในวันเดียวกัน ซึ่งก็คือ Phenaki ที่สามารถสร้างวีดิโอความยาวมากกว่า Imagen Video

ที่มา Ars Technica

พิสูจน์อักษร : สุชยา เกษจำรัส