สถาบัน Internet Observatory ของมหาวิทยาลัยสแตนฟอร์ดพบว่า LAION-5B ชุดข้อมูลที่ Stability AI ผู้พัฒนา Stable Diffusion และ Imagen ของ Google ใช้ในการฝึก AI ของตัวเองมีรูปภาพผิดกฎหมายรวมอยู่ด้วยมากถึง 1,679 ภาพ

ในจำนวนนี้มีภาพเนื้อหาที่เกี่ยวกับการล่วงละเมิดทางเพศเด็ก (child sexual abuse material – CSAM) รวมอยู่ด้วย ทั้งหมดนี้นำมาจากโพสต์โซเชียลมีเดีย และเว็บไซต์ผู้ใหญ่ที่มีชื่อเสียง

นักวิจัยของ Internet Observatory ตรวจดูภาพในฐานข้อมูล LAION-5B ในเดือนกันยายนที่ผ่านมา ด้วยแพลตฟอร์มตรวจภาพ CSAM อย่าง PhotoDNA และได้ส่งต่อให้ศูนย์คุ้มครองเด็กแคนาดาพิสูจน์ความถูกต้อง

ข้อมูลบนเว็บไซต์ LAION ชี้ว่าชุดข้อมูลดังกล่าวไม่ได้เก็บภาพเหล่านั้นเอาไว้บนเซิร์ฟเวอร์ เพียงแต่จัดหมวดหมู่และเก็บลิงก์ไปยังภาพเหล่านี้เท่านั้น

ซึ่ง LAION เผยกับทางสำนักข่าว Bloomberg ว่าไม่มีนโยบายอดกลั้นต่อเนื้อหาที่เป็นภัยและจะลบชุดข้อมูลเหล่านี้จากโลกออนไลน์เป็นการชั่วคราว

ด้าน Stability AI ชี้ว่าบริษัทมีแนวทางต่อต้านการนำแพลตฟอร์มไปใช้ในทางที่ผิด และใช้บางส่วนของ LAION-5B ในการฝึกเท่านั้น พร้อมยังได้มีการปรับแต่งให้มีความปลอดภัยแล้วด้วย

นักวิจัยของสถาบันฯ เผยว่าการมีอยู่ของเนื้อหา CSAM ไม่แน่เสมอไปว่าจะส่งผลต่อผลลัพธ์ของสิ่งที่โมเดล AI ซึ่งใช้ LAION-5B สร้างขึ้นมา แต่ก็เป็นไปได้ว่าโมเดลเหล่านี้อาจเรียนรู้บางอย่างจากภาพเจ้าปัญหา

พร้อมบอกด้วยว่าการจะลบเนื้อหาเช่นนี้น่าจะเป็นเรื่องที่ยาก โดยเฉพาะลบโดยตรงจากโมเดล AI ที่ฝึกโดยใช้เนื้อหาเหล่านี้ นักวิจัยฯ แนะนำว่าควรระงับการเผยแพร่โมเดล AI ที่มีเนื้อหา CSAM ไปก่อน

ที่มา The Verge

พิสูจน์อักษร : สุชยา เกษจำรัส