งานวิจัยล่าสุดจาก Icaro Lab ในหัวข้อ “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” ได้เปิดเผยช่องโหว่ของ AI เมื่อนักวิจัยค้นพบว่า เพียงแค่เปลี่ยนคำสั่ง (Prompt) ที่สุ่มเสี่ยงให้กลายเป็น “บทกวี” หรือ “บทกลอน” ก็สามารถหลอกให้ AI มองข้ามมาตรการความปลอดภัย (Guardrails) ของตัวเองไปได้แล้ว
การศึกษาระบุว่า รูปแบบของบทกวีทำหน้าที่เป็นตัวเจาะระบบอเนกประสงค์ (General-purpose jailbreak operator) โดยมีอัตราความสำเร็จสูงถึง 62% ในการโน้มน้าวให้ AI ยอมคายข้อมูลต้องห้ามออกมา ไม่ว่าจะเป็นวิธีการสร้างอาวุธนิวเคลียร์ เนื้อหาที่เกี่ยวข้องกับการล่วงละเมิดทางเพศเด็ก หรือแม้แต่วิธีการฆ่าตัวตาย
เปรียบเสมือนการที่เราห่อหุ้มยาพิษไว้ในขนมหวานที่ดูสวยงาม AI ถูกฝึกมาให้เข้าใจบริบททางภาษา จึงหลงกลในความสละสลวยของถ้อยคำ จนลืมตรวจสอบความอันตรายของเนื้อหาข้างใน
ผลสอบสนามประลอง AI : ใครรอด ใครร่วง ?
ทีมวิจัยได้ทดสอบกับโมเดล AI ชั้นนำของโลกหลายตัว ผลปรากฏว่ามีกลุ่มที่หลงกลวิธีนี้ และกลุ่มที่รู้ทัน
- กลุ่มที่โดนเจาะ Google Gemini, DeepSeek และ MistralAI มักจะหลงกลและยอมให้คำตอบตามบทกวีที่ป้อนเข้าไป
- กลุ่มที่ตั้งรับได้ดี โมเดล GPT-5 ของ OpenAI และ Claude Haiku 4.5 ของ Anthropic (ตามข้อมูลในงานวิจัย) ที่นักวิจัยบอกว่ามีโอกาสน้อยที่สุดที่จะหลุดจากข้อจำกัดความปลอดภัย
แม้จะค้นพบช่องโหว่ร้ายแรง แต่ทาง Icaro Lab เลือกที่จะไม่เปิดเผยบทกวี/กลอนที่เขาใช้ที่ใช้ในการเจาะระบบต่อสาธารณะ โดยให้เหตุผลว่ามันอันตรายเกินไป
อย่างไรก็ตาม เพื่อยืนยันว่าปัญหานี้มีอยู่จริง ทีมวิจัยได้แสดงตัวอย่างเวอร์ชันลดทอนความรุนแรง ซึ่งพิสูจน์ให้เห็นว่าการหลบเลี่ยงระบบป้องกันของแชตบอต AI นั้น “ง่ายกว่าที่เราคิด” และนี่คือสัญญาณเตือนให้ผู้พัฒนาต้องเร่งอุดรอยรั่วทางภาษาศาสตร์นี้ ก่อนที่ศิลปะทางภาษาจะถูกนำไปใช้ในทางที่ไม่ถูกต้อง