หลังจากที่วิทยาการของโลกมาถึงยุคที่ AI สามารถสร้างภาพตามคำบอก หรือสร้างจากการร่างภาพของผู้ใช้ได้ ผลกระทบก็ส่งไปถึงวงการศิลปะทันที ซึ่งมีหลายประเด็นมาก ทั้งการแย่งงานมนุษย์ หรือการที่ AI มาลอกลายเส้นศิลปินไป แล้วเอาไปวาดใหม่ บทความนี้จึงขอเล่าเรื่องทั้งหมดให้เข้าใจกัน

ข้อกล่าวหาของศิลปิน

ศิลปินมากมายไปพบว่ามีผลงานที่คล้ายผลงานของตัวเองอยู่ใน Adobe Stock ที่เป็นภาพ AI Generated ทั้งที่ Adobe บอกว่า รูปภาพที่นำมาสร้างเพื่อ Trained นั้นใช้ Library ของตัวเอง แต่เมื่อนำชื่อของศิลปินวาดภาพที่มีอยู่จริงไปค้นหาใน Stock กลับพบเจอผลงานที่คล้ายกับงานวาดของตัวเองอยู่ในนั้นเสียอย่างงั้น แปลว่า Adobe อาจมีการดึงผลงานของผู้ใช้ไปฝึก AI โดยที่เจ้าของไม่รู้

หรือข่าวที่มีออกมาอยู่บ่อยครั้งคือ ศิลปินไปพบผลงานที่ออกมาจาก Stable Diffusion แล้วมีลักษณะคล้ายกับผลงานตัวเองอย่างมาก ซึ่งก็เป็นเพราะผลงานถูกขโมยไปใช้ Trainned Data นั่นเอง

แล้วจริง ๆ มันเป็นอย่างไร

เริ่มต้นจากเคสใกล้ตัวก่อน คือแอป Loopsie ที่มีโหมดเปลี่ยนภาพถ่ายเป็นภาพวาดแบบอนิเมะของญี่ปุ่น ซึ่งก็มีดราม่าในหมู่คนไทยว่า การใช้งานแบบนี้ ก็เหมือนให้ AI วาดภาพใหม่ตามข้อมูลภาพอนิเมะที่ขโมยงานวาดของศิลปินมาเทรน AI

พูดถึงโหมดสร้างภาพอนิเมะของ Loopsie ก่อน โหมดนี้คือ Stable Diffusion ที่ถูกตั้งค่าไว้ให้สร้างภาพแบบอนิเมะตลอด เป็นตั้งค่าแบบเดียวตลอด สังเกตดูว่าภาพที่ออกมาจาก Loopsie นั้นจะมีลายเส้นเหมือนกันหมด

Stable Diffusion คืออะไร ทำงานยังไง

Stable Diffusion (SD) เป็นโครง AI Deep Learning แบบเปิดโค้ด (Open Source) ที่ใครก็โหลดไปใช้ได้ จุดเด่นคือสามารถเอาก้อนข้อมูลอะไรก็ได้ที่ฝึกแล้วไปใช้ได้ และมันทำงานแบบ Local หรือทำงานในเครื่องผู้ใช้ โดยไม่ต้องส่งไปประมวลผลที่เซิร์ฟเวอร์ก็ได้ และเมื่อเป็น Open Source จึงถูกนำไปปรับหน้าตาให้ใช้ง่ายขึ้นเยอะมาก หนึ่งใน Interface ที่ดังคือ Automatic 1111 เป็น Web UI รันใน Local

หลักการทำงานของ Stable Diffusion ต้องเล่าจากการเทรนข้อมูลก่อน การเทรนข้อมูลคือการเอาภาพต่าง ๆ ที่เป็นรูปแนวเดียวกันมากมาย มาย่อยลงเป็นเม็ดพิกเซล และเก็บ Noise Pattern เอาไว้จำนวนมาก เพื่อเอากลับมาสร้างใหม่เป็นภาพได้

Automatic 1111

การทำงานของ Text2Img

โดย Stable Diffusion ทำงานได้หลัก ๆ 2 รูปแบบคือ Img2Img (แปลงภาพเป็นภาพ) และ Text2Img (แปลงข้อความเป็นภาพ) โดยหลักการทำงานของ Text2img จะเริ่มจากการนำตัวหนังสือไปแปลงเป็นตัวเลขด้วย Tokenizer ก่อน เพราะว่าพื้นฐานของคอมพิวเตอร์นั้นเข้าใจเป็นตัวเลข (พูดอีกอย่างว่ามันคือการทำ Text to Number ก็ได้) อย่างในกรณีของ SD จะใช้กระบวนการ Deep Learning ที่ชื่อ CLIP ซึ่งเป็น AI Deep Learning ของ OpenAI

CLIP, AI Deep Learning ของ OpenAI

เสร็จแล้วหลังจากการ Tokenized จะส่งข้อมูลตัวเลขมาให้กับกระบวนการ Embedding เพื่อทำการเทียบเรียงตัวเลขในรูปแบบ ตาราง value vector ที่ต้องเรียงก็เพื่อแยกคำเป็นกลุ่ม ๆ สำหรับ feeding ตัว Noise Predictor

แล้วเมื่อข้อมูลพร้อมแล้วจะถูกนำไปเชื่อมกับ Noise Predictor ด้วย Text Transformer เพื่อแปลงค่าให้ใช้กับ Noise Predictor ได้ เป็นเหมือน Adapter เสร็จแล้วก็มานำเทียบข้อมูลที่แปลงมากับ Noise Pattern ใน Trained Model เสร็จแล้วตัว SD จะทำการ Sampled Noise ขึ้นมา แล้วใส่เอา Noise ของ Trained Model เข้าไปในภาพด้วยการสร้าง Noise ขึ้นมาซ้ำ ๆ ตาม Noise Pattern นั้น หากนั่งดูภาพตอน SD กำลังสร้างจะเห็นว่าภาพถูกขึ้นตั้งแต่ตอนยังเป็น Noise จนชัดขึ้นมาเรื่อย ๆ จนออกมาเป็นผลลัพธ์

การทำงานของ Img2Img

Img2Img คือส่วนที่ Loopsie ใช้ หลักการทำงานคือการทำงานควบคู่กันระหว่าง Text Input ที่เป็น Prompt และ Image ที่เป็น Input หลัก ซึ่งตัว Prompt จะเป็นตัวควบคุมว่าภาพจะออกมาหน้าตาเป็นอย่างไร และ Image Input จะถูกแปลงไปตามที่ Prompt ของเราเขียนลงไป โดยที่ยังมีภาพรวมวัตถุหลัก ๆ คล้ายกับ Image Input

ซึ่ง Loopsie ก็ตั้งค่า text prompt และ trained model เอาไว้แล้ว เพียงแต่เรานำภาพใส่เข้าไปเป็น Image Input เป็นส่วนสุดท้าย

แล้ว Stable Diffusion ขโมยภาพคนอื่นมาฝึกจริงไหม

Trained Model ของ Stable Diffusion นั้นตรวจสอบได้ยากว่าใช้ภาพที่มีการอนุญาตอย่างถูกต้องจริงหรือไม่ เพราะเป็นการเอาภาพหลายภาพมาย่อยแล้วบันทึกไว้เป็น Noise Pattern นอกเสียจากว่าจะสังเกตจากผลลัพธ์ที่ออกมา ซึ่งมีประเด็นแบบนี้ออกมาเยอะว่า เจ้าของภาพมาเห็นผลลัพทธ์ที่ออกมาจาก Stable Diffusion และมีลักษณะของภาพคล้ายกับผลงานของตนเอง

เว็บ CivitAI ที่มีคลังข้อมูลให้โหลดมากมาย
เว็บ CivitAI ที่มีคลังข้อมูลให้โหลดมากมาย

โดย Stable Diffusion มีคลัง Trained Data ที่ดัง ๆ อยู่อย่างเช่น CivitAI แต่ก็ตรวจยากว่า Model นั้น ๆ ละเมิดลิขสิทธ์หรือไม่ เพราะส่วนใหญ่จะเป็นแบบนั้นเกือบหมด (เทา ๆ ) และ Trained Model ทั้งหมดจะเป็น public upload ที่มาจากใครก็ได้

ความแตกต่างของ SD กับ DALL·E 2 และ Midjourney

Midjourney

อย่างแรกสิ่งที่เหมือนกันอย่างชัดเจน DALL·E 2 และ Midjourney คือ Generative AI ที่ผู้ใช้งานทั่วไปสามารถเข้าไปป้อนคำสั่งหรือ Prompt และให้ AI สร้างภาพออกมา แต่สิ่งที่แตกต่างหลัก ๆ ของทั้งสองตัวคือ สไตล์ของภาพที่เห็นได้ว่า ภาพที่สร้างมาจาก DALL·E 2 จะมีความสมจริง แต่ภาพที่ได้จาก Midjourney จะมีความหวือหวา และดูโดดเด่นออกมาจากความสามารถที่รับคำสั่งภาพ หรือ Prompt ที่ได้ดีกว่า DALL·E 2

เรื่องราวเปลี่ยนไปเมื่อศาลสหรัฐสั่ง งานภาพจาก AI จดลิขสิทธิ์ไม่ได้

เมื่อช่วงเดือนสิงหาคมที่ผ่านมา มีคำตัดสินจากสหรัฐอเมริกาที่ไม่ให้จดลิขสิทธิ์กับชิ้นงานศิลปะที่ถูกสร้างโดย AI ผู้พิพากษาให้เหตุผลว่า ชิ้นงานศิลปะที่สามารถจดลิขสิทธิ์ได้จำเป็นต้องมีส่วนร่วม และความคิดสร้างสรรค์จากมนุษย์ แต่มุมมองของผู้ฟ้องคือ Stephen Thaler เจ้าของ AI Creativity Machine ของบริษัท Imagination Engines ได้แสดงความเห็นว่า ผู้พัฒนาระบบ AI ก็เป็นคนสร้างสรรค์เหมือนกัน ซึ่งผู้พิพากษาก็ปัดตกความเห็นนั้นไปในภายหลัง

A Recent Entrance to Paradise
ภาพที่เป็นประเด็นมีชื่อว่า A Recent Entrance to Paradise

ในคำตัดสินยังมีการยกตัวอย่างของภาพที่สามารถจดลิขสิทธิ์ได้คือ ภาพถ่ายจากกล้อง ที่มีมนุษย์เป็นผู้ร่วมออกแบบ และสร้างสรรค์ทั้งการจัดวางตำแหน่งแบบ รูปแบบของภาพ แสง

ซึ่งถ้ากฎนี้เป็นที่ยอมรับกันทั่วโลก หมายความว่า ถ้าเราเห็นภาพจาก AI เป็นปกหนังสือ เป็นผลงานต่าง ๆ เราก็ดึงมาใช้ต่อได้เลย โดยไม่ต้องไปจ่ายเงินให้คนสร้างภาพ AI นั้นขึ้นมา

แล้วอนาคตวงการศิลปะจะเป็นอย่างไร

เรามองว่าการประท้วงของศิลปิน ว่า AI ดึงเอาผลงานของตัวเองไปฝึกนั้น ทำได้แค่ประวิงเวลาให้ AI เก่งช้าลง เพราะสุดท้ายแล้ว ถึงจะห้าม AI เอาภาพที่มีสิขสิทธิ์ทั้งหมดไปเทรน แต่ภาพที่เป็น Public Domain ก็มากพอจะทำให้ AI วาดรูปได้ แม้จะไม่ใช่ลายเส้นที่ต้องการ แต่ก็แทนความต้องการนักวาดได้บางส่วน

ภาพจาก Midjourney

งานวาดจึงน่าจะแบ่งออกเป็น 2 ทางคือ

  1. งานวาดภาพประเภทต้องใช้เยอะ ๆ ต้องการด่วน ๆ เช่นงานภาพประกอบข่าว ภาพประกอบเนื้อหา หรือภาพสำหรับนำเสนอเร็ว ๆ ก็เป็น AI วาดไป เพราะงานแบบนี้ไม่ต้องการศิลปินดัง แล้วผู้เสพไม่ได้พิจารณารายละเอียดภาพ เป็นภาพประกอบที่ดูผ่านเร็ว ๆ
  2. ส่วนงานอีกแบบเป็น งานที่ศิลปินต้องหวงแหนคือ ศิลปะที่สร้างมูลค่าเพิ่มให้ตัวเอง ต้องเป็นเรา ชื่อเราเท่านั้นถึงจะมีมูลค่า หรืองานภาพที่ผู้จ้างต้องการจดลิขสิทธิ์ภาพ งานที่ต้องลงรายละเอียด มีความต้องการงานเฉพาะตัว อันนี้ AI แทนงานฝีมือไม่ได้

ปฏิเสธไม่ได้ว่า AI จะเข้ามาแย่งงานศิลปิน แต่ถ้ามองอีกมุม มันก็คือการสร้างโอกาสใหม่ ๆ ให้มนุษย์โลกเหมือนกัน มันทำให้ทั้งโลกเข้าถึงงานวาดได้ง่ายขึ้น เอาไปใช้งานได้บ่อยขึ้น ถี่ขึ้น เอางานวาดไปประกอบงานอื่น ๆ ให้สวยขึ้นได้ แต่งานเหล่านี้จะไม่มีลิขสิทธิ์ เพื่อให้นักวาดตัวจริงไม่สามารถถูก AI ทดแทนได้

พิสูจน์อักษร : สุชยา เกษจำรัส