ท่ามกลางความก้าวหน้าอย่างก้าวกระโดดของเทคโนโลยี AI ปัญหาหนึ่งที่ยังเป็นกำแพงใหญ่คือ โมเดลส่วนมากยังไม่รองรับ “ภาษาถิ่น” ได้ดีพอ ด้วยเหตุนี้ SCB 10X บริษัทในเครือ SCBX จึงเดินหน้าพัฒนา “Typhoon Isan” (ไต้ฝุ่น อีสาน) โมเดลถอดเสียงภาษาอีสานที่ไม่ใช่แค่ฟังไทยออก แต่สามารถ “เว่าอีสาน” ได้ด้วย พร้อมเปิดเป็น Open-Source ให้นักพัฒนานำไปต่อยอดได้ทันที

ทำความรู้จัก “Typhoon Isan”
Typhoon Isan คือส่วนหนึ่งโครงการ Open-Source AI Initiative จากทีมวิจัย SCB 10X ที่มุ่งพัฒนาโมเดล AI ให้เข้าใจบริบทของประเทศไทยอย่างลึกซึ้ง ทั้งในรูปแบบข้อความ เสียง และภาพ โดยล่าสุดได้เปิดตัวผลงานซีรีส์ใหม่ภายใต้คอนเซปต์ “TYPHOON เฮ็ดให้ AI ใจอีสาน” ได้แก่
- Typhoon Isan ASR (Automatic Speech Recognition) โมเดลหลักที่เป็น Open-Source สามารถถอดเสียงภาษาอีสานออกมาเป็นข้อความได้อย่างแม่นยำและเป็นระบบรายแรก
- Typhoon Isan TTS (Text-to-Speech) โมเดลแปลงข้อความกลับเป็นเสียงพูดภาษาอีสานได้อย่างเป็นธรรมชาติ
ที่ทำให้ AI สามารถ “เว้าอีสาน” ได้อย่างเป็นธรรมชาติ
นอกจากนี้ ยังมีการเปิดเผยชุดข้อมูล Open Data เพื่อวางรากฐานให้นักพัฒนา ประกอบด้วย - Isan Speech Transcription Convention : แนวทางการถอดเสียงภาษาอีสานเป็นข้อความสำหรับการสร้างชุดข้อมูลเพื่องานด้านเทคโนโลยีทางเสียง
- Isan Spelling Standard : อักขรวิธีการสะกดคำอีสานด้วยอักษรไทย
- Isan Speech Corpus : คลังข้อมูลเสียงภาษาอีสานจากหลากหลายจังหวัดในภาคตะวันออกเฉียงเหนือ
- Isan Phonetic Dictionary : พจนานุกรมคำอ่านที่เชื่อมโยงคำกับการออกเสียงในภาษาอีสาน
ทำไมต้องเริ่มที่ “ภาษาอีสาน”
ที่ผ่านมา เทคโนโลยีถอดเสียง (ASR) มักสะดุดเมื่อเจอกับภาษาถิ่น เพราะขาดแคลนข้อมูลในระบบดิจิทัล ทำให้ AI จับใจความหรือสำเนียงผิดเพี้ยน SCB 10X จึงเลือกประเดิมด้วย “ภาษาอีสาน” เนื่องจากมีผู้ใช้งานจริงกว่า 20 ล้านคน หรือ 1 ใน 3 ของประชากรไทย ซึ่งกระจายตัวอยู่ในทุกอุตสาหกรรม และหากมองในเรื่องของเศรษฐกิจแล้ว ภาคอีสานสามารถสร้างมูลค่า GDP รวมกว่า 1.8 แสนล้านบาท คิดเป็น 10% ของมูลค่าเศรษฐกิจไทย
การทำให้ AI เข้าใจภาษาอีสาน จึงไม่ใช่แค่เรื่องของการอนุรักษ์วัฒนธรรม แต่คือการ “ปลดล็อก” การสื่อสารและธุรกรรมในโลกดิจิทัลให้ครอบคลุมมากขึ้น

ความท้าทายของ “ภาษา” อีกขั้นของต่อยอด

โจทย์ที่ยากที่สุดของการพัฒนา AI ภาษาอีสาน คือการที่ภาษานี้เป็น “ภาษาพูด” ที่ยังไม่มีมาตรฐานการเขียนที่ชัดเจน ทำให้การเทรน AI ทำได้ยาก ทีมวิจัย SCB 10X จึงร่วมมือกับนักภาษาศาสตร์ ชุมชนท้องถิ่น และผู้เชี่ยวชาญ พัฒนาโครงการ Typhoon Isan เพื่อวางรากฐานใหม่ทั้งหมด ได้แก่
- กำหนดนิยามของอิสาน : จำแนกสำเนียงต่าง ๆ ในถิ่นอีสานและหาลักษณะสำคัญร่วมกัน เพื่อคนส่วนใหญ่เข้าใจตรงกัน
- สร้างระบบการสะกดคำ : อักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย เช่น กระโปรเหี้ยน ข้อยเป็นคนอีสาน
- สร้างวิธีเก็บข้อมูลเสียงพูด : ชุดข้อมูลเสียงพูดภาษาอีสานจากเจ้าของภาษา ให้พูดออกมาเป็นธรรมชาติ
- สร้างกระบวนการกำกับข้อมูล : เพื่อให้ได้ข้อมูลที่มีคุณภาพและแม่นยำมากขึ้นจึงได้มีการกำกับข้อมูลอยู่สม่ำเสมอ
Typhoon Isan ถือเป็นก้าวสำคัญที่กลุ่ม SCBX ตั้งใจขับเคลื่อนวงการ AI ไทย ด้วยการยกระดับ “ภาษาถิ่น” สู่มาตรฐานดิจิทัล พร้อมตอกย้ำความมุ่งมั่นในการพัฒนานวัตกรรมเพื่อคนไทย เพื่อสร้าง AI ที่ไม่เพียงแค่เก่ง แต่ต้อง “เข้าใจ และเข้าถึงหัวใจของคนไทยทุกคนได้มากขึ้น”