นักวิจัยจากเกาหลีใต้สร้างปัญญาประดิษฐ์โมเดลภาษาขนาดใหญ่ (LLM) ตัวใหม่ที่ใช้ข้อมูลจากดาร์กเว็บในการฝึก มีชื่อว่า DarkBERT

DarkBERT อยู่บนฐานของสถาปัตยกรรมที่ชื่อ RoBERTa ซึ่งได้รับการพัฒนาในปี 2019 ซึ่งผู้พัฒนาพบว่ายังสามารถดึงศักยภาพของ RoBERTa ออกมาได้มากกว่าเมื่อครั้งเปิดตัว

ทีมวิจัยเข้าไปรวบรวมข้อมูลจากเครือข่าย Tor ซึ่งใช้ในการเข้าสู่ดาร์กเว็บ จากนั้นกรองข้อมูลดิบที่ได้มาด้วยกลวิธีต่าง ๆ เพื่อสร้างฐานข้อมูลดาร์กเว็บขึ้นมา และนำไปใช้ฝึก RoBERTa จนกำเนิดเป็น DarkBERT

ผลก็คือ DarkBERT เป็น LLM ที่ได้รับการฝึกจนสามารถวิเคราะห์และดึงเนื้อหาที่เป็นประโยชน์จากดาร์กเว็บได้

ทีมวิจัยเชื่อว่า DarkBERT จะช่วยให้นักวิจัยและหน่วยงานบังคับใช้กฎหมายทำความเข้าใจและทะลวงเข้าไปในดาร์กเว็บได้ลึกมากยิ่งขึ้น

ที่มา Tom’s Hardware

พิสูจน์อักษร : สุชยา เกษจำรัส