4 ปัจจัยสนับสนุนการพัฒนา LLM ภาษาไทย และประเทศจะได้อะไรจากการทำ LLM Benchmarking

สรุปสาระจากเสวนา Advancing Thai Large Language Models (LLM): Towards Socially Preferred Development, Testing, and Benchmarking” ในงาน DGT 2024 เสวนาว่าด้วยเรื่องราวความก้าวหน้าของการพัฒนา LLM ภาษาไทย ความท้าทาย และปัจจัยสนับสนุน รวมถึงทิศทางของการกำหนดกฏหมาย มาตรฐาน จริยธรรมที่ตอบโจทย์และเหมาะสมกับ LLM ภาษาไทย พร้อมแนะนำเครื่องมือการทำ Benchmarking ของ LLM ภาษาไทยโดยเฉพาะ เมื่อวันที่ 30 พฤษภาคม ที่ผ่านมา
 

4 ปัจจัยสนับสนุนการพัฒนา LLM ภาษาไทย

ดร.ชัย วุฒิวิวัฒน์ชัย ผู้อำนวยการเนคเทค สวทช. กล่าวถึงความท้าทายอันดับหนึ่งของการพัฒนา LLM ภาษาไทย คือ ‘ข้อมูล’ ความท้าทายซึ่งต้องทำ Data Cleansing และต้องเลือกข้อมูลให้ครอบคลุมหลากหลายบริบท และไม่ติดลิขสิทธิ์ อีกทั้งต้องใช้ทรัพยากรคอมพิวเตอร์จำนวนมากในการเทรนด์ข้อมูล โดยเฉพาะอย่างยิ่งหากต้องการปรับแต่งโมเดลให้เฉพาะเจาะจงกับงานในบริบทต่าง ๆ (Fine-tuning) ซึ่ง Supercomputer มีบทบาทสำคัญในกระบวนการนี้ ในขณะเดียวกันก็ต้องการบุคลากรซึ่งมีทักษะที่สามารถต่อยอด LLM ให้ไปตอบโจทย์ที่เฉพาะเจาะจงกับธุรกิจ และ ประเทศได้
 
 
จากมุมมองด้านความท้าทายดังกล่าว ดร.ชัย ได้เสนอ 4 ปัจจัยสนับสนุนของการพัฒนา LLM ภาษาไทย ได้แก่
 
1. สนับสนุน Open Source
คอมมูนิตี้ผู้พัฒนา LLM ภาษาไทยในประเทศ มักเริ่มต้นจาก Open Source แม้ในต่างประเทศอาจมองว่า Open Source ก่อให้เกิดความเสี่ยง แต่ในมุมมองของ ดร.ชัย มองว่าการใช้ Open Sourcee เป็นจุดเริ่มต้นนั้นจำเป็นกับประเทศกำลังพัฒนา และเป็นปัจจัยที่ทำให้ประเทศไทยเริ่มต้นได้เร็ว มีคอมมูนิตี้ที่เท่าทันเทคโนโลยี AI ที่พัฒนาอย่างรวดเร็ว ยกตัวอย่างจากผล Benchmarking ที่ LLM ของ OpenThaiGPT อยู่ในอันดับที่ดีกว่า LLM ของสิงคโปร์แม้ว่าจะมีทรัพยากรที่น้อยกว่านั้น มองได้ว่า LLM ของสิงคโปร์ต้องจัดสรรทรัพยากรที่มีจำกัดเพื่อพัฒนาหลากภาษาในอาเซียน ประกอบกับมีข้อมูลในแต่ละภาษาที่จำกัดด้วย
 
2. สนับสนุนข้อมูลแบบเปิดและการแชร์ข้อมูล (Open Data & Data Sharing)
ประเทศไทยมีข้อมูลดิจิทัลมหาศาลที่สามารถนำมาสนับสนุนการพัฒนา LLM และ เทคโนโลยีอื่น ๆ ได้ แต่ยังมีข้อจำกัดด้านการเข้าถึงข้อมูลจากแหล่งต่าง ๆ ซึ่งเป็นประเด็นที่ละเอียดอ่อน รวมถึงต้องสนับสนุนการทำให้ข้อมูลนั้นปลอดลิขสิทธิ์ให้ได้มากที่สุดและแบ่งปันข้อมูลร่วมกัน
“เวที Benchmarking เป็นหนึ่งในเทคนิคการทำ Data Sharing ในต่างประเทศ ซึ่งจะแชร์ข้อมูลกันอยู่ภายในกลุ่มปิดที่มีขนาดใหญ่มาก ในขณะเดียวกันก็นำผลจากการทดสอบไปเป็นคำแนะนำใน ISO เพื่อนำไปสร้างมาตรฐานในระดับสากล” ดร.ชัย อธิบาย
 
3. สนับสนุนการพัฒนากำลังคน
“การต่อยอด LLM ไปสู่ Use Case ต้องการกำลังคนอีกเยอะมาก ยกตัวอย่าง เนคเทคพัฒนา Foundation Model ของ OpenThaiGPT ร่วมกับ AIEAT มีบุคลากรไม่เกิน 20 คน ในขณะที่มีบริษัทเอกชนและหน่วยงานราชการขอให้เราทำ Fine-tuning จำนวนมาก ซึ่งแต่ละงานอาจใช้เวลาอย่างน้อย 2-3 เดือน”
.
4. แผน AI แห่งชาติเป็นศูนย์กลาง
แผนปฏิบัติการด้านปัญญาประดิษฐ์แห่งชาติเพื่อการพัฒนาประเทศไทย ถือเป็นศูนย์กลางในการสนับสนุนการพัฒนา AI ของประเทศ รวมถึงในบริบทของการพัฒนา LLM ภาษาไทย ตั้งแต่เรื่องเตรียมโครงสร้างพื้นฐาน อย่าง ‘Lanta’ – Supercomputer โดย ThaiSC สวทช. เรื่องการพัฒนากำลังคน รวมถึงเรื่องจริยธรรมกฎระเบียบที่จะช่วยขับเคลื่อนการพัฒนาโมเดลที่ไม่เป็นอันตรายต่อสังคม
 
นอกจากนี้ ดร.ชัย ยังได้กล่าวถึง บทบาทของเนคเทค สวทช. ที่มองว่าการทดสอบประเมินประสิทธิภาพของ LLM ภาษาไทยเป็นงานที่สำคัญ เพื่อให้เห็นความก้าวหน้าของโมเดลในคอมมูนิตี้ของไทย สามารถนำผลวัดเทียบไปใช้ในเชิงธุรกิจได้เช่นเดียวกันกับ LLM ของต่างประเทศ
 
ซึ่งการวัดเทียบประสิทธิภาพของ LLM หรือ LLM Benchmarking ในทางปฏิบัติต้องให้ผู้ใช้งานเป็นคนประเมินว่าชอบ หรือ ไม่ชอบ ซึ่งเนคเทค สวทช. ได้พัฒนา “Chatbot Arena” เป็นเครื่องมือในประเมิน LLM ภาษาไทย โดยอาศัยความคิดเห็นจากผู้ใช้ โดยนำ LLM ภาษาไทย จากแหล่งต่าง ๆ มาสร้างเป็น Chatbot เมื่อผู้ใช้ถามคำถามเข้าไประบบจะเลือก Model 2 ตัวเพื่อสร้างคำตอบให้ผู้ใช้เลือกว่าถูกใจคำตอบของโมเดลใดมากกว่ากัน ซึ่งเป็นวิธีเดียวกันกับ ChatGPT ในปัจจุบัน ซึ่งสามารถนำข้อมูล Chatbot Arena จะถูกประเมินและจัดอันดับโมเดลผ่าน Leaderboard นอกจากนี้ยังสามารถนำข้อมูล มาทำ Reinforcement learning (RL) เป็น Machine Learning Algorithm แบบหนึ่ง ที่มีหลักการทำงานเสมือนกับการที่มนุษย์เรียนรู้บางสิ่งบางอย่างด้วยการลองผิดลองถูก และมีการเรียนรู้เกิดขึ้นระหว่างทางว่าการกระทำไหนดีหรือไม่ดี (สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน), 2020) ลองใช้ Chatbot Arena ได้ที่ abdul.in.th/arena/
 
 
 

ไม่สกัดกั้นการพัฒนา แต่เป็นเพื่อนคู่คิด บทบาทของ ETDA กับการทำ AI Governance

ความก้าวหน้าของ AI ที่พัฒนาไปอย่างรวดเร็ว เป็นเหตุผลหลักที่ทำให้ ดร.ศักดิ์ เสกขุนทด ที่ปรึกษาผู้ทรงคุณวุฒิด้าน Digital Transformation สำนักงานพัฒนาธุรกรรมทางอิเล็กทรอนิกส์ ETDA มองว่า การควบคุมดูแล AI ในไทยยังไม่ควรเร่งรีบออกเป็นกฎหมาย แต่ไม่ได้หมายความว่าไม่ทำอะไรเลย “ยกตัวอย่างกฎหมาย AI ฉบับแรกของโลกอย่าง AI ACT ของสหภาพยุโรป ที่กล่าวว่าหากผู้พัฒนาจะสร้าง AI ที่มีความเสี่ยงในระดับต่าง ๆ จะต้องมีภาระเพิ่มเติมในการประเมินความเสี่ยง ประเมินผลกระทบ ซึ่งถือเป็นภาระของทั้งนักพัฒนา และ ผู้ตรวจประเมิน” ดังนั้น ในประเด็นของ LLM การทำ Benchmarking เป็นสิ่งที่ควรดำเนินการ เพื่อดูข้อจำกัด และ ความเสี่ยงทั้งแบบทั่วไปและบริบทประเทศไทย เพื่อให้ผู้พัฒนาปรับ และผู้ใช้ได้ประเมินด้วยตนเองในลักษณะ Self Regulation ในการเลือกใช้ AI ของบริษัทใด ๆ
 
“ภายใต้บทบาทของ ETDA การทำ AI Governance เราไม่อยากที่จะไปสกัดกั้นการพัฒนาในช่วงแรก แต่มาเป็นเพื่อนคู่คิด เราออกไกด์ไลน์ ออกเครื่องมือ ให้องค์กรได้คิดต่อ เรื่องการสร้างสมดุลระหว่างความเสี่ยง และ ประโยชน์ที่จะได้รับจากการใช้ AI” ดร.ศักดิ์ กล่าว
 
ยกตัวอย่าง ในอดีตเคยมีไอเดีย ‘ตู้ยา AI ใกล้บ้าน’ ให้ประชาชนเดินเข้าไปปรึกษา และรับยาได้ทันที ซึ่งเป็นการใช้ AI ที่มีความเสี่ยงสูง เกิดผลกระทบโดยตรงต่อชีวิตประชาชน ดังนั้น คำถาม คือ บริษัท หรือ องค์กร พร้อมที่จะรับผิดชอบต่อความเสี่ยงนั้นหรือไม่ หากไม่พร้อม การสร้างสมดุล อาจทำได้โดยให้จ่ายยาได้เฉพาะยาสามัญที่ไม่มีผลกระทบต่อชีวิตประชาชน เป็นต้น
 
นอกจากนี้ ดร.ศักดิ์ เสนอว่า การทำ AI Governance ในไทย นอกจากจะแบ่งเป็นระดับประเทศ ระดับองค์กรแล้ว ควรลงไปในระดับ Sector ด้วย ไม่ควรที่จะออกกฎหมาย AI กฎเดียวแล้วบังคับครอบคลุมทุกด้าน แต่ต้องพิจารณากฎตามความสำคัญ และบริบทของแต่ละ Sector
 
ยกตัวอย่าง หนึ่งในจริยธรรมด้าน AI คือ ‘การใช้ AI ต้องปราศจากการเลือกปฏิบัติ’ ซึ่งเหมาะกับบริบทด้านการแพทย์สาธารณสุข คือ ไม่ว่าคนไข้จะชนชาติใด เพศ อายุ AI ต้องไม่เลือกปฏิบัติ ในทางกลับกันอาจไม่เหมาะกับบริบทการเงินการธนาคารที่ใช้ AI ในการพิจารณาสินเชื่อ ที่ต้องใช้เงินเดือน รายรับเป็นปัจจัยชี้วัด เป็นต้น

‘OpenThaiGPT’ LLM ภาษาไทย เพื่ออธิปไทย AI ของประเทศ

ดร.กอบกฤตย์ วิริยะยุทธ นายกสมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT) กล่าวถึง ‘OpenThaiGPT’ พัฒนาขึ้นเพื่ออธิปไตยทาง AI ของประเทศ ด้วย OpenThaiGPT เป็นโมเดลแชทภาษาไทยขนาดใหญ่ขนาด 7, 13 และ 70 พันล้านพารามิเตอร์ ซึ่งพัฒนาต่อยอดจาก Facebook LLaMA v2 ให้มีความสามารถในการเข้าใจและเขียนภาษาไทยได้ เปิดโค้ดและโมเดลอย่างเสรี (Opensource) ให้ทุกคนสามารถนำไปพัฒนาต่อยอดหรือแม้กระทั่งการทำการค้าได้ (Apache 2.0 License) เพื่อเป็นโครงสร้างพื้นฐานด้าน AI สำหรับคนไทยทุกคน ปัจจุบันได้มีนักพัฒนานำโค้ดไปพัฒนาต่อยอดทางธุรกิจไปกว่า 3,000 ครั้ง
 
“ในขณะที่ AI เป็น Mega Trend แล้วประเทศไทยควรจะอยู่ในจุดไหนในห่วงโซ่อุปทานด้าน AI ของโลก หลาย ๆ ท่านเห็นว่าเราควรจะเอา AI มาเสริมในสิ่งที่ประเทศไทยแข็งแกร่งที่สุด คือ ด้าน Hospitality ที่ครอบคลุมทั้งการท่องเที่ยว การดูแลผู้สูงอายุ ผู้ป่วย อาหาร ซึ่งอยู่ในแผนที่เราคิดว่า OpenThaiGPT น่าจะช่วยได้” ดร.กอบกฤตย์ อธิบาย
“OpenThaiGPT ช่วยส่งเสริม AI Startup ของคนไทย เพราะว่าเราจะได้โมเดลที่สามารถ inference ได้ฟรี โดยที่ไม่ต้องเสียค่าใช้จ่าย ยกเว้น ค่าเครื่อง CPU และเป็น Open Source ปรับจูน ต่อสกิลเพิ่มสกิลได้ ลดการพึ่งพาเทคโนโลยีจากต่างประเทศ ลดปัญหาข้อมูลที่ไหลเวียนไปต่างประเทศได้ เราคาดว่าการร่วมมือกับทุกภาคส่วนจะช่วยสร้างโครงสร้างพื้นฐานหลักด้าน AI เพื่อความมั่นคงทางเทคโนโลยีของประเทศไทย”ดร.กอบกฤตย์ กล่าวทิ้งท้าย
 
งาน DGT2024 (Digital Governance Thailand 2024) จัดโดย ETDA (เอ็ตด้า) กระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม ชูแนวคิด “Digital Momentum for the Future” ที่ไม่เพียงยกทัพพาร์ทเนอร์ภาครัฐ เอกชน รวมถึง Tech Company ชั้นนำของไทยและต่างประเทศ รวมกว่า 120 องค์กร ยังเป็นโอกาสที่ทาง รมว.ดีอี ได้พูดคุยกับ Service Provider เพื่อร่วมหารือแนวทางการสนับสนุน ด้วยนโยบายรัฐบาลได้มีวิสัยทัศน์ที่ต้องการขับเคลื่อนไทยสู่การเป็นศูนย์กลางเศรษฐกิจดิจิทัล (Digital Economy Hub) ซึ่งในงานจะมีทั้งเวทีแลกเปลี่ยนมุมมอง โชว์เคสนวัตกรรม พร้อมกิจกรรม Business Matching งานนี้จัดขึ้นสำหรับ SMEs หน่วยงานภาคธุรกิจ ภาครัฐที่ต้องการ Transform รวมถึงคนรุ่นใหม่ที่สนใจอัปเดต

Share to...

Facebook
Twitter
Email