Google ใช้ AI ในการประมวลเพื่อเพิ่มภาษาใหม่อีก 110 ภาษา ลงใน Google Translate มีประสิทธิภาพมากยิ่งขึ้นด้วยโมเดล LLM ขนาดใหญ่อย่าง PaLM 2 มีจีนกวางตุ้งเพิ่มมาด้วย !!!


Google Translate ได้ทลายกำแพงด้านภาษาเพื่อช่วยให้ผู้คนเชื่อมต่อกันและเข้าใจโลกรอบตัวได้ดีขึ้น ซึ่ง Google เผยว่าใช้เทคโนโลยี Zero-Shot Machine Translation ซึ่งเป็นโมเดลแมชชีนเลิร์นนิงเรียนรู้ที่จะแปลเป็นภาษาอื่นโดยไม่เคยเห็นตัวอย่างมาก่อน และได้ประกาศโครงการริเริ่ม 1,000 ภาษา ซึ่งเป็นความมุ่งมั่นในการสร้างโมเดล AI ที่จะสนับสนุนภาษาที่พูดกันมากที่สุด 1,000 ภาษาทั่วโลก

และตอนนี้ Google กำลังใช้ AI เพื่อขยายภาษาต่างๆที่รองรับ ด้วยโมเดลภาษาขนาดใหญ่ของ PaLM 2 ทำให้ Google Translate เปิดตัวภาษาใหม่ 110 ภาษา ซึ่งเป็นส่วนขยายที่ใหญ่ที่สุดเท่าที่เคยมีมา

ภาษาใหม่เหล่านี้เป็นตัวแทนของผู้พูดมากกว่า 614 ล้านคน ตั้งแต่ภาษากวางตุ้งไปจนถึงภาษา Q'eqchi ซึ่งคิดเป็นประมาณ 8% ของประชากรโลก บางภาษาเป็นภาษาหลักของโลกที่มีผู้พูดมากกว่า 100 ล้านคน  ภาษาอื่นๆ พูดโดยชุมชนเล็กๆ ของชนเผ่าพื้นเมือง และอีกสองสามภาษาแทบไม่มีเจ้าของภาษาเลย แต่มีความพยายามในการฟื้นฟูอย่างมาก โดยประมาณ 1 ใน 4 ของภาษาใหม่มาจากโซนแอฟริกา รวมถึง Fon, Kikongo, Luo, Ga, Swati, Venda และ Wolof

และนี่คือภาษาบางส่วนที่ได้รับการสนับสนุนใหม่ใน Google Translate


อาฟาร์ (Afar) : เป็นภาษาวรรณยุกต์ที่พูดในจิบูตี เอริเทรีย และเอธิโอเปีย  ในบรรดาภาษาทั้งหมดในการเปิดตัวครั้งนี้ Afar ได้รับการสนับสนุนจากชุมชนอาสาสมัครมากที่สุด

ภาษากวางตุ้ง : เป็นภาษาหนึ่งที่ถูกร้องขอมากที่สุดมายาวนาน  เนื่องจากภาษากวางตุ้งมักจะซ้อนทับกับภาษาจีนกลางในการเขียน การหาข้อมูลและฝึกโมเดลจึงเป็นเรื่องยาก

แมงซ์ (Manx) : คือภาษาเซลติกของเกาะแมงซ์ มันเกือบจะสูญพันธุ์ไปพร้อมกับการตายของเจ้าของภาษาคนสุดท้ายในปี 1974 แต่ต้องขอบคุณขบวนการฟื้นฟูทั่วเกาะ ทำให้ปัจจุบันมีผู้พูดหลายพันคน

NKo : เป็นรูปแบบมาตรฐานของภาษา Manding ของแอฟริกาตะวันตกที่รวมภาษาถิ่นหลายภาษาให้เป็นภาษากลาง ตัวอักษรที่เป็นเอกลักษณ์ของมันถูกประดิษฐ์ขึ้นในปี 1949 และมีชุมชนการวิจัยที่กระตือรือร้นซึ่งพัฒนาทรัพยากรและเทคโนโลยีในปัจจุบัน

ปัญจาบ (ชาห์มูกี) : คือภาษาปัญจาบที่หลากหลายซึ่งเขียนด้วยอักษรเปอร์เซีย-อารบิก (ชาห์มูกี) และเป็นภาษาที่พูดมากที่สุดในปากีสถาน

Tamazight (Amazigh) : เป็นภาษาที่พูดกันทั่วแอฟริกาเหนือ  แม้ว่าจะมีหลายภาษา แต่โดยทั่วไปรูปแบบการเขียนก็สามารถเข้าใจร่วมกันได้ เขียนด้วยสคริปต์ละตินและสคริปต์ Tifinagh ซึ่ง Google Translate รองรับทั้งคู่

Tok Pisin : เป็นครีโอลที่ใช้ภาษาอังกฤษและเป็นภาษากลางของประเทศปาปัวนิวกินี 

เกณฑ์ในการเลือกภาษา

มีหลายสิ่งที่ต้องพิจารณาเมื่อเพิ่มภาษาใหม่ๆ ลงในแอปแปลภาษา ตั้งแต่ภาษาที่นำเสนอไปจนถึงการสะกดคำเฉพาะที่ใช้

ภาษามีความหลากหลายอย่างมาก : ความหลากหลายของภูมิภาค ภาษาถิ่น มาตรฐานการสะกดที่แตกต่างกัน ในความเป็นจริง หลายภาษาไม่มีรูปแบบมาตรฐาน ดังนั้นจึงเป็นไปไม่ได้ที่จะเลือกภาษาที่ "ถูกต้อง"  แนวทางของ Google คือการจัดลำดับความสำคัญของภาษาที่ใช้บ่อยที่สุดในแต่ละภาษา 

PaLM 2 เป็นส่วนสำคัญของโจทย์นี้ ซึ่งช่วยให้ Translate เรียนรู้ภาษาที่เกี่ยวข้องกันอย่างใกล้ชิดได้อย่างมีประสิทธิภาพมากขึ้น รวมถึงภาษาที่ใกล้เคียงกับภาษาฮินดี เช่น Awadhi และ Marwadi และครีโอลภาษาฝรั่งเศส เช่น Seychellois Creole และ Mauritian Creole 

อีกทั้ง Google ยังคงร่วมมือกับนักภาษาศาสตร์ผู้เชี่ยวชาญและเจ้าของภาษาอย่างใกล้ชิดอีกด้วย

Source : Google
Article By : โลกไอทีวันนี้

Comments