Google ใช้ AI ในการประมวลเพื่อเพิ่มภาษาใหม่อีก 110 ภาษา ลงใน Google Translate มีประสิทธิภาพมากยิ่งขึ้นด้วยโมเดล LLM ขนาดใหญ่อย่าง PaLM 2 มีจีนกวางตุ้งเพิ่มมาด้วย !!!
Google Translate ได้ทลายกำแพงด้านภาษาเพื่อช่วยให้ผู้คนเชื่อมต่อกันและเข้าใจโลกรอบตัวได้ดีขึ้น ซึ่ง Google เผยว่าใช้เทคโนโลยี Zero-Shot Machine Translation ซึ่งเป็นโมเดลแมชชีนเลิร์นนิงเรียนรู้ที่จะแปลเป็นภาษาอื่นโดยไม่เคยเห็นตัวอย่างมาก่อน และได้ประกาศโครงการริเริ่ม 1,000 ภาษา ซึ่งเป็นความมุ่งมั่นในการสร้างโมเดล AI ที่จะสนับสนุนภาษาที่พูดกันมากที่สุด 1,000 ภาษาทั่วโลก
และตอนนี้ Google กำลังใช้ AI เพื่อขยายภาษาต่างๆที่รองรับ ด้วยโมเดลภาษาขนาดใหญ่ของ PaLM 2 ทำให้ Google Translate เปิดตัวภาษาใหม่ 110 ภาษา ซึ่งเป็นส่วนขยายที่ใหญ่ที่สุดเท่าที่เคยมีมา
ภาษาใหม่เหล่านี้เป็นตัวแทนของผู้พูดมากกว่า 614 ล้านคน ตั้งแต่ภาษากวางตุ้งไปจนถึงภาษา Q'eqchi ซึ่งคิดเป็นประมาณ 8% ของประชากรโลก บางภาษาเป็นภาษาหลักของโลกที่มีผู้พูดมากกว่า 100 ล้านคน ภาษาอื่นๆ พูดโดยชุมชนเล็กๆ ของชนเผ่าพื้นเมือง และอีกสองสามภาษาแทบไม่มีเจ้าของภาษาเลย แต่มีความพยายามในการฟื้นฟูอย่างมาก โดยประมาณ 1 ใน 4 ของภาษาใหม่มาจากโซนแอฟริกา รวมถึง Fon, Kikongo, Luo, Ga, Swati, Venda และ Wolof
และนี่คือภาษาบางส่วนที่ได้รับการสนับสนุนใหม่ใน Google Translate
อาฟาร์ (Afar) : เป็นภาษาวรรณยุกต์ที่พูดในจิบูตี เอริเทรีย และเอธิโอเปีย ในบรรดาภาษาทั้งหมดในการเปิดตัวครั้งนี้ Afar ได้รับการสนับสนุนจากชุมชนอาสาสมัครมากที่สุด
ภาษากวางตุ้ง : เป็นภาษาหนึ่งที่ถูกร้องขอมากที่สุดมายาวนาน เนื่องจากภาษากวางตุ้งมักจะซ้อนทับกับภาษาจีนกลางในการเขียน การหาข้อมูลและฝึกโมเดลจึงเป็นเรื่องยาก
แมงซ์ (Manx) : คือภาษาเซลติกของเกาะแมงซ์ มันเกือบจะสูญพันธุ์ไปพร้อมกับการตายของเจ้าของภาษาคนสุดท้ายในปี 1974 แต่ต้องขอบคุณขบวนการฟื้นฟูทั่วเกาะ ทำให้ปัจจุบันมีผู้พูดหลายพันคน
NKo : เป็นรูปแบบมาตรฐานของภาษา Manding ของแอฟริกาตะวันตกที่รวมภาษาถิ่นหลายภาษาให้เป็นภาษากลาง ตัวอักษรที่เป็นเอกลักษณ์ของมันถูกประดิษฐ์ขึ้นในปี 1949 และมีชุมชนการวิจัยที่กระตือรือร้นซึ่งพัฒนาทรัพยากรและเทคโนโลยีในปัจจุบัน
ปัญจาบ (ชาห์มูกี) : คือภาษาปัญจาบที่หลากหลายซึ่งเขียนด้วยอักษรเปอร์เซีย-อารบิก (ชาห์มูกี) และเป็นภาษาที่พูดมากที่สุดในปากีสถาน
Tamazight (Amazigh) : เป็นภาษาที่พูดกันทั่วแอฟริกาเหนือ แม้ว่าจะมีหลายภาษา แต่โดยทั่วไปรูปแบบการเขียนก็สามารถเข้าใจร่วมกันได้ เขียนด้วยสคริปต์ละตินและสคริปต์ Tifinagh ซึ่ง Google Translate รองรับทั้งคู่
Tok Pisin : เป็นครีโอลที่ใช้ภาษาอังกฤษและเป็นภาษากลางของประเทศปาปัวนิวกินี
เกณฑ์ในการเลือกภาษา
มีหลายสิ่งที่ต้องพิจารณาเมื่อเพิ่มภาษาใหม่ๆ ลงในแอปแปลภาษา ตั้งแต่ภาษาที่นำเสนอไปจนถึงการสะกดคำเฉพาะที่ใช้
ภาษามีความหลากหลายอย่างมาก : ความหลากหลายของภูมิภาค ภาษาถิ่น มาตรฐานการสะกดที่แตกต่างกัน ในความเป็นจริง หลายภาษาไม่มีรูปแบบมาตรฐาน ดังนั้นจึงเป็นไปไม่ได้ที่จะเลือกภาษาที่ "ถูกต้อง" แนวทางของ Google คือการจัดลำดับความสำคัญของภาษาที่ใช้บ่อยที่สุดในแต่ละภาษา
PaLM 2 เป็นส่วนสำคัญของโจทย์นี้ ซึ่งช่วยให้ Translate เรียนรู้ภาษาที่เกี่ยวข้องกันอย่างใกล้ชิดได้อย่างมีประสิทธิภาพมากขึ้น รวมถึงภาษาที่ใกล้เคียงกับภาษาฮินดี เช่น Awadhi และ Marwadi และครีโอลภาษาฝรั่งเศส เช่น Seychellois Creole และ Mauritian Creole
อีกทั้ง Google ยังคงร่วมมือกับนักภาษาศาสตร์ผู้เชี่ยวชาญและเจ้าของภาษาอย่างใกล้ชิดอีกด้วย
Source : Google
Article By : โลกไอทีวันนี้
Comments
Post a Comment