#รู้หรือไม่ ! API ปัญญาประดิษฐ์ของค่ายไหนที่ฉลาดพอจะแยกออกระหว่าง "สุนัขชิวาวา" และ "ขนมมัฟฟิน" !!!! Google ไหวมั้ย Microsoft ได้รึเปล่า โพสนี้มีคำตอบ !!!!



meme อินเทอร์เน็ตยอดนิยมนี้แสดงให้เห็นถึงความคล้ายคลึงกันที่น่ากลัวระหว่างสุนัขพันธุ์ชิวาวาและขนมมัฟฟิน รูปภาพเหล่านี้มีการใช้งานร่วมกันโดยทั่วไปในงานนำเสนอในอุตสาหกรรมปัญญาประดิษฐ์ (AI)



แต่มีคำถามหนึ่งที่ยังไม่เห็นใครตอบแบบชัดเจนก็คือ AI สมัยใหม่ดีเพียงใด ในการขจัดความไม่แน่นอนของภาพที่อาจมีลักษณะคล้ายกันระหว่างสุนัขชิวาวาหรือขนมมัฟฟิน? 

การจำแนกประเภทของไบนารี่เป็นไปได้ ตั้งแต่อัลกอริธึม perceptron ถูกประดิษฐ์ขึ้นในปี 1957 โดย New York Times รายงานในปี 1958 ว่า การประดิษฐ์เป็นจุดเริ่มต้นของคอมพิวเตอร์ ที่จะ "สามารถเดินพูดคุย ดู เขียน ทำซ้ำตัวเอง และ ตระหนักถึงการมีอยู่ของมัน”  ในขณะที่เครื่อง Perceptron เช่น Mark 1 ได้รับการออกแบบมาสำหรับการจดจำภาพ แต่ในความเป็นจริงแล้วพวกเขาสามารถแยกแยะรูปแบบที่แยกได้เป็นเส้นตรงเท่านั้น  สิ่งนี้ป้องกันไม่ให้พวกเขาเรียนรู้รูปแบบที่ซับซ้อนที่พบในสื่อภาพส่วนใหญ่

ไม่น่าแปลกใจที่มีการแตกแยกทางแนวคิดการพัฒนาของ AI ตั้งแต่นั้นมา การรับรู้หลายชั้น (เป็นที่นิยมในปี 1980) และ เครือข่ายประสาทเทียม (บุกเบิกโดย Yann LeCun ในปี 1998) ด้วยชุดข้อมูลขนาดใหญ่ เช่น ImageNet และการประมวลผล GPU ที่มีประสิทธิภาพ สถาปัตยกรรมเครือข่ายประสาทขั้นสูง เช่น AlexNet, VGG, Inception และ ResNet

API การมองเห็นและการจดจำรูปภาพ

หากคุณเป็นวิศวกรการเรียนรู้ของเครื่องคุณสามารถทดลองและปรับแต่งโมเดลเหล่านี้ได้อย่างง่ายดายโดยใช้โมเดลที่ผ่านการฝึกอบรมมาแล้วทั้งใน Keras / Tensorflow หรือ PyTorch  แต่หากคุณไม่ได้มีความรู้เฉพาะทางในการปรับแต่งเครือข่ายประสาทเทียมด้วยตัวคุณเอง ยักษ์ใหญ่ด้านเทคโนโลยีหลายรายได้นำเสนอ API ที่ใช้งานง่ายจำนวนมาก

#คำถาม แล้วตัวไหนดีที่สุด?  ในการตอบคำถามนี้ คุณจะต้องกำหนดเป้าหมายทางธุรกิจ กรณีการใช้ผลิตภัณฑ์การทดสอบชุดข้อมูลและตัวชี้วัดความสำเร็จอย่างชัดเจนก่อนจึงจะสามารถเปรียบเทียบโซลูชันได้

เพราะอย่างน้อยเราก็สามารถรับรู้ถึงพฤติกรรมที่แตกต่างของแต่ละแพลตฟอร์มในระดับสูง โดยการทดสอบพวกเขาด้วยปัญหาในการจำแนกวัตถุต่างๆ กรณีศึกษานี้คือสุนัขชิวาวา และ ขนมมัฟฟิน

API ปัญญาประดิษฐ์ที่นำมาทดสอบ



1.Amazon Rekognition

2.Google 

3.IBM

4.Microsoft

5.Cloudsight

6.Clarifai


ดำเนินการทดสอบ

เมื่อต้องการทำสิ่งนี้ เราได้แบ่ง canonical meme ออกเป็น 16 ภาพทดสอบ  จากนั้นใช้โค้ดโอเพนซอร์สที่เขียนโดยวิศวกร Gaurav Oberoi เพื่อรวมผลลัพธ์จาก API ที่แตกต่างกัน  แต่ละภาพจะถูกส่งผ่าน API หกรายการที่แสดงไว้ด้านบน 

ด้านล่างเป็นตัวอย่างของผลลัพธ์  หากต้องการดูผลลัพธ์ของรูปภาพชิวาวาทั้งหมด 16 รูป เมื่อเทียบกับมัฟฟินคลิก ที่นี่





API ต่างๆนั้นทำได้ดีเพียงใด  นอกเหนือจาก Microsoft ซึ่งสับสนระหว่างสุนัขกับมัฟฟิน API อื่นๆทุกรายต่างยอมรับว่ารูปภาพนั้นเป็นอาหาร  แต่ไม่มีการระบุชัดว่าอาหารนั้นเป็นขนมปัง , เค้ก , คุกกี้ หรือ มัฟฟิน แต่ Google เป็น API เดียว ที่สามารถระบุว่าเป็นมัฟฟินได้สำเร็จ

มาดูตัวอย่างของทางภาพชิวาวา



อีกครั้งที่ API ต่างๆทำได้ค่อนข้างดี  ทุกรายตระหนักว่าภาพนั้นเป็นสุนัข แม้ว่าบางเจ้าอาจพลาดสายพันธุ์ที่แน่นอน

ส่วน Microsoft ค่อนข้างมีความล้มเหลวที่แน่นอน ด้วยการคืนค่าการอธิบายภาพผิดๆอย่างโจ่งแจ้งสามครั้ง โดยอธิบายว่ามัฟฟินเป็นสัตว์ หรือ ตุ๊กตาหมี

Google เป็นตัวระบุถึงมัฟฟินที่ดีที่สุด โดยให้“ มัฟฟิน” กลับมาเป็นคำตอบสูงสุดสำหรับภาพมัฟฟิน 6 ภาพ จาก 7 ภาพ ในชุดทดสอบ ส่วนด้าน API อื่นๆไม่ส่งคืนคำตอบ“ มัฟฟิน” แต่กลับแสดงคำตอบที่เกี่ยวข้องน้อยลง เช่น “ขนมปัง”,“ คุกกี้” หรือ“ คัพเค้ก”

แม้กระทั่งแพลตฟอร์ม Machine Learning ที่ทันสมัยที่สุดในโลก ก็ยังเพิ่มความท้าทายในการแยกระหว่างชิวาวากับมัฟฟิน 

ดังนั้น Computer Vision API ตัวไหนที่ดีที่สุด?

เพื่อค้นหาคำตอบสำหรับปริศนาลึกลับที่เข้าใจยากนี้ คุณจะต้องตรงไปที่เว็บไซต์ TOPBOTS เพื่ออ่านบทความทดสอบฉบับเต็ม

Source : Free Code Camp
Article By : โลกไอทีวันนี้ 

Comments