เทคโนโลยีของอาลีบาบาทำคะแนนได้สูงที่สุด ในการทดสอบ VQA Challenge แซงหน้าผู้แข่งขันที่เป็นมนุษย์

เทคโนโลยีของอาลีบาบาทำคะแนนได้เป็นอันดับที่ 1 ในตารางผู้นำของ VQA (Visual Question Answering) Leaderboard ระดับโลกปีล่าสุด และยังทำคะแนนได้มากกว่ามนุษย์ในการตอบคำถามจากชุดภาพเดียวกัน ในปีนี้ยังถือเป็นครั้งแรกที่คอมพิวเตอร์ทำผลงานได้ดีกว่ามนุษย์ในการพิจารณาภาพและตอบคำถามที่เป็นข้อความ โดยอัลกอริธึ่มของอาลีบาบาสร้างสถิติตอบคำถามได้ถูกต้อง 81.26% เทียบกับมนุษย์ที่ตอบถูก 80.83% (โดยใช้ชุดภาพและชุดคำถามที่เป็นมาตรฐานเดียวกัน)

การทดสอบนี้เริ่มต้นขึ้นเมื่อปี 2558 โดย CVPR หรือ การประชุมวิชาการด้านคอมพิวเตอร์วิทัศน์และการจดจำรูปแบบ และมีการจัดต่อเนื่องมาทุกปี โดยมีบริษัทเทคโลโนยีระดับโลกเข้าร่วมมากมาย เช่น เฟซบุ๊ก ไมโครซอฟต์ และมหาวิทยาลัยสแตนฟอร์ด ในการทดสอบจะแสดงภาพถ่ายและคำถามเป็นตัวอักษร จากนั้นจะให้มนุษย์และคอมพิวเตอร์ที่เข้าทดสอบตอบคำถามให้ถูกต้องเป็นภาษามนุษย์ ในปีนี้ใช้ภาพถ่ายมากกว่า 250,000 ภาพและคำถามมากกว่า 1.1 ล้านคำถามในการทดสอบ

โมเดลของอาลีบาบา ชื่อ “AliceMind” ทำคะแนนได้สูงสุดในตารางผู้นำ VQA Leaderboard ทั่วโลก

ปรากฏการณ์ที่ทำให้สมองกลอัจฉริยะสามารถตอบคำถามจากภาพได้อย่างฉลาด เกิดจากการออกแบบนวัตกรรมอัลกอริธึ่มของสถาบันอาลีบาบา ต๋าโหมว (DAMO) ซึ่งเป็นหน่วยวิจัยและพัฒนาระดับโลกของอาลีบาบา กรุ๊ป ที่ได้นำเทคโนโลยีอันเป็นเอกสิทธิ์ของอาลีบาบา เช่น การสร้างภาพเสมือนจริงอย่างหลากหลาย โมเดลการฝึกภาษาแบบพหุวิธี เทคโนโลยีเชื่อมต่อและผสมผสานเพื่อตีความหมายหลายนัยอย่างยืดหยุ่น จึงทำให้ทีมงานของอาลีบาบาสร้างความก้าวหน้าได้อย่างชัดเจนไม่เพียงในด้านการวิเคราะห์ภาพถ่ายและการทำความเข้าใจวัตถุประสงค์ของคำถามเท่านั้น แต่ยังสามารถประมวลผลออกมาเป็นคำตอบที่สมเหตุสมผล และสื่อออกมาเป็นภาษาที่มนุษย์ใช้สนทนากันอีกด้วย

เทคโนโลยี VQA ได้ถูกนำมาใช้อย่างกว้างขวางแล้วในอีโคซิสเท็มของอาลีบาบา เช่น Alime Shop Assistant หุ่นยนต์โต้ตอบอัจฉริยะของอาลีบาบาที่ทำหน้าที่ช่วยเหลือลูกค้า ซึ่งผู้ขายหลายหมื่นรายบนแพลตฟอร์มค้าปลีกของอาลีบาบาเลือกนำมาใช้ในร้านของตน

ฉี ลั่ว หัวหน้าหน่วยประมวลผลภาษาตามธรรมชาติ (Natural Language Processing หรือ NLP) สถาบันอาลีบาบา ต๋าโหมว (DAMO) กล่าวว่า “เราภูมิใจที่อาลีบาบาประสบความสำเร็จไปอีกขั้นในด้านจักรกลอัจฉริยะ ซึ่งแสดงให้เห็นความพยามอย่างต่อเนื่องของเราในการผลักดันการวิจัยและพัฒนาด้านปัญญาประดิษฐ์ อย่างไรก็ตามไม่ได้หมายความว่าหุ่นยนต์จะเข้ามาแทนที่มนุษย์ในอนาคต แต่ในทางกลับกันมันทำให้เราเชื่อมั่นว่าเทคโนโลยีที่คอยช่วยเหลือในชีวิตประจำวันจะทำงานได้ฉลาดขึ้น ทำให้มนุษย์สามารถไปมุ่งทำงานด้านสร้างสรรค์ซึ่งเป็นสิ่งที่เราทำได้ดีที่สุด”

ฉี ลั่ว กล่าวเสริมว่า VQA สามารถนำมาใช้งานได้อย่างหลากหลาย เช่น ใช้ค้นหาสินค้าบนเว็บไซต์อีคอมเมิร์ซ ใช้สนับสนุนการวิเคราะห์ภาพถ่ายทางการแพทย์เพื่อวินิจฉัยโรคเบื้องต้น หรือใช้ในยานพาหนะอัจฉริยะที่ผู้ช่วยเอไอจะสามารถวิเคราะห์ภาพจากกล้องภายในรถยนต์

ครั้งนี้ไม่ใช่ครั้งแรกที่โมเดลเรียนรู้ด้วยตนเองของอาลีบาบาทำผลงานได้เหนือกว่าคู่แข่ง แต่ในการจัดอันดับ GLUE ซึ่งได้รับการยอมรับว่าเป็นมาตรฐานการวัดผลโมเดล NLP ที่สำคัญที่สุดในอุตสาหกรรมนั้น โมเดลของอาลีบาบาก็ทำคะแนนได้สูงที่สุดเช่นกัน นอกจากนี้เมื่อปี 2562 โมเดลของอาลีบาบายังทำผลงานได้ดีกว่ามนุษย์ในการทดสอบชุดข้อมูล Microsoft Machine Reading Comprehension ซึ่งเป็นหนึ่งในการทดสอบด้านการอ่านเพื่อทำความเข้าใจของปัญญาประดิษฐ์ที่ยากที่สุดในโลก

โมเดล “AliceMind” พัฒนาโดยสถาบันอาลีบาบา ต๋าโหมว ซึ่งเป็นหน่วยงานวิจัยและพัฒนาระดับโลกของอาลีบาบา กรุ๊ป

NLP การประมวลผลภาษาตามธรรมชาติ คอมพิวเตอร์ที่เรียนรู้ด้วยตนเอง ปัญญาประดิษฐ์ สถาบันอาลีบาบา ต๋าโหมว เอไอ

13/08/2021 |
เทคโนโลยีและนวัตกรรม

พลิกโฉมเทคโนโลยีเบื้องหลังการถ่ายทอดสดของโอลิมปิก เกมส์ครั้งล่าสุด

01/09/2021 |
เทคโนโลยีและนวัตกรรม · อีโคซิสเท็มของอาลีบาบา

หุ่นยนต์ส่งของไร้คนขับ นวัตกรรมพลิกโฉมอีคอมเมิร์ซการขนส่งแบบ last-mile delivery