KAVE playground

อาลีบาบา คลาวด์ ปล่อย Qwen2.5-Omni-7Bโมเดล Multimodal AI ครบวงจร

อาลีบาบา คลาวด์ เปิดตัว Qwen2.5-Omni-7B โมเดลมัลติโหมด (multimodal model) ครบวงจรเป็นส่วนหนึ่งใน Qwen series โมเดลนี้ออกแบบมาโดยเน้นความสามารถในการเข้าใจประเภทของข้อมูลได้หลายรูปแบบและครอบคลุม สามารถประมวลผลอินพุตหลากหลาย รวมถึงข้อความ รูปภาพ เสียง และ วิดีโอ สามารถสร้างการตอบสนองด้วยข้อความและคำพูดที่เป็นธรรมชาติได้แบบเรียลไทม์ นับเป็นการตั้งมาตรฐานใหม่ให้กับ multimodal AI ที่สามารถปรับใช้กับอุปกรณ์ปลายทาง (edge devices) เช่น โทรศัพท์มือถือ และแล็ปท็อปได้อย่างเหมาะสม

อาลีบาบา คลาวด์ ปล่อย Qwen2.5-Omni-7Bโมเดล Multimodal AI ครบวงจร

โมเดลนี้มอบประสิทธิภาพที่ไม่มีแผ่ว และมอบความสามารถแบบมัลติโหมดที่ทรงพลัง แม้ว่าจะมีพารามิเตอร์ขนาดกะทัดรัดเพียง 7B เท่านั้น จึงเป็นการผสมผสานรากฐานที่สมบูรณ์แบบเข้ากับการพัฒนา AI agents ที่คล่องตัวและคุ้มค่า มอบคุณประโยชน์ที่จับต้องได้ โดยเฉพาะกับแอปพลิเคชันเสียงอัจฉริยะต่าง ๆ เช่น โมเดลนี้ช่วยเปลี่ยนให้คุณภาพชีวิตดีขึ้น โดยการช่วยนำทางผู้มีความบกพร่องทางการมองเห็น ผ่านคำอธิบายเสียงเกี่ยวกับสภาพแวดล้อมแบบเรียลไทม์ หรือ ให้คำแนะนำในการทำอาหารทีละขั้นตอนด้วยการวิเคราะห์ส่วนผสมจากวิดีโอ หรือ ขับเคลื่อนให้บริการลูกค้าอัจริยะสามารถใช้บทสนทนาที่เข้าใจความต้องการที่แท้จริงของลูกค้าได้

ปัจจุบันโมเดลนี้เปิดเป็นโอเพ่นซอร์สบน Hugging Face และ GitHub และสามารถเข้าใช้ผ่าน Qwen Chat และ ModelScope ซึ่งเป็นชุมชนโอเพ่นซอร์สของอาลีบาบา คลาวด์ ทั้งนี้ในหลายปีที่ผ่านมา อาลีบาบา คลาวด์ ได้เปิดให้โมเดล generative AI มากกว่า 200 โมเดลเป็นโอเพ่นซอร์ส

นวัตกรรมด้านสถาปัตยกรรม ขับเคลื่อนให้โมเดลมีประสิทธิภาพสูง

Qwen2.5-Omni-7B มอบประสิทธิภาพโดดเด่นให้กับโหมดทุกประเภท ได้ทัดเทียมกับโมเดลเฉพาะแบบโหมดเดียวต่าง ๆ (single-modality models) ที่มีขนาดใกล้เคียงกัน โดยเฉพาะอย่างยิ่ง โมเดลนี้ได้ตั้งมาตรฐานใหม่ด้านการปฏิสัมพันธ์ด้วยเสียงแบบเรียลไทม์ การสร้างเสียงพูดที่เป็นธรรมชาติและชัดเจน และการทำตามคำสั่งเสียงอย่างครบวงจรจากต้นจนจบ

ประสิทธิภาพและสมรรถนะที่สูงของโมเดลนี้มาจากการใช้สถาปัตยกรรมล้ำสมัย ซึ่งรวมถึง Thinker-Talker Architecture ที่แยกการสร้างข้อความ (ด้วย Thinker) และการสังเคราะห์เสียง (ด้วย Talker) ออกจากกัน เพื่อลดสัญญาณรบกวนจากโหมดต่าง ๆ ให้เหลือน้อยที่สุดเพื่อให้ได้เอาต์พุตคุณภาพสูง, TMRoPE (Time-aligned Multimodal RoPE) ซึ่งเป็นเทคนิคการฝังตำแหน่งเพื่อให้ซิงโครไนซ์อินพุตวิดีโอด้วยเสียงเพื่อสร้างเนื้อหาที่สอดคล้องกันได้ดีขึ้น, และ Block-wise Streaming Processing ที่ช่วยให้สามารถตอบสนองเสียงด้วยความรวดเร็วมีความหน่วงต่ำ ส่งผลให้การโต้ตอบด้วยเสียงเป็นไปอย่างราบรื่น

Qwen2.5-Omni-7B ได้รับการเทรนล่วงหน้าด้วยชุดข้อมูลที่หลากหลายและกว้างขวาง ซึ่งรวมถึง การเปลี่ยนภาพเป็นข้อความ, วิดีโอเป็นข้อความ, วิดีโอเป็นเสียง, ตัวอักษรเป็นข้อมูล เพื่อให้มั่นใจได้ว่าโมเดลจะสามารถทำงานได้ทุกแบบด้วยประสิทธิภาพสูง

สถาปัตยกรรมที่ล้ำสมัยและการเทรนล่วงหน้าด้วยชุดข้อมูลคุณภาพสูง ทำให้โมเดลนี้มีความเป็นเลิศด้านการทำตามคำสั่งเสียง และมีประสิทธิภาพเทียบเท่ากับการป้อนเป็นตัวอักษรข้อความล้วน ๆ สำหรับงานที่เกี่ยวข้องกับมัลติโหมด เช่น โมเดลที่ได้รับการประเมินผ่าน OmniBench ซึ่งเป็นเกณฑ์มาตรฐานที่ประเมินความสามารถของโมเดลต่าง ๆ ด้านการจดจำ การตีความ และการให้เหตุผล จากอินพุตที่เป็นภาพ เสียงและข้อความ จึงกล่าวได้ว่า Qwen2.5-Omni มีสมรรถนะล้ำสมัยที่สุดในปัจจุบัน

Qwen2.5-Omni-7B ยังแสดงให้เห็นว่ามีสมรรถนะในการทำความเข้าใจและการสร้างคำพูดที่ดีเยี่ยม และมีความสามารถในการสร้างคำพูดผ่านการเรียนรู้ลงลึกในเชิงบริบท (in-context learning: ICL) นอกจากนี้ หลังจากเสริมประสิทธิภาพด้วยการเรียนรู้แบบเสริมกำลัง (reinforcement learning: RL) หรือการเรียนรู้จากปฏิสัมพันธ์แบบลองผิดลองถูกที่เกิดขึ้นระหว่างทางของการเรียนรู้แล้ว Qwen2.5-Omni-7B ได้แสดงให้เห็นว่ามีความเสถียรในการสร้างคำพูดเพิ่มขึ้นอย่างมาก ลดความคลาดเคลื่อนในการให้ความสนใจ, ลดข้อผิดพลาดในการออกเสียง และลดการสะดุดหยุดลงระหว่างการตอบสนองด้วยคำพูดได้อย่างเห็นได้ชัด

อาลีบาบา คลาวด์ เปิดตัว Qwen2.5 เมื่อเดือนกันยายนปี 2567 และปล่อย Qwen2.5-Max สู่ตลาดในเดือนมกราคมปี 2568 และได้รับการจัดให้อยู่ในอันดับที่ 7 บน Chatbot Arena ซึ่งเทียบชั้นได้กับ LLM ชั้นนำทั้งหลายที่มีกรรมสิทธิ์ และยังแสดงให้เห็นถึงความสามารถที่โดดเด่นด้านต่าง ๆ อาลีบาบา คลาวด์ยังได้เปิดโอเพ่นซอร์ส Qwen2.5-VL และ Qwen2.5-1M ตอบโจทย์การทำความเข้าใจภาพที่มีประสิทธิภาพมากขึ้น และจัดการกับอินพุตบริบทที่ยาว ๆ ได้ดีขึ้น

อ่านเพิ่ม
The Palm (copy)
Sidebar
บทความล่าสุด
ธอส. เปิดช่องทางให้ลูกค้าที่ได้รับผลกระทบจากเหตุการณ์แผ่นดินไหว เข้าร่วมมาตรการ และขอรับสินไหมทดแทนกรณีที่อยู่อาศัยเสียหายได้แล้ววันนี้!
ข่าวสาร
เอพี ไทยแลนด์ อัปเดตการทำงาน 7 วัน หลังเหตุแผ่นดินไหว อุ่นใจด้านโครงสร้างด้วยการตรวจสอบx2 จากผู้เชี่ยวชาญภายนอกและผู้ตรวจอาคารตามประกาศกทม.
ข่าวสาร
“บางกอกเคเบิ้ล” ชี้เป้า 5 จุดต้องตรวจเช็ค-3 มาตรการป้องกันสายไฟหลังแผ่นดินไหว แนะอาคารเลือก “สายไฟที่ได้มาตรฐาน” เพิ่มความปลอดภัย
ข่าวสาร
ทำไมต้องมีกิจกรรมฝึกสมองให้สัตว์เลี้ยง?
สัตว์เลี้ยง
วิธีสอนสุนัขว่ายน้ำอย่างปลอดภัย?
สัตว์เลี้ยง
รีวิวโครงการ
รีวิว เคฟ เพลย์กราวด์ ลาดพร้าว-บดินทรเดชา (Kave Playground Ladprao-Bodindecha) คอนโดใหม่ Fully Furnished ติดบดินทรเดชาฯ ส่วนกลางจัดเต็ม 60 รายการ และโซน Pet-Friendly แยกตึก
Sponsor
รีวิว ศุภาลัย เลค วิลล์ จันทบุรี (Supalai Lake Ville Chanthaburi) บ้านหรูสไตล์ Tropical Modern ใจกลางธรรมชาติริมทะเลสาบกว่า 10 ไร่ พร้อมฟังก์ชันครบครัน รองรับชีวิตระดับพรีเมียมในทำเลศักยภาพที่ดีที่สุดของจันทบุรี
Sponsor
รีวิว ศุภาลัย ริเวอร์ วิลล์ ระยอง (Supalai River Ville Rayong) บ้านเดี่ยวหรู สไตล์ Modern Tropical Series ฟีลดีติดริมแม่น้ำ ทำเลคุณภาพใจกลางเมืองระยอง
Sponsor
รีวิว ศุภาลัย เบลล่า พระราม 2-วงแหวน ครบครันทั้งบ้านเดี่ยว บ้านแฝด และทาวน์โฮม ดีไซน์ใหม่ ฟังก์ชันครบ ตอบโจทย์ชีวิตคนเมืองยุคใหม่ในโซนพระราม 2-สมุทรสาคร
Sponsor
รีวิว ศุภาลัย วิลล์ ปิ่นเกล้า-ศาลายา บ้าน Design ใหม่ พื้นที่ใหญ่ ฟังก์ชันครบ ตอบโจทย์คนรุ่นใหม่ทุก Lifestyle เป็นส่วนตัวเพียง 66 แปลง ส่วนกลางครบครัน บนทำเลที่โดดเด่น โซนปิ่นเกล้า-ศาลายา
Sponsor
Loading..