علی‌بابا و ارائه مدل منبع‌باز Qwen3 برای رقابت با غول‌های هوش مصنوعی

علی‌بابا و ارائه مدل منبع‌باز Qwen3 برای رقابت با غول‌های هوش مصنوعی

علی‌بابا از نسل سوم سیستم‌های زبان طبیعی خود با نام Qwen3 پرده برداشت. این مدل که بصورت منبع‌باز ارائه شده است، با عملکرد خیره‌کننده‌اش در آزمایش‌هایی نظیر منطق و کدنویسی، همتایانی همچون OpenAI و Google را به چالش کشیده است. این مدل‌های هوش مصنوعی با معماری «ترکیبی» خود امکان تغییر چشمگیری در استفاده از این فناوری‌ها را فراهم می‌کنند.

روز دوشنبه، علی‌بابا از مجموعه مدل‌های Qwen3 رونمایی کرد، مدل‌هایی که با هدف رقابت با تکنولوژی‌های برتر OpenAI و Google توسعه یافته‌اند. این مدل‌ها در پلتفرم‌هایی مانند Hugging Face و GitHub برای دانلود و استفاده موجود خواهند بود.

مدل‌های خانواده Qwen3 از 0.6 تا 235 میلیارد پارامتر عرضه می‌شوند، که پارامترها به عنوان معیار قدرت عملکرد این مدل‌ها شناخته می‌شوند و با افزایش تعدادشان، کیفیت خروجی بهبود می‌یابد.

طبق اعلام توسعه‌دهندگان، این مدل‌ها قادر به عملکرد «ترکیبی» هستند؛ به‌ این ‌معنا که اگر پرسشی ساده باشد، سریع پاسخ می‌دهند و اگر پیچیده باشد، درگیر تحلیل و استدلال می‌شوند. این ویژگی مشابه با دیگر مدل‌های مشابه است و به کاربران اجازه می‌دهد میزان تفکر لازم را تنظیم کنند.

بخشی از نوآوری‌های Qwen3 عبارت از استفاده برخی از مدل‌ها از معماری MoE، (مجموعه‌ای از متخصصان) است. این معماری وظایف را به زیرمدل‌های تخصص یافته واگذار کرده و پاسخگویی با کارآیی بیشتری را میسر می‌سازد.

مدل‌های Qwen3 توانایی پوشش 119 زبان را دارند و بر پایه دیتاست‌هایی که شامل 36 تریلیون توکن است آموزش دیده‌اند. این دیتاست شامل محتواهای مختلف از جمله کتاب‌های درسی، پرسش و پاسخ‌ها و داده‌های تولیدی توسط هوش مصنوعی می‌شود.

Model Qwen3-235B-A22B، با بزرگترین اندازه در این سری، موفق شد در پلتفرم‌هایی چون Codeforces و آزمون‌های AIME و BFCL به ‌طور قابل‌توجهی بهتر از مدل‌های پیشرو OpenAI و Google عمل کند، هرچند این مدل هنوز به‌ صورت عمومی منتشر نشده است.

qwen3-235a22

در مقابل، مدل Qwen3-32B که برای عموم کاربران در دسترس است، در آزمون‌هایی مانند LiveCodeBench با مدل‌ها و سیستم‌های موجود رقابت تنگاتنگی داشته و حتی با قابلیت‌های R1 شرکت DeepSeek همخوانی دارد.

تیم توسعه Qwen تاکید کرده است که این مدل‌ها در فراخوانی ابزارها، دنبال‌کردن دقیق دستورالعمل‌ها و حفظ ساختارهای داده بسیار بهینه عمل می‌کنند. علاوه بر‌ قابلیت بارگیری، این مدل‌ها از طریق پلتفرم‌های ابری مانند Fireworks AI و Hyperbolic هم ارائه می‌شوند.

توحین سریواستاوا، مدیرعامل Baseten، اظهار داشته که: «رونمایی از Qwen3 نشان‌دهنده این واقعیت است که مدل‌های باز می‌توانند با مدل‌های بسته مانند OpenAI در یک میزان پیشرفت کنند.»