اوپن ای آی دست هوش مصنوعی ایلان ماسک را رو کرد

در دنیای رقابتی هوش مصنوعی، شرکت xAI متعلق به ایلان ماسک و OpenAI به تازگی در یک مناقشه بر سر نتایج بنچمارک مدل‌های هوش مصنوعی خود درگیر شده‌اند.

ماجرا از آنجا آغاز شد که xAI نموداری را منتشر کرد که در آن عملکرد مدل‌های خود، Grok-3، Grok-3 Reasoning Beta و Grok-3 Reasoning Mini را در آزمون ریاضی AIME 2025 با مدل O3 Mini شرکت OpenAI مقایسه می‌کرد. این نمودار نشان می‌داد که مدل‌های xAI در این آزمون عملکرد بهتری نسبت به مدل OpenAI دارند.

با این حال، کارمندان OpenAI به سرعت به این موضوع واکنش نشان دادند و xAI را به انتشار نتایج گمراه‌کننده متهم کردند. آنها ادعا کردند که نمودار xAI امتیاز مدل O3 Mini را در شاخص Cons@64، که یک معیار مهم در آزمون AIME 2025 است، حذف کرده است. Cons@64 به مدل‌های هوش مصنوعی اجازه می‌دهد تا 64 بار به سؤالات پاسخ دهند و نتایج پرتکرار را به عنوان پاسخ نهایی در نظر می‌گیرد. حذف این شاخص می‌تواند نتایج را به طور قابل توجهی تغییر دهد و گمراه‌کننده جلوه دهد.

ایگور بابوشکین، یکی از بنیانگذاران xAI، در پاسخ به این اتهامات، ادعا کرد که OpenAI نیز قبلاً جداول بنچمارک گمراه‌کننده مشابهی را منتشر کرده است. او در پلتفرم X (توییتر سابق) نوشت که این جداول مقایسه‌هایی بین عملکرد مدل‌های هوش مصنوعی خود OpenAI بوده‌اند.

این مناقشه نشان می‌دهد که معیارهای ارزیابی مدل‌های هوش مصنوعی هنوز به طور کامل استاندارد نشده‌اند و تفسیر نتایج بنچمارک‌ها می‌تواند پیچیده و بحث‌برانگیز باشد. ناتان لمبرت، محقق هوش مصنوعی، در این زمینه خاطرنشان کرد که هزینه محاسباتی و مالی برای دستیابی به بهترین امتیاز نیز یک معیار مهم است که اغلب نادیده گرفته می‌شود.

به طور کلی، این رویداد نشان می‌دهد که رقابت در حوزه هوش مصنوعی بسیار شدید است و شرکت‌ها به دنبال ارائه بهترین عملکرد از مدل‌های خود هستند. با این حال، لازم است که نتایج بنچمارک‌ها با دقت و شفافیت کامل ارائه شوند تا از گمراهی کاربران جلوگیری شود.

اخبار تکنولوژی را در سایت خبری مجتمع نوآوری فرداد بخوانید.

پیشنهاد ۹۷ میلیارد دلاری ایلان ماسک برای خرید اوپن ای آی: نبردی بر سر آینده هوش مصنوعی

اپل نسخه ویژه ایرپادز 4 را به مناسبت سال نو چینی معرفی کرد

کروم‌بوک‌های جدید ایسر: همراهی دانش‌آموزان در عصر دیجیتال

افت سهام AMD پس از ناامیدی سرمایه‌گذاران از درآمد تراشه‌های هوش مصنوعی

مؤسسه هوش مصنوعی و فناوری‌های شناختی دانشگاه تهران افتتاح شد

ماهان زند

من فارغ‌التحصیل رشته مهندسی کامپیوتر هستم و از دوران نوجوانی به دنیای فناوری علاقه‌مند بودم. فعالیت حرفه‌ای خودم را از سال ۱۳۹۷ با نوشتن مقاله‌های نقد و بررسی گجت‌های هوشمند در یک وبلاگ شخصی آغاز کردم. پس از کسب تجربه، به عنوان نویسنده و تحلیل‌گر در نشریات مختلف فعالیت کردم و در حال حاضر، به عنوان دبیر بخش فناوری‌های نو در یک مجله معتبر تکنولوژی مشغول به کار هستم. تلاش من این است که آخرین اخبار و پیشرفت‌های دنیای فناوری را به زبانی ساده و کاربردی برای مخاطبان ارائه دهم.