در دنیای رقابتی هوش مصنوعی، شرکت xAI متعلق به ایلان ماسک و OpenAI به تازگی در یک مناقشه بر سر نتایج بنچمارک مدلهای هوش مصنوعی خود درگیر شدهاند.
ماجرا از آنجا آغاز شد که xAI نموداری را منتشر کرد که در آن عملکرد مدلهای خود، Grok-3، Grok-3 Reasoning Beta و Grok-3 Reasoning Mini را در آزمون ریاضی AIME 2025 با مدل O3 Mini شرکت OpenAI مقایسه میکرد. این نمودار نشان میداد که مدلهای xAI در این آزمون عملکرد بهتری نسبت به مدل OpenAI دارند.
با این حال، کارمندان OpenAI به سرعت به این موضوع واکنش نشان دادند و xAI را به انتشار نتایج گمراهکننده متهم کردند. آنها ادعا کردند که نمودار xAI امتیاز مدل O3 Mini را در شاخص Cons@64، که یک معیار مهم در آزمون AIME 2025 است، حذف کرده است. Cons@64 به مدلهای هوش مصنوعی اجازه میدهد تا 64 بار به سؤالات پاسخ دهند و نتایج پرتکرار را به عنوان پاسخ نهایی در نظر میگیرد. حذف این شاخص میتواند نتایج را به طور قابل توجهی تغییر دهد و گمراهکننده جلوه دهد.

ایگور بابوشکین، یکی از بنیانگذاران xAI، در پاسخ به این اتهامات، ادعا کرد که OpenAI نیز قبلاً جداول بنچمارک گمراهکننده مشابهی را منتشر کرده است. او در پلتفرم X (توییتر سابق) نوشت که این جداول مقایسههایی بین عملکرد مدلهای هوش مصنوعی خود OpenAI بودهاند.
این مناقشه نشان میدهد که معیارهای ارزیابی مدلهای هوش مصنوعی هنوز به طور کامل استاندارد نشدهاند و تفسیر نتایج بنچمارکها میتواند پیچیده و بحثبرانگیز باشد. ناتان لمبرت، محقق هوش مصنوعی، در این زمینه خاطرنشان کرد که هزینه محاسباتی و مالی برای دستیابی به بهترین امتیاز نیز یک معیار مهم است که اغلب نادیده گرفته میشود.
به طور کلی، این رویداد نشان میدهد که رقابت در حوزه هوش مصنوعی بسیار شدید است و شرکتها به دنبال ارائه بهترین عملکرد از مدلهای خود هستند. با این حال، لازم است که نتایج بنچمارکها با دقت و شفافیت کامل ارائه شوند تا از گمراهی کاربران جلوگیری شود.
اخبار تکنولوژی را در سایت خبری مجتمع نوآوری فرداد بخوانید.