دراسة تثبت استمرار فشل الذكاء الاصطناعي في مضاهاة البشر بالبرمجة
دراسة تثبت استمرار فشل الذكاء الاصطناعي في مضاهاة البشر بالبرمجة
دراسة تثبت استمرار فشل الذكاء الاصطناعي في مضاهاة البشر بالبرمجة
يتزايد استخدام نماذج الذكاء الاصطناعي من شركات الذكاء الاصطناعي، مثل "أوبن إيه آي" و"أنثروبيك"، للمساعدة في مهام البرمجة، لكن دراسة جديدة من شركة مايكروسوفت كشفت أمرًا صادمًا حول هذا الأمر.
وكشفت دراسة جديدة من "مايكروسوفت ريسيرش"، وهو قسم البحث والتطوير في "مايكروسوفت"، أنه حتى بعض أفضل نماذج الذكاء الاصطناعي في وقتنا هذا تُكافح لا تزال تكافح لتصويب أخطاء برمجية لا تشكل مشكلة للمطورين ذوي الخبرة.
وتوصلت الدراسة إلى أن النماذج، بما في ذلك "Claude 3.7 Sonnet" من شركة أنثروبيك و" o3-mini" من "أوبن إيه آي"، تفشل في تصحيح العديد من المشكلات في معيار تقييم تطوير البرمجيات المُسمي "SWE-bench Lite"،
وتُعدّ النتائج تذكيرًا صادمًا بأنه على الرغم من التصريحات الجريئة لشركات مثل "أوبن إيه آي"، لا يزال الذكاء الاصطناعي لا يُضاهي الخبراء البشريين في مجالات مثل البرمجة.
اختبر الباحثون المشاركون في الدراسة تسعة نماذج مختلفة كأساس لوكيل ذكاء اصطناعي يتمتع بإمكانية الوصول إلى عدد من أدوات تصحيح الأخطاء البرمجية، بما في ذلك مصحح أخطاء "بايثون".
وكلّفوا هذا الوكيل بحل مجموعة مختارة من 300 مهمة تصحيح أخطاء برمجية من "SWE-bench Lite".
ووفقًا للباحثين، حتى عند استخدام نماذج أقوى وأحدث، نادرًا ما أكمل وكيلهم أكثر من نصف مهام التصحيح بنجاح.
وحقق نموذج "Claude 3.7 Sonnet " أعلى معدل متوسط للنجاح مسجلًا 48.4%، يليه نموذجا "أوبن إيه آي" الأول "o1" بمعدل "30.2" والثاني " o3-mini" بمعدل 22.1%.
