الذكاء الاصطناعي ضعيف في قراءة الساعات

في هذه الأيام، يمكن للذكاء الاصطناعي إنتاج صور فوتوغرافية واقعية، كتابة روايات، أداء واجباتك المنزلية، وحتى التنبؤ بهياكل البروتين. ومع ذلك، تكشف الأبحاث الجديدة أنه غالبًا ما يفشل في أداء مهمة أساسية جدًا: معرفة الوقت.

اختبر الباحثون في جامعة إدنبرة قدرة سبعة نماذج لغوية متعددة الوسائط معروفة – وهي نوع من الذكاء الاصطناعي الذي يمكنه تفسير وإنتاج أنواع مختلفة من الوسائط – للإجابة على أسئلة تتعلق بالوقت بناءً على صور مختلفة للساعات أو التقويمات. توضح دراستهم، التي ستصدر في أبريل وتستضاف حاليًا على خادم ما قبل الطباعة arXiv، أن نماذج اللغة الكبيرة تعاني من صعوبة في هذه المهام الأساسية.

كتب الباحثون في الدراسة: “إن القدرة على تفسير والتفكير في الوقت من المدخلات المرئية أمر بالغ الأهمية للعديد من التطبيقات الواقعية – بدءًا من جدولة الأحداث إلى الأنظمة المستقلة”. “على الرغم من التقدم في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، فإن معظم الأعمال قد ركزت على اكتشاف الكائنات، وتسمية الصور، أو فهم المشهد، مما ترك الاستدلال الزمني غير مستكشف بشكل كافٍ.”

اختبر الفريق نماذج GPT-4o وGPT-o1 من OpenAI؛ وGemini 2.0 من Google DeepMind؛ وClaude 3.5 Sonnet من Anthropic؛ وLlama 3.2-11B-Vision-Instruct من Meta؛ وQwen2-VL7B-Instruct من Alibaba؛ وMiniCPM-V-2.6 من ModelBest. وقد قاموا بإدخال صور مختلفة لساعات تناظرية – ساعات تحمل أرقام رومانية، وألوان مينا مختلفة، وحتى بعض الساعات التي تفتقر إلى عقرب الثواني – بالإضافة إلى 10 سنوات من صور التقويمات.

بالنسبة لصور الساعات، سأل الباحثون النماذج اللغوية الكبيرة، ما الوقت الذي يظهر على الساعة في الصورة المعطاة؟ أما بالنسبة لصور التقويمات، فقد طرح الباحثون أسئلة بسيطة مثل ما هو يوم الأسبوع الذي يوافق يوم رأس السنة؟ واستفسارات أصعب تتضمن ما هو اليوم 153 من السنة؟

أوضح الباحثون أن “قراءة الساعة التناظرية وفهم التقويم ينطويان على خطوات معرفية معقدة: فهي تتطلب التعرف المرئي الدقيق (مثل، موضع عقرب الساعة، تخطيط خانات اليوم) والتفكير العددي غير البسيط (مثل، حساب الفروق الزمنية).”

بشكل عام، لم تؤدِ أنظمة الذكاء الاصطناعي جيدًا. فقد تمكنت من قراءة الوقت على الساعات التناظرية بدقة أقل من 25% من الوقت. واجهت صعوبة مع الساعات التي تحمل أرقامًا رومانية والأيدي المزخرفة بنفس القدر الذي واجهت فيه الساعات التي تفتقر تمامًا إلى عقرب الثواني، مما يشير إلى أن المشكلة قد تتعلق بكشف الأيدي وتفسير الزوايا على وجه الساعة، وفقًا للباحثين.

حصل نموذج Gemini-2.0 من Google على أعلى درجات في مهمة الساعة للفريق، بينما كانت دقة GPT-o1 في مهمة التقويم 80% من الوقت – وهو نتيجة أفضل بكثير من منافسيه. ولكن حتى في تلك الحالة، لا يزال أنجح نموذج لغوي كبير في مهمة التقويم يرتكب أخطاء حوالي 20% من الوقت.

قال روهيت ساكينا، أحد مؤلفي الدراسة وطالب دراسات عليا في مدرسة المعلومات بجامعة إدنبرة، في بيان صحفي من الجامعة: “يمكن لمعظم الناس معرفة الوقت واستخدام التقويمات منذ سن مبكرة. تسلط نتائجنا الضوء على فجوة كبيرة في قدرة الذكاء الاصطناعي على تنفيذ المهارات الأساسية للأشخاص.” وأضاف: “يجب معالجة هذه الثغرات إذا كانت أنظمة الذكاء الاصطناعي ستتكامل بنجاح في التطبيقات الواقعية الحساسة للوقت، مثل الجدولة، والأتمتة، والتقنيات المساعدة.”

لذا، بينما قد يكون الذكاء الاصطناعي قادرًا على إكمال واجباتك المنزلية، لا تعتمد عليه في الالتزام بأي مواعيد نهائية.

المصدر