دراسة: "الذكاء الاصطناعي" ضعيف" في الرياضيات - قناة الفلوجة

منوعات - دراسة: “الذكاء الاصطناعي” ضعيف” في الرياضيات

نشر بتاريخ 2023/08/05 8:27 صباحًا

570 مشاهدة

أبهرت روبوتات الدردشة القائمة على الذكاء الاصطناعي كل من جرّبها منذ أن أصبحت متاحة على نطاق واسع للجمهور العام الماضي، بينما ولّدت أيضًا مخاوف من أنها ستهدد البشرية.

بحث جديد صدر هذا الأسبوع يكشف عن تحدٍ أساسي لتطوير الذكاء الاصطناعي، حيث كشف أن “تشات جي بي تي” أصبح أسوأ في أداء بعض العمليات الحسابية.

وقال باحثون في جامعة ستانفورد وجامعة كاليفورنيا، إن هذا الأداء السيء هو مثال على ظاهرة يعرفها مطورو الذكاء الاصطناعي باسم “الانجراف” (drift)، حيث تؤدي محاولات تحسين جزء واحد من نماذج الذكاء الاصطناعي المعقدة إلى جعل أداء الأجزاء الأخرى من النماذج أسوأ.

قال جيمس زو، الأستاذ في جامعة ستانفورد الذي يعمل في مختبر الذكاء الاصطناعي بالجامعة، وأحد مؤلفي البحث الجديد: “تغييره في اتجاه واحد يمكن أن يؤدي إلى تراجعه في اتجاهات أخرى” وتابع “هذا يجعل التحسين المستمر أمرًا صعبًا للغاية”.

ويمكن أن يكون “شات جي بي تي” مدهشا أحيانا، ومضحكا أحيانا أخرى، لكنه كثيرا ما يبدو “ملمًا بأي موضوع وقواعده النحوية لا تشوبها شائبة” وفق تعبير تقرير لصحيفة “وول ستريت جورنال”.

لكن الخبراء الذين أجروا اختبارات لبرنامج “تشات جي بي تي” تبينوا أنه لم يكن كذلك في كل الأوقات وقالوا إن برنامج الدردشة الآلي فشل في بعض مسائل الرياضيات الأساسية.

“أداء متواضع جدا”

قام فريق من الباحثين باختبار نسختين من تشات جي بي تي”: الإصدار 3.5، المتاح مجانًا عبر الإنترنت لأي شخص، والإصدار 4.0، المتاح من خلال اشتراك متميز.

أعطوا “شات بوت” مهمة أساسية وهي تحديد ما إذا كان رقم معين هو رقم أولي أملا.

وهذا هو نوع من المسائل الحسابية معقد للناس العاديين، ولكنه بسيط لأجهزة الكمبيوتر، لكن الخبراء قالوا إن النتائج “لم تكن واعدة تماما”.

“هل 17077 عدد أولي؟ هل 17947 أولي هو الآخر؟”

ما لم تكن خبيرا، لا يمكنك حل هذا الأمر من خلال جهدك الذهني فقط، لكن من السهل على أجهزة الكمبيوتر إعطاؤك الحل، إذ يمكن للحاسوب أن يقسم العدد على اثنين، ثلاثة، خمسة، إلخ، وينظر في الحل قبل أن يقرر.

ولتتبع أدائه على مدد زمنية مختلفة، قام الباحثون بإعطاء البرنامج 1000 رقم مختلف.

في آذار/مارس، حدد الإصدار المتميز من GPT-4 بشكل صحيح 84 ٪ من الأرقام أولية.

يقول الخبراء تعليقا على ذلك “بصراحة ، أداء متواضع جدا لجهاز كمبيوتر”.

لكن، وبحلول شهر يونيو، انخفض معدل الإجابات الصحيحة إلى 51٪.

وعبر ثماني مهام مختلفة، أصبح GPT-4 أسوأ في ست منها، بينما تحسن GPT-3.5 على ستة مقاييس، لكنه ظل أسوأ من قرينه المتقدم في معظم المهام.

وقال أحد الخبراء إن ظاهرة الانجراف غير المتوقعة، معروفة للباحثين الذين يدرسون التعلم الآلي والذكاء الاصطناعي “كان لدينا شك في أنه يمكن أن يحدث، لكننا فوجئنا بمدى سرعة حدوث الانجراف”.

ولم يطرح باحثو جامعة ستانفورد، أسئلة الرياضيات الخاصة بـ “شات جي بي تي” فقط، بل طرحوا أسئلة رأي أيضا، لمعرفة ما إذا كان “شات بوت” سيستجيب، بالاعتماد على قاعدة بيانات تضم حوالي 1500 سؤال.

في آذار/مارس، أجاب برنامج “تشات بوت” من الإصدار 4 على 98٪ من الأسئلة.

وبحلول شهر يونيو، أعطى إجابات لـ 23٪ فقط، وغالبا ما كان يقدم إجابات موجزة للغاية، قائلا إن السؤال غير موضوعي وبصفته ذكاء اصطناعيا ليس لديه أي آراء.

“أقل فاعلية”

يُظهر البحث الذي أجراه فريق ستانفورد-بيركلي من الناحية التجريبية أنه ليس مجرد انطباع روائي، إذ أصبح برنامج الدردشة الآلي أسوأ من الناحية التجريبية في وظائف معينة، بما في ذلك حساب أسئلة الرياضيات والإجابة على الأسئلة الطبية وإنشاء التعليمات البرمجية، وفق الصحيفة.

في العام الماضي، نشر جيسون وي وديني تشو، وهما خبيران في أبحاث غوغل، ورقة توضح أن نماذج الذكاء الاصطناعي كانت أفضل بكثير في مهام التفكير المعقدة عندما طُلب منها معالجة المشكلة خطوة بخطوة.

وفي مارس، كانت هذه التقنية، المعروفة باسم تحفيز سلسلة الأفكار، تعمل بشكل جيد، ولكن بحلول شهر يونيو، أصبحت أقل فاعلية بكثير.

الكلمات الدلالية

من ألمع عباقرة التاريخ ومؤسس علم الجبر.. الخوارزمي

دراسة: “الذكاء الاصطناعي” ضعيف” في الرياضيات

جوجل تطور “طبيباً افتراضياً” يعمل بالذكاء الصناعي

أسرة العندليب تقاضي مغني مهرجانات بعد استخدام صوته بـالذكاء الاصطناعي

مستخدما الذكاء الاصطناعي…مهندس عربي يطرح فكرة مستشفى افتراضي

يوتيوب تعلن عن ميزة الدبلجة باستخدام الذكاء الاصطناعي

تكنولوجيا الذكاء الاصطناعي تدخل في أحواض السباحة في مساعدة المنقذين

التعليم العالي تعتبر العام الدراسي الحالي سنة عدم رسوب

شركات تتيح لزبائنها إمكانية التواصل مع الأموات عن طريق الذكاء الاصطناعي

اقرأ ايضاً

شاهد احدث الاخبار

رياضة

برشلونة يريد التعاقد مع داروين نونيز مهاجم ليفربول خلال الميركاتو...

يستهدف برشلونة الحصول على خدمات أحد اللاعبين البارزين في صفوف ليفربول خلال الموسم الحالي. ووفقا لصحيفة "البايس" الإسبانية، يريد برشلونة...

نشر بتاريخ 2024/04/28 8:34 صباحًا

الأخبار

انخفاض درجات الحرارة وتساقط أمطار خلال الأيام القادمة

أعلنت هيئة الأنواء الجوية، اليوم الأحد، عن حالة الطقس في البلاد للأيام المقبلة، فيما توقعت تساقطاً للأمطار وللبرد خلال الأسبوع...

نشر بتاريخ 2024/04/28 7:33 صباحًا

رياضة

النهاية اقتربت.. كلوب يبقي صلاح بمقاعد البدلاء للمرة الرابعة

بقي النجم المصري محمد صلاح على مقاعد البدلاء في بدلية مباراة فريقه ليفربول أمام مضيفه وست هام يونايتد اليوم السبت،...

نشر بتاريخ 2024/04/27 1:36 مساءً

الأخبار

زلزال قوي خلال أيام.. تحذير جديد من العالم الهولندي المثير...

حذر عالم الزلازل الهولندي فرانك هوغربيتس، اليوم السبت (27 نيسان 2024)، من احتمال حدوث هزة قوية خلال الـ48 ساعة القادمة...

نشر بتاريخ 2024/04/27 9:01 صباحًا

بحث جديد صدر هذا الأسبوع يكشف عن تحدٍ أساسي لتطوير الذكاء الاصطناعي، حيث كشف أن “تشات جي بي تي” أصبح أسوأ في أداء بعض العمليات الحسابية.

لكن الخبراء الذين أجروا اختبارات لبرنامج “تشات جي بي تي” تبينوا أنه لم يكن كذلك في كل الأوقات وقالوا إن برنامج الدردشة الآلي فشل في بعض مسائل الرياضيات الأساسية.

“أداء متواضع جدا”

قام فريق من الباحثين باختبار نسختين من تشات جي بي تي”: الإصدار 3.5، المتاح مجانًا عبر الإنترنت لأي شخص، والإصدار 4.0، المتاح من خلال اشتراك متميز.

أعطوا “شات بوت” مهمة أساسية وهي تحديد ما إذا كان رقم معين هو رقم أولي أملا.

وهذا هو نوع من المسائل الحسابية معقد للناس العاديين، ولكنه بسيط لأجهزة الكمبيوتر، لكن الخبراء قالوا إن النتائج “لم تكن واعدة تماما”.

“هل 17077 عدد أولي؟ هل 17947 أولي هو الآخر؟”

ولتتبع أدائه على مدد زمنية مختلفة، قام الباحثون بإعطاء البرنامج 1000 رقم مختلف.

في آذار/مارس، حدد الإصدار المتميز من GPT-4 بشكل صحيح 84 ٪ من الأرقام أولية.

يقول الخبراء تعليقا على ذلك “بصراحة ، أداء متواضع جدا لجهاز كمبيوتر”.

لكن، وبحلول شهر يونيو، انخفض معدل الإجابات الصحيحة إلى 51٪.

وعبر ثماني مهام مختلفة، أصبح GPT-4 أسوأ في ست منها، بينما تحسن GPT-3.5 على ستة مقاييس، لكنه ظل أسوأ من قرينه المتقدم في معظم المهام.

في آذار/مارس، أجاب برنامج “تشات بوت” من الإصدار 4 على 98٪ من الأسئلة.

وبحلول شهر يونيو، أعطى إجابات لـ 23٪ فقط، وغالبا ما كان يقدم إجابات موجزة للغاية، قائلا إن السؤال غير موضوعي وبصفته ذكاء اصطناعيا ليس لديه أي آراء.

“أقل فاعلية”

وفي مارس، كانت هذه التقنية، المعروفة باسم تحفيز سلسلة الأفكار، تعمل بشكل جيد، ولكن بحلول شهر يونيو، أصبحت أقل فاعلية بكثير.

شارك هذا الموضوع:

معجب بهذه: