تم تكرار السؤال 10 مرات على ChatGPT… فماذا حدث؟

كشفت دراسة أكاديمية حديثة أن نموذج الذكاء الاصطناعي ChatGPT، رغم قدرته على تقديم إجابات تبدو واثقة ومقنعة، لا يزال يعاني من تحديات كبيرة تتعلق بالاتساق ودقة الحكم على صحة المعلومات، خاصة عند التعامل مع القضايا العلمية المعقدة.

الدراسة، التي أعدها البروفيسور مسعود تشيتشيك (Mesut Cicek) من جامعة ولاية واشنطن، بالتعاون مع فريق بحثي من جامعات أمريكية أخرى، اعتمدت على تقييم أداء ChatGPT من خلال عرض فرضيات مستمدة من أبحاث علمية عليه، وطلب الحكم عليها ما إذا كانت مدعومة بالأدلة أو لا.

اختبار واسع شمل أكثر من 700 فرضية

قام الباحثون بتحليل 719 فرضية مأخوذة من دراسات منشورة في مجلات الأعمال منذ عام 2021، حيث طُلب من النموذج تقييم كل فرضية 10 مرات متتالية لقياس مدى اتساق الإجابات.

وأظهرت النتائج أن ChatGPT قدم إجابات صحيحة بنسبة 76.5% في تجربة عام 2024، بينما ارتفعت النسبة قليلا إلى 80% في عام 2025،

إلا أن الباحثين أشاروا إلى أن هذه الأرقام تصبح أقل إقناعا عند أخذ التخمين العشوائي بعين الاعتبار، إذ لم يتفوق أداء النموذج على الصدفة إلا بنحو 60% فقط، وهو ما اعتبروه أداءً متوسطا إلى ضعيف.

ضعف واضح في اكتشاف المعلومات الخاطئة

أبرزت النتائج أن النموذج يواجه صعوبة كبيرة في التعرف على العبارات غير الصحيحة، حيث لم تتجاوز دقته في تصنيفها 16.4%، كما كشف الاختبار عن مشكلة في الاتساق، إذ أعطى النموذج إجابات متطابقة فقط في نحو 73% من الحالات عند تكرار نفس السؤال.

وفي هذا السياق، أوضح تشيتشيك أن المشكلة لا تتعلق فقط بالدقة، بل أيضا بعدم الثبات، مضيفا: “إذا طرحت السؤال نفسه عدة مرات، ستحصل على إجابات مختلفة. أحيانا تكون الإجابة صحيحة، ثم خاطئة، ثم تعود إلى الصحيحة، وهناك حالات كانت الإجابات فيها منقسمة بالتساوي”.

الطلاقة اللغوية لا تعني الفهم الحقيقي

تشير الدراسة، التي نُشرت في مجلة Rutgers Business Review، إلى أن نماذج الذكاء الاصطناعي قد تُنتج نصوصا سلسة ومقنعة، لكنها لا تعكس بالضرورة فهما حقيقيا للمحتوى.

ويرى الباحثون أن هذه النماذج لا تمتلك “فهما إدراكيا” للحقائق، بل تعتمد على تحليل الأنماط اللغوية والاحتمالات، وهو ما يجعلها عرضة لإنتاج إجابات غير دقيقة رغم ثقتها الظاهرة.

حدود الذكاء الاصطناعي العام

وبحسب تشيتشيك، فإن النتائج تشير إلى أن الوصول إلى ما يُعرف بالذكاء الاصطناعي العام القادر على التفكير والفهم الحقيقي لا يزال بعيدا.

وأضاف: “أنظمة الذكاء الاصطناعي الحالية لا تملك عقلا، بل تعتمد على التذكر وإعادة تركيب المعلومات، ويمكنها تقديم رؤى، لكنها لا تفهم ما تقوله”.

منهجية الدراسة وتفاصيل الاختبار

شارك في إعداد الدراسة كل من سيفينتشغول أولو من جامعة جنوب إلينوي، وكان أوسلاي من جامعة روتجرز، وكيت كارنيتشوينا من جامعة نورث إيسترن.

وشملت التجارب اختبار نسختي ChatGPT-3.5 (في عام 2024) وChatGPT-5 mini (في عام 2025)، حيث أظهرت النتائج تقاربا في الأداء بين النسختين دون تحسن جوهري.

تحذيرات من الاعتماد على الذكاء الاصطناعي

خلص الباحثون إلى ضرورة توخي الحذر عند الاعتماد على الذكاء الاصطناعي في اتخاذ القرارات المهمة، خصوصا في المجالات التي تتطلب تحليلا دقيقا ومعرفة علمية متخصصة.

كما أوصوا بضرورة التحقق من مخرجات هذه الأنظمة وعدم الاعتماد عليها بشكل مطلق، إلى جانب تعزيز وعي المستخدمين بقدراتها وحدودها.

وفي ختام الدراسة، أشار الباحثون إلى أن نتائج مشابهة ظهرت في تجارب على أنظمة ذكاء اصطناعي أخرى، ما يعكس تحديا أوسع في هذا المجال،

كما لفتوا إلى أن دراسة سابقة عام 2024 أظهرت أن المستهلكين كانوا أقل ميلا لشراء منتجات تم الترويج لها بالاعتماد على تقنيات الذكاء الاصطناعي.

البيان