يناقش الباحثون ما إذا كان استعمال برمجيات للكشف الآلي عن أوجه عدم الاتساق في الأوراق البحثية قد يحسِّن من جودة المؤلفات، أم أنه قد يُطْلِق إنذارات كاذبة.

رصدت ميشيل ناويتن وزملاؤها أخطاء فادحة، حينما أطلقوا العنان للبرنامج “ستاتتشِك” statcheck لتدقيق مؤلفات علم النفس. يمسح البرنامج المقالات؛ بحثًا عن النتائج الإحصائية، ومن ثم يُعِيد الحسابات، ويطابق الأرقام. وقد مسح 30,717 ورقة بحثية، وحدَّد 16,695 ورقة منها اختبرت فرضيات بطرق إحصائية، ووجد في نصفها خطأ محتمَلًا واحدًا على الأقل (M. B. Nuijten et al. Behav. Res. Methods 48, 1205–1226; 2016 ).
ولم تنبِّه ناويتن مؤلفي المقالات إلى الأخطاء، ولكن المؤلف المشارِك لها، كريس هارتجرينك – وهو زميل متخصص في المنهجيات لدى جامعة تيلبورج بهولندا – حوَّل اهتمامه في شهر أغسطس الفائت من المؤلفات عمومًا إلى مقالات معينة. ومسح بـ”ستاتتشِك” أكثر من 50,000 مقال، وأرسل تقارير البرنامج إلى موقع PubPeer، وهو منتدى على الويب، كثيرًا ما يناقش فيه العلماء أوراقهم البحثية، وتَسَبَّب ذلك أحيانًا في إثارة جدل حاد حول الكيفية التي يجب أن تُستعمل بها أدوات من هذا النوع.
توقَّع هارتجرينك أن تنبِّه تلك النتائج – التي نشرها على الموقع – القراء والمؤلفين إلى الأخطاء المحتملة، وأن “تُفِيد المشتغلين في المجال، على نحو أكثر مباشرة، مما لو جرى طرح النتائج كمجموعة صماء من البيانات”، حسب قوله. ولم يوافقه الجميع الرأي. ففي العشرين من أكتوبر الماضي، حذَّر اتحاد علم النفس الألماني من أن نشر نتائج زائفة عن الأخطاء يمكن أن يضر بسمعة الباحثين. وفيما بعد في ذلك الشهر، شجب رئيس سابق لاتحاد علم النفس في واشنطن العاصمة بشدة ظاهرة “تشويه السمعة من غير تمحيص، ولا تدقيق” عبر المدونات والشبكات الاجتماعية، ورأى أن المنشورات المعتمِدة على نتائج برامج مشابهة لـ”ستاتتشك” يمكن أن تمثل تعديًا على الآخرين.
ويتوقع آخرون تغيُّرًا إيجابيًّا في الثقافة. لقد حصل كل من هارتجرينك، وناويتن على جوائز من هيئات تشجِّع العلم المفتوح. وفي تعليق على موقع PubPeer على مقال “ستاتتشك” الأصلي، كتب باحث علم النفس نك براون – من جامعة جرونينجن بهولندا – أننا قد نحصِّل استفادة علمية، إذا توقف الباحثون عن افتراض أن الإدراج على المنتدى يشير إلى أن الورقة البحثية المنتقَدة تحتوي على “شيء قبيح”، وتعاملوا مع الأمر باعتبار أن “ثمة ملاحظة في PubPeer سوف أقرأها وأُقَيِّمها بصفتي عالِمًا”.
تحثّ أداة آلية كهذه الباحثين على تدقيق أعمالهم، وهذا يفيد في علم النفس، حسب ما تقول سايمين فازير التي تدرس الفهم الذاتي في جامعة كاليفورنيا بدافيس، وتضيف: “أداة كهذه ستلتقط الأخطاء، والأهم.. هو أنها ستجعلنا أكثر حذرًا”.
من جهة أخرى، راقت الفكرة لعديدين؛ فقد حمَّل عدة آلاف من الأشخاص برنامج “ستاتتشك” المجاني الذي يعمل بلغة البرمجة R، أو زاروا الموقع statcheck.io الموجود على الإنترنت، ولا يتطلب معرفة بالبرمجة. هذا.. و(يمكن للباحثين الذين يرغبون في تدقيق نتائج بعينها، بدلًا من الورقة البحثية برمّتها، أن يستعملوا حاسبات إلكترونية على الإنترنت، مثل ShinyApps).
تدقيق تقني
تَعرِض أبحاث علم النفس في معظمها الاختبارات الإحصائية بصيغة قياسية، وتُرفَق معها المعايير ذات الصلة، التي يمكن تدقيقها؛ من أجل الكشف عن جوانب عدم الاتساق الموجودة فيها. يحدِّد “ستاتتشك” – الذي يعمل حتى الآن على أبحاث بهذه الصيغة فقط – ويُجرِي بضعة اختبارات عامة؛ لحساب القيمة الإحصائية «بي» P value التي تقيس احتمال ظهور نتائج محتمَلة مصادفة، إذا لم يكن ثمة فَرْق فعلي بين مجموعتين (انظر: “عمَّ يبحث ستاتتشك؟”). وبالرغم من أن الإحصائيين قد حذَّروا من الأمر، إلا أن أيّ قيمة لـ P أصغر من 0.05 تُستعمل غالبًا كمحدد اعتباطي لمسألة “الدلالة الإحصائية”، سامِحةً بذلك باعتماد النتائج ونشرها.

تتمثل غالبية الأخطاء التي يلتقطها “ستاتتشك” في أخطاء طباعية، أو أخطاء نسخ ولصق، حسبما يقول دانييل لاكنس، المتخصص في علم النفس الإدراكي لدى جامعة آيندهوفن للتكنولوجيا بهولندا. فبعد قراءة مقال “ستاتتشك”، قرر تحليل الأخطاء التي قال البرنامج إنها غيَّرت الدلالة الإحصائية للنتيجة. وقد وجد ثلاثة أنواع رئيسة من الأخطاء، حيث يقوم الباحث عادةً بإدخال إشارة خاطئة، من مثل P < 0.05، عوضًا عن P = 0.05. وفي حالات أخرى، جرى إعداد الحسابات؛ من أجل الكشف عن علاقات محددة، دون غيرها (مثل الارتباط الإيجابي، أو السلبي)، دون التصريح بذلك. وكان التقريب المتفائل شائعًا أيضًا؛ فالقِيَم (بي) التي تساوي 0.055، وتم تقريبها إلى P ≤ 0.05 مثلت 10% من الأخطاء المكتشَفة، التي غيَّرت الدلالة الإحصائية، وقد وصف لاكنس نسبة حدوث ذلك بأنها عالية إلى حد مثير للإحباط.
إنّ “ستاتتشك” نفسه يرتكب الأخطاء، حسبما يقول توماس شميدت، المتخصص في علم النفس التجريبي لدى جامعة كايزرسلاوترن في ألمانيا، الذي كتب نقدًا للبرنامج (T. Schmidt Preprint at http://arxiv.org/abs/1610.01010; 2016)، بعد أن أعطاه إشعارًا بوجود أخطاء في مقالين له. وعلى سبيل المثال.. لا يميِّز البرنامج دائمًا التعديلات الإحصائية الضرورية من غير الضرورية.
وعندما يكتشف “ستاتتشك” خطأ، فإنه لا يستطيع تمييز ما إذا كان الخطأ متعلقًا بالقيمة (بي)، أم بمعيار ذي صلة بها. ويقول شميدت إن “ستاتتشك” أخفق في الكشف عن 43 من القيمة (بي) في مقالَيْه اللذين مسحهما، بينما رصد 137 قيمة، ونبَّه إلى 35 “نتيجة إحصائية قد تكون غير صحيحة”، اثنتان منها تَبَيَّن احتواؤهما على خطأين في القيمة (بي) لم يغيِّرا من الدلالة الإحصائية، وثلاث نتائج تبين احتواؤها على أخطاء في معايير أخرى، لم تؤثر على القيم (بي)، وثلاثون نتيجة كان الإنذار عنها غير صحيح.
وتُقِرّ ناويتن بأن “ستاتتشك” يمكن أن يُخطئ أحيانًا في تحديد الاختبارات، وأن يغفل عن القيم (بي) المعدلة، إلا أنها أشارت إلى أنها وجدت في مقالها الأصلي معدلات أخطاء مشابهة لتلك التي يُعثر عليها بالتدقيق اليدوي.
لقد بذل هارتجرينك، وناويتن قصارى جهدهما، ونجحا – بشكل عام – في الإبقاء على النقاشات وُدِّيَّة. فقد نشرت ناويتن على الإنترنت شروحًا تفصيلية حول طريقة عمل “ستاتتشك”، مع وجه تعبيري بَاسِم، وعلامات تعجُّب ودودة. ويقوم هارتجرينك بتحديث منشورات PubPeer بنسخة محسَّنة من البرنامج. ويقول كلاهما إنه يمكن لأي شخص أن يعلِّق على منشورات PubPeer؛ لشرح نتائج “ستاتتشك”، وإن تلك المنشورات تنص على أن النتائج ليست نهائية. تقول ناويتن: “إن الشيء الذي أحاول تكراره دائمًا هو أن “ستاتتشك” برنامج آلي، لن تكون دقّته أبدًا كدِقّة التدقيق اليدوي”.
قد يكون الكثير من الإشعارات التي يُعطيها “ستاتتشك” تافهًا، لكن عندما لا يستجيب المؤلفون لهذه الإشعارات؛ تبقى الأمور بدون حلّ، حسبما يقول إلكان أكيورك، عالِم النفس لدى جامعة جرونينجن، الذي يضيف: “لقد غدا النِّقاش بشأن المحتوى زائدًا عن الحد قليلًا”. ويخشى مفكرون – من أمثال دوروثي بيشوب، المتخصصة في علم النفس العصبي في جامعة أكسفورد بالمملكة المتحدة – من أن المنشورات يمكن أن تصرف الانتباه عن نقاشات أكثر أهمية، أو تُنفِّر الناس، وتجعلهم أقل ترحيبًا بمساعي تحسين قابلية النتائج للتكرار. ويرى هايكو هخت – عالِم النفس لدى جامعة يوهانس جوتنبرج في ماينتس بألمانيا – أنه قد يكون للأمر مفعول عكسي: “ما زالت تجربة البرنامج غير ناضجة إلى حد بعيد، لكنها على المدى الطويل قد تُبْقِي العلماء دقيقين”. ويقول – إضافة إلى ذلك – إنه إذا أتاح الباحثون البيانات الخام؛ فسيمكن لأي شخص أن يدقق النتائج.
وعبَّر بعض المؤلفين عن امتنانهم للفرصة التي أُتيحت لهم لتصحيح الأخطاء، لكن عددًا منهم قالوا إنه كان يتوجب أن تُتاح لهم الفرصة لمراجعة التصحيحات، قبل نشرها للعموم. وقد استجاب ثلاثة – على الأقل – في PubPeer لشرح الأخطاء، وأخبر اثنان منهم دورية Nature بأن الأخطاء كانت طباعية، ولم تؤثر في القيم (بي)، وهي أبسط من أن تتطلب تصحيحًا رسميًّا. أما بالنسبة إلى فازير، فإنها تأمل أن تساعد التقارير الآلية الباحثين على الاعتياد على تعليقات ما بعد النشر، وتقول: “أعتقد أنها ستساعد على تقليل حساسيتنا للنقد”.
مساعد المحرر
في شهر يوليو الماضي، بدأت دورية “سيكولوجيكال ساينس” Psychological Science في استخدام “ستاتتشك” لتدقيق المقالات المقدَّمة للنشر، التي حصلت على قبول أوَّلِي بعد المراجعات، ومن ثم مناقشة المؤلفين بخصوص الأخطاء المحتملة. يقول رئيس التحرير، ستيفين ليندسي: “ظننت أنه سيكون ثمة بعض ردود الأفعال السلبية، أو الممانعة، لكن لم يكن هناك أي رد فعل تقريبًا”. ويقول إنه من بين عشرات المقالات التي جرى تدقيقها حتى الآن، ليس من بين الأخطاء ما هو شنيع، مع أنه كانت هناك حالتان – على الأقل – أعطى فيهما المؤلفون قيمة (بي) تساوي 0.05، في حين أنها كانت تساوي 0.054.
ويقول ليندسي إن مناقشة تقارير “ستاتتشك” مع المؤلفين مباشرة مربكة جدًّا، فعلى سبيل المثال.. (يعطي البرنامج إشعارًا بخطأ محتمل عند ظهور الكلمة TRUE). وتقول ناويتن إنّ نسخة قادمة من البرنامج سوف تكون أكثر قابلية للفهم لغير المبرمجين، وتفصح عن أنه حتى ذلك الحين، يجري فريقها محادثات مع الناشرَيْن “إلسِڤيير” Elsevier، و”بلوس” PLOS حول تبنِّيهما البرنامج في منشوراتهما. ويمكن أن يكون ثمة رفيق لـ”ستاتشك” قريبًا، وهو برنامج تجاري أكثر شمولية، يُسمى “ستاتريفيوور” StatReviewer، يجري تطويره من قِبَل باحثين آخرين، وسيكون بإمكانه تحليل مقالات تنتمي إلى مجالات متنوعة، لكنه ليس لتدقيق الحسابات فقط، بل للتحقق من التزام متطلبات إعداد التقارير أيضًا.
ويأمل ليندسي أن يخبو استعمال “ستاتتشك” بمرور الوقت، مع توقف الباحثين عن إدخال نتائجهم الإحصائية يدويًّا في مخطوطاتهم، والاستعاضة عن ذلك بإدخال القِيَم مباشرة بواسطة البرامج التي تولِّدها، والمرتبطة بمخطوطاتهم. يقول ليندسي: “إن المشرفين المنهجيين يستعملون أشياء من قبيل لغة البرمجة “آر ماركداون” R markdown“.
أما شميدت، فيعتقد أنه يمكن لـ”ستاتتشك” أن يكون مفيدًا في تحضير المخطوطات، لكن ليس للمبتدئين، ويقول: “المخاطرة الكبرى أثناء النشر تتمثل في أن المستخدِمين غير المتمرسين يمكن أن يعطوا البرنامج أكثر من قَدْره، باعتمادهم على نتائجه بغير تدقيق”. وأما لاكنس، فما زال متمسكًا بالنظام اليدوي، وفيه يقوم أحد مؤلفي الورقة البحثية بإجراء التحليلات، ويقوم آخر بتدقيقها. وهذا ما يمكِّن من كشف أخطاء، لا يستطيع “ستاتتشك” كشفها، مثل تبديل مواضع الأرقام.
ويبدو ذلك النهج منطقيًّا لناويتن؛ فهدفها لم يكن متعلقًا أبدًا بإصلاح التحليل الإحصائي، بل إنها تقول إن “ستاتتشك” أقرب إلى المدقق الإملائي المعتاد، وتصفه بأنه “أداة سهلة الاستخدام، تقول أحيانًا أشياء غبية”. إنّ الناس يسخرون من تلك الأدوات الخرقاء، لكنهم يظلون يستعملونها لتصحيح الأخطاء.
المصدر