# كيف بنينا أداة كشف الذكاء الاصطناعي في شمرا أكاديميا

## أول أداة كشف ذكاء اصطناعي مصمّمة خصيصاً للنصوص الأكاديمية العربية

---

## المقدمة: التحدي الذي واجهناه

مع الانتشار المتسارع لنماذج الذكاء الاصطناعي التوليدي مثل ChatGPT وGPT-4 وClaude وGemini، باتت المؤسسات الأكاديمية العربية تواجه تحدياً غير مسبوق: **كيف نميّز بين النص الذي كتبه باحث حقيقي والنص الذي ولّده الذكاء الاصطناعي؟**

المشكلة أن أدوات الكشف العالمية — مثل GPTZero وOriginality.ai وCopyleaks — **صُمّمت أساساً للنصوص الإنجليزية**. عند تجربتها على نصوص أكاديمية عربية، تكون النتائج غير موثوقة وأحياناً عشوائية تماماً. والسبب واضح: هذه الأدوات لا تفهم الخصائص اللغوية الفريدة للكتابة الأكاديمية العربية — من البنية الصرفية المعقدة، إلى التنوع اللهجي الذي يتسرب حتى في الكتابة الفصحى، إلى الأنماط البلاغية المميزة للبحث العلمي العربي.

أدركنا في **شمرا أكاديميا** أن الحل لا يكمن في ترجمة أداة إنجليزية أو تعريب واجهة موجودة، بل في **بناء نظام كشف من الصفر** مُعايَر على بيانات حقيقية من الأبحاث العلمية العربية. وهذا بالضبط ما فعلناه.

---

## الميزة التنافسية: قاعدة بيانات أبحاث عربية حقيقية

ما يجعل أداتنا فريدة من نوعها هو أنها لا تعتمد على حدس أو قواعد عامة، بل على **تحليل إحصائي مبني على بيانات حقيقية**:

### خط الأساس البشري
قمنا بتحليل **8,730 بحثاً أكاديمياً عربياً** منشوراً قبل عام 2022 — أي قبل ظهور ChatGPT — من قاعدة بيانات شمرا التي تضم أكثر من 12,800 بحث عربي مفهرس. هذه الأبحاث تمثل الكتابة الأكاديمية العربية الأصيلة بلا أي تدخل من الذكاء الاصطناعي.

### خط الأساس الاصطناعي
ولّدنا **100 عيّنة نصية** باستخدام نموذج GPT-4o-mini عبر إعادة صياغة ملخصات مأخوذة من نفس قاعدة البيانات، لنحصل على نصوص أكاديمية عربية نعرف يقيناً أنها من إنتاج الذكاء الاصطناعي.

هذا المنهج العلمي في بناء خطوط الأساس يعطي أداتنا **معيار مقارنة موضوعي** لا تملكه أي أداة كشف أخرى في العالم العربي.

---

## كيف يعمل النظام: بنية هجينة ذكية

لا نعتمد على طريقة واحدة فقط، بل نجمع بين **طبقتين تحليليتين** في نظام هجين متكامل:

### الطبقة الأولى: المحلل الإحصائي العربي (ArabicTextAnalyzer)

محرك تحليل لغوي بُني بالكامل بلغة PHP (أكثر من 500 سطر برمجي) يحسب **9 مقاييس لغوية** من النص المُدخَل:

| المقياس | الوصف |
|---------|-------|
| **متوسط طول الجمل** | عدد الكلمات في الجملة الواحدة |
| **الانحراف المعياري لطول الجمل** | مدى تنوع أطوال الجمل |
| **كثافة الروابط** | معدل استخدام عبارات الربط والانتقال لكل 100 جملة |
| **علامات الشخص الأول** | استخدام أفعال المتكلم الأكاديمية (نقوم، قمنا، وجدنا، لاحظنا) |
| **البناء للمجهول** | نسبة الصيغ المبنية للمجهول (تمّ، يُعدّ، يُعتبر) |
| **ثراء المفردات** | نسبة Type-Token Ratio عبر نوافذ منزلقة من 100 كلمة |
| **مؤشر الانفجارية (Burstiness)** | معامل الاختلاف في أطوال الجمل — هل يتنوع الكاتب أم يكتب بوتيرة رتيبة؟ |
| **ترقيم النص** | أنماط استخدام علامات الترقيم |
| **إحصائيات عامة** | عدد الكلمات والجمل الكلي |

بعد حساب هذه المقاييس، **يُقارَن النص مباشرة بخطَّي الأساس** (البشري والاصطناعي) لتحديد أيّهما أقرب إليه إحصائياً.

### الطبقة الثانية: التصنيف بالذكاء الاصطناعي

نتائج التحليل الإحصائي تُحقن كسياق مُهيكل في طلب يُرسل إلى نموذج GPT-4 عبر Azure OpenAI. النموذج يتلقى:
- النص الأصلي كاملاً
- المقارنة الإحصائية مع خطوط الأساس
- تعليمات مفصّلة للتقييم تشمل 7 إشارات كشف متخصصة

ثم يُعيد النموذج تحليلاً مهيكلاً يتضمن:
- **نسبة احتمال التوليد بالذكاء الاصطناعي** (0-100%)
- **الحكم**: نص بشري / غالباً بشري / مختلط / غالباً ذكاء اصطناعي / مولّد بالذكاء الاصطناعي
- **مستوى الثقة**: منخفض / متوسط / مرتفع
- **تحليل على مستوى الجمل**: كل جملة مُلوّنة حسب احتمال توليدها اصطناعياً
- **شرح تفصيلي** لأسباب التصنيف

هذه البنية الهجينة تعني أن **التحليل الإحصائي الموضوعي يوجّه النموذج اللغوي**، بدلاً من الاعتماد فقط على حدس النموذج — مما يرفع الدقة بشكل ملحوظ.

---

## النتائج: ما كشفه تحليل البيانات المعيارية

عند بناء قاعدة البيانات المعيارية من 8,730 بحثاً بشرياً و100 عيّنة اصطناعية، ظهرت **فروقات إحصائية مذهلة** بين الكتابة البشرية والاصطناعية:

### جدول المقارنة المعيارية

| المقياس | النصوص البشرية (8,730 بحثاً) | النصوص الاصطناعية (100 عيّنة) | الدلالة |
|---------|------------------------------|-------------------------------|---------|
| متوسط طول الجمل (كلمات) | **43.96** | **23.14** | الذكاء الاصطناعي يكتب جملاً أقصر بكثير |
| الانحراف المعياري لطول الجمل | **10.50** | **5.41** | البشر أكثر تنوعاً في أطوال جملهم |
| كثافة الروابط / 100 جملة | **1.38** | **42.96** | **الذكاء الاصطناعي يستخدم روابط أكثر بـ 31 ضعفاً!** |
| علامات الشخص الأول / 100 جملة | **5.85** | **0.00** | الذكاء الاصطناعي **لا يستخدم صيغة المتكلم أبداً** |
| البناء للمجهول / 100 جملة | **29.33** | **77.86** | الذكاء الاصطناعي يفرط في استخدام البناء للمجهول |
| مؤشر الانفجارية | **0.2245** | **0.2917** | متقاربان نسبياً |
| ثراء المفردات (TTR/100) | **0.8228** | **0.8376** | متقاربان نسبياً |

### أهم الاكتشافات

#### 1. كثافة الروابط: الإشارة الأقوى
الاكتشاف الأبرز هو أن **الذكاء الاصطناعي يستخدم عبارات الربط والانتقال بمعدل 31 ضعفاً مقارنة بالكُتّاب البشريين**. عبارات مثل "بالإضافة إلى ذلك"، "علاوة على ذلك"، "تجدر الإشارة إلى أن"، "في هذا السياق"، "من الجدير بالذكر" — هذه التعبيرات التي يحشوها الذكاء الاصطناعي في كل فقرة تكاد تكون غائبة في الكتابة الأكاديمية البشرية الحقيقية.

> **كثافة الروابط:** بشري 1.38 مقابل اصطناعي 42.96 لكل 100 جملة — فرق ساحق يُعدّ المؤشر الأكثر موثوقية للكشف.

#### 2. غياب صوت الباحث
الباحثون الحقيقيون يستخدمون صيغة المتكلم بشكل طبيعي: "قمنا بإجراء..."، "لاحظنا أن..."، "وجدنا في دراستنا...". الذكاء الاصطناعي؟ **صفر** استخدام لصيغة المتكلم. هذا الغياب الكامل للصوت الشخصي الأكاديمي يُعدّ إشارة واضحة.

#### 3. الإفراط في البناء للمجهول
بينما يستخدم الباحثون البشريون البناء للمجهول بنسبة 29% تقريباً، يرتفع هذا المعدل إلى قرابة 78% في النصوص الاصطناعية. عبارات مثل "تمّ إجراء الدراسة" و"يُلاحَظ أن" و"يُعتبر هذا" تتكرر بشكل مبالغ فيه.

#### 4. طول الجمل والتنوع
يكتب الباحثون العرب جملاً أطول بكثير (44 كلمة في المتوسط مقابل 23 للذكاء الاصطناعي) مع تنوع أكبر في الأطوال — وهذا يعكس "الانفجارية" الطبيعية للكتابة البشرية حيث تتناوب الجمل القصيرة مع الطويلة المعقدة.

---

## تجربة المستخدم: بسيطة وواضحة

صمّمنا واجهة الأداة بحيث يحتاج المستخدم إلى **خطوة واحدة فقط**:

1. **الصق النص** (من 50 إلى 10,000 كلمة) في حقل الإدخال
2. **اضغط "تحليل"** وانتظر 3-5 ثوانٍ
3. **شاهد النتائج** على شكل:
   - مقياس دائري متحرك يعرض النسبة المئوية
   - حكم ملوّن (أخضر = بشري، أصفر = مختلط، أحمر = اصطناعي)
   - تحليل على مستوى كل جملة مع تلوين يوضح الأجزاء المشبوهة
   - جدول مقارنة يُظهر موقع النص من خطوط الأساس البشرية والاصطناعية
   - شرح تفصيلي لأسباب التصنيف

### نظام التصنيف الخماسي

| النسبة | اللون | الحكم |
|--------|-------|-------|
| 0-25% | 🟢 أخضر | نص بشري |
| 26-50% | 🟢 أخضر فاتح | غالباً بشري |
| 51-70% | 🟡 أصفر | مختلط / غير مؤكد |
| 71-85% | 🟠 برتقالي | غالباً ذكاء اصطناعي |
| 86-100% | 🔴 أحمر | مولّد بالذكاء الاصطناعي |

---

## لمن صُمّمت هذه الأداة؟

- **الباحثون**: للتحقق من أصالة كتاباتهم قبل التقديم للمجلات العلمية
- **الطلاب**: للمراجعة الذاتية والتأكد من أن أبحاثهم لا تبدو مولّدة اصطناعياً
- **المحكّمون ورؤساء التحرير**: لفحص الأوراق المقدّمة للنشر
- **المؤسسات الأكاديمية**: لدعم سياسات النزاهة الأكاديمية

---

## لماذا شمرا أكاديميا؟

| الميزة | شمرا أكاديميا | الأدوات الأخرى |
|--------|---------------|----------------|
| **معايرة على أبحاث عربية** | ✅ 8,730 بحثاً حقيقياً | ❌ معايرة إنجليزية فقط |
| **فهم البنية اللغوية العربية** | ✅ محلل مخصص بـ 26 رابطاً و20 صيغة متكلم و11 صيغة مجهول | ❌ ترجمة من الإنجليزية |
| **تحليل إحصائي + ذكاء اصطناعي** | ✅ نظام هجين ذو طبقتين | ❌ طبقة واحدة غالباً |
| **تحليل على مستوى الجمل** | ✅ كل جملة مُصنّفة ومُلوّنة | ❌ نتيجة إجمالية فقط |
| **مقارنة شفافة مع خطوط الأساس** | ✅ جدول يعرض الأرقام الفعلية | ❌ صندوق أسود |
| **دون تبعية خارجية** | ✅ خطوط الأساس محلية على خوادمنا | ❌ تعتمد على خدمات طرف ثالث |

---

## خطوات مستقبلية

نحن لا نتوقف هنا. خارطة الطريق تتضمن:

- **معايرة حسب التخصص**: خطوط أساس منفصلة للعلوم الطبيعية والعلوم الإنسانية والهندسة
- **دعم نماذج متعددة**: توليد عيّنات معيارية من Claude وGemini بالإضافة إلى GPT
- **الفحص الدفعي**: رفع ملفات DOCX أو PDF لفحص أبحاث كاملة دفعة واحدة
- **تقارير PDF**: إصدار تقارير كشف رسمية للمؤسسات الأكاديمية
- **سجل الفحوصات**: حفظ تاريخ التحليلات السابقة للمستخدم

---

## جرّب الأداة الآن

أداة كشف الذكاء الاصطناعي متاحة الآن على منصة شمرا أكاديميا لجميع المشتركين. يمكنك تجربتها مباشرة على:

**[shamra-academia.com/arabic-ai-detection](https://shamra-academia.com/arabic-ai-detection)**

تكلفة التحليل الواحد **3 رصيد فقط** من رصيد اشتراكك — وهي أداة لا غنى عنها لكل باحث يريد حماية مصداقية عمله الأكاديمي في عصر الذكاء الاصطناعي.

---

*شمرا أكاديميا — منصة البحث العلمي العربي الأولى بأدوات ذكاء اصطناعي متقدمة*
