LECTURE 01 · UNIT: AI ETHICAL TESTING

الأسس النظرية لـ Red Teaming وحوكمة الذكاء الاصطناعي

Foundations of AI Red Teaming & Governance

مدخل احترافي لمجال الاختبار الأخلاقي للذكاء الاصطناعي: من جذوره العسكرية والسيبرانية، إلى الأطر التنظيمية الحديثة (NIST، EU AI Act، OWASP)، وصولاً إلى عقلية المُختبِر العدائي ودور المُختبِر اللغوي العربي في صناعة AI Safety عالميًا.

المدة 2.5 ساعة

المستوى متقدم

المحاضرة 1 من 4

المخرج Scope Statement

ابدأ المحاضرة

MISSION BRIEFING · إحاطة المهمة

الأهداف التعليمية للمحاضرة

بنهاية هذه المحاضرة، ستكون قادرًا على تشغيل عمليات Red Teaming الأساسية لأنظمة الذكاء الاصطناعي، وفهم الإطار الحاكم لها، والتموقع المهني في سوق متخصّص يفتقر بشدّة إلى الكفاءات اللغوية العربية.

MISSION 01 01

الجذور التاريخية

فهم الإطار النظري والتاريخي لـ Red Teaming من المجال العسكري إلى الأمن السيبراني وصولًا إلى نماذج LLMs.

MISSION 02 02

التمييزات المفاهيمية

التمييز الدقيق بين أربعة محاور أساسية: Safety / Security / Alignment / Robustness في تقييم النماذج.

MISSION 03 03

الأطر التنظيمية

استيعاب الأطر الحاكمة الكبرى: NIST AI RMF 1.0، قانون EU AI Act، وOWASP LLM Top 10 (2025).

MISSION 04 04

العقلية العدائية

بناء عقلية المُختبِر العدائي (Adversarial Mindset) وفق منهجية Anthropic وOpenAI.

MISSION 05 05

السوق والوظائف

تحديد دور المُختبِر اللغوي العربي (Arabic Red Teamer) في صناعة AI Safety عالميًا والفرص الوظيفية المتاحة.

HISTORICAL TIMELINE · المسار التاريخي

من الحرب الباردة إلى عصر النماذج اللغوية

رحلة مصطلح Red Teaming عبر ستة عقود — كيف انتقل من تدريبات الحرب الباردة العسكرية، إلى ساحات الأمن السيبراني، إلى قلب صناعة الذكاء الاصطناعي التوليدي.

1960s

الجذور العسكرية — الحرب الباردة

نشأة المفهوم في الجيش الأمريكي خلال الحرب الباردة: فِرَق "حمراء" تلعب دور الخصم السوفييتي ضد فرق "زرقاء" تمثّل الحلفاء، في تدريبات وألعاب حرب لاختبار جاهزية القرار الاستراتيجي.

Military Origin

1990s

التحوّل إلى الأمن السيبراني

مع انتشار الإنترنت، تبنّت شركات التكنولوجيا الكبرى مفهوم Red Teaming تحت مسمّى Penetration Testing: فرق متخصّصة تحاول اختراق الأنظمة بنفس عقلية المهاجم الحقيقي لكشف الثغرات قبل استغلالها.

Cybersecurity Era

2016

حادثة Tay وبداية AI Red Teaming

إطلاق Microsoft لروبوت المحادثة Tay على تويتر، وتحوّله خلال ساعات إلى مصدر خطاب عنصري بفعل هجمات مستخدمين منظّمة. هذه الحادثة كانت إنذارًا مبكرًا بضرورة اختبار أنظمة الذكاء الاصطناعي بمنطق Red Teaming قبل النشر.

First AI Incident

2020

إطلاق GPT-3 وتقييم النماذج التوليدية

إصدار OpenAI لنموذج GPT-3 وبداية الموجة الحقيقية لتقييم قدرات النماذج التوليدية الكبيرة. ظهور أوّل أوراق بحثية مخصّصة لاختبار الأمان والتحيّز في نماذج اللغة الضخمة (LLMs).

LLM Evaluation

2022

ChatGPT والانفجار الجماهيري

إطلاق ChatGPT ووصوله إلى 100 مليون مستخدم في شهرين. ظهور موجة هجمات Jailbreaking الشعبية (DAN، GrandmaExploit) وتحوّل Red Teaming من نشاط داخلي إلى ضرورة صناعية حرجة.

Mass Adoption

2023

Anthropic وأوّل فريق Red Team منظّم

إطلاق نموذج Claude ونشر شركة Anthropic لأوّل ورقة منهجية مفصّلة عن Red Teaming للنماذج اللغوية. تأسيس OpenAI Red Teaming Network لتجنيد مختبرين خارجيين من تخصّصات متعدّدة.

Industry Standard

2024

Many-Shot Jailbreaking و NIST AI RMF

نشر Anthropic لورقة Many-Shot Jailbreaking التي كشفت ثغرة بنيوية في النماذج طويلة السياق. إصدار NIST لملف AI 600-1 (GAI Profile) كأوّل إطار حكومي رسمي لإدارة مخاطر الذكاء الاصطناعي التوليدي.

Regulatory Era

2025–2026

العصر الذهبي لـ Red Teaming

إصدار OWASP LLM Top 10 v2.0، تطبيق EU AI Act فعليًا على نماذج اللغة، وتحوّل AI Red Teamer إلى وظيفة قائمة بذاتها في كبرى الشركات. فجوة كبرى في السوق للمختبرين متعدّدي اللغات والثقافات.

Career Path

CORE DISTINCTIONS · التمييزات المفاهيمية

الأركان الأربعة لتقييم نماذج الذكاء الاصطناعي

أربعة محاور يخلط بينها كثيرون، لكن المختبِر المحترف يعرف الفروق الدقيقة بينها — وكل ركن له منهجية اختبار مختلفة وأدوات قياس مغايرة.

Safety

السلامة

حماية المستخدم من الأضرار الناتجة عن مخرجات النموذج: محتوى عنيف، تحريض، تضليل طبي، أو تسهيل الإيذاء الذاتي.

EXAMPLE نموذج يرفض إعطاء تعليمات تركيب أسلحة كيميائية حتى لو طُلب منه بصياغات ملتوية.

Security

الأمن

حماية النظام نفسه من الاختراق: Prompt Injection، تسريب بيانات تدريب، سرقة النموذج، حقن تعليمات خبيثة في وثائق RAG.

EXAMPLE منع المهاجم من حقن أمر في مستند PDF يُترجمه النموذج فينفّذ أوامر خفيّة.

Alignment

المُحاذاة

مطابقة سلوك النموذج لقيم البشر المقصودة: الصدق، عدم الإيذاء، احترام التنوّع الثقافي، رفض الاستغلال العاطفي.

EXAMPLE نموذج لا يتظاهر بمشاعر حقيقية لاستدراج المستخدم إلى علاقة عاطفية وهمية.

Robustness

المتانة

ثبات الأداء أمام المدخلات الشاذّة أو المعادية: أخطاء إملائية متعمّدة، لهجات نادرة، مدخلات طويلة جدًّا، أو هجمات Adversarial مُصمَّمة.

EXAMPLE الترجمة تظل دقيقة حتى لو احتوى النص العربي على تشكيل غير معتاد أو لهجة مغاربية.

GOVERNANCE FRAMEWORKS · الأطر التنظيمية

الأطر الحاكمة الأربعة في 2026

أربعة أطر معيارية لا بدّ لأي مُختبِر محترف من إتقانها. كل إطار يقدّم منهجية مختلفة: من إدارة المخاطر، إلى التشريع الإلزامي، إلى الخرائط التكتيكية للهجمات.

Standard · معيار

NIST AI RMF 1.0

National Institute of Standards · USA

الإطار الأمريكي الرسمي لإدارة مخاطر الذكاء الاصطناعي، إصدار 2023 + ملف AI 600-1 الخاص بالنماذج التوليدية (2024). يتكوّن من أربعة أركان متكاملة.

GOVERNMAPMEASUREMANAGE

الموقع الرسمي

Regulation · تشريع

EU AI Act

European Union · In Force 2024 · Phased 2025–2026

أوّل قانون شامل للذكاء الاصطناعي في العالم، يُصنّف الأنظمة في أربع فئات مخاطر: غير مقبول، عالٍ، محدود، أدنى. يفرض اختبار Red Teaming إلزاميًّا للنماذج عالية المخاطر.

UnacceptableHighLimitedMinimal

نص القانون الكامل

Community · مجتمعي

OWASP LLM Top 10

Open Worldwide App Security · 2025

القائمة المرجعية لأخطر عشر ثغرات في تطبيقات نماذج اللغة. النسخة المحدّثة (v2) لـ 2025 تشمل تحديات جديدة في أنظمة RAG و Agentic Workflows.

LLM01 Prompt Injection LLM02 Sensitive Info LLM03 Supply Chain LLM04 Data Poisoning LLM05 Improper Output LLM06 Excessive Agency LLM07 System Prompt Leak LLM08 Vector Weakness LLM09 Misinformation LLM10 Unbounded Consumption

القائمة الكاملة

Tactical · تكتيكي

MITRE ATLAS

MITRE Corporation · 2020 – Ongoing

مصفوفة Adversarial Threat Landscape for AI Systems: تصنيف تكتيكي لكل الهجمات المعروفة على أنظمة الذكاء الاصطناعي، مبني على نمط مصفوفة MITRE ATT&CK الشهيرة في الأمن السيبراني.

ReconnaissanceInitial AccessExecutionImpact

ATLAS Navigator

MARKET INTELLIGENCE · ذكاء السوق

اقتصاديات سوق Red Teaming في 2026

فجوة كبيرة في سوق الكفاءات: شركات الذكاء الاصطناعي الكبرى تبحث عن مُختبرين ناطقين بالعربية وثقافات متنوّعة، بينما الموارد البشرية المتاحة شحيحة جدًّا. فرصة استراتيجية للمترجمين العرب الذين يبنون مهاراتهم في هذا المجال.

Hourly Rate

$40–80

متوسط أجر AI Red Teamer لغوي عن بُعد

Arabic Gap

<1%

نسبة المختبرين الناطقين بالعربية في المنصات العالمية

Platforms

منصات عمل عالمية رئيسية مفتوحة للتقديم

Market Size

$2.5B

حجم سوق AI Safety المتوقّع نهاية 2026

المنصات العالمية الرئيسية للتقديم

Surge AI

تقييم وتدريب نماذج كبيرة لـ Anthropic و OpenAI و Meta. مشاريع Red Teaming لغوي مكثّفة.

$30–80

Mid

Scale AI

عملاق تقييم البيانات. لديهم برنامج Outlier للمختبرين المستقلّين.

$25–65

Entry

Outlier

ذراع Scale AI المتخصّص في المختبرين المستقلّين متعدّدي اللغات.

$20–55

Entry

Invisible

شركة عمليات للذكاء الاصطناعي، تقدّم مشاريع Red Teaming لشركاء كبار.

$30–70

Mid

DataAnnotation

منصة مفتوحة للمختبرين، تشمل تقييم استجابات النماذج وكشف الإخفاقات.

$20–40

Entry

OpenAI Red Team Network

شبكة المختبرين الخارجيين لـ OpenAI. تقديم رسمي مفتوح للمتخصّصين.

Variable

Senior

Anthropic Careers

وظائف Safety Researcher وRed Team Engineer بدوام كامل.

Salaried

Senior

THE MINDSET · العقلية

عقلية المُختبِر العدائي

Red Teaming ليس مجرّد أدوات وتقنيات — إنه طريقة تفكير. ستة نماذج ذهنية يجب على كل مختبِر محترف أن يتقنها قبل أن يبدأ بتصميم أوّل هجوم.

MENTAL MODEL

Steelmanning vs Strawmanning

ابنِ أقوى نسخة ممكنة من الهجوم (Steelman)، لا أضعفها (Strawman). المختبر السيئ يجرّب صياغات سطحية ويعلن النموذج آمنًا؛ المختبر المحترف يبني هجمات من زاوية مهاجم حقيقي بدوافع وموارد حقيقية.

METHODOLOGY

Threat Modeling عبر Role-play

ادخل في دور المهاجم: مَن هو؟ ما دوافعه؟ ما موارده؟ ما هدفه؟ تقنية Role-play Threat Modeling تتطلّب التخيّل العميق لشخصيات المهاجمين (هاكر، صحفي، خصم سياسي، طفل فضولي، باحث أكاديمي).

ETHICS

الخط الفاصل بين البحث والإيذاء

المختبر يكشف الثغرات ليُصلحها المطوّر، لا ليستغلّها هو. الالتزام بقواعد Responsible Disclosure، عدم نشر هجمات عملية قبل إصلاحها، والحفاظ على سرّية النتائج وفق العقد مع جهة الاختبار.

FRAMEWORK

TTPs: Tactics · Techniques · Procedures

نموذج توثيق مستعار من الأمن السيبراني: التكتيك هو الهدف العام (مثلًا: تجاوز فلتر المحتوى)، التقنية هي الأسلوب (مثلًا: Many-Shot)، الإجراء هو التنفيذ الخطوة بخطوة القابل للإعادة.

DISCIPLINE

Documentation Discipline

هجوم لم يُوثَّق = هجوم لم يحدث. كل حالة اختبار تحتاج: نموذج، إصدار، نص الـ Prompt، درجة الحرارة، النتيجة المتوقّعة، النتيجة الفعليّة، تصنيف الخطورة، وشروط إعادة الإنتاج. المعيار المرجعي: صيغة JSONL للحالات.

CULTURAL LENS

العين العربية المتميّزة

ميزتك التنافسية كمختبر عربي: ترى ما لا يراه فريق Red Team أمريكي. ثقافة دينية، لهجات، حساسيات سياسية إقليمية، أسماء، أعلام، أحداث تاريخية. هذه هي البقعة العمياء التي تدفع شركات AI مقابلها أعلى الأسعار.

PRACTICAL WORKSHOP · التطبيق العملي

ورشة المحاضرة الأولى

تطبيق عملي شامل يجمع كل ما تعلّمته في هذه المحاضرة. أربع مهمّات متتالية تنتهي بمخرج عملي قابل للإضافة إلى البورتفوليو المهني.

Scope Statement Workshop

صياغة بيان نطاق احترافي لاختبار نموذج محادثة عربي افتراضي، باستخدام منهجية MITRE ATLAS وفق معايير NIST AI RMF.

تحليل تقرير Red Team الرسمي لنموذج Claude 3 من Anthropic، واستخراج خمس منهجيات اختبار رئيسية مع توثيقها في صيغة TTP.
مقارنة بين OWASP LLM Top 10 نسخة 2023 ونسخة 2025، ورصد التغييرات الجديدة وأسباب إضافة كل ثغرة مستحدثة.
تطبيق إطار NIST AI RMF على حالة افتراضية محدّدة: نموذج ترجمة آلية عربي-إنجليزي يُستخدم في محكمة شرعية، وتحديد المخاطر في كل ركن من الأركان الأربعة.
صياغة بيان النطاق (Scope Statement) الكامل لاختبار نموذج محادثة عربي افتراضي، يشمل: الأهداف، الحدود، التهديدات المتوقّعة، معايير النجاح، ومنهجية التقييم.

FINAL DELIVERABLE · المخرج النهائي

مستند Scope Statement بصيغة احترافية (PDF أو Markdown) من 3–5 صفحات، يحتوي على جميع المكوّنات المطلوبة، ويصلح للإضافة إلى بورتفوليو AI Red Teamer الخاص بك للتقديم على المنصات العالمية.

RESOURCE HUB · مركز الموارد

المكتبة المرجعية للمختبِر

كل ما تحتاجه في مكان واحد: الأوراق الأكاديمية الأساسية، الأدوات التقنية، المنصّات، والمجتمعات المهنية. روابط مباشرة لكل مصدر.

PAPER · Anthropic

Red Teaming Language Models to Reduce Harms

Ganguli et al. · 2022 · arXiv:2209.07858

أوّل دراسة منهجية شاملة لاختبار نماذج اللغة من قِبَل فريق Anthropic. مرجع تأسيسي.

قراءة الورقة PAPER · Anthropic

Many-Shot Jailbreaking

Anil et al. · 2024 · arXiv:2404.02151

كشف ثغرة بنيوية في النماذج طويلة السياق تسمح بتجاوز الحماية عبر أمثلة متعدّدة.

قراءة الورقة PAPER · DeepMind

Red Teaming Language Models with Language Models

Perez et al. · 2022 · arXiv:2202.03286

منهجية أتمتة Red Teaming باستخدام نموذج لغوي لتوليد هجمات ضد نموذج آخر.

قراءة الورقة PAPER · CMU

Universal and Transferable Adversarial Attacks on Aligned LLMs

Zou et al. · 2023 · arXiv:2307.15043

ورقة GCG الشهيرة في إنتاج هجمات قابلة للنقل بين نماذج مختلفة.

قراءة الورقة PAPER · NeurIPS

Jailbroken: How Does LLM Safety Training Fail?

Wei, Haghtalab, Steinhardt · 2023

تحليل عميق لأنماط فشل تدريب السلامة في نماذج اللغة الكبيرة.

قراءة الورقة PAPER · Saarland Univ.

Not what you've signed up for — Indirect Prompt Injection

Greshake et al. · 2023

أوّل ورقة منهجية تكشف حقن الأوامر غير المباشر عبر المستندات الخارجية.

قراءة الورقة

GLOSSARY · المصطلحات الأساسية

عشرون مصطلحًا يجب إتقانها

المعجم الأساسي لـ Red Teaming بالإنجليزية والعربية. كل مصطلح سيتكرّر مرارًا في المحاضرات القادمة، فاحفظه جيدًا.

الاختبار الأخلاقي العدائي Red Teaming محاكاة هجمات حقيقية لكشف ثغرات النموذج قبل النشر.

كسر الحماية Jailbreaking تجاوز قواعد السلامة المضمّنة في النموذج عبر صياغات ذكية.

حقن التعليمات Prompt Injection حقن تعليمات خفية تتجاوز نية المطوّر الأصلية.

المحاذاة Alignment مطابقة سلوك النموذج للقيم البشرية المقصودة.

المتانة Robustness ثبات الأداء أمام مدخلات شاذّة أو معادية.

الهلوسة Hallucination إنتاج معلومات غير صحيحة بثقة عالية وأسلوب مقنع.

التحيّز Bias انحياز منهجي في مخرجات النموذج تجاه فئة معيّنة.

تصنيف الأضرار Harm Taxonomy منظومة تصنيف منهجي لأنواع الأضرار المحتملة.

حواجز الحماية Guardrails طبقات حماية تفرض قواعد على مخرجات النموذج.

الكشف المسؤول Responsible Disclosure الإبلاغ عن الثغرات للجهة المطوّرة قبل الإعلان العام.

بيان النطاق Scope Statement وثيقة تحدّد حدود وأهداف عملية الاختبار.

السياسة المسؤولة للتطوير RSP سياسة Anthropic لإدارة مخاطر تطوير النماذج القوية.

بطاقة النموذج Model Card وثيقة شاملة تصف قدرات النموذج وحدوده ومخاطره.

المُتغيّرات العدائية Adversarial Examples مدخلات مُصمَّمة خصيصًا لخداع النموذج.

تسميم البيانات Data Poisoning حقن بيانات خبيثة في مرحلة التدريب لتحريف السلوك.

تسريب النموذج Model Leakage كشف بيانات تدريب حسّاسة عبر الاستجابات.

التكرار العكسي Back-translation ترجمة النص ثم إعادة ترجمته لكشف فقد المعنى.

سلسلة التفكير Chain-of-Thought إجبار النموذج على إظهار خطوات استدلاله.

التحايل بأمثلة متعدّدة Many-Shot Jailbreak تقنية حديثة تستغل النوافذ السياقية الطويلة.

الوكلاء الذكيون AI Agents أنظمة LLM تستطيع تنفيذ إجراءات مستقلّة.

UP NEXT · المحاضرة القادمة

LECTURE 02 · COMING UP

تصنيف الأضرار وهجمات Adversarial Prompting

Harm Taxonomies & Adversarial Prompting Techniques

ستتعلم في المحاضرة القادمة كيف تصنّف الأضرار وفق منهجيات Anthropic، وكيف تصمّم هجمات Jailbreaking باللغة العربية، وتقنيات Many-Shot وCrescendo، وكتابة حالات اختبار بصيغة JSONL قابلة لإعادة الاستخدام.

جاهز للانضمام إلى دبلومة هندسة اللغويات وتدريب الذكاء الاصطناعي؟

سجّل الآن في الدبلومة المتكاملة واحصل على وحدة Red Teaming كاملة ضمن منهج شامل يؤهّلك للعمل كـ AI Linguist وRed Teamer عربي مع كبرى شركات الذكاء الاصطناعي.

سجّل في الدبلومة الآن تواصل معنا أولاً

اطلب الانضمام إلى الدبلومة

الاسم(مطلوب)

الاسم الثنائي

رقم الجوال / الهاتف المحمول

العنوان(مطلوب)

الدولة

رسوم هذا البرنامج الشامل هو 2400 ج أو ٥٠ دولار أمريكي(مطلوب)

موافق، مستعد للاشتراك - دفع كامل

موافق، مستعد للاشتراك - دفع على أقساط

ربما الاشتراك لاحقاً، لكنني أريد مزيد من المعلومات

الأسس النظرية لـ Red Teaming وحوكمة الذكاء الاصطناعي

الأهداف التعليمية للمحاضرة

الجذور التاريخية

التمييزات المفاهيمية

الأطر التنظيمية

العقلية العدائية

السوق والوظائف

من الحرب الباردة إلى عصر النماذج اللغوية

الجذور العسكرية — الحرب الباردة

التحوّل إلى الأمن السيبراني

حادثة Tay وبداية AI Red Teaming

إطلاق GPT-3 وتقييم النماذج التوليدية

ChatGPT والانفجار الجماهيري

Anthropic وأوّل فريق Red Team منظّم

Many-Shot Jailbreaking و NIST AI RMF

العصر الذهبي لـ Red Teaming

الأركان الأربعة لتقييم نماذج الذكاء الاصطناعي

Safety

Security

Alignment

Robustness

الأطر الحاكمة الأربعة في 2026

اقتصاديات سوق Red Teaming في 2026

المنصات العالمية الرئيسية للتقديم

عقلية المُختبِر العدائي

Steelmanning vs Strawmanning

Threat Modeling عبر Role-play

الخط الفاصل بين البحث والإيذاء

TTPs: Tactics · Techniques · Procedures

Documentation Discipline

العين العربية المتميّزة

ورشة المحاضرة الأولى

Scope Statement Workshop

المكتبة المرجعية للمختبِر

Red Teaming Language Models to Reduce Harms

Many-Shot Jailbreaking

Red Teaming Language Models with Language Models

Universal and Transferable Adversarial Attacks on Aligned LLMs

Jailbroken: How Does LLM Safety Training Fail?

Not what you've signed up for — Indirect Prompt Injection

Garak

PyRIT

PromptBench

Promptfoo

AdvBench

AI Incident Database (AIID)

Surge AI

Scale AI

Outlier

Invisible Technologies

DataAnnotation.tech

OpenAI Red Teaming Network

Anthropic Careers

AI Alignment Forum

LessWrong

AISafety.com

Hugging Face Spaces

Center for AI Safety

Anthropic Research

عشرون مصطلحًا يجب إتقانها

تصنيف الأضرار وهجمات Adversarial Prompting

جاهز للانضمام إلى دبلومة هندسة اللغويات وتدريب الذكاء الاصطناعي؟

اطلب الانضمام إلى الدبلومة