مساعد Motrjim الذكي
دليل المحاضرة – تصنيف بيانات الترجمة في INCEpTION
◆ Motrjim Academy · Prof. Yassin Ibrahim

تصنيف بيانات الترجمة
باستخدام منصة INCEpTION

دليل المحاضرة التطبيقية · دبلومة هندسة اللغويات وتدريب الذكاء الاصطناعي

📄 4 مستندات للتطبيق 🏷️ 6 تصنيفات مختلفة ⚙️ 7 خطوات تفصيلية ⏱️ 90 دقيقة تقريبًا

المستندات الأربعة للتطبيق

doc1_real_estate_contract.txt
عقد بيع عقاري
عقد شراء عقار أمريكي مبسط · 5 بنود قانونية · أخطاء في المصطلحات والصياغة
TERMINOLOGY ×2 MISTRANSLATION ×1 STYLE ×1
doc2_birth_certificate.txt
شهادة ميلاد كندية
شهادة ميلاد رسمية من أونتاريو · وثيقة معتمدة · أخطاء في الصياغة القانونية الرسمية
CONSISTENCY ×1 TERMINOLOGY ×1 STYLE ×1 GRAMMAR ×1 MISTRANSLATION ×1
doc3_employment_contract.txt
عقد توظيف دولي
عقد عمل مع شركة أمريكية · 4 مواد · أخطاء شائعة في مصطلحات الموارد البشرية
TERMINOLOGY ×3 MISTRANSLATION ×1 OMISSION ×1
doc4_power_of_attorney.txt
وكالة قانونية رسمية
توكيل عام أمريكي · 5 صلاحيات · أخطاء في الأسلوب القانوني والترجمة الحرفية
TERMINOLOGY ×1 MISTRANSLATION ×1 STYLE ×2 GRAMMAR ×1

قائمة التصنيفات (Tagset) المطلوبة في INCEpTION

أنشئ Layer باسم TranslationError من نوع Span، ثم أضف إليه الـ Tagset التالي:

TERMINOLOGY
خطأ مصطلحي
استخدام مصطلح غير دقيق أو مختلف عن المصطلح القانوني المعتمد في اللغة الهدف
MISTRANSLATION
ترجمة خاطئة
نقل خاطئ لمعنى النص الأصلي يغير المضمون القانوني أو المعنى الجوهري
STYLE
خطأ أسلوبي
صياغة ركيكة أو غير مناسبة لأسلوب الكتابة القانونية المعتمد
GRAMMAR
خطأ نحوي
خطأ في قواعد اللغة العربية أو التركيب النحوي للجملة
OMISSION
حذف
إغفال معلومة أو عبارة موجودة في النص الأصلي ولها أثر قانوني
CONSISTENCY
عدم اتساق
استخدام مصطلح واحد بترجمتين مختلفتين داخل الوثيقة الواحدة

الخطوات التفصيلية أثناء المحاضرة

1
الإعداد
تشغيل INCEpTION وإنشاء المشروع
شغّل البرنامج ثم افتح المتصفح على العنوان التالي:
http://localhost:8080 المستخدم: admin | كلمة المرور: admin
→ Create Project → اكتب اسم المشروع: legal-translation-annotation
2
رفع البيانات
رفع الملفات الأربعة
من لوحة المشروع: Settings ← Documents ← Upload Document
ارفع الملفات الأربعة بالترتيب:
doc1_real_estate_contract.txt doc2_birth_certificate.txt doc3_employment_contract.txt doc4_power_of_attorney.txt
💡 الصيغة المدعومة: Plain Text UTF-8 · تأكد من الترميز العربي قبل الرفع
3
إعداد التصنيف
إنشاء Layer وTagset
Settings ← Layers ← Create Layer
Name: TranslationError Type: Span Granularity: Token
ثم أضف Feature:
Feature Name: ErrorType Type: uima.cas.String Tagset: (أنشئ Tagset جديد بالتصنيفات الست)
💡 أضف وصفًا مختصرًا لكل Tag لمساعدة الطلاب عند التصنيف
4
التصنيف الفعلي
تصنيف الأخطاء في المستند الأول
Annotation ← افتح doc1_real_estate_contract.txt
التطبيق: ابحث عن عبارة "أيام تقويمية" في المستند
الخطوة: حدد الكلمتين بالفأرة ← ستظهر طبقة TranslationError في الشريط الجانبي ← اختر ErrorType: TERMINOLOGY ← اضغط Enter للحفظ ✓ ستظهر الكلمتان ملوّنتين
💡 اختصار لوحة المفاتيح: حدد النص ← Ctrl+Click للتصنيف السريع
5
تمرين المجموعة
توزيع المستندات على الطلاب
Settings ← Users ← أضف حسابات الطلاب
Workload ← Static Assignment لتوزيع كل مستند على مجموعة:
المجموعة الأولى ← doc1 (عقد بيع عقاري) المجموعة الثانية ← doc2 (شهادة ميلاد) المجموعة الثالثة ← doc3 (عقد توظيف) المجموعة الرابعة ← doc4 (وكالة قانونية)
6
المراجعة
قياس الاتساق بين الطلاب (Agreement)
بعد انتهاء الطلاب: Agreement ← اختر الطبقة TranslationError
ستظهر مصفوفة الاتساق (Cohen's Kappa) بين كل مصنِّفَين. نسبة >0.7 تعني اتساقًا مقبولًا.
💡 استخدم الاختلافات بين الطلاب كنقطة نقاش في المحاضرة لتعميق الفهم
7
التصدير
تصدير البيانات المصنفة
Export ← اختر الصيغة المناسبة
للبحث اللغوي: WebAnno TSV 3.3 لتدريب النماذج: CoNLL 2002 (NER format) للأرشفة: UIMA XMI (Backup كامل)
💡 ملفات CoNLL جاهزة مباشرة لتدريب نماذج NER في spaCy وHugging Face

جدول التمرين الختامي — اكتشف الخطأ

وزّع هذا الجدول على الطلاب لاختبار قدرتهم على تصنيف الأخطاء قبل الرجوع إلى INCEpTION:

# النص الأصلي الترجمة الواردة التصنيف الصحيح السبب
1 within 5 business days خلال 5 أيام تقويمية TERMINOLOGY business days = أيام عمل (تختلف عن التقويمية)
2 Province of Ontario ولاية أونتاريو TERMINOLOGY Province = مقاطعة (لا ولاية)
3 Compensation المكافآت TERMINOLOGY Compensation = التعويضات / الأجور (مفهوم أشمل)
4 Commission Expires: June 30, 2026 تنتهي صلاحية التفويض في: 30 يونيو 2026 MISTRANSLATION Commission تعني اعتماد كاتب العدل لا التوكيل نفسه
5 indemnify, defend, and hold harmless حماية الطرف الآخر والدفاع عنه وإعفائه STYLE صياغة ركيكة؛ المعتمد: "يعوّض ويدافع ويبرئ"
6 سجّلت بواسطة [بدلًا من: جهة التسجيل] GRAMMAR ينبغي استخدام صيغة الاسم لا الفعل في حقول الوثائق
7 full business time [محذوف] وقت عمله فقط OMISSION حُذفت كلمة "full" ذات الأثر القانوني

إعداد: أ.د. ياسين إبراهيم · أكاديمية مترجم للتطوير المهني للمترجمين

دبلومة هندسة اللغويات وتدريب الذكاء الاصطناعي · جميع الحقوق محفوظة

Scroll to Top