تنظيف البيانات بـ Notepad++
باستخدام Regex
دليل شامل وجاهز للاستخدام يحتوي على كل التعابير النمطية (Regex) التي تحتاجها لتنظيف ملفات الترجمة (XLIFF، TXT، SDLXLIFF، Word exports) بسرعة واحترافية.
دبلومة هندسة اللغويات
جاهزة للنسخ واللصق
كل regex مع مثال قبل وبعد + زر نسخ فوري
نصيحة ذهبية عند استخدام Notepad++
أولاً: تنظيف هيكل الملف (Structural Cleaning)
حذف السطور الفارغة تماماً
يجد بداية سطر متبوعة بعلامة سطر جديد فوراً (يحذف السطر الفارغ بالكامل).
Replace with: (فارغ)
النص الأول في الترجمة. النص الثاني بعد سطر فارغ.
النص الأول في الترجمة. النص الثاني بعد سطر فارغ.
حذف السطور التي تحتوي مسافات فقط
يجد السطور التي تبدو فارغة ولكن بها مسافات أو Tabs مخفية.
Replace with: (فارغ)
النص الأول
النص الثاني
النص الأول النص الثاني
إزالة المسافات في بداية السطور
لتخلص من أي Indentation غير مطلوب في بداية الفقرة.
Replace with: (فارغ)
النص يبدأ بمسافات زائدة
النص يبدأ بمسافات زائدة
إزالة المسافات في نهاية السطور
يجد المسافات "الخفية" في نهاية الجمل والتي تسبب مشاكل في الـ TM.
Replace with: (فارغ)
النص ينتهي بمسافات
النص ينتهي بمسافات
توحيد المسافات الزائدة
يحول أي مسافتين أو أكثر إلى مسافة واحدة فقط.
Replace with: (مسافة واحدة)
النص به مسافات زائدة
النص به مسافات زائدة
حذف أرقام السطور (في بداية السطر)
يجد الأرقام المتبوعة بـ Tab كما في ملفات النصوص المصدرية.
Replace with: (فارغ)
1 النص الأول 2 النص الثاني
النص الأول النص الثاني
ثانياً: تنظيف الوسوم والأكواد (Tags & Code)
حذف جميع وسوم HTML/XML
يجد أي نص محصور بين علامتي < و >.
Replace with: (فارغ)
<p>النص <strong>المهم</strong> داخل الفقرة</p>
النص المهم داخل الفقرة
إزالة الرموز الخاصة (Entities)
يجد رموزاً مثل أو & بعد الـ OCR.
Replace with: (فارغ)
النص يحتوي على رموز خاصة
النص يحتوي على رموز خاصة
حذف التعليقات البرمجية
يجد التعليقات المخفية داخل ملفات الـ HTML أو XLIFF.
Replace with: (فارغ)
النص العادي<!-- تعليق داخلي مخفي -->النص التالي
النص العاديالنص التالي
تحديد روابط الـ URL
يجد أي رابط يبدأ بـ http أو https لتنظيفه أو استثنائه.
Replace with: [رابط] (اختياري)
زوروا https://s.motrjim.com
زوروا [رابط]
تحديد عناوين البريد الإلكتروني
يجد أي إيميل داخل النص لتشفيره أو حذفه.
Replace with: [إيميل] (اختياري)
تواصل مع info@s.motrjim.com
تواصل مع [إيميل]
ثالثاً: تنظيف المحتوى اللغوي (Content Cleaning)
البحث عن كلمات مكررة بجانب بعضها
يجد أخطاء مثل "the the" أو "في في" (يعمل في الإنجليزية بشكل أفضل).
Replace with: \1
في في الترجمة القانونية
في الترجمة القانونية
تحديد النصوص بين قوسين
مفيد لحذف الملاحظات الجانبية أو مراجع النصوص القانونية.
Replace with: (فارغ)
النص الرئيسي (ملاحظة جانبية أو مرجع قانوني)
النص الرئيسي
إيجاد الأرقام الطويلة (3 خانات فأكثر)
مفيد لفحص أرقام السياسات أو القضايا كما في Xbench.
Search only (لا تستبدل)
البحث عن نص إنجليزي فقط
لعزل المصطلحات الإنجليزية في ملفات ثنائية اللغة.
Search only
البحث عن نص عربي فقط
لعزل المحتوى العربي في الملفات القذرة المليئة باللغات الأخرى.
Search only
رابعاً: إصلاحات OCR (للملفات الطبية والقانونية)
إصلاح التباس (rn) مع (m)
يجد الأخطاء الشائعة في ملفات الـ OCR مثل cornplaint.
Replace with: m
complarnt → cornplaint
complaint
إصلاح التباس (1) مع (l)
يجد الحالات التي يُقرأ فيها حرف الـ L كرقم 1 في الكلمات الطبية أو القانونية.
Replace with: l (ثم تحقق يدوياً)
po1icy → 1egal
policy → legal
© s.motrjim.com — دليل تنظيف البيانات بـ Notepad++ & Regex
مصمم خصيصاً لطلاب دبلومة هندسة اللغويات
آخر تحديث: 23 أبريل 2026