مساعد Motrjim الذكي
دليل تنظيف البيانات | Notepad++ + Regex | s.motrjim.com
مرجع احترافي للمترجمين

تنظيف البيانات بـ Notepad++
باستخدام Regex

دليل شامل وجاهز للاستخدام يحتوي على كل التعابير النمطية (Regex) التي تحتاجها لتنظيف ملفات الترجمة (XLIFF، TXT، SDLXLIFF، Word exports) بسرعة واحترافية.

ابدأ الآن
تم تصميم الصفحة خصيصاً
دبلومة هندسة اللغويات
💡

نصيحة ذهبية عند استخدام Notepad++

Ctrl + H → اختر Regular expression
. matches newline → فعّله فقط إذا كنت تبحث في فقرات متعددة السطور (استخدمه بحذر)
Find Next قبل Replace All → دائماً تحقق أولاً حتى لا تحذف بيانات مهمة!
📁

أولاً: تنظيف هيكل الملف (Structural Cleaning)

حذف السطور الفارغة

حذف السطور الفارغة تماماً

^\r?\n

يجد بداية سطر متبوعة بعلامة سطر جديد فوراً (يحذف السطر الفارغ بالكامل).

Replace with: (فارغ)

قبل التنظيف
النص الأول في الترجمة.

النص الثاني بعد سطر فارغ.
بعد التنظيف ✅
النص الأول في الترجمة.
النص الثاني بعد سطر فارغ.
حذف السطور التي تحتوي مسافات فقط

حذف السطور التي تحتوي مسافات فقط

^\s*$

يجد السطور التي تبدو فارغة ولكن بها مسافات أو Tabs مخفية.

Replace with: (فارغ)

قبل التنظيف
النص الأول
                        
النص الثاني
بعد التنظيف ✅
النص الأول
النص الثاني
إزالة المسافات في البداية

إزالة المسافات في بداية السطور

^\s+

لتخلص من أي Indentation غير مطلوب في بداية الفقرة.

Replace with: (فارغ)

قبل التنظيف
    النص يبدأ بمسافات زائدة
بعد التنظيف ✅
النص يبدأ بمسافات زائدة
إزالة المسافات في النهاية

إزالة المسافات في نهاية السطور

\s+$

يجد المسافات "الخفية" في نهاية الجمل والتي تسبب مشاكل في الـ TM.

Replace with: (فارغ)

قبل التنظيف
النص ينتهي بمسافات    
بعد التنظيف ✅
النص ينتهي بمسافات
توحيد المسافات

توحيد المسافات الزائدة

[ ]{2,}

يحول أي مسافتين أو أكثر إلى مسافة واحدة فقط.

Replace with: (مسافة واحدة)

قبل التنظيف
النص    به    مسافات    زائدة
بعد التنظيف ✅
النص به مسافات زائدة
حذف أرقام السطور

حذف أرقام السطور (في بداية السطر)

^\d+\t

يجد الأرقام المتبوعة بـ Tab كما في ملفات النصوص المصدرية.

Replace with: (فارغ)

قبل التنظيف
1	النص الأول
2	النص الثاني
بعد التنظيف ✅
النص الأول
النص الثاني
🏷️

ثانياً: تنظيف الوسوم والأكواد (Tags & Code)

حذف الوسوم

حذف جميع وسوم HTML/XML

<[^>]+>

يجد أي نص محصور بين علامتي < و >.

Replace with: (فارغ)

قبل التنظيف
<p>النص <strong>المهم</strong> داخل الفقرة</p>
بعد التنظيف ✅
النص المهم داخل الفقرة
إزالة Entities

إزالة الرموز الخاصة (Entities)

&[a-z]+;

يجد رموزاً مثل &nbsp; أو & بعد الـ OCR.

Replace with: (فارغ)

قبل التنظيف
النص&nbsp;يحتوي&nbsp;على رموز خاصة
بعد التنظيف ✅
النص يحتوي على رموز خاصة
حذف التعليقات

حذف التعليقات البرمجية

<!--[\s\S]*?-->

يجد التعليقات المخفية داخل ملفات الـ HTML أو XLIFF.

Replace with: (فارغ)

قبل التنظيف
النص العادي<!-- تعليق داخلي مخفي -->النص التالي
بعد التنظيف ✅
النص العاديالنص التالي
تحديد روابط

تحديد روابط الـ URL

https?://\S+

يجد أي رابط يبدأ بـ http أو https لتنظيفه أو استثنائه.

Replace with: [رابط] (اختياري)

قبل
زوروا https://s.motrjim.com
بعد
زوروا [رابط]
تحديد إيميلات

تحديد عناوين البريد الإلكتروني

[\w.]+@[\w.]+

يجد أي إيميل داخل النص لتشفيره أو حذفه.

Replace with: [إيميل] (اختياري)

قبل
تواصل مع info@s.motrjim.com
بعد
تواصل مع [إيميل]
🗣️

ثالثاً: تنظيف المحتوى اللغوي (Content Cleaning)

كلمات مكررة

البحث عن كلمات مكررة بجانب بعضها

\b(\w+)\s+\1\b

يجد أخطاء مثل "the the" أو "في في" (يعمل في الإنجليزية بشكل أفضل).

Replace with: \1

قبل التنظيف
في في الترجمة القانونية
بعد التنظيف ✅
في الترجمة القانونية
نصوص بين قوسين

تحديد النصوص بين قوسين

\([^\)]*\)

مفيد لحذف الملاحظات الجانبية أو مراجع النصوص القانونية.

Replace with: (فارغ)

قبل التنظيف
النص الرئيسي (ملاحظة جانبية أو مرجع قانوني)
بعد التنظيف ✅
النص الرئيسي
أرقام طويلة

إيجاد الأرقام الطويلة (3 خانات فأكثر)

\b\d{3,}\b

مفيد لفحص أرقام السياسات أو القضايا كما في Xbench.

Search only (لا تستبدل)

مثال: رقم القضية 123456 سيتم تحديده
نص إنجليزي

البحث عن نص إنجليزي فقط

[a-zA-Z]+

لعزل المصطلحات الإنجليزية في ملفات ثنائية اللغة.

Search only

نص عربي

البحث عن نص عربي فقط

[\u0600-\u06FF]+

لعزل المحتوى العربي في الملفات القذرة المليئة باللغات الأخرى.

Search only

🔍

رابعاً: إصلاحات OCR (للملفات الطبية والقانونية)

إصلاح rn → m

إصلاح التباس (rn) مع (m)

rn

يجد الأخطاء الشائعة في ملفات الـ OCR مثل cornplaint.

Replace with: m

قبل التنظيف
complarnt → cornplaint
بعد التنظيف ✅
complaint
إصلاح 1 ↔ l

إصلاح التباس (1) مع (l)

\b1\w

يجد الحالات التي يُقرأ فيها حرف الـ L كرقم 1 في الكلمات الطبية أو القانونية.

Replace with: l (ثم تحقق يدوياً)

قبل التنظيف
po1icy → 1egal
بعد التنظيف ✅
policy → legal

© s.motrjim.com — دليل تنظيف البيانات بـ Notepad++ & Regex

مصمم خصيصاً لطلاب دبلومة هندسة اللغويات

آخر تحديث: 23 أبريل 2026

Scroll to Top