المجلة الدولية للعلوم والتقنية

International Science and Technology Journal

ISSN: 2519-9854 (Online)

ISSN: 2519-9846 (Print)

DOI: www.doi.org/10.62341/ISTJ

مجلة علمية محكّمة تهتم بنشر البحوث والدراسات في مجال العلوم التطبيقية، تصدر دورياً تحت إشراف نخبة من الأساتذة

Performance Comparison of WHT and DCT Transforms Used in Sliding Window Printed Arabic OCR

الملخص
التمييز الضوئي للنص العربي (مطبوع أو مكتوب باليد) يحتاج لقاعدة بيانات للتعرف علي النص )سواء كانت الطريقة المتبعة تعتمد على التعرف على كلمة أو تعتمد على تقسيم النص الى حروف مفردة)، لذلك يصعب الحصول على قاعدة بيانات شاملة يمكن الاعتماد عليها ، كذلك التمييز الضوئي للنص المكتوب يحتاج لإجراء العديد من التعديلات قبل المعالجة ويحتاج لطرق لتقسيم النص إلى حروف مفردة وطرق للتعرف على هذه الحروف. في هذه الورقة ، قمنا باقتراح طريقة أخرى للتمييز الضوئي لحروف اللغة العربية المطبوعة من دون تجزئة ودون الاعتماد على قاموس للكلمات. ولقد تم استخدام تحويلاتWalsh Hadamard وتحويلات Discrete Cosine كأدوات لاستنتاج واستخراج خصائص الحروف. النظام يبدأ بعملية المسح الضوئي لصورة النص العربي المطبوع المراد التعرف عليه ، ثم مطابقة صور الحروف التي تم تخزينها مسبقا مع صورة النص المراد التعرف عليه ككل ، ثم يتم تحديد مواقع هذه الحروف في صورة النص.
Abstract
The Arabic text recognition (i.e.: word extraction, pattern recognition or segmentation) needs databases for training and validation (which are difficult to find such Arabic comprehensive databases), in addition to that, Arabic writing recognition involves different pre-processing, segmentation and recognition methods. To overcome these issues, we propose a different Arabic Optical Character Recognition "AOCR" approach, that is segmentation-free character recognition independent of a lexicon of words. A system for Arabic character recognition which is implemented using either Walsh Hadamard Transform (WHT) or Discrete Cosine Transform (DCT) is analysed. The system starts by scanning the document, then matching the archive of character images with the text image, and determines the positions of these characters in the text image. Three font types (Arial, Times New Roman and Simplified Arabic), and nine font sizes (8,10,12,14,16,20,24 and 28) are used for this analysis.