OCR هي تلك الخاصة بالتعرف البصري على الأحرف أو المعروفة أيضًا باللغة الإسبانية باسم التعرف الضوئي على الأحرف. OCR عبارة عن برنامج يتيح التعرف على النص ، وإنتاج صورة منه لتحويلها إلى سلسلة من الأحرف ، ثم حفظها بتنسيق معين يمكن استخدامه في برامج تحرير النصوص تلك. بعبارة أخرى ، بفضل هذه التقنية الجديدة ، يمكن تحويل أي نوع من النصوص أو المستندات ، بما في ذلك ملفات PDF أو الأوراق الممسوحة ضوئيًا أو حتى الصور المأخوذة من الكاميرات الرقمية ، إلى بيانات من أجل الحصول على إمكانية التحرير.
يعمل هذا البرنامج على النحو التالي ، أولاً يقوم بتحليل كل جزء من صورة المستند المعني ؛ توزيع الصفحة في أجزاء مثل الجداول والصور وكتل النص وغيرها ؛ ثم يتم توزيع الأسطر بالكلمات لتصبح لاحقًا أحرفًا ؛ وبما أنه قد تم بالفعل الإشارة إلى الأحرف ، يقوم البرنامج بإجراء المقارنة مع مجموعة من صور النمط. يتقدم هذا وفقًا لسلسلة الفرضيات حول ماهية كل شخصية ؛ وبناءً على هذه الفرضيات ، فإنه يحلل المتغيرات المختلفة لتقسيم الأسطر إلى كلمات وكلمات إلى أحرف. وبعد عدد كبير من التحليل ومعالجة الفرضيات ، يقدم البرنامج أخيرًا النص الذي تم التعرف عليه بالفعل وتحويله بتنسيق جديد.
وتجدر الإشارة إلى أن هناك اليوم عددًا من البرامج التي يقدمها سوق الكمبيوتر بناءً على OCR مثل OmniPage أو Abbyy Fine Reader أو READiris. YY التي لديها القدرة ، ليس فقط على تحليل النص والتعرف عليه على هذا النحو ، ولكن أيضًا التعرف على التنسيق والأسلوب ، ولكن مع وجود قيود معينة ، مما يتطلب تحرير النص ، بعد تحليله ، لإجراء التعديلات التي هي تطلب.