1. камеры
  2. Аудио & Электроника автомобиля
  3. Главная Аудио
  4. Личная Аудио
  5. телевизоры
  6. Умный дом
  >> Россия Электронный Технологии >  >> Умный дом >> Умная жизнь

Недостатки OCR

Почтовая служба США использует технологию оптического распознавания символов (OCR) для чтения адресов на почтовых отправлениях. Однако, чтобы почта могла быть прочитана сортировщиком почты OCR, адреса и шрифты должны быть отформатированы определенным образом. Программное обеспечение OCR полезно для преобразования отсканированных изображений печатных или рукописных документов в доступный для поиска электронный текст, но оно имеет недостатки, которые ограничивают его применение.

Ограниченные документы

OCR лучше всего работает с напечатанными документами хорошего качества. Рукописные документы не могут быть легко прочитаны программным обеспечением OCR. Точно так же печатные шрифты, напоминающие рукописный текст, а также нелатинские шрифты создают много ошибок в процессе оптического распознавания символов. Если документ имеет плохую контрастность, помят или загрязнен, или текст и фон одинаково темны, распознавание символов может работать неправильно. OCR испытывает трудности с документами, содержащими изображения и текст. Электронные таблицы также будут вызывать больше ошибок.

Точность

Никакое программное обеспечение OCR не обеспечивает 100-процентную точность. Количество ошибок зависит от качества и типа документа, включая используемый шрифт. Ошибки, возникающие при OCR, включают неправильное прочтение букв, пропуск нечитаемых букв или смешивание текста из соседних столбцов или подписей к изображениям. Если требуется высокая точность — например, при преобразовании цифровых книг в электронный формат — потребуется очистка электронного текста.

Обходные пути

OCR с трудом различает символы, такие как цифра ноль и заглавная буква «О». Чтобы обойти это, можно использовать специальный шрифт OCR, например, записывать ноль. Однако это работает только для документов, созданных с учетом OCR, таких как анкеты. При создании анкет, которые будут писаться от руки, исследователи также используют квадратики для каждой буквы.

Дополнительная работа

Даже если отсканированное изображение исходного документа имеет высокое качество, необходимо выполнить дополнительные действия по очистке текста OCR. Исправлять ошибки, созданные OCR, очень трудоемко. Человеку приходится вручную сравнивать оригинальный документ и электронный текст. Люди также допускают ошибки при наборе текста из документа, но иногда быстрее пропустить шаг OCR.


  1. Недостатки текстовыми сообщениями для Говоря на английском языке
  2. Недостатки кабельного телевидения
  3. Недостатки плазменный
  4. Недостатки плазменный
  5. Недостатки цифрового вещания