Оптическое распознавание символов
Оптическое распознавание символов, обычно сокращенное до OCR, представляет собой механическое или электронное преобразование отсканированных или сфотографированных изображений машинописного или печатного текста в машиночитаемый / машиночитаемый текст. Он широко используется как форма ввода данных из какого-то оригинального источника бумажных данных, будь то паспортные документы, счета-фактуры, выписка по счету, квитанции, визитная карточка, почта или любое количество печатных записей. Это распространенный метод оцифровки печатных текстов, чтобы их можно было электронным образом редактировать, искать, хранить более компактно, отображать в режиме онлайн и использовать в машинных процессах, таких как машинный перевод, преобразование текста в речь, извлечение ключевых данных и интеллектуальный анализ текста , OCR - это область исследований в области распознавания образов, искусственного интеллекта и компьютерного зрения. Ранние версии должны были быть запрограммированы с изображениями каждого персонажа и работали по одному шрифту за раз. «Интеллектуальные» системы с высокой степенью точности распознавания для большинства шрифтов теперь являются общими. Некоторые коммерческие системы способны воспроизводить форматированный вывод, который близко аппроксимирует исходную отсканированную страницу, включая изображения, столбцы и другие нетекстовые компоненты.