Dbrain
Search…
Распознавание документов
Метод /recognize
Алгоритм распознавания документов включает в себя классификацию документов на изображении и распознавание в нём текста полей.

Алгоритм работы метода API /recognize

    1.
    Алгоритм ищет на входящем изображении прямоугольные области, похожие на документы, и вырезает их.
    2.
    Классификатор присваивает каждой вырезанной области класс: главный разворот паспорта России, водительское удостоверение образца 2011 года, СНИЛС и так далее. По ссылке доступен список поддерживаемых типов документов.
    3.
    Алгоритм оценивает ориентацию документа в пространстве. При необходимости, классификатор поворачивает или зеркально отражает документ.
    4.
    Алгоритм находит и вырезает поля документа. Например, в паспорте отдельно вырезаются фамилия, место рождения, серия, номер и остальные поля.
    5.
    Алгоритм OCR оцифровывает символы на вырезанном поле документа.
    6.
    OCR присваивает результату распознавания «уровень уверенности» confidence.
    7.
    Если включен режим ручного распознавания, модуль HITL обрабатывает пару «вырезанное поле + оцифрованный текст» .
    8.
    Оцифрованный текст проходит верификацию по маскам и словарям.

Уровень уверенности confidence

Параметр confidence в ответе показывает уровень уверенности алгоритма в корректности распознавания символов:
    0.90-1.00 — абсолютно уверен;
    0.70-0.89 — вполне уверен;
    0.50-0.69 — в ответе возможна ошибка;
    0.01-0.49 — в поле наверняка есть ошибка;
    0 — в поле точно ошибка.
Алгоритм вернёт пустой ответ с нулевым confidence, если оцифрованный текст не пройдёт проверку по маскам и словарям. Например, дата рождения «56.12.1988» не попадёт в ответ.

Функция сверки полей с внешним файлом

Функция сравнивает результаты распознавания полей с текстом из вашего файла. Это полезно, когда вы хотите сверить данные из изображений документов с данными из других источников. Для использования функции дополнительно укажите JSON-файл в параметре verify_fields.
Ниже показан пример JSON-файла для сравнения серии-номера и ФИО из паспорта РФ с результатами распознавания:
1
{
2
"series_and_number": "1111 222222",
3
"surname": "Иванов",
4
"first_name": "Иван",
5
"other_names": "Иванович"
6
}
Copied!
Для составления своего JSON-файла скопируйте наименования полей из API-спецификации.
Функция сверки возвращает атрибут "valid" для каждого поля документа. Допустимые значения атрибута:
    "true" — текст поля в JSON-файле и в результатах распознавания совпадают;
    "false" — текст не совпадает;
    "null" — поле отсутствует в JSON-файле.
Помимо этого, функция сверки возвращает атрибут "levenshtein" — расстояние Левенштейна для результата распознавания и аналогичного поля из внешнего JSON-файла.

API-спецификация

Ниже представлена API-спецификация для метода распознавания документов. Подробнее о том, как составить запрос на распознавание, в разделе Подключение и тестирование.
post
https://latest.dbrain.io/recognize
recognize
Last modified 2d ago