Ручное распознавание
Параметр with_hitl=true

Human-in-the-loop (человек-в-контуре) — дополнительный модул ь верификации результатов распознавания и ручного ввода сложных случаев. Модуль доступен как в облачной, так и в локальной версии Dbrain. В качестве платформы разметки используется Яндекс.Толока. На платформе зарегистрированы более 1 млн. исполнителей, а активны онлайн — 37 000. Большое число исполнителей позволяет модулю HITL обрабатывать запросы в режиме online в любое время суток.
Платформа не обрабатывает персональные данные: исполнители получают перемешанный набор полей из разных документов.
- 1.Исполнитель получает пару «вырезанное поле + оцифрованный текст» и оценивает корректность результата с помощью кнопок «Да»/«Нет». Каждое поле проходит через нескольких исполнителей. Оцифрованный текст считается корректным только если все ответы сошлись.
- 2.Если хотя бы один из исполнителей выбирает «Нет», вырезанное поле отправляется на ручной ввод. Исполнитель вводит текст используя виджеты и словари. Например дату нужно выбрать в календаре, а модель машины строго соответствует марке, выбранной в предыдущем поле. Алгоритм запрашивает новые ответы по полю у разных исполнителей пока не будет достигнут консенсус.
Иногда HITL не может достичь консенсуса. К такому результату могут привести:
- дефекты на документах, такие как блики или заломы;
- низкое качество входящего изображения;
- неразборчивый рукописный текст.
Чтобы обозначить такие ситуации, HITL меняет уровень уверенности
confidence:
- 1.00 — «абсолютно уверен»
- 0.80-0.99 — «вполне уверен»
- 0.70-0.79 — «в ответе возможна ошибка»
- 0.69 и ниже — в поле явные проблемы, в ответ уходит оцифрованный текст OCR с предыдущего этапа.