Changelog
- Открыли доступ к новым методам сравнения лиц
https://latest.dbrain.io/v2/face/distance
и селфиhttps://latest.dbrain.io/v2/face/selfie
. Чтобы начать ими пользоваться, перепишите интеграцию с нашим сервисом, используя документацию. От текущих версий этих методов откажемся со временем, поэтому рекомендуем начать переход на новые уже сейчас. - Научили метод
recognize
возвращать область документа из изображения. Чтобы воспользоваться, передайте параметрreturn_crops=true
, тогда в ответе появится массивdoc_crops
. - Добавили виды топонимов в адресах прописок в полях
address
иstreet
. Теперь вместо «Энтузиастов» возвращаем «Шоссе Энтузиастов». - Снова доступен возврат даты регистрации в прописках.
- Обновили классификатор документов — теперь он меньше путает типы документов. Обратные стороны водительских удостоверений, например.
- Вернули поддержку параметра doc_type в методе recognize. Теперь можно выбрать из как их типов документов, которые лежат в файле, сервис должен извлекать данные.
- Вернули извлечение следующих полей из штампов прописок:
- код подразделения — subdivision_code
- место выдачи — issuing_authority
- регион — region
- город — locality
- улица — street
- дом — house
- квартира — apartment
- Теперь возвращаем из штампов прописок ещё два поля:
- address_gar — адрес в формате муниципального деления по справочнику ГАР
- fias_id — код адреса по справочнику ФИАС
- Включили нормализацию адреса по справочнику ФИАС в штампах прописок по умолчанию.
Переписываем ядро системы сервисов распознавания. Переносим функционал в новую версию, но пока часть запросов будет продолжать обрабатываться через версию 3.7.8. И для локальной установки мы по-прежнему рекомендуем версию 3.7.8.
Основные моменты:
- API сделали обратно-совместимым. На вашей стороне ничего не нужно мен ять.
- Скорость обработки одного документа сократилась до 1 секунды.
- Добавили извлечение поля «Серия и номер» с разворота «Место жительства» паспорта РФ.
Обновления
- Обновили детектор отфотошопленных паспортов РФ. Теперь он идентифицирует больше способов подделки. Воспользоваться им можно с помощью параметра check_fake_visual методов recognize и classify.
- Обучили классификатор различать новые виды документов:
- Паспорт: Азербайджан 2013, Кыргызстан 2021, Молдавия 2014, Армения, Беларусия 1996, Казахстан 2014, Узбекистан 2011 и 2020;
- Загранпаспорт: Украина 2015;
- Лицевая и обратная сторона ID-карт Азербайджана 2012 и 2018 годов.
- Переписали алгоритм, вычисляющий чёткость изображения. Теперь при оценке чёткости можно полностью полагаться на его показатели.
- Научили алгоритм вычислять уровень уверенности для поля «кем выдано» в штампах прописки.
- Дополнили ответ метода recognize координатами и ориентацией документа, по аналогии с ответом метода classify.
Обновления
- Подняли точность детектора отфотошопленных паспортов РФ. Воспользоваться им можно с помощью параметра check_fake_visual методов recognize и classify
- Научили классификатор документов сообщать уровень уверенности в корректности классификации. Методы recognize и classify теперь возвращают параметр confidence
- Научились распознавать документы СТД-Р и 182н
Багфиксы
- Починили метод fulltext, он сломался в предыдущем релизе
Обновления
- Научились классифицировать вид на жительство и свидетельство о регистрации по месту пребывания
- Добавили распознавание полей «название подразделения» и «код подразделения» в штампах о регистрации
Багфиксы
- Исправили ошибку с некорректной работой ручки face/distance на повёрнутых изображениях
Обновления
- Обучили детектор отфотошопленных паспортов России. Воспользоваться им можно с помощью параметра check_fake_visual методов recognize и classify
- Научились распознавать ЭПТС
- Подняли качество распознавания обеих сторон СТС
- Добавили настройку предельного времени ручного распознавания с помощью параметра hitl_deadline_seconds
Багфиксы
- Исправили ошибку при чтения некоторых вариантов TIFF-файлов
Обновления
- Обучили новый объединённый движок распознавания печатных и рукописных штампов прописок. Метрики точности печатных штампов выросли вдвое, рукописных — ещё на 6%
- Проапгрейдили рукописный OCR-движок для доку ментов — теперь лучше извлекаем текст из рукописного паспорта России и европротокола
- Добавили возврат координат слов в ответ полнотекстового распознавания
Багфиксы
- В паспорте России, СТС, СНИЛС, свидетельстве о рождении и свидетельстве о браке отсутствовали координаты ряда полей
- Классификатор источника изображений не работал
- Бренд и марка в СТС без использования HITL возвращались одним полем
Обновления
- Обучили новый движок рас познавания рукописных штампов прописок в паспорте РФ: метрики точности выросли на порядок. Рекомендуем использовать нормализацию по ФИАС параметром normalization_fias=true. Это даёт дополнительный прирост качества
- Обновили алгоритм поиска последн его штампа прописки, теперь он меньше ошибается
- Заменили движок распознавания зоны MRZ в паспорте РФ, теперь символы в ней распознаются намного уверенней. В результате выросли метрики точности распознавания самих паспортов
- Освежили алгоритм распознавания лицевой стороны СТС — выросли метрики по большинству полей, добавили поддержку номеров ЭПТС
- Переписали сервис чтения файлов. Теперь он поддерживает конвертацию файлов без расширения и многостраничные TIFF-файлы.
Обновления
- Обновили детектор документов на изображении: он стал вдвое быстрей и точней находит границы документов
- Повысили качество распознавания всех полей главного разворота паспорта РФ. Для этого мы научили сервис выбирать между данными из машиночитаемой зоны и обычными полями
- Переработали алгоритм нормализации поля « место выдачи» в паспорте РФ. Теперь мы применяем для него расширенный словарь собственной разработки. Рекомендуем включить нормализацию для всех запросов параметром use_internal_api=true
- Убрали из библиотеки документов водительские удостоверения по форме 1999 года
Фичи
- Сократили время распознавания одного документа на 0,4-0,5 секунд
- Добавили нормализацию адреса прописки с возвратом кода ФИАС. Используйте параметр normalization_fias=true
- Научились извлекать из метаданных изображения широту, долготу, высоту и время снимка. Возвращаем их в поле image_exif
Багфиксы
- Исправили возврат в ответе некорректных координат полей в случае подачи на распознавание неправильно ориентированных документов
- Перестали путать пустые развороты паспорта с разворотом «Место жительства»
- Сократили число ошибок 500 при распознавании штампов прописок
- Уточнили зону замазывания даты регистрации в штампе прописок перед отправкой на ручное распознавание: она больше не перекрывает часть адреса
Повысили качество
- 2-НДФЛ
Фичи
- Научили метод /fulltext_by_lines распознавать русский рукописный текст. Для распознавания укажите в параметре language значение handwritten_rus.
- Научили сервис обрабатывать изображения в формате HEIF.
- Добавили в методы /recognize и /classify массив task_tags, в котором можно указывать произвольные тэги запросов. Функцию можно использовать для сверки биллинга в случае с объединением документов в пакеты.
- Добавили в методы /recognize и /classify параметр return_crops. В положении false сервис перестаёт возвращать изображения. Функцию можно использовать для экономии трафика и для удобства отладки — с ней ответ сервиса становится более читабельным.
- Добавили в метод /recognize параметр first_occurrence_only. В положении true при обработке PDF сервис возвращает только первый найденный документ запрашиваемого класса. Это позволяет сократить время ответа сервиса.
- Сервис теперь замазывает дату регистрации в штампе прописки перед отправкой на ручное распознавание
- Добавили параметр
merge_and_name
в методе/recognize
. Укажите в нём нужное вам название, чтобы объединить все распознанные поля всех документов в один документ. - Dbrain теперь генерирует более осмысленные логи, которые удобней читать
- Исправили возврат некорректных координат полей в методе
/recognize
- Научились распознавать 2-НДФЛ и счета-фактуры в закрытом IT-контуре, раньше модель однократно подгружалась из Интернета
- Теперь возвращаем корректное значение серии-номера СТС на образцах, где ГИБДД продублировала их дважды
Добавили документы
- Паспорт Украины 1994 года, машинопечатный образец, второй разворот
Повысили качество
- Обновили алгоритм распознавания полнотекстовых документов в методе
fulltext_by_lines.
Качество распознавания выросло. Метод теперь возвращает результаты в виде отдельных слов, а не строчек - Усилили классификатор дополнительным обучением на паспортах Украины
- Научились лучше распознавать ФИО и даты на главном развороте паспортов Украины образца 1994 года
Багфиксы
- Исправили ошибку в эвристиках СТС. В единичных случаях баг приводил к возврату полей, не соответствующих документации
Фичи
- Добавили параметр
hitl_field_to_recognize.
В нём можно перечислить поля документа, которые нужно распознать вручную - Методы
/selfie
,/distance
и/face
теперь возвращают вырезанные из изображений лица, их координаты и угол поворота; метод/selfie
возвращает тип документа на изображении - Добавили возврат пороговых значений confidence для целевого уровня точности распознавания в методе
/metrics
Повысили качество
- Обновили алгоритмы поиска и сравнения лиц. Dbrain теперь лучше находит лица на сложных изображениях и обеспечивает отсутствие ложноположительных результатов сравнения
- Паспорт России, главный разворот: повысили качество распознавания серии-номера
- Паспорт Украины образца 2016 года: лицевая и обратная сторона
- Паспорт Украины образца 1994 года, машинопечатный образец, главный разворот
Багфиксы
- Исправили занижение confidence поля серия-номер на главном развороте паспорта России
- Исправили баг, который в ряде случаев мешал находить штамп о регистрации на странице прописок
- Исправили редкий баг, приводивший к ошибке 500 вместо результатов распознавания
Фичи
- Добавили новый класс документа —
passport_registration_handwritten.
Он присваивается страницам паспорта, в которых последняя печать о регистрации рукописная. - Добавили возврат л.с. и кВт в ПТС отдельными полями
engine_hp
иengine_kw
- Добавили комплексную проверку паспорта по внешним источникам. Она доступна в параметре
external_check_passport_complex
- Добавили возможность посимвольного возврата текста полей документов с ручного распознавания. За это отвечает новый параметр
hitl_symbol_field
. Для перечисленных в нём полей вернётся второй вариант ответа без нормализации по словарям и маскам.
Добавили документы
- Удостоверение личности Казахстана 2014 года: лицевая и обратная сторона
- Удостоверение личности Казахстана 1994 года: лицевая и обратная сторона
Повысили качество
- Научились уверенно распознавать половинки разворотов ПТС
- Добавили эвристику к полю «Код подразделения» в Паспорте РФ, теперь поле возвращается строго по маске ddd-ddd
Багфиксы
- Исправили баг с некорректным значением параметра rotation в ответе классификатора
- Исправили ошибку при использовании параметра check_fake на некоторых изображениях
Фичи
- Оптимизировали работу решения под нагрузкой
- Локальные версии Dbrain теперь используют меньше подключений к MongoDB
- Полностью переписали алгоритм обработки PDF. Теперь не нужно указывать дополнительные параметры в запросе, а PDF обрабатываются намного быстрее.
- Научили классификатор возвращать четыре новых параметра, описывающих качество входящего изображения:
- image_exposure
- normal — нормальные
- overexposed — переэкспонированные, пересвеченные
- underexposed — недоэкспонированные, слишком тёмные
- image_blured — смазанные
- low_image_resolution — недостаточное разрешение изображения
- low_image_weight — недостаточный вес изображения.
Допустимые значения вы можете задать самостоятельно в запросе к классификатору. - Добавили возможность распознавания смешанного русско-английского текста в неструктурированных документах в методе full_text_by_lines, для этого нужно выбрать язык multilang
- Научились распознавать QR-коды на документах
- Добавили возврат HTTP Status Code 213 для редких кейсов, когда ручное распознавание не уложилось в предельный SLA по времени
Повысили качество
- Рукописный паспорт России
- Обратная сторона ВУ-2011 и ВУ-2014: поля «особые отметки», «серия-номер»
- Обратная сторона СТС
- 2-НДФЛ: поле «месяц»
- Алгоритм поиска границ документа теперь лучше справляется с разворотами документов, например с паспортами
Фичи
- Добавили проверки документов по базам через наших партнёров — IDX. За это отвечают параметры API
external_check_***
- Добавили возможность указывать в конфигах локальной версии Dbrain параметры Redis: хост, порт, логин и пароль
- Рукописный паспорт России
- Паспорт Украины образца 2016 года: лицевая и обратная сторона
- Паспорт Украины образца 1994 года, машинопечатный образец, главный разворот
- Удостоверение личности Казахстана 2008 года: лицевая и обратная сторона
- Машинопечатный паспорт России
- ПТС: лицевая сторона
- 2-НДФЛ — теперь распознаём все поля
- Устранили редкую ситуацию с зависанием задачи
- Добавили обработку файлов с некорректным расширением, например
image.jpg?=
- Исправили несколько сценариев в алгоритме распознавания, которые приводили к внутренней ошибке 500.
- Доработали распознавание «половинок» главного разворота Паспорта России и ПТС
- Обучили алгоритм поиска границ документов аккуратней обращаться с документами, в которых «подвал» находится на расстоянии от основной части документа.
- Локальные версии Dbrain больше не пишут избыточный объём логов на накопитель
- Научили классификатор корректно обрабатывать половинки документов, например одну страницу паспорта вместо разворота.
Фичи
- Добавили параметр
priority
для асинхронных запросов. Чем больше число, тем раньше балансировщик возьмёт запрос из очереди в обработку. - Добавили эндпоинт
/cancel
для асинхронных запросов. С его помощью можно отменить запрос, если он потерял актуальность. Это позволит быстрее получить результаты других запросов.
- Dbrain теперь эффективно обрабатывает большое число одновременных запросов.
- Счёт-фактура
rus_invoice
- Обновили алгоритм вырезания документов из входящих изображений: теперь он лучше справляется со сложными случаями
- ВУ-2011, обратная сторона: улучшили распознавание поля «особые отметки»
- ВУ-1999, пластиковый образец: снизили число ложных распознаваний категории «А»
Фичи
- Добавили параметр API
simple_cropper.
В положении «true» применяется упрощённый алгоритм вырезания документа от фона. Результаты классификации и распознавания в этом режиме могут быть чуть менее точными. Используйте этот параметр, если экономия 1 секунды даёт вам преимущества. По умолчанию simple_cropper не используется.
- ПТС, лицевая сторона: значительно улучшили поля: марка, модель, VIN, шасси, кузов; улучшения по всем остальным полям
- Паспорт России, главный разворот: все поля
- СТС, лицевая сторона, значительно улучшили поля: марка, модель, мощность двигателя, модель двигателя, номер двигателя, серия ПТС, номер ПТС, регистрационный знак, номер кузова, VIN; незначительные улучшения по другим полям
- СТС, обратная сторона, значительно улучшили поля: город, имя, фамилия, отчество, республика.
- Загранпаспорт России 2007, улучшили поля: имя, орган
- Загранпаспорт России 2014, улучшили поля: имя, место рождения
- ВУ-1999, бумажные, лице вая сторона: нижняя серия-номер теперь возвращается латиницей
- Скорректировали подсчёт уровня уверенности распознавания
confidence
- Обновили библиотеки обработки изображений и конвертации PDF
- Паспорт России, прописка: дополнительно воз вращаем информацию из печати с разбивкой на поля
- СНИЛС: пластиковый образец
- Полис ОМС: пластиковый образец Москвы
- Паспорт России, разворот с прописками: улучшили распознавание штампов прописки
- ВУ-2011, обратная сторона, улучшили поля: C, CE
- ВУ-2014, обратная стор она, улучшили поля: C, C1, CE, C1E
- СТС, обратная сторона, улучшены поля: фамилия, дата, серия, номер и город
- Свидетельство о рождении, добавили поля: место рождения, запись акта о рождении, место государственной регистрации, серия, номер
- Свидетельство о заключении брака, добавили поля: запись акта о заключении брака, место государственной регистрации, серия, номер
- Свидетельство о расторжении брака, добавили поля: запись акта о расторжении брака, место государственной регистрации, серия, номер
- Свидетельство о смерти, добавили поля: запись акта о смерти, место государственной регистрации, серия, номер
- Устранили утечку памяти
- Новый параметр API
hitl_async=true
разрешает возврат неполного состава полей документа не дожидаясь окончания распознавания всех полей. Параметр работает только при использовании режима ручного распознавания документовwith_hitl=true
. В параметреhitl_required_fields
нужно перечислить названия полей документа, после обработки которых HITL может возвращать неполный ответ. Ответ с неполным составом полей сопровождается кодом 202, полный — кодом 200. - Параметр
use_external_api
получил статус устаревшего. Обогащение ответов из внешних источников теперь контролируется в конфигах локальных версий.
- Вернули качество распознавания заграничных паспортов России 2007 и 2014 из версии 3.4.5.
- Добавили обнуление уверенности в распознавании поля
confidence
, если ответ системы не удалось привести к допустимому значению. В поле ответа в таком случае будет пустая строка"text": ""
. - Исправили поля серия и номер в заграничном паспорте России 2014 года, в версии 3.4.6 они были перепутаны.
- Свидетельство о рождении
- Свидетельство о заключении брака
- Свидетельство о расторжении брака
- Свидетельство о смерти
- Полис ОМС: пластиковый образец (лицевая и обратная сторона)
- Полис ОМС: бумажный образец (лицевая сторона)
- СТС, лицевая сторона: улучшено поле «тип ТС»
- Ускорили работу решения: модули классификации и распознавания работают на 2-3 секунды быстрее
Last modified 2d ago