В открытом ИИ снова заметный акцент на прикладные инструменты для документов: разработчики выкладывают модели не только для чатов и генерации, но и для реальной работы со сканами, изображениями и извлечением данных. В этот раз в фокусе две находки с Hugging Face.

Unlimited-OCR от Baidu

Unlimited-OCR — многоязычная мультимодальная модель от Baidu для распознавания текста на изображениях и в документах. На странице модели указано, что проект рассчитан на чтение визуального текста и работу с документами, а также сопровождается свежей научной публикацией.

Почему это важно: открытые модели всё сильнее заходят в прикладные сценарии, где нужно не просто понимать картинку, а стабильно читать сложные сканы, снимки документов и визуальный текст. У модели 319 отметок «нравится», так что интерес сообщества к этому направлению уже вполне заметен.

Lift от Datalab

Lift — модель, заточенная под извлечение структурированных данных из документов и преобразование их в удобный для автоматизации вид. По описанию на странице видно, что проект нацелен именно на разбор документов, извлечение полей и подготовку данных для дальнейшей обработки.

Почему это важно: подобные открытые модели двигают рынок от общих демонстраций к конкретной пользе — например, к обработке форм, счетов, анкет и других документов, где нужно получить аккуратную структуру, а не просто пересказ содержимого. У Lift сейчас 128 отметок «нравится».

Обе находки хорошо показывают, как экосистема открытого ИИ расширяется в сторону практической обработки документов: один проект делает упор на чтение визуального текста, другой — на превращение документов в структурированные данные для дальнейшей автоматизации.