
Dropbox впервые за два месяца значительно расширил возможности поиска. Компания заявляет, что теперь может искать текст внутри PDF-файлов и даже изображений, таких как JPG и PNG…
В прошлом месяце поиск в Dropbox стал намного мощнее, когда компания внедрила новый движок на основе машинного обучения. Компания говорит, что впервые применяет возможности оптического распознавания символов (OCR) для поиска.
Форматы изображений (такие как JPEG, PNG или GIF) обычно не индексируются, поскольку не содержат текстового контента, тогда как текстовые форматы документов (такие как TXT, DOCX или HTML) обычно индексируются. PDF-файлы находятся посередине, поскольку они могут содержать смесь текстового и графического контента. Автоматическое распознавание текста на изображениях позволяет интеллектуально различать все эти документы для категоризации содержащихся в них данных.
Таким образом, теперь, когда пользователь ищет английский текст, который встречается в одном из этих файлов, он будет отображаться в результатах поиска.
The Verge отмечает, что эта функция, однако, ограничена более дорогими тарифными планами.
Новая функция работает с английским текстом и теперь доступна пользователям Dropbox Business Advanced и Enterprise, а подписчикам Dropbox Professional она станет доступна в ближайшие месяцы.
Используется та же технология, что была впервые применена в мобильном приложении компании в прошлом году. Если вы использовали приложение для фотографирования документа, оно одновременно выполняло OCR, извлекая текст. Но это работало только с небольшой частью ваших документов.
Внедряя возможности OCR непосредственно в поисковый механизм, Dropbox теперь может искать текст во всех ваших PDF- и графических файлах, независимо от того, как они были отсканированы или сфотографированы.
Компания заявляет, что эта новая функция поиска Dropbox значительно облегчит жизнь пользователям.
Потенциальная польза от автоматического распознавания текста на изображениях (включая PDF-файлы с изображениями) огромна. Люди хранят в Dropbox более 20 миллиардов изображений и PDF-файлов. Из этих файлов 10-20% составляют фотографии документов – например, квитанций и изображений с досок – в отличие от самих документов. Теперь они являются кандидатами для автоматического распознавания текста на изображениях. Аналогично, 25% этих PDF-файлов являются сканами документов, которые также являются кандидатами для автоматического распознавания текста.
Компания говорит, что из-за высокой вычислительной нагрузки процесса OCR в поиске Dropbox ей пришлось ввести одно важное ограничение.
Некоторые PDF-документы содержат много страниц, и обработка таких файлов, соответственно, более затратна. К счастью, для длинных документов мы можем использовать тот факт, что даже индексация нескольких страниц, вероятно, сделает документ гораздо более доступным для поиска. Поэтому мы изучили распределение количества страниц в выборке PDF-файлов, чтобы определить, сколько страниц мы будем индексировать максимум на файл. Оказалось, что половина PDF-файлов имеет всего 1 страницу, а примерно 90% имеют 10 страниц или меньше. Поэтому мы установили предел в 10 страниц – первые 10 в каждом документе. Это означает, что мы полностью индексируем почти 90% документов и индексируем достаточно страниц в оставшихся документах, чтобы сделать их доступными для поиска.
Мой коллега Брэдли Чамберс недавно объяснил три причины, по которым он перешел с Dropbox на iCloud Drive и больше не оглядывался. Однако лично для меня Dropbox остается основным облачным хранилищем, в основном потому, что, на мой взгляд, он синхронизируется гораздо быстрее, чем любые из многочисленных альтернатив, которые я пробовал.
Фото: Shutterstock
Смотрите 9to5Mac на YouTube для получения дополнительных новостей Apple:
