Машинное зрение в 3D: ToF-системы компании SICK
Системы машинного зрения в виде видеокамер, выполненные как датчики изображения на основе нескольких базовых технологий его обработки, существуют уже более 20 лет, но в последние годы скорость развития и внедрения таких систем значительно возросла. Первоначально машинное зрение распространялось в основном в научной и военной сферах, однако с начала 2000-х годов одновременно с новыми достижениями в области оптических сенсоров для получения и оцифровки изображения стало более популярным. Эволюция в производительности позволила использовать системы машинного зрения не только в распознавании объектов (здесь изначально были в большей степени распространены 2D-системы), но с освоением технологии 3D и в лидарах на основе специфических несканирующих технологий. Одной из таких технологий является 3D snapshot от компании SICK (3D snapshot — «3D моментальный снимок», здесь буквально игра слов: 3D «щелчок» и «выстрел»).
Все это позволило машинному зрению уверенно шагнуть в область автоматизации и систем безопасности, в том числе и производственной. Суть таких систем — не только определение расстояния до объектов, но и их идентификация и распознавание положения и объема, то есть учет глубины сцены и объекта — с превращением двумерного изображения в трехмерное, где информация об объекте представляется не просто в единицах яркости, а параметрами пиксель/дальность. Такое представление весьма отличается от привычного нам «зрения» бионических систем.
Варианты использования приложений на основе технологий «истинно» машинного зрения, не просто определяющих расстояние до некоей усредненной поверхности как плоскости, а дающих представление с возможностью оценки глубины сцены и расположения в ней объекта, то есть с 3D-зондированием, — это логистика, контроль качества, навигация, робототехника, точное распознавание лиц (в том числе и скрываемых), системы защиты и безопасности, системы, предотвращающие производственный травматизм, системы видеонаблюдения. Такая технология поможет найти решение многих проблем, с которыми сегодня сталкиваются традиционные 2D-устройства (рис. 1). Именно сочетание данных о глубине с высоким разрешением наряду с мощными алгоритмами классификации откроет широкие возможности ее использования в перечисленных областях.
Для получения таких изображений, в основе которых лежит именно глубина изображения, а не цвет или яркость, применяется целый ряд технологий. Эти изображения не совсем то, что мы представляем, они не совпадают с системой нашего видения и ориентированы на восприятие именно запрограммированными автоматами или системами с основами искусственного интеллекта (ИИ). В общем плане — это набор точек с градацией расстояние/яркость или расстояние/цвет. При этом часто полная детализация формы объекта упускается или упрощается (рис. 2).
На первый взгляд здесь все ясно и просто. Однако это далеко не так. Для должного функционирования таких систем требуются соответствующие видеосенсоры, объективы (иногда с автофокусировкой и регулируемой диафрагмой), подсветка (как правило, для этого предназначены импульсные достаточно мощные лазеры или светодиоды с определенной длиной волны, чаще в невидимом нашему глазу диапазоне) и аппаратно-программное обеспечение, быстродействующая непосредственная и постобработка по тем или иным алгоритмам. Кроме того, они нуждаются в калибровках по расстоянию (причем не в одной точке, а в точках по области захвата), в том числе и температурной, в принятии мер по компенсации внешней засветки.
Для систем автоматизации и обеспечения безопасности на производстве все сказанное требует самой тщательной проработки, причем в основном анализ ситуации требуется проводить в реальном времени с минимальной задержкой, быстрым откликом, что накладывает еще более жесткие требования в части быстродействия, а иногда и со сжатием передаваемой итоговой информации, часто интеллектуальным.
Для интересующих нас систем машинного зрения используется несколько технологий, имеющих те или иные преимущества и условные недостатки (подробно в [3, 4, 5]), но самыми распространенными являются система машинного видения на основе стереоскопического зрения и так называемые трехмерные системы Time-of-Flight (3D ToF; англ. Time-of-Flight — время пролета). Именно эти две технологии лежат в основе рассматриваемых систем, предлагаемых компанией SICK.
Системы 3D ToF
Трехмерные ToF-системы, несмотря на ряд связанных с их проектированием сложностей, являются относительно новыми (если рассматривать их современное исполнение) и одними из самых распространенных систем машинного зрения. Для их реализации применяется две технологии с некоторыми вариациями. Но основа здесь общая — ToF-видеокамера измеряет расстояние, активно освещая (подсвечивая) объект собственным импульсным или модулированным источником света (например, лазером или светодиодом, как правило, инфракрасным), а сенсор, чувствительный к длине волны лазера/светодиода, захватывает отраженный от объекта свет. Далее процессор датчика измеряет временную задержку DT между моментом, когда свет излучается, и когда камера принимает его как отражение. Глубина изображения пропорциональна задержке отклика (отражения), что и дает нам удвоенное расстояние между точкой (в нашем случае — пикселем) на объекте и объективом камеры, здесь уже в дело вступает простая арифметика.
Существуют различные методы измерения DT, из которых два получили наибольшее распространение. Первый — метод измерений с непрерывно возбуждаемым сигналом, или метод непрерывной волны или волн, а второй — метод на основе излучаемых импульсов, или импульсный метод. В своих 3D ToF-видеокамерах системы машинного зрения компания SICK использует метод непрерывного облучения.
В методе измерения расстояния с непрерывно возбуждаемым сигналом (генерация непрерывной волны) для активного освещения (подсветки) объекта применяется модулированный периодической функцией световой луч (рис. 3), выполняющий роль несущей. Этот метод еще называется радиочастотной модуляцией света. Причем для определения расстояния измеряется фазовый сдвиг демодулированного принятого сигнала и относительно излучаемого; под модулированным сигналом понимается сигнал, модулирующий световой луч, под демодулированным — сигнал, восстановленный после приема луча, отраженного от объекта. Измерение выполняется гомодинной демодуляцией (методом синхронного детектирования) принятого сигнала. Детальное трехмерное дистанционное изображение, трехмерный снимок 3D snapshot, области изображения обеспечивают тысячи пикселей, зафиксированных одним таким снимком — условным выстрелом (рис. 4).
В приложениях, где не предъявляются высокие требования к точности, система измерения расстояния на основе генерации непрерывных волн может быть проще в реализации, чем система на основе импульсов, в которой источник света пусть и не с очень короткими импульсами, но с быстрыми нарастающими и падающими фронтами, что значительно труднее воспроизвести на практике, нежели идеальную синусоидальную волну. Однако если требования к точности становятся более строгими, то необходимыми становятся сигналы с более высокой частотой модуляции, которые могут быть трудны для практической реализации [5].
Из-за периодичности сигнала освещения любое измерение фазы системы на основе генерации непрерывной волны будет охватывать каждые 2p. Это означает, что при измерении расстояния будут иметь место наложения. Для системы с одной частотой модуляции расстояние из-за эффекта наложения будет определяться как максимальное измеряемое расстояние. Чтобы противостоять этому ограничению, для развертывания фазы можно использовать несколько частот модуляции, причем истинное расстояние до точки объекта можно определить, если с оцененным расстоянием согласуются два (или более) измерения задержки фазы с разными частотами модуляции. Такая схема с многочастотной модуляцией может быть полезна для уменьшения ошибок из-за многолучевого распространения, которые возникают, когда отраженный свет от объекта попадает на другой объект (или отражается внутри объектива) прежде, чем возвратиться к датчику, что, естественно, приводит к ошибкам измерения.
Для систем на основе генерации непрерывных волн требуются как минимум четыре выборки корреляционной функции на нескольких частотах модуляции, а также многокадровая обработка для расчета глубины. Более длительное время экспонирования может потенциально ограничить общую частоту кадров системы или вызвать размытость изображения, что в свою очередь ограничивает его использование для определенных типов приложений. Такая более высокая сложность обработки может потребовать значительных ресурсов процессора внешнего приложения, что иногда выходит за рамки требований конечного приложения. Кроме того, для измерений на больших расстояниях или в средах с высоким уровнем окружающего освещения понадобится относительно высокая непрерывная оптическая мощность. Более подробная информация о системах 3D ToF доступна в [5].
Стереоскопические системы
Стереоскопическое зрение — это более простая технология по отношению к ToF. Для реализации такого классического и, пожалуй, наиболее известного решения для построения и оценки глубины (что следует уже из самого названия технологии) требуется как минимум две видеокамеры, разделенные определенным расстоянием. Подобно человеческому глазу, заданная контрольная точка в пространстве будет находиться в разных положениях в каждой камере, что позволяет системе вычислять положение этой точки в пространстве, если оценка и измерение расстояния до этой точки выполняется двумя разнесенными камерами. Определение этого соответствия содержит весьма сложные алгоритмы и вычисления.
Основным преимуществом стереоскопических систем является то, что для них, как правило, не требуется активного освещения, то есть подсветки собственным источником света, в большинстве случаев достаточно внешнего освещения. Кроме того, подобные системы дешевле, потому что для сбора данных требуются только две камеры без сложного аппаратного решения, хотя для нахождения соответствующей точки и разработки трехмерного изображения может понадобиться сложный прикладной процессор. Еще один важный положительный момент заключается в том, что эти системы могут выводить для фиксации (например, для хранения данных) еще и обычные двумерные изображения с высоким разрешением.
Что касается недостатков, то, как говорится, и на солнце есть пятна. Главный из них в том, что расстояние не может быть рассчитано, если нет явного контраста между изображениями с двух камер. Например, в средах с белыми стенами, где нет контраста между тем, что видят две камеры, и в средах, где недостаточно окружающего света, если, конечно, нет собственной подсветки. Кроме того, для того чтобы соответствующая точка была расположена в разных местах изображения, на больших расстояниях две камеры должны быть расположены как можно дальше друг от друга. Соответственно, для приложений, где требуются измерения больших расстояний, имеют место очевидные проблемы в части форм-фактора. И конечно же, нужна калибровка.
Структурированный свет
Это один из самых простых, старых и относительно дешевых способов измерения глубины. Метод возник, по сути, сразу, как только появились цифровые фотоаппараты, то есть более сорока лет назад, и сильно упростился с распространением цифровых камер. Метод структурированного света работает по принципу проецирования на известный эталонный образец точек (чаще — линий) и на объект. 3D-объект искажает этот эталонный образец, а 2D-камера фиксирует подобное искажение (рис. 5). Потом искажение сравнивается с эталонным шаблоном, который был спроецирован, а затем вычисляет карту глубины на основе уровня искажения. Такой метод используется со стереоскопическими системами.
Система на основе метода структурированного освещения может достигать очень высокого пространственного разрешения и очень высокой точности на близких расстояниях. Однако для извлечения одного кадра информации необходимо несколько проекций, что может привести к снижению частоты кадров, что в свою очередь затрудняет извлечение информации о расстоянии из относительно быстро движущихся объектов.
При более высоких диапазонах глубины камера должна располагать источник освещения вдали от объектива, поскольку искажение рисунка может быть не различимо, если источник освещения находится рядом. Это непрактично для реализации в приложении, которое требует небольшого форм-фактора. Вот почему структурированные световые системы обычно не используются в измерениях глубины, превышающей 2 м.
Наружное окружающее освещение, особенно если оно динамическое, также может оказывать негативное воздействие и привести к искаженному рисунку, по этой причине метод предпочтителен для применения внутри помещений.
Решения систем машинного зрения 3D от компании SICK
Компания SICK AG, базирующаяся в городе Вальдкирхе (Германия), является мировым производителем датчиков и сенсорных решений для промышленного применения. Уникальный ассортимент продуктов и услуг создает идеальную основу для безопасного и эффективного управления процессами, защиты людей от несчастных случаев и предотвращения ущерба окружающей среде. Одно из направлений деятельности в этой сфере — системы машинного зрения. Здесь компания SICK предлагает несколько серий устройств, но в рамках данной статьи будут рассмотрены две системы — Visionary-S и Visionary-T.
Visionary-S
Трехмерная видеокамера Visionary-S (рис. 6) компании SICK сочетает преимущества стереоскопического зрения и проецируемую структурированную подсветку для съемки каждую секунду до 30 трехмерных изображений с высоким разрешением. Для подсветки в системе используется инфракрасный лазер класса 1 (EN/IEC 60825-1:2014; EN/IEC 60825-1:2007) с длиной волны 808 нм.
Система Visionary-S имеет рабочий диапазон 0,5–2,5 м, класс защиты оболочкой IP67 и диапазон рабочих температур 0…+50 °C. Она соответствует требованиям по электромагнитной совместимости (EN 61000-6-2:2005-08, EN 61000-6-3:2007-01), ударопрочности (EN 60068-2-27:2009) и виброусточивости (EN 60068-2-6, EN 60068-2-64), что делает ее идеальной для самых разных областей применения в промышленности.
Быстрая потоковая передача значений изображения в системе RGB и глубины с высоким разрешением в режиме реального времени и с возможностью фильтрации данных в устройстве облегчает задачу трехмерного распознавания и определения размеров и положения как движущихся, так и неподвижных объектов. Для системы серии Visionary-S (что весьма удобно) не требуется программный драйвер, вывод значений цвета и глубины осуществляется непосредственно на программируемый логический контроллер (ПЛК) или контроллер робота. Таким образом, система оптимальна для роботизированной сборки, укладки на поддоны и удаления поддонов, а также для высокоскоростных систем проверки качества и комплектности потребительских товаров (рис. 7).
К преимуществам этих систем можно отнести мощные инструменты визуализации, интерфейс Gigabit Ethernet, широкую совместимость с протоколами связи и распространенными языками программирования (Python, C++, C#). Взяв эту систему на вооружение, вы получите универсальное и интеллектуальное решение для интеграции машинного 3D-зрения. Настроить параметры камеры и фильтра несложно, необходимые операции можно выполнить с помощью конфигурационного программного инструмента SOPAS ET от компании SICK [8], кроме того, имеется интерфейс Telegram.
Высокоэффективное структурированное освещение Visionary-S обеспечивает надежные данные о глубине в условиях окружающего освещения. С рабочим диапазоном 5–2,5 м и углом обзора примерно 50×60° Visionary-S хорошо подходит для самого широкого спектра индустриальных и внутрилогистических применений. Система Visionary-S удовлетворяет потребность в точной 3D-камере, которая расширяет возможности машиностроителей и системных интеграторов для разработки решений для наведения манипуляторов роботов.
Поскольку система машинного зрения Visionary-S обеспечивает высокое разрешение 512×640 пикселей и значения изображения RGB в одном снимке, восприятие интенсивности цвета Visionary-S вместе с режимом HDR и значениями распознавания глубины с точностью до 0,7 мм, такие высококачественные данные можно без проблем использовать для контроля качества.
Система машинного зрения Visionary-S работает в полной темноте и при дневном свете до 40 клк, а быстрая обработка изображений непосредственно в самом устройстве и время отклика всего 50 мс делают возможной быструю выборку (30 кадров/с, до 9 850 000 3D-точек данных/с, 0,03 с на 3D-изображение) при доступном соотношении цены и производительности. В настоящее время в серии Visionary-S (подсемейство продукции Visionary-S CX) доступны два варианта исполнения: один с диапазоном рабочих температур 0…+50 °C, второй — 0…+45 °C. Подробная информация о серии систем машинного зрения Visionary-S доступна в спецификации [7].
Visionary-T
Системы машинного зрения Visionary-T (рис. 8) используют измерение светового сигнала во время полета между устройством и целью для каждой точки изображения. Сканер CCD/CMOS создает матрицу пикселей, каждый пиксель содержит информацию о глубине и интенсивности. Для подсветки используется инфракрасный светодиод с длиной волны 850 нм (группа риска 0 в соответствии с EN 62471). Пример объекта, снятого камерой этого типа, с расчетом изображения с помощью конфигурационного программного инструмента SOPAS ET приведен на рис. 9 [10].
Компания SICK спроектировала и освоила выпуск высокопроизводительной серии 3D-видеокамер машинного зрения Visionary-T с классом защиты IP67, выполненных на основе технологии 3D ToF, так, чтобы они могли запускать приложения для обработки специфических для пользователя приложений, созданных в ее инновационной экосистеме разработки программного обеспечения AppSpace [9], а именно SICK AppStudio.
В настоящее время серия Visionary-T предлагает четыре продукта: Visionary-T AG (обеспечивает интеллектуальное сжатие данных), Visionary-T CX (предоставляет трехмерные данные через Ethernet), Visionary-T AP (основан на SICK AppSpace) и Visionary-T DT (конфигурируемый трехмерный датчик обнаружения), каждый с двумя диапазонами рабочих температур: 0…+50 °C и 0…+45 °C.
Система машинного зрения Visionary-T CX — это потоковая (стриминговая) 3D-камера. Она предназначена для пользователей, которые хотят разрабатывать собственные приложения под свои конкретные требования. Камера обеспечивает полную гибкость с точки зрения предоставленных значений расстояния, интенсивности и достоверности на внешнем блоке оценки (например, ПК). Предусмотрены различные программные интерфейсы, позволяющие быстро устанавливать связь, включая GenICam (Halcon), Point Cloud Library (PCL) и Java. Доступны примеры на языках C++ и C#, что вместе с интерфейсом Telegram делает организацию общения с устройством максимально простой.
Visionary-T AP — надежная камера для трехмерной визуализации, захватывающая трехмерные данные с высоким разрешением одним выстрелом света, является первым программируемым устройством SICK, которое будет запущено со встроенными и готовыми к использованию приложениями SICK Key.
Систему машинного зрения Visionary-T AP можно приобрести с простыми в эксплуатации приложениями «включай и работай» для решения общих задач 3D-навигации и локализации в программах обработки материалов, складирования и внутренней логистики, особенно для распознавания препятствий, предотвращения столкновений и навигации при использовании сервиса — это роботы, автомобили с автоматическим управлением, тележки и вилочные погрузчики.
Система машинного зрения Visionary-T AP может действовать в качестве полнофункциональной аппаратной платформы для воспроизведения и запуска готовых к использованию ключевых приложений, уже созданных в AppSpace собственными командами разработчиков компании SICK, а также партнерами-интеграторами. Ключевые приложения доступны в виде отдельных независимых программных продуктов от SICK, передаваемых на камеру приложением SICK AppManager, какое-либо дополнительное программирование здесь не требуется.
В качестве альтернативы экосистема SICK AppSpace предоставляет разработчикам программного обеспечения, интеграторам или конечным пользователям возможность создавать собственные приложения, получать доступ к данным 3D-снимка камеры и настраивать их для своих нужд и развертывать их на видеокамерах Visionary-T AP.
Система машинного зрения Visionary-T AP предлагает доступную альтернативу высококачественным системам трехмерного зрения. Камера Visionary-T AP формирует детальное и точное трехмерное изображение неподвижных или движущихся объектов в режиме реального времени с превосходными результатами независимо от угла обзора, качества поверхности, материала или формы объекта. Системы машинного зрения Visionary-T AP объединяют различные аспекты света, рассеянного объектом, для создания детальной картины формы, расстояния, отражающей способности и глубины объекта.
Системы машинного зрения Visionary-T AP являются важной вехой на пути развития экосистемы AppSpace. Среди первых уже доступных приложений есть решение для плавного направления погрузчиков в карманы поддонов без риска столкновения или повреждения. Также на основании Visionary-T AP была разработана система для локализации и предотвращения столкновений платформ автономных транспортных средств, направленная на оптимизацию рабочих процессов и передачу компонентов в автомобильной промышленности. Аппаратное и программное обеспечение специально предназначено для использования в помещениях.
Интеллектуальная камера системы машинного зрения Smart Visionary-T AG передает либо полные трехмерные данные, как это делает Visionary-T CX, либо сокращенные данные, которые уже предварительно обработаны для удовлетворения конкретных потребностей приложений. Например, одна из ее функций позволяет пользователю эффективно представлять трехмерную информацию в 2D. Камера делает это, проецируя данные более чем из 25 000 точек расстояния на кривую, которая представлена лишь небольшим количеством точек (уменьшение полярных данных). Другой способ уменьшить данные — выбрать конкретный объем измерения и вывести данные в подходящих декартовых координатах. Кроме того, различные варианты фильтров значительно улучшают производительность системы машинного зрения Visionary-T AG. Сжатые данные позволяют подключить устройство напрямую без драйверов к программируемому логическому контроллеру (ПЛК). Функциональные блоки для стандартных ПЛК поставляются с датчиком. Все эти свойства позволяют использовать Visionary-T AG в широком спектре приложений, включая внутреннюю логистику, робототехнику или контроль качества.
Видеокамера Visionary-T DT представляет собой конфигурируемый трехмерный датчик обнаружения, работающий по принципу plug & play. Эта камера может применяться в системах 3D-обнаружения, например для предупреждения о столкновении, контроля отсутствия/присутствия объектов в таре, в системах безопасности для контроля проникновения и контроля объектов.
Видеокамеры системы машинного зрения серии Visionary-T соответствуют требованиям по электромагнитной совместимости (EN 61000-6-2:2005-08, EN 61000-6-4:2007-01), ударопрочности (EN 60068-2-27:2009) и виброустойчивости (EN 60068-2-6, EN 60068-2-64) со степенью защиты IP67, являются устойчивыми к воздействию солнечного света до 50 клк и предназначены для круглосуточного использования в тяжелых условиях индустриальной среды. Камеры имеют угол обзора 69×56° и предназначены для съемки более 25 000 значений расстояния для создания трехмерных изображений в режиме реального времени со скоростью до 30 кадров/с. Они обеспечивают запись до 50 трехмерных изображений/с со временем отклика, не превышающим 66 мс. Данные о расстоянии выводятся в формате 144×176 пикселей на снимок. Вывод данных осуществляется через интерфейс Gigabit Ethernet и простые цифровые выходы. Подробная информация о серии систем машинного зрения Visionary-T доступна в спецификации [6]. Примеры использования систем машинного зрения серии Visionary-T приведены на рис. 10 и 11.
Заключение
Рассмотренные в статье системы машинного зрения 3D Snapshot от компании SICK обеспечивают широкий выбор устройств, способных эффективно и надежно работать в самых сложных и жестких условиях индустриальной среды. Предлагаемый компанией ассортимент включает как универсальные высокоскоростные камеры, которые выдают высококачественные 3D-изображения и контрастные кадры, так и интеллектуальные настраиваемые автономные датчики. Широкий выбор и гибкость систем машинного зрения 3D Snapshot от компании SICK обеспечивают быструю разработку конечных решений потребителя и их простую интеграцию в общую систему предприятия.
Мощные с точки зрения вычислительной способности, но при этом простые в эксплуатации и конфигурировании устройства компании SICK гарантируют их оптимальную адаптацию к самым разнообразным вариантам решений с использованием машинного 3D-зрения. Кроме поставки собственно систем машинного зрения 3D, компания SICK предлагает соответствующее программное обеспечение, техническую поддержку и широкий выбор разнообразных аксессуаров: кабелей, крепежа, средств по уходу и модулей для подключения.
Подробные сведения о рассмотренных в статье системах машинного зрения 3D Snapshot от компании SICK, включая детальные чертежи, доступны по ссылкам [6, 7], а полная информация по продуктам SICK размещена на сайте компании, в том числе в его русскоязычной версии [11].
- Рентюк В., Михеев А. microScan3 Core от SICK — новое поколение лазерных сканеров безопасности // Control Engineering Россия. 2016. №5.
- Рентюк В., Михеев А. Новые лазерные сканеры от SICK: полная безопасность внутри и вне помещений // Control Engineering Россия. 2019. №2.
- Ватолин Д. С. Камеры глубины — тихая революция (когда роботы будут видеть). Часть 1.
- Ватолин Д. С. Камеры глубины — тихая революция (когда роботы будут видеть). Часть 2.
- Рентюк В. Технология распознавания глубины от компании Analog Devices для современных и перспективных приложений. Часть Основы // Компоненты и технологии. 2020. № 2.
- Visionary-T, 3D Snapshot — Wide Range of Applications for Indoor Use. SICK AG, Waldkirch, Germany.
- Visionary-S, 3D Snapshot — colorful perspectives for precise factory automation. SICK AG, Waldkirch, Germany.
- SOPAS Engineering Tool 2020.
- SICK AppSpace software.
- Visionary-T Measuring Help Guide.
- sick.com/ru/ru/