Индустриальные графы знаний — интеллектуальное ядро цифровой экономики

Опубликовано в номере:
PDF версия
О цифровой экономике, также определяемой в мировой экономической науке как «постиндустриальное информационное общество», или «шестой технологический уклад», и искусственном интеллекте сейчас говорят и пишут очень многие. Однако, как правило, речь идет лишь об отдельных инструментах цифровизации и интеллектуализации производств, а вот проблема системного подхода к созданию автономного интеллектуального цифрового производственного окружения не обсуждается или обсуждается лишь в узком контексте. Но именно такое окружение необходимо для качественного перехода на новый технологический уклад, где значительная доля работы специалистов и менеджеров среднего звена будет полностью выполняться интеллектуальными агентами.

Ключевым фактором, препятствующим появлению систем автономного интеллектуального производства уже сегодня, является отсутствие общего архитектурного подхода к созданию цифровых платформ управления производствами, с одной стороны, и «зоопарк» форматов и стандартов работы с данными — с другой. Примечательно, что на эти два вызова уже существуют технологические ответы, которые получили общее название «индустриальные графы знаний» и показывают преимущества онтологического подхода, обеспечивающего гибкое моделирование и интероперабельность данных, стек семантических технологий, позволяющий выполнять анализ неструктурированной информации и интеллектуальный поиск данных во множестве разнородных источников, а также машинное обучение, обеспечивающее анализ и классификацию данных, в том числе в условиях неполной информации. В статье дается системное описание элементов технологии «индустриальных графов знаний».

 

Что такое онтологии, графы знаний и зачем они нужны для «умных» производств

Современные крупные корпорации вкладывают солидные ресурсы в создание так называемых решений, управляемых знаниями (knowledge-driven applications) и выступающих в качестве «интеллектуальной фабрики знаний», обеспечивающей постоянную генерацию новых знаний, непрерывно анализируя множество разрозненных источников данных внутри компании [1]. Ядром таких решений являются графы знаний, имеющие в своем составе графовые хранилища семантических метаданных (или знаний, формализованных с помощью специальных формальных семантических языков) и онтологии, которые выступают в роли полуструктурировнной концептуальной схемы предметной области. Именно последнее качество принципиально отличает графы знаний от баз данных, позволяя решать трудноформализуемые интеллектуальные задачи, смещая фокус с задачи хранения данных в сторону связывания, повторного использования и согласованной циркуляции данных. В свою очередь перечисленные аспекты позволяют превратить данные компании в так называемые активные знания (active knowledge) за счет применения современных методов машинного обучения, специализированных для графовых моделей представления данных.

Сегодня термин «онтология» употребляется в различных контекстах, но применительно к графам знаний это, прежде всего, способ моделирования и формального представления схемы данных, обеспечивающий гораздо большие возможности, чем традиционные базы данных или объектно-ориентированный подход. Согласно общепринятому определению в компьютерных науках, онтология — это способ формализации знаний, абстрактных или специфических, в какой-либо предметной области, реализованный на основе формального описания объектов, фактов и отношений между ними. Для графов знаний онтология — это семантическая основа представления данных, базирующаяся на логике и включающая терминологический словарь и набор утверждений о моделируемых объектах. В самом простом случае онтология описывает только иерархию понятий, связанных отношениями. А в более сложных ситуациях, которые характерны для задач автоматизации цифровых производств, к онтологии добавляются аксиомы, описывающие объекты сложной структуры и специфические отношения между ними. Также под онтологией часто понимают конкретную базу знаний, используемую для решения практических задач. Формальная модель онтологии О — это упорядоченная тройка О =<E,R,F>, где E — конечный набор понятий, или сущностей предметной области онтологии; R — конечный набор отношений между сущностями данной предметной области; F — это конечный набор функций интерпретации, которые даны для понятий и отношений онтологии O.

Ниже приведены существующие стандартные онтологии для цифровых производств. Описанные инициативы в области стандартизации производственных онтологий имеют общую цель: попытка решить проблему информационной совместимости, формализовать производственные знания, связанные с техническими данными о продуктах на протяжении всего их жизненного цикла. В настоящее время подобные стандартные модели используются для обеспечения обмена информацией между ERP (планирование ресурсов предприятия), PDM (система управления данными об изделии) и MES (система управления производственными процессами). Тем не менее подход, содержащийся в стандартах онтологий, носит лишь предписывающий характер в том смысле, что он заставляет пользователей переводить информацию из общих понятий в более прагматичные и специальные. С другой стороны, для обеспечения совместимости на уровне предприятия крайне важно, чтобы информационные стандарты были согласованы, поскольку в них существуют дублирующие и разнородные понятия.

Онтология Process Specification Language

Язык спецификации процесса (PSL) — это онтологический формат, предназначенный для автоматического обмена информацией о процессах между различными производственными приложениями, такими как моделирование и планирование производства, рабочий процесс, управление документооборотом, управление проектами и инструменты реинжиниринга бизнес-процессов [2]. Логические термины определены в онтологии, которая предоставляет формальное описание компонентов и их отношений, составляющих процесс. Онтология была разработана в Национальном институте стандартов и технологий (NIST) и утверждена в качестве международного стандарта в документе ISO 18629 [3]. В области производства цель PSL — служить общим представлением для интеграции нескольких приложений, связанных с процессами, в течение всего жизненного цикла производственного процесса. Онтология использует Common Logic Interchange Format (CLIF) [4] для представления концепций, констант, функций и отношений. Взаимодействие осуществляется путем перевода между собственным форматом онтологии и языком PSL.

Стандарт IEC 62264

Стандарт, разрабатываемый комитетом ISO TC 184/SC5 [5], является легковесной онтологией, описывающей предметную область через набор других объектных моделей. Назначение этой онтологии — облегчить интеграцию бизнес-приложений и приложений управления производством в рамках предприятия. Она главным образом описывает свойства различных объектов в производственной информационной модели [6]. Задачи онтологии состоят в том, чтобы обеспечить согласованную терминологию, которая является основой для связи между поставщиками и производителями, предоставить согласованные информационные модели и модели работы, служащие основой для разъяснения функциональности приложений и способов использования информации. Ниже будут представлены общепринятые стандарты, которые служат для обмена информацией между приложениями ERP, CAD, PDM и MES, обеспечивая своего рода архитектуру взаимодействия, управляемую приложениями.

Descriptive Ontology for Linguistic and Cognitive Engineering (DOLCE)

Онтология DOLCE [7] предназначена для согласования интеллектуальных агентов, использующих разную терминологию. При этом онтология не является универсальной, стандартной или общей. Основная ее цель — создать модель, помогающую при сравнении сущностей с другими онтологиями и выявлении скрытых допущений, лежащих в основе существующих онтологий и лингвистических ресурсов, таких как WordNet [8]. Основу онтологии составляет разделение сущностей на универсалии (сущности, потенциально или реально имеющие экземпляры) и индивиды, которые не имеют и не могут иметь экземпляров. В качестве примера универсалии можно привести понятие «деталь», так как оно имеет множество экземпляров, конкретных примеров в окружающем мире. С другой стороны, понятие «время» рассматривается как индивид.

Еще одна черта DOLCE — явное разделение на «постоянные» и «происходящие» сущности. «Постоянные» сущности неизменны в некотором фиксированном промежутке времени (например, станок в период исправной работы). «Происходящие» сущности в каждый момент некоторого временного интервала могут быть различными или иметь разный состав (например, сверло, изменяющее свои свойства остроты, температуры).

ADACOR

Онтология ADACOR [9] используется для автономного управления производством и основана на онтологии DOLCE. Архитектура ADACOR основана на парадигме Holonic Manufacturing Systems (HMS) [10] и на наборе автономных и взаимодействующих холонов, каждый из которых представляет цифровой образ производственного компонента, то есть физического ресурса (числовые управляющие машины, роботы и т. д.) или логическую сущность (заказы и т. д.). Под холоном в данном случае понимается некоторая сущность, являющаяся и целой самой по себе, и частью чего-то еще. Общий холон ADACOR содержит логическое устройство управления Logical Control Device (LCD) и физический ресурс, способный выполнять производственные задачи. Каждый доступный продукт представлен холоном продукта, отвечающим за краткосрочное планирование процессов. Каждый производственный заказ, запущенный в цех для производства продукта, представлен холоном задачи, содержит динамическую информацию о производственном заказе. Операционные холоны представляют собой физические ресурсы, такие как операторы, роботы и машины с программным управлением [11].

Manufacturing Service Description Language (MSDL)

Язык описания производства — формальная онтология предметной области, разработанная для представления возможностей производственных услуг. MSDL создана для автоматического обнаружения поставщиков в распределенных средах с акцентом на услуги механической обработки [12]. В MSDL производство представлено на пяти уровнях абстракции: поставщики, магазины, станочное оборудование, комплектующие и процессы (рис. 1).

Различные уровни модели производственных возможностей

Рис. 1. Различные уровни модели производственных возможностей

Уникальная особенность онтологии MSDL состоит в том, что она построена вокруг сервис-ориентированной парадигмы — таким образом, ее можно использовать для построения временных цепочек поставок. MSDL изначально была разработана для автоматического обнаружения поставщиков в распределенных средах с акцентом на услуги механической обработки. MSDL является весьма аксиоматической онтологией и считается одной из наиболее подробно описывающих производственную предметную область.

Manufacturing’s Semantics Ontology (MASON)

Онтология основана на трех основных сущностях: организация, операции и ресурсы. MASON включает архитектуру и инструменты для автоматической оценки производственных затрат [13]. Как известно, компании-поставщики конкурируют между собой на основании цены, лучшей технической экспертизы, времени доставки и надежности в соответствии с установленными сроками. Многосторонность производства необходима в среде постоянной конкуренции. В онтологии MASON предлагается абстрактный взгляд на продукт, наиболее важными концептами которого являются:

  • геометрические объекты для производства, которые представляют соответственно абстрактные и конкретные пространственные объекты (например, производственное здание);
  • сырье, фактически рассматриваемое как абстрактные сущности деталей;
  • объекты затрат, которые представляют основные описания производственных расходов.

Manufacturing Domain Ontology (CDM-Core)

В онтологической модели процессов Cloud-based Rapid Elastic MAnufacturing (CREMA) производственные задачи описываются в стандартной нотации моделирования бизнес-процессов [14], соответствующие семантической сервис-ориентированной архитектуре (SOA). Этот модульный подход к разработке программного обеспечения основан на использовании распределенных, слабо связанных заменяемых компонентов, оснащенных стандартизированными интерфейсами для взаимодействия по стандартизированным протоколам [15]. В CREMA компоненты выполняют оптимальную сервисную реализацию заданных моделей процессов с использованием семантического аннотирования — как моделей процессов, так и доступных сервисов. Подобное аннотирование моделей процессов на основе CDM-Core вручную выполняется менеджером процессов с помощью специализированных интерфейсов. Например, подобным образом можно распределить ресурсы для подходящего робота-манипулятора. При наличии производственного графика, содержащего список заказов, система определяет соответствующего робота и арендует его для выполнения задач, включенных в график.

Ontology for Product Data Management (ONTO-PDM)

Онтология ONTO-PDM основана на синтаксическом анализе, позволяющем сравнить формализованные знания, использующие технические данные о производстве. Предполагается, что эти знания описаны с помощью различных стандартов и предназначены для решения проблемы управления разнородной информацией [16]. Они связаны с управлением данными об изделии на уровне бизнеса и на уровне производства. Стандартами для этой области являются ISO 10303 и, в частности, STEP PDM и IEC 62264. STEP PDM описывает информацию об изделии, включая геометрию, технические чертежи, планы проекта, файлы проектов деталей, диаграммы сборки, спецификации, программы станков с числовым программным управлением, результаты анализа, переписку и спецификации, заказы на технические изменения и многое другое. IEC 62264 определяет набор эталонных моделей для обмена информацией между бизнес-приложениями и приложениями управления производством и является интерфейсом между планированием производства, управлением эксплуатацией и координацией работ в цеху [17]. Эти стандарты общеприняты для обмена информацией между приложениями ERP, CAD, PDM и MES и обеспечивают своего рода архитектуру взаимодействия на основе приложений.

Industrial MAintenance Management Ontology (IMAMO)

Онтология IMAMO используется для обеспечения семантической взаимозаменяемости и генерирования новых знаний в контексте принятия решений в процессе обслуживания изделия. Помимо глоссария и его классификации в виде иерархического дерева, онтология включает всевозможные концепты предметной области и связи между ними. Цель такого подхода заключалась в получении богатой онтологии с различными типами отношений, а не простой иерархической таксономии понятий [18].

 

Открытые графы знаний

В крупных ИТ-компаниях системы графов знаний имеют уже более чем 10-летнюю историю успешного развития. Наиболее ценными и эффективными являются графы знаний, разработанные специально для отдельных производственных задач и предметных областей. Такие системы не относятся к публичным и представляют коммерческую тайну. В то же время существует немало примеров графов знаний общего назначения, доступных в сети Интернет. Основы и концепция открытых для пользователей графов знаний были впервые реализованы в 2007 г. в базе знаний DBpedia [19], созданной в результате семантической обработки инфобоксов статей в Wikipedia [20]. Тогда как сам термин «граф знаний» ввела в обращение компания Google с ее Google Knowledge Graph [24]. Со временем в DBpedia добавилась подробная схема данных (онтология), географические данные и связи с другими графами. В настоящее время DBpedia считается одним из стандартов графов знаний и содержит более 6 млрд связанных фактов. В 2008 г. был разработан граф YAGO [21]. Его отличительная особенность состоит в использовании семантического тезауруса WordNet [22] и очень детальной иерархии классов сущностей. В настоящее время YAGO содержит около 120 млн фактов. В 2010 г. была запущена система Never-Ending Language Learner (NELL) [23], которая «читает» веб-страницы и автоматически перемещается между ними, пытаясь выделять факты из текста веб-страниц в граф знаний. В настоящее время NELL содержит около 50 млн фактов, включая 2 млн фактов, в правдивости которых NELL полностью уверен. Запущенный в 2007 г. граф знаний Freebase использует отличный от трех предыдущих графов подход к моделированию фактов. Вместо применения заранее созданных схем данных (онтологий) Freebase позволяет пользователям самим назначать категорию описываемой сущности, что напоминает скорее облако тегов, чем дерево классов. В 2014 г. Freebase содержал около 2 млрд фактов и был приобретен компанией Google, а затем преобразован в Google Knowledge Graph [24], предоставляющий единообразные знания всем сервисам компании, от поиска и почты до голосовых помощников. Граф знаний Google значительно повысил интерес академического и бизнес-сообщества к задаче представления знаний, задав тренд на следующие годы. Если DBpedia использует данные Wikipedia для наполнения графа, то разработанный и запущенный в 2012 г. граф Wikidata [25] предназначен для хранения знаний, которые будут использованы уже в Wikipedia (чаще всего в виде заполнения инфобоксов и таблиц на странице) на многих доступных языках. Wikidata использует усовершенствованный подход к моделированию знаний, позволяющий более детально описывать сущности и отношения. В настоящее время Wikidata содержит около 7 млрд фактов более чем о 50 млн сущностей. Большинство публикуемых в последнее время графов знаний старается использовать модель Wikidata или связывать свои сущности с имеющимися в Wikidata. Доступные в Интернете графы знаний образуют облако связанных данных — Linked Open Data Cloud (LOD Cloud) [26], семантически объединяя опубликованные графы в одну гигантскую сеть. И если в 2007 г. это облако состояло всего из 12 графов, то в 2018-м оно выросло до 1234 графов в девяти разных доменах (рис. 2).

Современное облако связанных данных, объединяющее 12 больших графов знаний

Рис. 2. Современное облако связанных данных, объединяющее 12 больших графов знаний

 

Применение машинного обучения для решения задач информационного поиска в «Индустрии 4.0»

Как уже было сказано выше, имея онтологии в качестве семантической основы, графы знаний не только могут объединить различные источники данных в общее хранилище, но и решают проблему информационной совместимости и формализации производственных знаний. Но знания являются динамической структурой, имеющей свой жизненный цикл, что требует постоянной модификации и обновления данных в графах знаний. Подобная модификация использует комплекс методов машинного обучения и относится к задачам Information Extraction [27]. Эти задачи включают:

  • Распознавание/извлечение именованных сущностей (Named Entity Recognition/Extraction) — разграничение позиций упоминаний сущностей во входном тексте. Например, в предложении «Пьер Кюри открыл пьезоэлектричество» подчеркнутый текст является упоминанием именованных сущностей.
  • Связывание/снятие омонимии сущностей, или семантическое аннотирование (Entity Linking/Disambiguation, Semantic Annotation) — ассоциирование упоминаний сущностей с подходящим и однозначным идентификатором в базе знаний. Например, связывание «Пьер Кюри» с сущностью Q37463 в графе знаний Wikidata.
  • Извлечение терминов (Term Extraction) — извлечение основных фраз, которые обозначают концепты, релевантные к выбранной предметной области и описанные в корпусе, иногда включая иерархические отношения между концептами. Например, выявление в тексте про машинное обучение, что «нейронная сеть» или «k-средних» являются важными концептами в предметной области. Дополнительно можно определить, что оба концепта являются уточнением понятия «искусственный интеллект», а также, что они могут быть связаны с определенным подразделом базы знаний.
  • Извлечение ключевых слов/фраз (Keyword/Keyphrase Extraction) — извлечение основных фраз, которые позволяют категоризировать тематику текста (в отличие от извлечения терминов, задача извлечения ключевых фраз заключается в описании именно текста, а не предметной области). Ключевые фразы также могут быть связаны с базой знаний.
  • Тематическое моделирование/классификация (Topic Modeling, Classification) — кластеризация слов/фраз, которые часто встречаются совместно в сходном контексте. Эти кластеры затем ассоциируются с более абстрактными темами, с которыми связан текст.
  • Маркирование/идентификация темы (Topic Labeling/Identification) — для кластеров слов, идентифицированных как абстрактные темы, извлечение одиночного термина или фразы, наилучшим образом характеризующей эти темы. Например, определение, что тема, состоящая из {«машинное обучение», «выборка», «точность классификации», «градиентный спуск»}, наилучшим образом характеризуется термином «машинное обучение» (которое может быть связано, например, с концептом Q2539 в Wikidata).
  • Извлечение отношений (Relation Extraction) — извлечение потенциальных n-арных отношений из неструктурированных или полуструктурированных (таких как HTML-таблицы) источников. Например, из предложения «Пьер Кюри открыл пьезоэлектричество» можно извлечь «открыл» (Пьер Кюри, пьезоэлектричество). Бинарные отношения могут быть интерпретированы как RDF-тройки после связывания предикатов-отношений с соответствующими свойствами в базе знаний (таким как discoverer or inventor (P61)).

 

Типовые задачи по анализу производственной информации, решаемые индустриальными графами знаний

Типовыми задачами для индустриальных ГЗ являются [1]:

  • Построение цифровых двойников. ГЗ позволяет интегрировать самую разнообразную информацию об оборудовании и инфраструктуре компании в форме виртуальной копии реальных объектов. Совместный анализ динамических показаний датчиков и данных о конструкции объектов позволяет сократить время на принятие управленческих решений.
  • Управление рисками. Совмещение в ГЗ информации о финансовых, правовых и других параметрах работы компании позволяет повысить эффективность выявления рисков и возможных конфликтов интересов при планировании и мониторинге производственных ситуаций.
  • Мониторинг процессов. Многочисленные производственные и технологические процессы на предприятии связаны с получением и анализом данных с различных датчиков и информационных систем. Такая информация обычно представлена на разных уровнях абстракции и детализации данных, и работа с ней осуществляется разными подразделениями и специалистами. Совмещение этих уровней в общем ГЗ позволяет осуществлять всестороннее наблюдение и мониторинг процессов, объединяя различные точки зрения и контексты.
  • Операционные сервисы для сложного оборудования. Современное крупное и сложное оборудование снабжено сотнями тысяч, а иногда и миллионами датчиков и различных цифровых устройств, собирающих данные о функционировании и режимах работы. В совокупности эти данные могут быть использованы для повышения эффективности ТОРО. ГЗ позволяют совместить техническую документацию, регламенты и спецификацию оборудования с операционными данными, что значительно упрощает приятие решений о техническом состоянии оборудования и необходимости его обслуживания или ремонта.

Для решения перечисленных задач необходимо автоматизировать процесс построения графов знаний. Такая автоматизация подразумевает включение в общий цикл обработки информации онтологических методов и машинного обучения. Первые необходимы для аннотирования данных, выполнения логического вывода и семантического поиска в тех случаях, когда в данных явно присутствует описание производственных объектов и процессов. Но если данные не полные, сильно зашумлены или содержат неявно выраженные знания, то эффективнее применить методы машинного обучения и векторные представления. В самом общем виде процесс автоматизированного построения графов знаний включает следующие операции (рис. 3):

  1. Представления данных из некоего источника информации в виде троек <субъект, предикат, объект>.
  2. Аннотирование, связывание и обогащение данных с помощью онтологий предметной области.
  3. Улучшение качества данных с помощью методов машинного обучения и статистики в задачах извлечения именованных сущностей и отношений, определения темы и пр.
  4. Сборка из полученных троек графа знаний с помощью онтологий.
Автоматизированный процесс построения графов знаний

Рис. 3. Автоматизированный процесс построения графов знаний

Но при всей кажущейся простоте каждая из этих операций требует выполнения множества промежуточных шагов, использующих технологии искусственного интеллекта.

 

Автоматическое построение онтологий для ГЗ

Традиционным подходом к разработке онтологий, который развивался в конце 1990-х — начале 2000-х, является предположение, что основным источником знаний выступает эксперт — специалист в предметной области. Очевидно, что при таком подходе становятся актуальными и проблематичными множество аспектов, в том числе этические, психологические, лингвистические и гносеологические. В реалиях цифровой экономики технологические процессы порождают гигантские объемы информации, что делает привлечение человека как непосредственного источника знаний неэффективным. Гораздо разумнее и быстрее извлекать знания непосредственно из существующих структурированных и неструктурированных (текстовых) источников производственных данных с помощью различных интеллектуальных алгоритмов, включая методы машинного обучения и нейронные сети. А роль человека-эксперта в данной ситуации заключается в проектировании концептуальных верхнеуровневых абстракций, таких как описанные выше примеры онтологий, обеспечение надежных способов доступа к данным (некоторые данные могут потребовать специальных процедур обработки, например анонимизации), разметка данных (для использования методов искусственного интеллекта) и валидация полученных результатов. Данный автоматизированный подход получил название «обучение онтологий» (ontology learning).

В работе [28] предлагается рассматривать обучение онтологий на основе слабоструктурированных данных как некоторую последовательность согласованных действий по извлечению из данных и сборке отдельных элементов онтологий. На рис. 4 изображено визуальное представление данного подхода, получившего название «слоеный пирог обучения онтологий» [29].

Слоеный пирог обучения онтологий

Рис. 4. Слоеный пирог обучения онтологий

Первым шагом является извлечение из текста основных терминов. Далее, при помощи определения синонимов множество терминов преобразовывается во множество концептов. Затем концепты структурируются для формирования иерархии концептов. Потом выявляются взаимосвязи между концептами, и определяется иерархия связей. А на заключительном этапе формируется схема аксиом и общие аксиомы онтологии.

Описанный подход позволяет создавать онтологии фактически с нуля, однако такая возможность появилась совсем недавно благодаря развитию методов анализа текста и новых методов машинного обучения, обеспечивающих выполнение качественного извлечения концептов и взаимосвязей между ними. Более ранние исследования [30] предполагали, что сначала эксперты разрабатывают некоторую базовую версию онтологии, опираясь на которую можно производить извлечение знаний из слабоструктурированных данных и текстов на естественном языке.

Наиболее современные методы обучения онтологий и сопутствующие вспомогательные методы искусственного интеллекта могут быть сведены в единый стек, представленный на рис. 5.

 Стек методов обучения онтологий

Рис. 5. Стек методов обучения онтологий

 

Векторные представления и машинное обучение для индустриальных графов знаний

Одна из фундаментальных проблем в практическом использовании графов знаний — экспоненциальный рост их сложности при добавлении новых знаний, что главным образом проявляется в увеличении числа связей между узлами графа. Но граф знаний зачастую может оказаться недостаточно информативным для частных ситуаций, что снова может потребовать его дополнения. В последнее время для решения подобных задач и эффективной работы с большими графами знаний были предложены модели так называемых векторных представлений (embeddings). Изначально эти модели были успешно применены в задаче поиска текстовой информации. Y. Bengio [30] ввел понятие word embeddings («векторное представление слов»), объединив несколько более ранних подходов, и предложил нейронную модель для векторного представления слов, которая вычисляла распределение вероятности нахождения того или иного слова в зависимости от другого, и извлечение вектора латентных признаков для каждого слова в словаре. Данные свойства называют латентными, поскольку они напрямую не описаны в данных, но могут быть выведены из имеющихся данных в процессе машинного обучения. Так как важным свойством графовых данных является возможность возникновения различных корреляций между множеством взаимосвязанных узлов, то становится возможным использовать аппарат векторных представлений для задачи поиска информации. Подобные корреляции могут быть вычислены за счет включения обработки атрибутов, связей и классов связанных сущностей в алгоритм машинного обучения. Для моделирования бинарных отношений на графе удобно использовать трехсторонний тензор Y, в котором две моды образованы идентично на основе связываемых объектов-узлов, а третья мода содержит отношения между ними [31]. Подобный подход получил название «тензорная факторизация». На рис. 6 приведена иллюстрация процесса моделирования данным методом. Элемент тензора yijk = 1 обозначает факт, что существует отношение (i-й объект, k-е отношение, j-й объект). В противном случае для несуществующих или неизвестных отношений элемент приравнивается к нулю.

Моделирование отношений в ГЗ с помощью трехстороннего тензора

Рис. 6. Моделирование отношений в ГЗ с помощью трехстороннего тензора.
Рисунок заимствован из работы [31]

Каждая из возможных реализаций такого тензора может быть интерпретирована как один из возможных миров. Таким образом, удается построить оценку совместного вероятностного распределения над возможными мирами, которые позволяют предсказать вероятность наличия троек, основываясь на состоянии всего ГЗ.

 

Заключение

Сложности и барьеры на пути цифровизации экономики и интеллектуализации производств связаны отнюдь не с недостатком цифровых сервисов и данных, а, главным образом, с разнообразием информационных платформ и форматов данных. Традиционные подходы в ИКТ не предлагают способов преодоления этих барьеров, но, напротив, во многих случаях лишь ухудшают ситуацию при внедрении очередной информационной системы или стандартов. И в действительности задачи по обмену данными между такими системами реализуются усилиями аналитиков и дата-инженеров компаний. Очевидно, что для решения этих проблем необходимо обеспечить автоматизированную интеграцию разнородных источников данных в единое информационное поле, в основе которого должны быть формализованные знания. Достижения последних лет в области инженерии знаний и ИИ способствовали разработке подхода, получившего название «индустриальные графы знаний» и позволившего не только автоматизировать сложные процессы по интеграции и анализу данных, но и порождать новые знания, раскрывая потенциал неявных связей между разрозненными частями информационной инфраструктуры предприятия. Создание на основе семантических технологий промышленных автоматизированных решений, управляемых формализованными знаниями, является необходимым и, возможно, наиболее важным шагом на пути к шестому технологическому укладу.

Литература
  1. Hubauer T. et al. Use Cases of the Industrial Knowledge Graph at Siemens. International Semantic Web Conference (P&D/Industry/BlueSky), 2018.
  2. Schlenoff C. et al. The process specification language (PSL) overview and version 1.0 specification. US Department of Commerce, National Institute of Standards and Technology, 2000.
  3. Pouchard L. C. et al. ISO 18629 PSL: A standardised language for specifying and exchanging process information // IFAC Proceedings Volumes. 2005. Vol. 38. No. 1.
  4. Delugach H. ISO/IECWD24707 Information technology — CommonLogic (CL) — A Framework for a Family of Logic-Based Languages // Pacific Northwest National Laboratory, Chantilly, VA. 2004. Vol. 7.
  5. ISO T. C. 184/SC5/WG2 // Architecture and Communications.User requirements for system supporting time critical communications, 1992.
  6. Nagorny K., Colombo A. W., Schmidtmann U. A service-and multi-agent- oriented manufacturing automation architecture: An IEC 62264 level 2 compliant implementation //
    Computers in Industry. 2012. Vol. 63. No. 8.
  7. Gangemi A. et al. Sweetening ontologies with DOLCE. International Conference on Knowledge Engineering and Knowledge Management. Springer, Berlin, Heidelberg, 2002.
  8. Miller G. A. WordNet: a lexical database for English // Communications of the ACM. 1995. Vol. 38. No. 11.
  9. Leitão P., Restivo F. ADACOR: A holonic architecture for agile and adaptive manufacturing control // Computers in industry. 2006. Vol. 57. No. 2.
  10. Van Brussel H. et al. Reference architecture for holonic manufacturing systems: PROSA // Computers in industry. 1998. Vol. 37. No. 3.
  11. Christensen J. H. Holonic manufacturing systems: initial architecture and standards directions. Proc. 1st Euro Wkshp on Holonic Manufacturing Systems, 1994.
  12. Ameri F., Dutta D. An upper ontology for manufacturing service description. ASME 2006 international design engineering technical conferences and computers and information in engineering conference. American Society of Mechanical Engineers, 2006.
  13. Lemaignan S. et al. MASON: A proposal for an ontology of manufacturing domain. IEEE Workshop on Distributed Intelligent Systems: Collective Intelligence and Its Applications (DIS’06). IEEE, 2006.
  14. Mazzola L. et al. CDM-Core: A Manufacturing Domain Ontology in OWL2 for Production and Maintenance. KEOD, 2016.
  15. Erl T. SOA Principles of Service Design (paperback). Prentice Hall Press, 2016.
  16. Panetto H., Dassisti M., Tursi A. ONTO-PDM: Product-driven ONTOlogy for Product Data Management interoperability within manufacturing process environment // Advanced Engineering Informatics. 2012. Vol. 26. No. 2.
  17. Nagorny K., Colombo A. W., Schmidtmann U. A service-and multi-agent- oriented manufacturing automation architecture: An IEC 62264 level 2 compliant implementation // Computers in industry. 2012. Vol. 63. No. 8.
  18. Karray M. H., Chebel-Morello B., Zerhouni N. A formal ontology for industrial maintenance // Applied Ontology. 2012. Vol. 7. No. 3.
  19. wiki.dbpedia.org/
  20. en.wikipedia.org/wiki/Main_Page
  21. mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/
  22. wordnet.princeton.edu/
  23. rtw.ml.cmu.edu/rtw/
  24. googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html
  25. wikidata.org/wiki/Wikidata:Main_Page
  26. lod-cloud.net/
  27. Martinez-Rodriguez J. L., Hogan A., Lopez-Arevalo I. Information extraction meets the semantic web: a survey // Semantic Web. 2018.
  28. Asim M. N., Wasim M., Khan M. U. G., Mahmood W., Abbasi H. M. A survey of ontology learning techniques and applications. Database, 2018.
  29. Buitelaar P., CimianoP., Magnini B. Ontology learning from text: an overview. In: Ontology Learning from Text: Methods, Evaluation and Applications // Frontiers in Artificial Intelligence and Applications. Vol. 123.
  30. , Foo S. Ontology research and development. Part 2. A review of ontology mapping and evolving // Journal of Information Science. 2002. Vol. 28.
  31. Nickel M., Tresp V., Kriegel H. P. A Three-Way Model for Collective Learning on Multi-Relational Data // ICML. 2011. Vol. 11.

Комментарии на “Индустриальные графы знаний — интеллектуальное ядро цифровой экономики

  1. Интересно было бы узнать, существуют ли российские программные системы, способные в совокупности реализовать описанный в статье подход.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *