Научный журнал
Вестник Алтайской академии экономики и права
Print ISSN 1818-4057
Online ISSN 2226-3977
Перечень ВАК

PREDICTIVE MANAGEMENT OF MACROLOGICAL INFRASTRUCTURE IN AN UNSTABLE ECONOMIC ENVIRONMENT BASED ON MACHINE LEARNING METHODS

Shulzhenko A.O. 1
1 Saint-Petersburg State University
The article presents developments in predictive management of logistics infrastructure in macrological systems in conditions of high turbulence of the external economic environment, determined by the tightening of the sanctions regime, global slowdown and potential reorientation of foreign economic relations. Global and poorly predictable changes in the parameters of foreign trade cargo flows require the use of adaptive management of logistics infrastructure at the macro level, the development of which is carried out using mathematical support for the implementation of machine learning methods based on the provisions of the Bayesian approach. In particular, the results presented in the article of a detailed analysis of a priori distributions according to the parameters of the models with their subsequent Bayesian comparison, as well as conjugate a posteriori distributions of the parameters of the processes under study, allow us to develop solutions for determining priority areas of accelerated development of the macrological infrastructure, taking into account fluctuations in the main factors.
logistics infrastructure
transport and logistics processes
machine learning in logistics
bayesian approach

Введение

В настоящее время производственные и производственно-коммерческие системы под влиянием действующих экономических и политических факторов демонстрируют высокую уязвимость как при участии в глобальных экономических процессах, так и при организации деятельности во внутренней экономике. Задача сохранения устойчивости и конкурентоспособности в турбулентной экономической среде определяет необходимость поддержания эффективности выполнения вспомогательных процессов, в частности, транспортно-логистических. Вместе с тем, проявление негативного влияния агрессивной внешней среды требует значительных изменений в конфигурациях сложившихся систем доставки, однако реализация указанного требования сдерживается степенью готовности макрологистической инфраструктуры страны к резкому изменению параметров грузопотоков, в частности, их переориентации на юго-восточное направление, потенциальному наращиванию интенсивности внутристрановы́х грузопотоков, а также грузопотоков в рамках Евразийского экономического союза. Таким образом, актуализируется целый ряд проблем, требующих скорейшего решения – в частности, разработки механизмов адаптивного управления материальными потоками в макрологистической системе с учетом имеющихся ограничений на пропускную способность логистической инфраструктуры, выявления приоритетных направлений инвестиций в ускоренное развитие пропускной способности логистической инфраструктуры макроуровня для сохранения устойчивого функционирования производственных и производственно-коммерческих систем и ряд других. Глобальная трансформация условий ведения экономической деятельности, внешней среды функционирования российских производственных и производственно-коммерческих систем, реализации процессов международной торговли, организации и выполнения транспортно-логистических процессов в макрологистических системах требует модернизации аппарата принятия и обоснования решений в рамках концепций предиктивного и адаптивного управления инфраструктурным обеспечением транспортно-логистических процессов.

Эффективность функционирования современных производственных систем, действующих в условиях сетевой экономики сервисного типа, в значительной степени определяется качеством организации вспомогательных процессов, к числу наиболее значимых из которых относятся транспортно-логистические процессы. Особое значение данная задача приобретает для международных производственных и производственно-коммерческих систем, вспомогательные процессы которых требуют наличия развитой логистической инфраструктуры. Между тем, обеспечение соответствующего потребностям производственной или производственно-коммерческой системы уровня развития логистической инфраструктуры сопряжено с существенными инвестициями, что, в свою очередь, приводит к потере финансовой устойчивости участников, росту логистических издержек, а также дополнительным расходам государственного бюджета, поскольку формирование логистической инфраструктуры для обслуживания международных систем входит сегодня в число приоритетных задач государственной политики.

Вопросы, связанные с инфраструктурным обеспечением вспомогательных процессов международных производственных систем, нашли достаточно широкое освещение в современных научных источниках. В частности, в работах [2, 3, 8] рассматриваются методы реализации принципов логистического управления инфраструктурным обеспечением функционирования международных производственных и производственно-распределительных систем. Проблематика государственного управления развитием макрологистической инфраструктуры также получила достаточное развитие в трудах российских и зарубежных ученых (например, [1]). Однако в представленных работах не исследуется уникальная ситуация, характеризуемая всеобщим изменением параметров грузопотоков в логистических системах различных уровней, в которой в настоящее время выстраивают свою деятельность российские экономические субъекты. Вместе с тем, недостаточность обоснования решений по управлению макрологистической инфраструктурой в сложившихся условиях с учетом имеющихся ограничений по ее пропускной способности, по выбору рациональных направлений ее ускоренного развития выступает дополнительным фактором риска для российской экономической системы. Привлечение математического аппарата при обосновании решений по развитию и адаптивному управлению инфраструктурным обеспечением логистических процессов с учетом прогнозируемого изменения факторов внешней среды, обусловливающих потенциальную нагрузку на инфраструктурные объекты в перспективном периоде, является необходимым условием сохранения устойчивого функционирования российских производственных и производственно-коммерческих систем.

Целевая ориентированность экономики на производство продукции с высокой добавленной стоимостью позволяет принять величину контейнеропотока в качестве результирующего показателя с позиций организации логистических процессов, вспомогательных для международных производственных и производственно-коммерческих систем, и выбора параметров логистической инфраструктуры. Таким образом, показатели контейнеропотока выступают в качестве ведущих факторов, определяющих требования к логистической инфраструктуре. Тогда цель исследования состоит в формировании математического аппарата управления факторами инфраструктурного обеспечения, основанного на реализации методов машинного обучения, позволяющего формировать решения с учетом изменений внешней среды, целевых установок производственных и производственно-коммерческих систем, а также государственных интересов. Следует отметить, что указанный показатель, а также разработанный на его основе подход по управлению логистической инфраструктурой могут рассматриваться в качестве эталонных, подлежащих масштабированию на другие группы грузов.

Материалы и методы исследования

Начальный этап исследования связан с формированием исходной базы, состав которой формируют показатели-признаки, выступающие в качестве факторов, влияющих на показатели контейнеропотока в страново́й производственно-коммерческий системе.

Учитывая значительную размерность исходной базы, а также качество данных, в качестве необходимого этапа рекомендуется выполнять предварительную подготовку данных по следующему алгоритму:

1. Очистка базы, удаление пустых строк.

2. Восполнение пропущенных значений. В силу неоднородности выборок в каждом из столбцов пропуски заполнены методом k ближайших соседей (k = 5) с последующим усреднением значений. Более формально: пусть xi,j – пропущенное значение в столбце с номером i. Номер пропущенного значения в столбце – j.

Тогда воспользуемся следующим алгоритмом для восполнения пропущенного значения xi,j :

missing image file

3. Формирование результирующего показателя: в качестве целевого показателя принята величина контейнеропотока в страново́й производственно-коммерческой системе.

4. Удаление из базы показателей, в которых число пропущенных значений больше трети от числа строк в базе. Удаление показателей «Rail containers transport (TEU)», «Maritime containers transport (TEU)», поскольку они участвовали в формировании результирующего показателя.

После этапа очистки и предобработки данных произведен корреляционный анализ факторов, с последующим построением матрицы корреляции, в которую вошло 20 признаков (их список представлен в практической части). Наше предположение состояло в том, что факторы, коэффициент корреляции между которыми по абсолютному значению превосходит 0.8, являются сильно коррелированными и не могут быть включены в выборку для дальнейшего рассмотрения. Исходя из этого некоторые факторы были удалены, и для последующего анализа оставлено 10 слабо коррелированных факторов.

Основной гипотезой работы выступило предположение о наличии полиномиальной зависимости между целевым показателем и выбранными факторами. Для восстановления полиномиальной зависимости предлагается использовать байесовский подход в решении регресионных задач.

Дадим небольшое напоминание о сути байесовского подхода: нас будет интересовать апостериорное распределение на параметрах модели (и гипотеза максимального правдоподобия). Для нашего частного случая – это апостериорное распределение на векторах коэффициентов модели и wML. Отметим, что по теореме Байеса, апостериорное распределение пропорционально произведению априорного распределения на правдоподобие модели:

missing image file (1)

Кроме этого, нас будет интересовать апостериорное распределение на исходах последующих экспериментов, которое получается маргинализацией распределения missing image file по w:

missing image file (2)

где W – множество значений параметров (коэффициентов).

Получив апостериорное распределение на исходах, мы найдем максимальную апостериорную гипотезу; она и будет считаться реализацией новой точки данных.

Для дальнейшего построения регрессионной модели нам необходимо выбрать априорное распределение на параметрах модели, то есть зафиксировать p(w). В [15] показано, что, выбирая в качестве априорного распределения распределение Лапласа (двойное экспоненциальное) и умножая его на правдоподобие модели, которое вычисляется как

missing image file (3)

где missing image file – набор данных; missing image file – нормальное распределение с ожиданием missing image file и некоторой дисперсией σ2, мы получаем выражение для лассо-регрессии, то есть регрессии, которая минимизирует сумму квадратов отклонений (функция ошибки – сумма квадратов, так как сделано предположение о нормально распределенном шуме в данных) с регуляризационным членом missing image file, то есть L1 нормой вектора w.

Лассо-регрессия была выбрана нами не случайно, нашей целью было уменьшение числа ненулевых коэффициентов полинома, моделирующего зависимость между целевым показателем и факторами. Записывая лассо-регрессию в форме:

missing image file (4)

получаем, что лассо-регрессия действительно увеличивает число нулевых элементов вектора коэффициентов. В двумерном случае это проиллюстрировано на рисунке 1.

missing image file

Рис. 1. Оптимальное значение w для случая лассо-регрессии

Строгое доказательство этого факта приведено в [15].

На следующем шаге исследования были выделены полиномиальные признаки, состоящие из полиномиальных комбинаций факторов степени, не превосходящей заданной нами константы. Иными словами, были получены все мономы xI, где missing image file, где через |I| обозначается мощность мультииндекса, то есть missing image file. Далее, на основе этих значений построена модель лассо-регрессии, где в качестве обучающей выборки для модели взята часть базы исходных данных. Коэффициенты модели и явный вид полинома, описывающего зависимость между факторами и целевым показателем, также представлены в практической части.

Дальнейшее исследование связано с более глубоким изучением полученной зависимости. Одной из основных целей в работе являлось решение следующей задачи, которая на данном этапе может быть сформулирована аналитически: при получении новой точки данных то есть вектора missing image file мы хотим понять, какие параметры необходимо изменить, чтобы результирующий показатель изменился в большую сторону. Говоря конкретнее, пусть мы можем из менить каждый показатель на величину missing image file, где missing image file. Задача состоит в том, чтобы найти такой набор ri, при которых missing image file было бы максимальным. Это ни что иное как задача поиска максимума функции на многообразии M, которое задается как missing image file, где missing image file.

Известным способом решения этой задачи является метод множителей Лагранжа, который часто сложно реализовать для большого набора данных высокой размерности. Поэтому предлагается использовать итеративный процесс градиентного подъема из данной точки с условием (не)выхода за границы определенного выше многообразия. Опишем предложенный метод более детально в формате псевдокода:

missing image file

Отметим, что выбор такого параметра γn не случаен. Авторы [9], [11] показали, что при таких значениях γn метод всегда сходится к локальному максимуму. Более того, представленный метод позволяет анализировать зависимости гораздо сложнее полиномиальных.

Представленный подход предлагается использовать в решении регрессионных задач, соответствующих задачам управления логистической инфраструктурой в международных производственно-коммерческих системах, а также логистической инфраструктурой макроуровня.

Результаты исследования и их обсуждение

Исходными данными для решения задачи приняты значения показателей (признаков), отражающие поведение факторов, влияющих на величину контейнеропотока. Всего в структуру базы исходных данных включены 88 признаков, укрупненно формирующих следующие группы: макроэкономические показатели, характеристики международной торговли, характеристики рыночных факторов (спроса/предложения), инвестиции в логистическую инфраструктуру. Значения по показателям подбирались по открытым статистическим базам (например, Всемирного банка, Всемирной торговой организации, Конференции ООН по торговле и развитию и других организаций). Общее количество точек (наблюдений) составило 2653 строки.

В результате выполненной предварительной очистки базы и удаления факторов с большим числом пропущенных значений была получен следующий набор показателей-факторов: ‘Rail containers transport (weight), Tonnes, Thousands’, ‘Maritime containers transport (weight), Tonnes, Thousands’, ‘Gross domestic product, constant prices’, ‘Gross domestic product, constant prices.1’, ‘Gross domestic product, current prices’, ‘Gross domestic product, current prices.1’, ‘Gross domestic product, current prices.2’, ‘Gross domestic product based on purchasing-power-parity (PPP) share of world total’, ‘Implied PPP conversion rate’, ‘Total investment’, ‘Volume of imports of goods and services’, ‘Volume of Imports of goods’, ‘Volume of exports of goods and services’, ‘Volume of exports of goods’, ‘Unemployment rate’, ‘Population’, ‘General government revenue’, ‘General government revenue.1’, ‘General government total expenditure’, ‘General government total expenditure.1’.

Результатом второго этапа очистки базы при удалении тесно коррелированных значений состав показателей-факторов сокращен до 10 (рис. 2).

Рассмотрим пример получения новой точки данных и проиллюстрируем работу алгоритма в этой ситуации (табл. 1).

missing image file

Рис. 2. Матрица корреляции признаков в финальной версии базы исходных данных

Явный вид полинома, полученного в результате обучения лассо-регрессии:

missing image file

missing image file(5)

Таблица 1

Набор данных

Фактор

Значение

Maritime containers transport (weight), Tonnes, Thousands’,

5318

‘Gross domestic product, constant prices.1’,

2.077

‘Gross domestic product based on purchasing-power-parity (PPP) share of world total’,

0.36

‘Implied PPP conversion rate’,

1.648

‘Total investment’,

26.95

‘Volume of Imports of goods’,

-2.836

‘Volume of exports of goods’,

0.878

‘Unemployment rate’,

6.794

‘General government total expenditure’,

207.921

‘General government total expenditure.1’

35.019

Таблица 2

Диапазоны допустимых изменений для каждого из параметров

Фактор

Диапазон

Maritime containers transport (weight), Tonnes, Thousands’,

(5318, 5250)

‘Gross domestic product, constant prices.1’,

(2.5, 3.5)

‘Gross domestic product based on purchasing-power-parity (PPP) share of world total’

(0.35,0.37)

‘Implied PPP conversion rate’,

(1.64,1.68)

‘Total investment’,

(26,27)

‘Volume of Imports of goods’,

(-2.836,5)

‘Volume of exports of goods’,

(0.5,16)

‘Unemployment rate’

(6.794,7.1)

‘General government total expenditure’

(207.921,215)

‘General government total expenditure.1’

(35.019,34)

Предсказание модели в этом случае составило 723542.5, в то время как реальное значение 766879 (погрешность составила 5%).

Тогда при постановке задачи увеличения величины контейнеропотока как показателя эффективности функционирования макрологистической инфраструктуры формулируем задачу максимизации целевого показателя на некотором многообразии, задаваемом ограничениями на координаты (табл. 2).

Далее применяя описанный выше метод градиентного спуска, получаем, что для максимизации целевого показателя нам необходимо разрабатывать комплекс мероприятий, нацеленных на сокращение значений показателей ‘Unemployment rate’, ‘General government total expenditure’, ‘Implied PPP conversion rate’ и увеличение показателей ‘Volume of exports of goods’, ‘Gross domestic product based on purchasing-power-parity (PPP) share of world total’.

С применением представленного подхода возможно решение обратной задачи: по изменениям показателей-факторов возможно предсказывать изменение результирующего показателя, следовательно, разрабатывать решения по адаптивному управлению логистической инфраструктурой вспомогательных процессов международных производственных (производственно-коммерческих) систем. Причем важно отметить, что подобные решения не всегда связаны с дополнительными инвестициями со стороны государства, например, при прогнозируемом росте величины контейнеропотока следует выполнить сопоставительный анализ прогнозных значений и степени использования потенциала имеющихся инфраструктурных мощностей (принципиальные положения для выполнения подобных оценок представлены в [4]).

Таблица 3

Наблюдаемые изменения параметров

Фактор

Изменение

Maritime containers transport (weight), Tonnes, Thousands’,

-93

‘Gross domestic product, constant prices.1’,

+1.438

‘Gross domestic product based on purchasing-power-parity (PPP) share of world total’

+0.001

‘Implied PPP conversion rate’,

+0.029

‘Total investment’,

1,365

‘Volume of Imports of goods’,

+10.123

‘Volume of exports of goods’,

+14.94

‘Unemployment rate’

+0.302

‘General government total expenditure’

+7.889

‘General government total expenditure.1’

-1.058

Обращаясь к рассматриваемому примеру, следует отметить, что в процессе исследования выявлены изменения параметров модели (табл. 3), на основе которых построено прогнозное значение результирующего показателя, в целом демонстрирующее высокую точность относительно фактических значений. Между тем, отмечается некоторое временно́е отставание в формировании значений результирующего показателя, т.е. наличие временно́го лага.

С позиции принятия решений подобное поведение модели имеет определенные преимущества, поскольку формирует необходимые резервы времени для реализации разработанных мероприятий по управлению логистической инфраструктурой. Вместе с тем, направлением дальнейших исследований в части математического обеспечения решения подобных задач является изучение запаздывающих моделей.

Заключение

Выполненные разработки в части математического обеспечения реализации методов машинного обучения в управлении транспортно-логическими процессами производственных систем, основанные на положениях байесовского подхода, формируют необходимую основу для обоснования решений по адаптивному управлению инфраструктурными мощностями, обеспечивающими реализацию вспомогательных (логистических) процессов.

Перспективы развития представленного подхода связаны со следующими направлениями:

- расширение базы исходных данных, в том числе решение задачи формирования современного инструментария сбора и обработки данных с использованием цифровых технологий;

- выбор и исследование поведения результирующих показателей, отражающих различные аспекты функционирования производственных систем и систем логистического обеспечения, использования логистической инфраструктуры; разработка прикладных решений, ориентированных на принципы адаптивного управления производственными и логистическими системами;

- развитие математического аппарата, обеспечивающего оптимизацию рассматриваемых процессов, в частности, дальнейшее исследование моделей градиентного спуска, запаздывающих моделей.