Научный журнал
Вестник Алтайской академии экономики и права
Print ISSN 1818-4057
Online ISSN 2226-3977
Перечень ВАК

APPLICATION OF MACHINE LEARNING METHODS IN PRICING

Dolgov A.M. 1 Lyukevich I.N. 1 Dolgov V.M. 1
1 Peter the Great St. Petersburg Polytechnic University
The mechanism of Machine learning and its use in the field of pricing are investigated. The analysis of research in the field of machine learning and the application of machine learning in pricing, in particular, is carried out. The principles of operation of various machine learning methods, distinctive features of the methods and their scope of application are considered. The characteristics of various machine learning methods are given. It is shown how to choose the most appropriate machine learning method for performing the task on the example of pricing on the example of the household appliances market. In this paper, the most promising models for determining prices using machine learning are considered and an algorithm for using a machine learning tool in pricing is presented.
рricing
machine learning
neural networks
digital economy
artificial intelligence

Введение

С каждым годом обществу становится все более привычно совершать покупки через интернет, и даже те слои населения, которые предпочитали покупать товар вживую в условиях пандемии 2021–2022 года, были вынуждены перейти в онлайн. В. Мульджоно также обращает внимание на рост популярности онлайн покупок [1]. В то время как в традиционной торговли на успех влияет не только лишь характеристики товара и его цена, а также опыт продавца, оформление витрин и даже расположение магазина. Отличительной особенностью интернет-торговли является низкий порог выхода на рынок и как следствие большое количество продавцов и как следствие возможность одновременно сравнить все существующие на рынке предложения [2]. В интернет-торговле покупателю приходится ориентироваться исключительно на цену и характеристики товара. В связи с чем и без того важный параметр продукта как цена стал решающим в успехе продаж конкретного продукта и как следствии успехе самого магазина. И поскольку у интернет-магазинов нет возможности каким-либо образом компенсировать ошибки в ценообразовании им приходится использовать всё более сложные механизма ценообразования, одним из наиболее перспективных направлений в данной области стало машинное обучение.

Наш мир привык уже ко всему непостоянному, и цены на все нас окружающее не исключение, мы все чаще встречаемся с динамическим ценообразованием, актуальность динамического ценообразования подтверждается большим количеством исследований в данной области, например, Кузнецов С.В. фиксирует тот факт, что статичные цены все чаще уступают место динамическому ценообразованию [3]. Загайнова Е.В. разрабатывает механизм, направленный на определение цены билета позволяющий авиакомпаниям посредством механизма динамического ценообразования избавиться от непроданных билетов [4].

Работа в динамическом ценообразование предполагает учет в процессе формирования цены не просто большого количества факторов, а огромного. И вот тут мы сталкиваемся с тем, что человеческие физиологические и когнитивные возможности не позволяют работать с достаточной многозадачностью и таким большим объёмом данных. Да мы можем построить какую-либо статичную модель, и непрерывно её корректировать, но с течением времени модель будет все усложняться и усложняться и нам все труднее будет с ней работать. Но в современном мире во все большем количестве областей человеческой деятельности применяется машинное обучение, и это неудивительно ведь применение машинного обучения позволяет создавать такие модели которые стечением времени будут самостоятельно корректироваться, развиваться и повышать качество своей работы при этом не требую от человека понимания всех процессов участвующих в получение того или иного результата, да нам это и ненужно ведь человек смотрит только на результат.

Машинное обучение применяется в различных областях деятельности человека и экономика не исключение, есть множество исследований авторы которых пытались применять машинное обучения в различных областях экономике, например, Романова Е.А. исследовала возможность применения машинного обучения в оптимизации производства, Воронин Е.А и Юшин И.В. на примере своего исследования показали возможность применения машинного обучения в сфере экономической безопасности [5, 6]. На первый взгляд может показаться, что машинное обучение направленно повышение эффективности путём сокращения затрат на труд многие исследователи обращают внимание на то, что машинное обучение в большей степени повышает эффективность использование человеческих ресурсов [7].

На первый взгляд может показаться, что в данном инструменте заинтересованы только продавцы, но это не так есть исследования, направленные на анализ цен и определение определении рыночной цены, и помощь покупателю в принятие решения о целесообразности какой-либо покупки, например Суприя Ранджанкар и Неха Сахаркар используют механизм машинного обучения для помощи покупателям. А именно дать им ответ стоит ли покупать билет именно сейчас или несколько позже, ведь цены на билеты являются динамическими [8]. Рынок билетов не единственный, где цены динамичны, другим таким рынком является рынок недвижимости Имран и Умар Заман провели анализ целесообразности применения методов машинного обучения для определения рыночной цены жилья и прогноза изменения цены [9].

Применение машинного обучения ставит перед человечеством ряд социальных и этических вопросов, например Клименко Р. В. отмечает важность и перспективность машинного обучения для общества но в тоже время обращает внимание на то, что применение машинного обучения во всех сферах нашей жизни несет для нас огромные риски и что наше общество еще не решило ряд юридических вопросов связанных с применением машинного обучения [10]. Например, Харковска Е. и Рытова Е. В. приходят к выводу, что глобальная цифровизация ведет к росту безработице но в тоже время обращают внимание, что этот рост не будет долгосрочным ведь человечество становится боле мобильным и адаптируемым [11].

В части взаимодействия экономики и машинного обучения многие исследователи сходятся в оном, что применение машинного обучения в экономике будет расти с каждым годом и при том быстрее нежели в других сферах жизни человека, и это неудивительно ведь в основе машинного обучения лежат статистические и эконометрические [12, 13]. Например, Файез Х. также обращает внимание на неразрывную связь данных областей познания человека [14]. С точки зрения качества выполнения той или иной работы применение машинного обучения приведет только к её повышению, что подтверждается выводами, полученными Александровой И.А. и Антышевой Е.Р. [15].

Проанализировав современные исследования, нельзя не заметить, что машинное обучение применяется во многих отрасли деятельности человека и экономики частности. Из чего можно предположить, что данный инструмент универсален и может применяться для решения любой задачи, на примере данной работы будет проверено действительно это так.

Целью данного исследования является демонстрация механизма, который поможет задействовать машинное обучение в определение рыночной цены, и в то же время минимизировать трудозатраты на выполнение такого процесса как ценообразование. Для достижения поставленной цели в данном исследовании ставятся следующие задачи рассмотреть существующие механизмы машинного обучения, исследовать их применение на потребительских товарах, определить какую именно модель целесообразней использовать для данной прикладной задачи и предложить алгоритм работы при выборе модели машинного обучения.

Материалы и методы исследования

Да теоретические модели используемы в машинном обучении были известны человечеству уже более 30 лет, но их полноценное использование стало возможным лишь в последние 5 лет, в первую очередь это связано с появлением доступных программных и технических средств, но также большое значение имеет повышение квалификации специалистов, владеющих данным инструментом. Машинное обучение можно определить как «класс методов в области интеллектуальной обработки данных, характерной чертой которых является обучение по примерам применения решений множества сходных задач» [16]. Иными словами это инструмент основанный на статистическом анализе имеющихся решения и последующее решение задач на основе данного анализа.

Для начала давите рассмотрим какие модели машинного существуют могут существуют. Первая и наиболее простая в понимание модель машинного обучения – это линейная регрессия, данная статистическая модель существует уже более 100 лет и как следствие стала основой для первой в машинном обучение еще на заре компьютерной эры. Другой статистический инструмент, пришедший в машинное обучение это логическая регрессия. Данная модель применяется для решения задач с бинарным решением ведь она может дать лишь положительный или отрицательный ответ, что делает применение данной модели в таких отраслях как ценообразование неприемлемым. Но в тоже время данная модель может быть применена для отнесения объекта к какому-либо классу, что может быть использована на этапе подготовки данных [17].

Очередной статистически инструмент, применяемый в машинном обучении это линейный дискриминантный анализ данный вид анализа имеет много общего с логической регрессией с токи зрения представления результатов. В то время как логическая регрессия может дать нам один из двух возможных ответов то LDA может позволить отнести объект данных к одному из множества классов, а также определить различные средние и дисперсию для каждого класса отдельно [18]. В области ценообразования данный метод необходимо применять при работе с продуктами, сегментированными по цене, ведь простая ведь сквозной анализ данных по всем продуктам не даст доверительной точности в то время, как в каждом отдельном классе данные могут иметь очевидные и точные закономерности.

Первая рассматриваемая нами модель, изначально разработанная для машинного обучения это «Дерево решений». Дерево – это такая модель, которая предполагает прогнозирование при принятии ряда последовательных, альтернативных решений с выбором оптимальной цепочки решений [19]. Более сложны вариантом дерева решений является «Случайный лес». Случайный лес метод, представляющий множество параллельных «Деревьев решений» с одинаковым набором исходных данных и отличными поднаборами, влияющими на результат, оптимальное решение по данному методу определяется как наиболее часто встречаемое на разных деревьях [20].

Метод опорных векторов данный метод основан на принципе построения векторов и последующем поиске решения через поиск разделяющей гиперплоскости в пространства с размерностью на единицу больше. Данный метод является одним из наиболее часто используемых, но в частной задаче ценообразования, как и все методы с учителем сложно реализуем. Исходя из чего стоит обратить внимание на самообучаемые модели, данные модели основаны на двух основных техниках кластеризации и снижении размерности.

Кластеризация и снижение размерности важный инструменты в машинном обучении в области ценообразования, кластеризация помогает составить так называемому признаковое описание объектов, когда каждый товар рассматривается как набор характеристик или признаков. Необходимость применения данного инструмента отчетливо видна при попытках ценового анализа на многих рынках, например на таких ка рынок недвижимости. Данный рынок имеет явно выраженное разделение предложений по классам со своими статистическими закономерностями. В статистике и машинном обучении используется множество различных методов кластеризации, здесь есть и исконно статистические методы такие как методы К-средних, К-медиан, дискриминантный анализ так есть и исключительно методы примени самые в машинном обучении, например генетический алгоритм и нейронная сесть Кохонена.

Рассматривая машинное обучение в области ценообразования нельзя обойтись без рассмотрения такого вида статистических данных как временные ряды, ведь проводить полноценный анализ, определение и прогнозирование цены невозможно без «Исторической» составляющей какого-либо товара или группы товаров. К том уже есть общие тенденции рынка, которые тоже необходимо учесть, а их анализ опять же потребует работы с данным, полученным в определенно историческом промежутке.

Нами были рассмотрены различные методы машинного обучения, все они имеют свои сильные и слабые стороны и безусловно могут применяться в ценообразовании. Но отдельного упоминания стоит самое прогрессивное направление в области машинного обучения, а именно нейросетевое моделирование. Нейросеть создавалась как модель процессно схожая с работой человеческого мозга. В простейшем виде нейросеть представляет из себя единицы входных данных или «нейроны» и единицы выходных данных, также называемые нейронами, данная модель даёт такие весовые характеристики каждой из входных единиц, которые при суммирование дадут решение наиболее приближенное к целевому. Это простейшая одноуровневая нейросеть, на практике таких уровней у нейросети множество, и как правило они скрыты от пользователя именно поэтому данный способ получил название «глубинное обучение», на данном уровни все нейроны образуют сеть с множеством коэффициентов влияния каждого нейрона на остальные в уровне [21]. Все вышеуказанные модели в достаточно высокой степени требовательны к входным данным, в то время как нейросетевое моделирование позволяет не тратить трудовые ресурсы на подготовку данных для обучаемой модели, а использовать их в том виде как они есть. А учитывая наличии в открытом доступе на интернет-ресурсах различных агрегаторов данные о характеристиках о динамике цен даже о количестве просмотров данного товара. Позволяет нейросетевым системам получать данные как о продукте, так и о спросе конкретный продукт или группу продуктов.

Вышеуказанные модели безусловно являются сильными инструментами, но, при включении в анализ не только лишь качественных характеристик товара и уходу в каком-то смысле от бального метода ценообразования нам придется начать работать с новым для нас видом данных, а именно со случайными величинами. Есть множество моделей, предназначенных для работы с такими данными, обобщенное название данных моделей «Стохастические модели». Одна из первых стохастических моделей – это сети Маркова. Начало этой модели было положено одним из фундаменталистов в теории вероятностей. А.А. Марковым еще в начале прошлого века. Сейчас при взгляде на «Сети Маркова» мы, разумеется, видим в ней какую-то графовую теорию.

Различные модели из теории графов применяются уже более ста лет и с приходом компьютерной эры их возможности раскрылись на полною мощность. Сейчас графовые модели используются в машинном обучении в различных областях от статистики и до социологических исследования больших групп [22, 23].

Есть также специальные методы, например, как «Модель Хестона» предложенная в 1993 году Стивеном Хестоном и предназначенная для определения актуальной цены финансового актива и его волатильности, по-прежнему не утратила своей актуальности и исследуется многими авторами, например, Ин Чанг рассматривает применение данной модели с использованием дробного или же фрактального броуновское движение [24].

Использование машинного обучения в различных задачах и в экономике, в частности, нередко сталкиваются с трудностями в попытках использовать этот инструмент. Например, Лобин М.А. в попытках обучить модель для прогнозирования курса нефти столкнулся с такой проблемой как нехватка данных для анализа, ведь система может завить от тех факторов, которые либо настолько неочевидны, что исследователь упускает их из виду или которые слишком «Человечны» чтобы их интерпретировать для возможности анализа машинными средствами [25].

Результаты исследования и их обсуждение

В наше время машинное обучение уже не является чем-то сложным из области программирования, это уже инструмент, доступ к которому имеет специалисты любых отраслей. И при должном понимании принципов его работ могут обучить модель на выполнение необходимых задач. Виду высоких требований к вычислительной мощности, традиционно инструменты машинного обучения реализованы на облачных сервисах, примерами таких инструментов являются Tableau, Microsoft Azure, Power BI и Google Data Studio. Для данной работы был выбран инструмент Microsoft azure.

Поставленную в данной работе задачу использовать машинное обучение в ценообразовании можно разделить ни три этапа.

Первый этап – это сбор и подготовка данных для обучения модели, несмотря на кажущуюся простоту данная задача очень трудозатратна. В первую очередь необходимо собрать данные со средними рыночными ценами выбранного продукта, а также сведения о характеристиках всех номенклатур, присутствующих в выборке. Для выполнения данной задачи использовался был выбран онлайн сервис e-Katalog [26]. Но собрать данные еще недостаточно необходимо их подготовить. Ввиду того что машинное обучение работает с числовыми данными необходимо функциональные характеристики привести к бинарному виду, а числовые к единому формату для всех моделей.

Следующим этапом будет непосредственно построение модели. Используемый инструмент Microsoft Azure позволяет составлять модель используя различные блоки устанавливая связи между блоками и настраивая параметры для них. Первая модель, выбранная для исследования это линейный регрессионный анализ. Для обучения данной модели был использован встроенный инструмент разделения данных, который в случайном прядке разделил представленные выборку на две части в соотношении 10% на 90% где 90% процентов идет для обучения модели, а 10% идут анализ точности модели. Далее настраиваются необходимые параметры регуляризации для выбранной модели и определяются предикторы и переменные в массиве выборки. В завершении этого этапа запекается процесс обучения модели.

Несмотря на то, что к третьему этапу модель как таковая уже обучена начинается самые ответственный процесс, необходимо оценить качество обучения данной модели. Здесь мы возвращаемся к ранее отделенным 10% данных, они используются для проверки качества обучения модели. Для выполнения этой задачи 10% выборки вводятся в обученную модель, и она предсказывает для них искомые значения цены, результаты данных предсказаний в сравнении с реальной средней рыночной ценой представлены в таблице 1.

На основе данных таблицы 1 были рассчитаны коэффициент детерминации и относительная квадратическая ошибка их значения составили 0.91 и 0.09. Учитывая, что в качестве переменных выступали лишь только характеристики различных моделей, а многие важные параметры, например динамика цены в каком-либо отрезке времени не учтены можно сказать, что модель с достаточной достоверностью определяет рыночную цену основываясь на характеристиках того или иного продукта.

Таблица 1

Предсказанные LDA моделью цены и отклонения

№ п/п

Модель

Фактическая средняя рыночная цена

Предсказанная моделью цена

Отклонение

1

MXM-2808-90-

19 460,00

14 125,54

5 334,46

2

KGN76AI22R-

99 680,00

89 890,47

9 789,53

3

XM-4425-000-N-

33 103,00

30 522,98

2 580,02

4

KGN39VK24R-

51 345,00

58 007,36

6 662,36

5

GA-B509MAWL-

44 281,00

52 680,94

8 399,94

6

HB-25FSSAAA-

231 000,00

175 748,59

55 251,41

7

C2F-636CCFG-

44 999,00

45 323,83

324,83

8

HFP-6180-W-

28 890,00

35 352,96

6 462,96

9

GA-B419SQGL-

38 370,00

46 329,50

7 959,50

10

KGV39XK22R-

32 195,00

40 218,43

8 023,43

11

HMD-520-W-

32 245,00

40 623,40

8 378,40

12

KGN39LQ32R-

79 360,00

60 415,02

18 944,98

13

GA-B459CQWL-

51 385,00

39 449,79

11 935,21

14

XM-4209-000-

20 826,00

28 843,32

8 017,32

15

KGN49XW20R-

80 319,00

79 785,48

533,52

Аналогичным образом были обучены и протестированы следующие модели: байесовская линейная регрессия, дерево принятия решений, лес принятия решений. Результаты работы систем с применением данных моделей в виде коэффициентов детерминации представлены в таблице 2.

Таблица 2

Модели машинного обучения и их значения коэффициента детерминации

Модель машинного обучения

Коэффициент детерминации

Линейная регрессия

0.90

Байесовская линейная регрессия

0.92

Регрессия лесов принятия решений

0.59

Усиленная регрессия дерева принятия решений

0.91

Из полученных результатов можно сделать вывод что модели, основанные на линейной регрессии, байесовской линейной регрессии и усиленной регрессии леса принятия решений дают в достаточной мере достоверные результаты, что бы использовать их для решение такое прикладной задачи как определение рыночной цены продукта. Но надо понимать, что при использовании данных моделей на других группах товаров результат может быть иным, и необходимо будет ориентироваться на результаты моделей с более высоким коэффициентом детерминации.

Попытки применить модели такие модели как нейронные сети или метод Пуассона не дали положительного результата и коэффициенты детерминации были получены отрицательные, что свидетельствует об отсутствии у обученных систем возможности сколь либо достоверно определить цену товара. Но это вовсе не означает, что данные модели невозможно применять в ценообразовании, просто данные модели более требовательны к объёму анализируемых данных. Но откуда взять необходимые для обучения системы данные, решение данной проблемы было предложено Конниковым Е.А. и Родионовым Д.Г предлагая инструмент, предназначенный для анализа естественной цифровой информации [27].

Учитывая, что применение методов машинного обучения теряет всякую практическую значимость если нам придется проводить такой анализ при каждом её применение на иной группе товаров, целесообразнее будет разработать автоматизированный процесс, направленный на определение наиболее приемлемой модели и её использование. Алгоритм работы данного процесса цикл с поиском наибольшего значения коэффициента детерминации в каждой модели и вывод результата на основе той модели контрольный показатель которой будут наивысшим.

Заключение

В данной же работе было проведено исследование возможности применения машинного обучения в такой задаче как определение рыночной цены товара. В результате были обучены различными методами несколько систем три из которых дают достаточно достоверные результаты даже учитывая, что выборка, не включает все существующие предложения на рынке данного продукта, кроме того, на рыночную цену определенного товара или группы товаров влияют также и внешние факторы влияние которых в данных системах учтено не было.

Ответить на вопрос является машинное обучение универсальным инструментом, предназначенным для решения любых задач можно одновременно, да и нет, ведь данный инструмент действительно универсален, но в то же время довольно требователен в данным, необходимого объёма которых в поставленной задаче может просто не быть.

В результате данного исследования можно сделать вывод, что применение машинного обучения в ценообразование позволяет определять рыночную цену товара с высокой точностью и без участия человека. Данное исследование показывает, что нельзя эффективно применять такой инструмент как машинное обучение основываясь на каком-то одном методе обучения. Нет необходимости искать наилучший метод обучения системы, оптимальным будет использовать несколько методов обучения системы одновременно с последующим выбором обученной модели с наиболее достоверными предсказаниями или организация автоматизированной системы, использующей множество различных моделей и выбирающей модель с наибольшим коэффициентом детерминации и наименьшей квадратической ошибкой.

Результаты данного исследования могут быть использованы для дальнейшего развития машинного обучения в области ценообразования, и показывают, что данный инструмент можно адаптировать и применить для решения огромного спектра задач.