Научный журнал
Вестник Алтайской академии экономики и права
Print ISSN 1818-4057
Online ISSN 2226-3977
Перечень ВАК

1
1
-

Введение

Специфической особенностью деятельности экономиста является работа в условиях недостатка информации и неполноты исходных данных для моделирования. Анализ такой информации требует использования специальных методов, которые составляют один из аспектов эконометрики. Одной из центральных проблем эконометрики является построение эконометрической модели и определение возможности ее использования для описания, анализа, прогнозирования реальных экономических процессов. Сегодня, применению эконометрических методов может мешать высокая стоимость коммерческих пакетов статистического анализа. Выходом из сложившейся ситуации может быть использование открытого программного обеспечения, удачным примером которого является пакет сатистического анализа языка программирования Python.

Цель исследования: демонстрация новых возможностей эконометрического моделирования с использованием современного языка программирования Python. В статье предлагается использовать возможности языка Python, как инструмента обеспечивающего высокую производительность и точность при использовании эконометрических и статистических методов анализа данных.

Материал и методы исследования

Библиотека Pandas языка Python позволяет с легкостью манипулировать исходными данными и анализировать их. В принципе, библиотека Pandas построена на еще одной замечательной библиотеки в python 3 – Numpy. Использование пакета Pandas дает широкие возможности при работе с электронными таблицами.

В качестве примера выбраны автомобили марок Ford Focus и Opel Astra. В результате анализа выделены факторы, которые наиболее ощутимо влияют на стоимость автомобиля, разработана многофакторная математическая модель описывающая процесс ценообразования на вторичном рынке автомобилей, получены уравнение регрессии и матрицы корреляции переменных, построены графики влияния исследуемых факторов на стоимости автомобилей. В работе рассматриваются широкие возможности открытого и свободного программного обеспечения – FLOSS (Free\Libre and Open Sourse Software). Исследуются особенности ценообразования [3].

Для проведения исследования, необходимо выбрать базовый набор данных DataSet. Разнообразные наборы данных можно скачать прямо с сайта, который содержит такую информацию. DataSet, как правило, представляет собой файл с таблицей данных в формате json или csv. Цель работы – показать простоту обработки достаточно большого объема данных средствами Python.

Язык программирования Python в последнее время активно используется для анализа данных в различных социально значимых сферах. Это один из наиболее популярных современных языков программирования, который широко используется в анализе данных. Связано это прежде всего, с простотой языка, а также доступностью и разнообразием современных библиотек. В статье приведен пример исследования и классификации неструктурированных данных, а также построения эконометрической модели прогнозирования стоимости автомобиля с использованием возможностей и инструментов языка Python.

Python – это современный язык программирования, востребованный и популярный в мировой научной среде. В настоящей работе демонстрируются новые возможности ценообразования на вторичном рынке автомобилей. Язык программирования Python – это мощный высокоуровневый кроссплатформенный язык. Он поддерживает объектно-ориентированное программирование, и в последнее время стал серьезной альтернативой таким языкам программирования как C++. В отличие от MATLAB, язык Python изначально не заточен под научные вычисления.

Объектом исследования является рынок подержанных автомобилей, целью – выявление критериев оценки и уровня их влияния на цену подержанного автомобиля. Данные для проведения исследования получены с web-сайта avito.ru – крупнейший в Европе сайт частных объявлений с посещаемостью более 25 000 000 пользователей ежемесячно. Выбор сайта avito.ru объясняется, во-первых, тем, что сайт имеет достаточно большую базу предложений, во-вторых, по каждому продаваемому автомобилю в базе имеется подробная информация о его характеристиках. О каждом автомобиле в извлеченной выборке имеется следующая информация: марка автомобиля, модель автомобиля, тип кузова, год выпуска, пробег, коробка передач, объем двигателя, тип двигателя, привод, подробная информация о комплектации автомобиля. Для построения модели использованы такие модули как: pandas, библиотека для визуализации данных в statsmodels.formula.api, бибилиотека двумерной графики matplotlib. pyplot [2].

По теме исследования опубликованы работы, в которых не представлены современные эконометрические модели, которые могут включать не только числовые параметры.

Для исследования в качестве примера выбраны автомобили марок Ford Focus и Opel. После удаления из полученной выборки недостоверной и противоречивой информации, объем выборки составил 618509 автомобилей для автомобилей марки Ford Focus и 100955 для автомобилей Opel .

Введем следующие обозначения: Year – возраст, Mileage – пробег, объем двигателя – Capacity, мощность двигателя – Power, стоимость Price.

Получены следующая статистическая информация о выборке автомобилей Ford Focus.

Проведен корреляционный анализ извлеченной из базы выборки, результаты приведены в таблице.

Рассмотрим следующее уравнение регрессии:

ytyk01.wmf

где xi – это независимые переменные, характеризующие автомобиль (Year, Mileage, Capacity, Power); S – некоторая фиксированная величина, зависящая от модели авто; ai – коэффициенты, отражающие степень влияния, соответствующего параметра xi на цену автомобиля; Y – зависимая переменная – стоимость автомобиля (Price).

Регрессионное уравнение можно использовать для построения модели расчета стоимости автомобиля определенной модели. Воспользуемся методом наименьших квадратов [3].

pic_utykaiv_1_1.tif

pic_utykaiv_1_2.tif

Рис. 1. Первые 5 автомобилей Ford Focus и следующая статистическая информация о выборке автомобилей Ford Focus

pic_utykaiv_2.tif

Рис. 2. Матрица корреляции переменных для автомобилей Ford Focus

Результаты исследования и их обсуждение

Проведенный анализ показывает, что для автомобилей Ford Focus с увеличением возраста на 1 год, стоимость автомобиля снижается на 31 386 рубля, а с увеличением пробега на 10 000 километров, стоимость снижается на 2918 рублей, с увеличением мощности двигателя на 100 лошадиных сил, стоимость увеличится на 206 064 рубля.

Для автомобилей Opel с увеличением возраста на 1 год, стоимость автомобиля снижается на 31 354 рубля, а с увеличением пробега на 10 000 километров, стоимость снижается на 2176 рублей, с увеличением мощности двигателя на 100 лошадиных сил, стоимость увеличится на 96 548 рублей. Подобные расчеты возможно произвести для авто любых марок.

pic_utykaiv_3_1.tif

pic_utykaiv_3_2.tif

Рис. 3. Результаты расчета параметров модели автомобилей Ford Focus и Opel Astra

pic_utykaiv_4_1.tif

pic_utykaiv_4_2.tif

Рис. 4. Влияние возраста и пробега на стоимость автомобилей Ford Focus и Opel

pic_utykaiv_5_1.tif

pic_utykaiv_5_2.tif

Рис. 5. Результаты тестирования модели для автомобилей Ford Focus и Opel

Выводы

Представленная модель может использоваться для прогнозирования цен на автомобили производителями, дилерами и государством в целях управления рисками в автомобильной отрасли. Государственные органы, основываясь на прогнозных значениях, могут вырабатывать стимулирующие меры для поддержки рынка автомобилей.

В целом, несмотря на качество и адекватность построенной модели анализа и прогнозирования, ее можно усовершенствовать, добавив иные факторы, например, ставку по автокредитованию или стоимость обслуживания автомобиля.

Также данная модель не учитывает факторы, которые могли бы повлиять на стоимость, которые сложно количественно оценить. К ним можно отнести кризисное состояние экономики, появление новых марок автомобилей, государственные меры поддержки, такие как субсидирование процентной ставки по автокредитованию, программа утилизации автомобилей. В таком случае, можно использовать фиктивные переменные.

Следует отметить, что проведенные исследования демонстрируют эффективность использования возможностей языка Python для анализа больших данных, получены результаты, которые заслуживают дальнейшего изучения с помощью предложенного инструмента.