Intellectual Data Mining in Socio-Geographic Research
Table of contents
Share
QR
Metrics
Intellectual Data Mining in Socio-Geographic Research
Annotation
PII
S086904990017878-7-1
Publication type
Article
Status
Published
Authors
Viktor Blanutsa 
Occupation: Leading Researcher
Affiliation: V.B. Sochava Institute of Geography, Siberian Branch of the Russian Academy of Sciences
Address: Irkutsk, 1, Ulan-Batorskaya. st., Irkutsk. 664033, Rusian Federation
Edition
Pages
150-164
Abstract

In social geography, aimed at understanding the territorial organization of society, various methods are used, including data mining. However, there is no generalization of the experience of using such methods in world science. Therefore, the purpose of this article is to analyze the global array of scientific articles on this issue to identify priorities, algorithms and thematic areas with their capabilities and limitations. Using the author's method of semantic search based on machine learning, about two hundred articles published in the last two decades have been identified in eight bibliographic databases. Their generalization made it possible to identify chronological and chorological priorities, as well as to establish that a limited number of algorithms had been used for the geospatial data mining, which can be combined into groups of neural network, evolutionary, decision trees, swarm intelligence and support vector methods. These algorithms were used in five thematic areas (spatial-urban, regional-typological, area-based, geo-indicative and territorial-connective). The main features and limitations in each direction are given.

Keywords
artificial neural network, genetic algorithm, swarm intelligence, random forest, support vector machine, urban spatial expansion, regional typology, socio-economic regionalization, geo-indication, spatial interaction
Acknowledgment
The work was carried out at the V.B. Sochava Institute of Geography of the Siberian Branch of the Russian Academy of Sciences funded by the State task (registration number of the topic: AAAA-A17-117041910166-3).
Received
30.08.2021
Date of publication
20.12.2021
Number of purchasers
12
Views
3510
Readers community rating
0.0 (0 votes)
Cite Download pdf 100 RUB / 1.0 SU

To download PDF you should pay the subscribtion

Full text is available to subscribers only
Subscribe right now
Only article and additional services
Whole issue and additional services
All issues and additional services for 2021
1 Введение
2 Под интеллектуальным анализом данных понимается применение алгоритмов искусственного интеллекта для того, чтобы извлечь скрытые закономерности (структуры) из исходных данных. Следует учитывать, что не все алгоритмы искусственного интеллекта позволяют обнаруживать новое знание. Более того, оперирование геопространственными данными, для которых характерны территориальная локализация, пространственная автокорреляция, иерархическая организация, географическая маршрутизация и пространственно-временная трансформация, дополнительно ограничивает возможности интеллектуального анализа [Atluri et al. 2017; Li et al. 2016; Wang, Eick 2018; Wylie et al. 2019]. В связи с данной особенностью в географических науках еще не сформировалось полное представление о том, какие именно алгоритмы искусственного интеллекта, в какой мере и по каким конкретным тематическим направлениям можно использовать для извлечения скрытых пространственно-временных структур из геоданных. Первым шагом на пути решения проблемы может стать обобщение мирового опыта интеллектуального анализа данных. До настоящего времени в общественной географии, нацеленной на познание территориальной организации общества, такое обобщение не проводили. Для сравнения можно отметить, что в смежных научных дисциплинах начали появляться подобные обобщения – например, в региональной экономике [Блануца 2020].
3 Данное исследование проводится с целью обобщить мировой опыт применения интеллектуального анализа данных в общественно-географических исследованиях для того, чтобы выявить приоритеты, алгоритмы и тематические направления с их возможностями и ограничениями. Для достижения цели потребовалось решить следующие задачи: выявить массив (корпус) публикаций, в которых приведены эмпирические результаты изучения территориальной организации общества посредством интеллектуального анализа данных; определить хронологические и хорологические (по странам) приоритеты в выявленных исследованиях; сформировать список применяемых алгоритмов и отметить их сильные и слабые стороны; сгруппировать выявленные публикации в несколько тематических направлений и констатировать их возможности и ограничения.
4 Понимание сущности интеллектуального анализа и в целом искусственного интеллекта постоянно менялось с середины прошлого века [Haenlein, Kaplan 2019]. В настоящее время к алгоритмам искусственного интеллекта относят методы, которые опираются на машинное обучение [Cristianini 2014]. Впервые машинное обучение в общественно-географических исследованиях применили при построении искусственной нейронной сети (Artificial Neural Network, ANN), которая моделировала межрегиональные телекоммуникационные потоки в Австрии [Fischer, Gopal 1994]. На смену единичным экспериментам пришло значительное увеличение количества географических исследований в XXI в. (например, по геоурбанистике до 2001 г. было опубликовано 2 статьи, посвященные применению ANN, а в 2001–2016 гг. – 138 [Grekousis 2019]). Теоретическое осмысление возможностей машинного обучения происходило от нейросетевой парадигмы пространственного анализа [Fischer 1998] до концепции географического искусственного интеллекта [Janowicz et al. 2020].
5 Материалы и методы
6 При решении первой задачи рассматривались только журнальные статьи, так как по ним можно получить все тексты с иллюстрациями и приложениями, в то время как по другим видам научных публикаций (монографии, сборники статей и материалы конференций) не всегда доступны все материалы. Автор отбирал статьи с эмпирическими результатами исследования конкретной территории, что позволило идентифицировать возможности и ограничения применяемых алгоритмов, тогда как в постановочных и теоретических работах из-за отсутствия примеров сложно провести такую идентификацию. Приведенные далее выводы относятся только к массиву статей с эмпирическими данными, которые были опубликованы в научных журналах во всем мире. В качестве хронологического ограничения выбраны последние двадцать лет (2001–2020 гг.), поскольку ранее статей по заданной проблематике почти не было. Для поиска статей использовались одна отечественная и семь международных библиографических баз данных ( www.elibrary.ru , www.link.springer.com , www.onlinelibrary.wiley.com , www.sciencedirect.com , www.login.webofknowledge.com , www.scopus.com , www.journals.sagepub.com , www.ideas.repec.org ).
7 Массив статей формировался с помощью авторского алгоритма семантического поиска публикаций в библиографической базе данных [Блануца 2020]. У алгоритма существует лимитирующий фактор в связи с тем, что он отбирает публикации только на кириллице и латинице. Научные статьи с использованием другого алфавита (китайского, арабского и т.д.) остались вне анализа. Другим сдерживающим фактором стало использование только восьми баз данных, которые охватывают большинство, но не все статьи в мире.
8 Приоритеты
9 Семантический поиск, проведенный 25 июня 2021 г., позволил выявить 192 общественно-географические статьи (2001–2020 гг.) по рассматриваемой проблематике. Статьи опубликованы в 99 журналах (в том числе в 22 географических изданиях). Больше всего исследований представлено в журналах «Computers, Environment and Urban Systems» (19 статей), «International Journal of Geographical Information Science» (16) и «Environment and Planning B: Planning and Design» (7). Если каждую статью отнести к году ее публикации (рис. 1), можно зафиксировать хронологический приоритет: увеличение интереса (восходящий тренд) к применению интеллектуального анализа в общественно-географических исследованиях.
10

Рисунок 1. Изменение ежегодного количества статей по использованию интеллектуального анализа данных в общественно-географических исследованиях, результаты которых опубликованы в географических (1) и других (2) научных журналах во всем мире в 2001–2020 гг. Figure 1. Change in the annual number of articles on the use of data mining in socio-geographical research, the results of which were published in geographical (1) and other (2) scientific journals around the world in 2001–2020.

11 Источник: составлено автором.
12 Source: compiled by the author.
13 Для определения хорологического приоритета можно использовать аффилиацию авторов выявленных статей. При наличии у статьи соавторов из разных стран публикация как единица счета делилась на количество соавторов; например, при четырех авторах из разных стран на каждое государство приходилось по 0,25 статьи. Интерес к рассматриваемым исследованиям проявили в 34 странах, из них в 11 странах подготовлено по четыре и более статей (рис. 2). Основным хорологическим трендом стало доминирование публикаций из Китайской Народной Республики.
14

Рисунок 2. Ранжирование стран по количеству опубликованных статей (не менее четырех в 2001–2020 гг.; отнесение к стране по аффилиации автора) с результатами применения интеллектуального анализа данных в общественно-географических исследованиях Figure 2. Ranking of countries by the number of published articles (at least four in 2001–2020; attributed to the country by affiliation of the author) with the results of the use of data mining in socio-geographical research

15 Источник: составлено автором.
16 Source: compiled by the author.
17 Алгоритмы
18 В мировом массиве статей представлены результаты изучения территориальной организации общества с помощью 13 алгоритмов интеллектуального анализа. Наиболее часто авторы применяли искусственную нейронную сеть в виде многослойного персептрона (Multi-Layer Perceptron, MLP; 69 статей и еще 14 публикаций по сочетанию MLP с другими методами) и самоорганизующихся карт (Self-Organizing Maps, SOM; 44 и 1 статья). Менее распространены генетический алгоритм (Genetic Algorithm, GA; 18 и 6 статей), случайный лес (Random Forest, RF; 9 и 10), машина опорных векторов (Support Vector Machine, SVM; 8 и 9), оптимизация муравьиной колонии (Ant Colony Optimization, ACO; 8 и 2), оптимизация роя частиц (Particle Swarm Optimization, PSO; 5 и 2), сверточная нейронная сеть (Convolutional Neural Network, CNN; 3 и 3), искусственная иммунная система (Artificial Immune System, AIS; 3 и 1), дерево решений (Decision Tree, DT; 1 и 2), имитация отжига (Simulated Annealing, SA; 0 и 4), алгоритм летучих мышей (Bat Algorithm, BA; 1 и 1) и искусственная пчелиная колония (Artificial Bee Colony, ABC; 0 и 1). В большинстве исследований использовался один алгоритм (169 статей), но в некоторых работах применялось два (15), три (6) и четыре (2) метода. Перечисленные алгоритмы отличаются друг от друга, но для краткой характеристики их можно объединить в пять групп.
19 Нейросетевые алгоритмы (MLP, SOM, CNN). При разработке данной группы алгоритмов за основу взяли нейронную сеть человека. Персептрон состоит из нескольких слоев элементов (узлов, «нейронов») – входного, скрытого и выходного – и взвешенных линий связи («синапсов») между элементами соседних слоев. Основная задача заключается в поиске закономерностей во входных данных, для чего с помощью обучения корректируется вес синапсов. Обучение может быть контролируемым (используются помеченные данные), частично контролируемым (маркируется только часть учебного набора данных), неконтролируемым (данные никак не маркируются) и с подкреплением (сеть получает поощрения за правильные решения) [Grekousis 2019]. С некоторой условностью можно различать поверхностное (один скрытый слой) и глубокое (несколько скрытых слоев) обучение. В анализируемом массиве публикаций преобладало поверхностное обучение (76 из 83 статей). Основными преимуществами MLP можно назвать работу с разными видами данных (включая космические снимки и картографические изображения) и выявление нелинейных зависимостей между входом и выходом. К главным недостаткам следует отнести вычисления по принципу «черного ящика», что затрудняет интерпретацию и визуализацию полученных результатов. Для решения проблемы визуализации Т. Кохонен [Kohonen 2001] разработал самоорганизующиеся карты, которые позволяют проецировать входные многомерные данные на двумерное пространство с сохранением входных топологических отношений. В итоге получается «карта» (сетка) нейронов в виде шестиугольников или прямоугольников. Еще один вид ANN – сверточная нейронная сеть – представляет собой многослойную уплотняющую фильтрацию входных данных для генерации на выходе абстрактных понятий [LeCun et al. 1989]. При изучении территориальной организации общества CNN используют редко – например, для оценки бедности по снимкам дистанционного зондирования [Wu, Tan 2019] и дезагрегирования социально-экономических данных по землепользованию [Yao et al. 2020].
20 Эволюционные алгоритмы (GA, AIS, SA). Данная группа основана на искусственной имитации процессов естественного отбора. Вне ANN в анализируемых публикациях наиболее часто используют генетический алгоритм [Mitchell 1996], который опирается на выживание наиболее приспособленных индивидов (решений) в ходе генерирования новой популяции за счет операторов размножения, скрещивания и мутации. Известен ряд географических разновидностей GA, например, «пространственный генетический алгоритм» [Qiu et al. 2018] и «самоадаптивный генетический алгоритм роста городов» [Liu, Feng, Pontius 2014]. К недостаткам метода можно отнести неопределенность с остановкой алгоритма и тенденцию сходимости к локальному, а не глобальному оптимуму. Второй алгоритм данной группы копирует работу иммунной системы млекопитающих по выработке антител (решателей, классификаторов) для распознавания антигенов (географических ситуаций). Метод опирается на клонирование, мутацию и селекцию антител [De Castro, Timmis 2002]. В ходе мутации происходит обучение системы для выработки «зрелых антител», с помощью которых распознают неизвестные антигены. В анализируемых исследованиях представляют интерес «новый иммунный клональный алгоритм» [Ma, Zhao 2015] и «искусственная иммунная система обнаружения динамических правил перехода к урбанизированной территории» [He et al. 2015]. Алгоритм имитации отжига используют редко – в рассматриваемых работах его применяют только для верификации основных алгоритмов. Он не опирается на эволюционные процессы, а имитирует физический механизм кристаллизации вещества при отжиге (нагрев и контролируемое охлаждение) металлов, что позволяет обходить локальные и достигать глобальные оптимумы по аналогии с естественным отбором.
21 Алгоритмы роевого интеллекта (ACO, PSO, BA, ABC). Методы роевого интеллекта имитируют коллективное децентрализованное (самоорганизующееся) перемещение живых организмов (агентов) для достижения определенной цели при косвенном обмене информацией. В общественно-географических исследованиях чаще других применяют алгоритм оптимизации муравьиной колонии [Dorigo et al. 1999], который воспроизводил поиск муравьями оптимального маршрута от колонии к пище посредством маркировки предпочтительных дорог большим количеством феромона (продукты внешней секреции, обеспечивающие косвенный обмен информацией). Данный метод позволил, к примеру, оптимизировать территориальное распределение землепользования при различных сценариях развития [Liu, Tang et al. 2014] и прогнозировать пространственные пределы разрастания города [Wang et al. 2020]. Также в данную группу алгоритмов входит оптимизация роя частиц – имитация движения в стае птиц или косяке рыб, которое позволяет отдельным особям или частицам занимать более выгодное положение и менять направление перемещения роя с целью поиска наилучших решений. С его помощью можно моделировать политические последствия трансформации сельскохозяйственных территорий [Liu et al. 2017] и другие изменения в землепользовании [Liu et al. 2013]. Аналогичные оптимизационные задачи решаются с применением алгоритмов летучих мышей и пчелиной колонии [Cao et al. 2016; Naghibi et al. 2016].
22 Алгоритмы решающих деревьев (RF, DT). Основной метод – «дерево обучения принятия решений» («дерево решений») – в анализируемом массиве встречается редко [Basse et al. 2016], а его разновидность «случайный лес» относительно часто. Данный распространенный метод представляет собой алгоритм машинного обучения, который создает множество («лес») не коррелируемых деревьев распределения объектов по классам с выбором оптимального результата путем голосования по большинству [Breiman 2001]. В общественно-географических исследованиях алгоритм случайного леса применяли, например, для прогнозирования изменения землепользования при различных сценариях социально-экономического развития [Gounaridis et al. 2019] и оценки численности населения [Brabyn, Jackson 2019]. Алгоритм обладает такими преимуществами, как интерпретируемость, масштабируемость и возможность оперировать измеренными в разных шкалах показателями, а главный недостаток связан с большим размером получаемой модели.
23 Машина опорных векторов (SVM). Алгоритм нацелен на построение гиперплоскости, которая оптимально разделяет объекты (векторы) на классы за счет максимизации (в ходе обучения) расстояния (зазора) между гиперплоскостью и ближайшими векторами, которые названы опорными [Vapnik 1998]. Метод позволяет минимизировать среднюю ошибку классификации за счет максимизации зазора, однако он зависит от информационного шума (ошибочных векторов), что приводит к созданию неправильной гиперплоскости. В анализируемом массиве SVM использовали, к примеру, для прогнозирования городской экспансии [Karimi et al. 2019] и верификации результатов других алгоритмов [Su et al. 2017].
24 Направления
25 Все общественно-географические задачи, которые решались с помощью алгоритмов интеллектуального анализа, можно объединить в четыре общенаучные группы: имитация, классификация, оптимизация и прогнозирование. Районирование территории отнесено к классификации, а моделирование существующей ситуации – к имитации. В 143 статьях решалась только одна задача, в 7 – две и в 1 – три задачи. Среди исследований, направленных на решение двух задач, чаще всего сочетались имитация и прогнозирование (41 статья). Наибольшее внимание уделялось имитации, а наименьшее – оптимизации (таб. 1).
26 Таблица 1
27 Количество журнальных статей (2001–2020 гг.), в которых представлены результаты применения алгоритмов интеллектуального анализа для решения задач общественно-географического исследования1
1. В одной статье могут быть представлены несколько алгоритмов для решения одной и более задач или один алгоритм для решения нескольких задач. Поэтому общее количество статей в таблице превышает количество выявленных статей.
28 Table 1
29 The number of journal articles (2001–2020) presenting the results of the use of data mining algorithms to solve problems of socio-geographical research
Алгоритмы Задачи
Имитация Классификация Оптимизация Прогнозирование
Нейросетевые 80 51 0 31
Эволюционные 22 0 7 8
Решающих деревьев 22 0 0 6
Роевого интеллекта 15 0 8 3
Опорных векторов 16 0 0 4
30 Источник: составлено автором.
31 Source: compiled by author.
32 По общественно-географическому содержанию все анализируемые исследования можно разделить на пять непересекающихся тематических направлений: пространственно-урбанистическое, регионально-типологическое, районологическое, геоиндикационное и территориально-коннекционное. В первом направлении применялись пять алгоритмов, в двух последних – по два, а во втором и третьем – по одному алгоритму (таб. 2), что на перспективу ставит проблему оценки возможности использования более широкого спектра алгоритмов искусственного интеллекта во втором и последующих направлениях. Кроме этого, интеллектуальный анализ данных не ограничивается 13 алгоритмами, применявшимися в общественно-географических исследованиях. Поэтому предстоит изучить возможность использовать остальные методы (рекуррентной нейронной сети, обучения ассоциативным правилам и др. [Полетаева 2020]), а также все методы – в других тематических направлениях общественной географии [Шарыгин, Столбов 2020].
33 Таблица 2
34 Количество журнальных статей (2001–2020 гг.), посвященных применению алгоритмов интеллектуального анализа в пяти направлениях общественно-географических исследований2
2. Каждая анализируемая статья относилась только к одному направлению, но в одной статье могли рассматриваться несколько алгоритмов. Направления: первое – пространственно-урбанистическое, второе – регионально-типологическое, третье – районологическое, четвертое – геоиндикационное, пятое – территориально-коннекционное.
35 Table 2
36 The number of journal articles (2001–2020) onthe application of data mining algorithms in five areas of socio-geographical research
Алгоритмы Направления
Первое Второе Третье Четвертое Пятое
Нейросетевые 77 21 14 9 7
Эволюционные 28 0 0 0 0
Решающих деревьев 19 0 0 3 1
Роевого интеллекта 17 0 0 0 0
Опорных векторов 17 0 0 0 0
37 Источник: составлено автором.
38 Source: compiled by author.
39 Пространственно-урбанистическое направление (139 статей). В географических науках уделяют повышенное внимание изучению территориальной экспансии городов [Triantakonstantis, Mountrakis 2012], а для пространственно-временного моделирования их роста весьма перспективно применение алгоритмов интеллектуального анализа данных [Grekousis 2019]. Лишь в данном направлении были использованы все 13 алгоритмов. Наиболее часто применялись следующие методы: MLP (69 статей), GA (23), SVM (17), RF (16) и ACO (10). Во многих исследованиях (66 статей) рассматриваемые алгоритмы встраивали в клеточные автоматы (Cellular Automata, CA). Ранее такие автоматы относились к искусственному интеллекту (см. игру «Жизнь» [Adamatzky 2010]), но в данном анализе это не сделано из-за отсутствия машинного обучения. Искусственная жизнь развивается благодаря тому, что последующее состояние клетки (прямоугольной ячейки) зависит от существующего состояния самой клетки и ее соседей. Зависимость определяют «правила перехода», которые могут генерироваться разными способами (включая рассматриваемые алгоритмы), и размером «окрестности» (количеством соседей). В данное направление включены исследования с правилами перехода на основе машинного обучения, состоянием клеток в виде дихотомии «урбанизированная – не урбанизированная территория» или трех и более типов землепользования, а также использованием социально-экономических переменных для построения правил. Задача состоит в том, чтобы для каждой не урбанизированной клетки определить, станет ли она урбанизированной и когда это произойдет.
40 В анализируемом массиве территориальный рост городов фиксировался по космическим снимкам Земли (преимущественно со спутников Landsat), на которых каждый пиксель (в основном 30х30 м) был ячейкой, а степень трансформации ячеек ставили в зависимость от расстояния до различных социально-экономических объектов (центра города, железнодорожной станции, автомагистрали и др.). С помощью рассматриваемых алгоритмов строили модель перехода ячеек из одного состояния (класса землепользования) в другое за несколько лет («обучение»), а затем предлагали прогноз на последующие годы, по которым имелись спутниковые снимки. Сравнение прогноза с действительностью позволило оценить точность моделирования и внести в модель необходимые корректировки. Основным преимуществом клеточных автоматов и других способов (определение правил перехода каждой ячейки без учета ее соседей – 73 статьи) можно назвать повышенную точность моделирования разрастания городов по сравнению с традиционными методами (логистическая регрессия, цепь Маркова и др.), которая достигает 96,64% (город Ипсуич, Австралия; модель MLP-CA) [Lu et al. 2020]. Другое преимущество связано с возможностью обрабатывать разнокачественные данные (официальная статистика, расстояния на картах, космические снимки, а также пропуски данных). К недостаткам можно отнести (а) выявление корреляционных, а не причинно-следственных связей [Grekousis 2019], (б) отсутствие инвариантных правил перехода (имитация конкретной географической ситуации, а не построение общей модели для всех ситуаций) и (в) игнорирование структуры землепользования внутри ячейки [Qian et al. 2020].
41 Регионально-типологическое направление (21 статья). Объединение административно-территориальных единиц в однородные группы (кластеры) по заданному набору признаков, часто применяют для познания территориальной организации общества [Блануца 2018]. В анализируемом массиве с данной целью были использованы в основном самоорганизующиеся карты (20 статей). С помощью SOM идентифицировали, например, группы итальянских регионов по особенностям внедрения «умных» технологий [Colantonio, Cialfi 2016] и типы региональных инновационных систем Европы [Hajek et al. 2014]. Эвристические возможности данного направления связаны с визуализацией и интерпретацией кластеров, а ограничивает ее невозможность (г) автоматически («без учителя») генерировать образ депрессивного или другого проблемного региона, (д) получать обоснованную иерархическую структуру (тип, подтип и т.д.) и (е) создавать новые (в том числе размытые) границы, не связанные с исходными границами регионов. Возможно, со временем снять некоторые ограничения позволит развитие идеи, заложенной в проекте GeoSOM [Henriques et al. 2012].
42 Районологическое направление (14 статей). В его основе лежит выявление специфических и целостных территориальных образований (районов) [Блануца 2018]. Для идентификации районов использовались SOM (11 статей), MLP (2) и CNN (1). Интересные решения были получены при выделении промышленных районов вертикальной и горизонтальной специализации в Италии [Carlei, Nuccio 2014], а также районов социального взаимодействия из контекста, генерируемого пользователями Twitter в городах Амстердам, Бостон и Джакарта [Psyllidis et al. 2018]. Главное достоинство данного направления – интеграционный потенциал, который позволяет объединить результаты всех остальных направлений, а среди ограничений целесообразно отметить отсутствие: (ж) концептуальной модели интегрального социально-экономического района на платформе искусственного интеллекта, (з) методологии эволюционного районирования [Блануца 2018], способствующей делимитации районов со сходной траекторией развития с помощью рассматриваемых алгоритмов, (и) центр-периферийных отношений внутри районов, без которых невозможно вычленить одно или несколько территориальных ядер посредством интеллектуального анализа.
43 Геоиндикационное направление (10 статей). В него выделены различные попытки использовать интеллектуальный анализ для получения новых параметров (индикаторов) территориальной организации общества. Для этого применялись SOM (4 статьи), MLP (2), CNN (2), RF (1,5) и DT (0,5). Среди таких работ имеет смысл отметить заблаговременную индикацию общественной коррупции в испанских провинциях [Lόpez-Iturriaga, Sanz 2018] и оценку бедности в китайской провинции Гуйчжоу [Wu, Tan 2019]. Основное преимущество направления – возможность получать географические данные оперативнее, чем при использовании методов вне интеллектуального анализа. Ограничениями служат (к) узкий спектр генерируемых параметров (преимущественно социальные индикаторы), (л) относительно высокая зависимость от информационного шума и (м) отсутствие алгоритмов распознавания интегральной территориальной структуры.
44 Территориально-коннекционное направление (8 статей). Определение направленности и интенсивности различных потоков (товаров, информации и др.) между территориями оценивали с помощью MLP (6 статей), SOM (1), GA (0,5) и RF (0,5). Здесь можно отметить исследования, в рамках которых оценивали объем транспортных потоков между европейскими регионами [Nijkamp et al. 2004] и выявляли территориальную структуру внутреннего рынка авиаперевозок в США [Yan, Thill 2009]. Сравнение с гравитационными моделями, которые традиционно используют для моделирования пространственных взаимодействий, позволяет обозначить основное преимущество рассматриваемых алгоритмов [Fischer 1998] – учет нелинейных межрегиональных потоков. Развитие данного направления сдерживает отсутствие (н) детальной картографической маршрутизации потоков (обычно между двумя городами фиксируется общий трафик без его территориальных вариаций), (о) кластеризации потоков и (п) идентификации полимагистралей (каналов сосредоточения разных видов транспорта).
45 Заключение
46 Семантический поиск в библиографических базах данных позволил выявить около двух сотен статей, в которых были приведены эмпирические результаты применения алгоритмов интеллектуального анализа данных для познания территориальной организации общества. Междисциплинарный характер таких исследований (на пересечении географии, экономики, социологии, политологии и data science), их фронтирность и фрагментарность указывают на начальный этап познания. Не исключено, что дальнейшее развитие подобных работ приведет к оформлению нового интеграционного направления в рамках общественной географии или частных направлений в других науках (в пространственной экономике, социологии пространства и т.д.). Так или иначе, впервые в мировой науке по рассматриваемой проблематике зафиксировано применение ограниченного количества алгоритмов (13 при потенциале в несколько десятков методов [Блануца 2020; Полетаева 2020; Cristianini 2014; Grekousis 2019; Haenlein, Kaplan 2019; Janowicz et al. 2020]), доминирующее положение нейросетевых алгоритмов, незначительное совместное использование нескольких методов, преобладание имитационного моделирования над прогнозированием и решением оптимизационных задач, а также фокус на изучении пространственного роста городов при значительно меньшем внимании к остальным предметам исследования общественной географии. Рассматриваемые алгоритмы не применяли для изучения, например, территориально-производственных комплексов и кластеров, энергопроизводственных циклов, пространственной диффузии инноваций и экономико-географического положения. Что касается тематических направлений, то можно предположить их конвергенцию в единую методологию выявления, прогнозирования и оптимизации системы общественно-географических районов, которая необходима для целостного понимания и управления территориальной организацией общества в ходе пространственной урбанизации, территориального перераспределения и концентрации потоков вещества, энергии и информации, специализации регионов и появления новых индикаторов этих и иных – диффузионных, дисперсионных и др. – процессов.

References

1. Adamatzky A. (Ed.) (2010) Game of Life Cellular Automata. London: Springer-Verlag.

2. Atluri G., Karpatne A., Kumar V. (2017) Spatio-Temporal Data Mining: A Survey of Problems and Methods. ACM Computing Surveys. vol. 1, no. 1, pp. 1–37 (https://doi.org/10.1145/3161602).

3. Basse R. M., Charif O., Bόdis K. (2016) Spatial and Temporal Dimensions of Land Use Change in Cross-Border Region of Luxemburg. Development of a Hybrid Approach Integrating GIS, Cellular Automata and Decision-Learning Tree Models. Applied Geography. vol. 67, pp. 94–108 (https://doi.org/10.1016/j.apgeog.2015.12.001).

4. Blanutsa V.I. (2018) Social'no-ekonomicheskoe rajonirovanie v epohu bol'shih dannyh [Socio-Economic Regionalization in the Era of Big Data]. Moscow: INFRA-M.

5. Blanutsa V.I. (2020) Regional'nye ekonomicheskie issledovaniya s ispol'zovaniem algoritmov iskusstvennogo intellekta: sostoyanie i perspektivy [Regional Economic Research Using Artificial Intelligence Algorithms: State and Prospects]. Vestnik Zabajkal'skogo gosudarstvennogo universiteta. vol. 26, no. 8, pp. 100–111 (https://doi.org/10.21209/2227-9245-2020-26-8-100-111).

6. Brabyn L., Jackson N. O. (2019) A New Look at Population Change and Regional Development in Aotearoa New Zealand. New Zealand Geographer. vol. 75, pp. 116–129 (https://doi.org/10.1111/nzg.12234).

7. Breiman L. (2001) Random Forests. Machine Learning. vol. 45, no. 1, pp. 5–32 (https://doi.org/10.1023/A:1010933404324).

8. Cao M., Bennett S. J., Shen Q., Xu R. (2016) A Bat-Inspired Approach to Define Transition Rules for a Cellular Automaton Model Used to Simulate Urban Expansion. International Journal of Geographical Information Science. vol. 30, no. 10, pp. 1961–1979 (https://doi.org/10.1080/13658816.2016.1151521).

9. Carlei V., Nuccio M. (2014) Mapping Industrial Patterns in Spatial Agglomeration: A SOM Approach to Italian Industrial Districts. Pattern Recognition Letters. vol. 40, pp. 1–10 (https://doi.org/10.1016/j.patrec.2013.11.023).

10. Colantonio E., Cialfi D. (2016) Smart Regions in Italy: A Comparative Study through Self-Organizing Maps. European Journal of Business and Social Science. vol. 5, no. 9, pp. 84–99.

11. Cristianini N. (2014) On the Current Paradigm in Artificial Intelligence. AI Communication. vol. 27, no. 1, pp. 37–43 (https://doi.org/10.3233/AIC-130582).

12. De Castro L. N., Timmis J. (2002) Artificial Immune Systems: A New Computational Approach. London: Springer-Verlag.

13. Dorigo M., Di Caro G., Gambardella L. M. (1999) Ant Algorithms for Discrete Optimization. Artificial Life. vol. 5, no. 2, pp. 137–172 (https://doi.org/10.1162/106454699568728).

14. Fischer M.M., Gopal S. (1994) Artificial Neural Networks: A New Approach to Modeling Interregional Telecommunication Flows. Journal of Regional Science. vol. 34, no. 4, pp. 503–527 (https://doi.org/10.1111/j.1467-9787.1994.tb00880.x).

15. Fischer M.M. (1998) Computational Neural Networks: A New Paradigm for Spatial Analysis. Environment and Planning A: Economy and Space. vol. 30, no. 10, pp. 1873–1891 (https://doi.org/10.1068/a301873).

16. Gounaridis D., Chorianopoulos I., Symeonakis E., Koukoulas S. (2019) A Random Forest – Cellular Automata Modelling Approach to Explore Future Land Use/Cover Change in Attica (Greece), Under Different Socio-Economic Realities and Scales. Science of the Total Environment. vol. 646, pp. 320–335.

17. Grekousis G. (2019) Artificial Neural Networks and Deep Learning in Urban Geography: A Systematic Review and Meta-Analysis. Computers, Environment and Urban Systems. vol. 74, pp. 244–256 (https://doi.org/10.1016/j.compenvurbsys.2018.10.008).

18. Haenlein M., Kaplan A.A. (2019) A Brief History of Artificial Intelligence: On the Past, Present, and Future of Artificial Intelligence. California Management Review. vol. 61, no. 4, pp. 5–14 (https://doi.org/10.1177/0008125619864925).

19. Hajek P., Henriques R., Hajkova V. (2014) Visualising Components of Regional Innovation Systems Using Self-Organizing Maps – Evidence from European Regions. Technological Forecasting and Social Change. vol. 84, pp. 197–214 (https://doi.org/10.1016/j.techfore.2013.07.013).

20. He Y., Ai B., Yao Y., Zhong F. (2015) Deriving Urban Dynamics Evolution Rules from Self-Adaptive Cellular Automata with Multi-Temporal Remote Sensing Images. International Journal of Applied Earth Observation and Geoinformation. vol. 38, pp. 164–174 (https://doi.org/10.1016/j.jag.2014.12.014).

21. Henriques R., Bacao F., Lobo V. (2012) Exploratory Geospatial Data Analysis Using the GeoSOM Suite. Computers, Environment and Urban Systems. vol. 36, no. 3, pp. 218–232 (https://doi.org/10.1016/j.compenvurbsys.2011.11.003).

22. Janowicz K., Gao S., McKenzie G., Hu Y., Bhaduri B. (2020) GeoAI: Spatially Explicit Artificial Intelligence Techniques for Geographic Knowledge Discovery and Beyond. International Journal of Geographical Information Science. vol. 34, no. 4, pp. 625–636 (https://doi.org/10.1080/13658816.2019.1684500).

23. Karimi F., Sultana S., Bakakan A. S., Suthaharan S. (2019) An Enhanced Support Vector Machine Model for Urban Expansion Prediction. Computers, Environment and Urban Systems. vol. 75, pp. 61–75 (https://doi.org/10.1016/j.compenvurbsys.2019.01.001).

24. Kohonen T. (2001) Self-Organizing Maps. 3rd ed. Berlin, Heidelberg: Springer-Verlag.

25. LeCun Y., Boser B., Denker J. S., Henderson D., Howard R. E., Hubbard W., Jackel L. D. (1989) Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation. vol. 1, no. 4, pp. 541–551.

26. Li D., Wang S., Yuan H., Li D. (2016) Software and Applications of Spatial Data Mining. WIREs: Data Mining and Knowledge Discovery. vol. 6, no. 3, pp. 84–114 (https://doi.org/10.1002/widm.1180).

27. Liu D., Tang W., Liu Y., Zhao X., He J. (2017) Optimal Rural Land Use Allocation in Central China: Linking the Effect of Spatiotemporal Patterns and Policy Interventions. Applied Geography. vol. 86, pp. 165–182 (https://doi.org/10.1016/j.apgeog.2017.05.012).

28. Liu X., Ou J., Li X., Ai B. (2013) Combining System Dynamics and Hybrid Particle Swarm Optimization for Land Use Allocation. Ecological Modelling. vol. 257, no. 5, pp. 11–24 (https://doi.org/10.1016/j.ecolmodel.2013.02.027).

29. Liu Y., Feng Y., Pontius R. G. (2014) Spatially-Explicit Simulation of Urban Growth through Self-Adaptive Genetic Algorithm and Cellular Automata Modelling. Land. vol. 3, no. 3, pp. 719–738 (https://doi.org/10.3390/land3030719).

30. Liu Y. L., Tang D. W., Kong X., Liu Y. F., Ai T. (2014) A Land-Use Spatial Allocation Model Based on Modified Ant Colony Optimization. International Journal of Environmental Research. vol. 8, no. 4, pp. 1115–1126 (https://doi.org/10.22059/IJER.2014.805).

31. López-Iturriaga F. J., Sanz I. P. (2018) Predicting Public Corruption with Neural Networks: An Analysis of Spanish Provinces. Social Indicators Research. vol. 140, pp. 975–998 (https://doi.org/10.1007/s11205-017-1802-2).

32. Lu Y., Laffan S., Pettit C., Cao M. (2020) Land Use Change Simulation and Analysis Using a Vector Cellular Automata (CA) Model: A Case Study of Ipswich City, Queensland, Australia. Environment and Planning B: Urban Analysis and City Science. vol. 47, no. 9, pp. 1605–1621 (https://doi.org/10.1177/2399808319830971).

33. Ma X., Zhao X. (2015) Land Use Allocation Based on a Multi-Objective Artificial Immune Optimization Model: An Application in Anlu County, China. Sustainability. vol. 7, no. 11, pp. 15632–15651 (https://doi.org/10.3390/su71115632).

34. Mitchell M. (1996) An Introduction to Genetic Algorithms. Cambridge, MA: MIT Press.

35. Naghibi F., Delavar M. R., Pijanowski B. (2016) Urban Growth Modeling Using Cellular Automata with Multi-Temporal Remote Sensing Images Calibrated by the Artificial Bee Colony Optimization Algorithm. Sensor. vol. 16, no. 12, e2122 (https://doi.org/10.3390/s16122122).

36. Nijkamp P., Reggiani A., Tsang W. F. (2004) Comparative Modelling of Interregional Transport Flows: Applications to Multimodal European Freight Transport. European Journal of Operational Research. vol. 155, no. 3, pp. 584–602 (https://doi.org/10.1016/j.ejor.2003.08.007).

37. Poletaeva N.G. (2020) Klassifikaciya sistem mashinnogo obucheniya [Classification of Machine Learning Systems]. Vestnik Baltijskogo federal'nogo universiteta im. I. Kanta. Seriya: Fiziko-matematicheskie i tekhnicheskie nauki. no. 1, pp. 5–22.

38. Psyllidis A., Yang J., Bozzon A. (2018) Regionalization of Social Interactions and Points-Of-Interest Location Prediction with Geosocial Data. IEEE Access. vol. 6, pp. 34334–34353 (https://doi.org/10.1109/ACCESS.2018.2850062).

39. Qian Y., Xing W., Guan X., Yang T., Wu H. (2020) Coupling Cellular Automata with Area Partitioning and Spatiotemporal Convolution for Dynamic Land Use Change Simulation. Science of the Total Environment. vol. 722, e137738 (https://doi.org/10.1016/j.scitotenv.2020.137738).

40. Qiu R., Xu W., Zhang J., Staenz K. (2018) Modelling and Simulating Urban Residential Land Development in Jiading New City, Shanghai. Applied Spatial Analysis and Policy. vol. 11, pp. 753–777 (https://doi.org/10.1007/s12061-017-9244-4).

41. Sharygin M.D., Stolbov V.A. (2020) Teoretiko-metodologicheskie aspekty poiska zakonov i zakonomernostej v obshchestvennoj geografii [Theoretical and Methodological Aspects of the Search for Laws and Regularities in Public Geography]. Geograficheskij vestnik. no. 1, pp. 22–32 (https://doi.org/10.17072/2079-7877-2020-1-22-32).

42. Su S., Sun Y., Lei C., Weng M., Cai Z. (2017) Reorienting Paradoxical Land Use Policies Towards Coherence: A Self-Adaptive Ensemble Learning Geo-Simulation of Tea Expansion under Different Scenarios in Subtropical China. Land Use Policy. vol. 67, pp. 415–425 (https://doi.org/10.1016/j.landusepol.2017.06.011).

43. Triantakonstantis D., Mountrakis G. (2012) Urban Growth Prediction: A Review of Computational Models and Human Perceptions. Journal of Geographic Information System. vol. 4, pp. 555–587 (https://doi.org/10.4236/jgis.2012.46060).

44. Vapnik V. N. (1998) Statistical Learning Theory. New York: John Wiley and Sons.

45. Wang S., Eick C. F. (2018) A Data Mining Framework for Environmental and Geospatial Data Analysis. International Journal of Data Science and Analytics. vol. 5, pp. 83–98 (https://doi.org/10.1007/s41060-017-0075-9).

46. Wang W., Jiao L., Zhang W., Jia Q., Su F., Xu G., Ma S. (2020) Delineating Urban Growth Boundaries under Multi-Objective and Constraints. Sustainable Cities and Society. vol. 61, pp. 1–12 (https://doi.org/10.1016/j.scs.2020.102279).

47. Wu P., Tan Y. (2019) Estimation of Poverty Based on Remote Sensing Image and Convolutional Neural Network. Advances in Remote Sensing. vol. 8, no. 4, pp. 89–98 (https://doi.org/10.4236/ars.2019.84006).

48. Wylie B. K., Pastick N. J., Picotte J. J., Deering C. A. (2019) Geospatial Data Mining for Digital Raster Mapping. GIScience and Remote Sensing. vol. 56, no. 3, pp. 406–429 (https://doi.org/10.1080/15481603.2018.1517445).

49. Yan J., Thill J.-C. (2009) Visual Data Mining in Spatial Interaction Analysis with Self-Organizing Maps. Environment and Planning B: Planning and Design, vol. 36, no. 3, pp. 466–486 (https://doi.org/10.1068/b34019).

50. Yao J., Mitran T., Kong X., Lal R., Chu Q., Shaukat M. (2020) Land Use and Land Cover Identification and Disaggregating Socio-Economic Data with Convolutional Neural Network. Geocarto International. vol. 35, no. 10, pp. 1109–1123 (https://doi.org/10.1080/10106049.2019.1568587).

Comments

No posts found

Write a review
Translate