Интеллектуальный анализ данных в общественно-географических исследованиях

Блануца Виктор И.

doi:10.31857/S086904990017878-7

1

Введение

2

Под интеллектуальным анализом данных понимается применение алгоритмов искусственного интеллекта для того, чтобы извлечь скрытые закономерности (структуры) из исходных данных. Следует учитывать, что не все алгоритмы искусственного интеллекта позволяют обнаруживать новое знание. Более того, оперирование геопространственными данными, для которых характерны территориальная локализация, пространственная автокорреляция, иерархическая организация, географическая маршрутизация и пространственно-временная трансформация, дополнительно ограничивает возможности интеллектуального анализа [Atluri et al. 2017; Li et al. 2016; Wang, Eick 2018; Wylie et al. 2019]. В связи с данной особенностью в географических науках еще не сформировалось полное представление о том, какие именно алгоритмы искусственного интеллекта, в какой мере и по каким конкретным тематическим направлениям можно использовать для извлечения скрытых пространственно-временных структур из геоданных. Первым шагом на пути решения проблемы может стать обобщение мирового опыта интеллектуального анализа данных. До настоящего времени в общественной географии, нацеленной на познание территориальной организации общества, такое обобщение не проводили. Для сравнения можно отметить, что в смежных научных дисциплинах начали появляться подобные обобщения – например, в региональной экономике [Блануца 2020].

Под интеллектуальным анализом данных понимается применение алгоритмов искусственного интеллекта для того, чтобы извлечь скрытые закономерности (структуры) из исходных данных. Следует учитывать, что не все алгоритмы искусственного интеллекта позволяют обнаруживать новое знание. Более того, оперирование геопространственными данными, для которых характерны территориальная локализация, пространственная автокорреляция, иерархическая организация, географическая маршрутизация и пространственно-временная трансформация, дополнительно ограничивает возможности интеллектуального анализа [Atluri et al. 2017; Li et al. 2016; Wang, Eick 2018; Wylie et al. 2019]. В связи с данной особенностью в географических науках еще не сформировалось полное представление о том, какие именно алгоритмы искусственного интеллекта, в какой мере и по каким конкретным тематическим направлениям можно использовать для извлечения скрытых пространственно-временных структур из геоданных. Первым шагом на пути решения проблемы может стать обобщение мирового опыта интеллектуального анализа данных. До настоящего времени в общественной географии, нацеленной на познание территориальной организации общества, такое обобщение не проводили. Для сравнения можно отметить, что в смежных научных дисциплинах начали появляться подобные обобщения – например, в региональной экономике [Блануца 2020].

3

Данное исследование проводится с целью обобщить мировой опыт применения интеллектуального анализа данных в общественно-географических исследованиях для того, чтобы выявить приоритеты, алгоритмы и тематические направления с их возможностями и ограничениями. Для достижения цели потребовалось решить следующие задачи: выявить массив (корпус) публикаций, в которых приведены эмпирические результаты изучения территориальной организации общества посредством интеллектуального анализа данных; определить хронологические и хорологические (по странам) приоритеты в выявленных исследованиях; сформировать список применяемых алгоритмов и отметить их сильные и слабые стороны; сгруппировать выявленные публикации в несколько тематических направлений и констатировать их возможности и ограничения.

4

Понимание сущности интеллектуального анализа и в целом искусственного интеллекта постоянно менялось с середины прошлого века [Haenlein, Kaplan 2019]. В настоящее время к алгоритмам искусственного интеллекта относят методы, которые опираются на машинное обучение [Cristianini 2014]. Впервые машинное обучение в общественно-географических исследованиях применили при построении искусственной нейронной сети (Artificial Neural Network, ANN), которая моделировала межрегиональные телекоммуникационные потоки в Австрии [Fischer, Gopal 1994]. На смену единичным экспериментам пришло значительное увеличение количества географических исследований в XXI в. (например, по геоурбанистике до 2001 г. было опубликовано 2 статьи, посвященные применению ANN, а в 2001–2016 гг. – 138 [Grekousis 2019]). Теоретическое осмысление возможностей машинного обучения происходило от нейросетевой парадигмы пространственного анализа [Fischer 1998] до концепции географического искусственного интеллекта [Janowicz et al. 2020].

Понимание сущности интеллектуального анализа и в целом искусственного интеллекта постоянно менялось с середины прошлого века [Haenlein, Kaplan 2019]. В настоящее время к алгоритмам искусственного интеллекта относят методы, которые опираются на машинное обучение [Cristianini 2014]. Впервые машинное обучение в общественно-географических исследованиях применили при построении искусственной нейронной сети (Artificial Neural Network, ANN), которая моделировала межрегиональные телекоммуникационные потоки в Австрии [Fischer, Gopal 1994]. На смену единичным экспериментам пришло значительное увеличение количества географических исследований в XXI в. (например, по геоурбанистике до 2001 г. было опубликовано 2 статьи, посвященные применению ANN, а в 2001–2016 гг. – 138 [Grekousis 2019]). Теоретическое осмысление возможностей машинного обучения происходило от нейросетевой парадигмы пространственного анализа [Fischer 1998] до концепции географического искусственного интеллекта [Janowicz et al. 2020].

5

Материалы и методы

6

При решении первой задачи рассматривались только журнальные статьи, так как по ним можно получить все тексты с иллюстрациями и приложениями, в то время как по другим видам научных публикаций (монографии, сборники статей и материалы конференций) не всегда доступны все материалы. Автор отбирал статьи с эмпирическими результатами исследования конкретной территории, что позволило идентифицировать возможности и ограничения применяемых алгоритмов, тогда как в постановочных и теоретических работах из-за отсутствия примеров сложно провести такую идентификацию. Приведенные далее выводы относятся только к массиву статей с эмпирическими данными, которые были опубликованы в научных журналах во всем мире. В качестве хронологического ограничения выбраны последние двадцать лет (2001–2020 гг.), поскольку ранее статей по заданной проблематике почти не было. Для поиска статей использовались одна отечественная и семь международных библиографических баз данных ( www.elibrary.ru , www.link.springer.com , www.onlinelibrary.wiley.com , www.sciencedirect.com , www.login.webofknowledge.com , www.scopus.com , www.journals.sagepub.com , www.ideas.repec.org ).

При решении первой задачи рассматривались только журнальные статьи, так как по ним можно получить все тексты с иллюстрациями и приложениями, в то время как по другим видам научных публикаций (монографии, сборники статей и материалы конференций) не всегда доступны все материалы. Автор отбирал статьи с эмпирическими результатами исследования конкретной территории, что позволило идентифицировать возможности и ограничения применяемых алгоритмов, тогда как в постановочных и теоретических работах из-за отсутствия примеров сложно провести такую идентификацию. Приведенные далее выводы относятся только к массиву статей с эмпирическими данными, которые были опубликованы в научных журналах во всем мире. В качестве хронологического ограничения выбраны последние двадцать лет (2001–2020 гг.), поскольку ранее статей по заданной проблематике почти не было. Для поиска статей использовались одна отечественная и семь международных библиографических баз данных ( <a target=_blank href="http://www.elibrary.ru">www.elibrary.ru</a> , <a target=_blank href="http://www.link.springer.com">www.link.springer.com</a> , <a target=_blank href="http://www.onlinelibrary.wiley.com">www.onlinelibrary.wiley.com</a> , <a target=_blank href="http://www.sciencedirect.com">www.sciencedirect.com</a> , <a target=_blank href="http://www.login.webofknowledge.com">www.login.webofknowledge.com</a> , <a target=_blank href="http://www.scopus.com">www.scopus.com</a> , <a target=_blank href="http://www.journals.sagepub.com">www.journals.sagepub.com</a> , <a target=_blank href="http://www.ideas.repec.org">www.ideas.repec.org</a> ).

При решении первой задачи рассматривались только журнальные статьи, так как по ним можно получить все тексты с иллюстрациями и приложениями, в то время как по другим видам научных публикаций (монографии, сборники статей и материалы конференций) не всегда доступны все материалы. Автор отбирал статьи с эмпирическими результатами исследования конкретной территории, что позволило идентифицировать возможности и ограничения применяемых алгоритмов, тогда как в постановочных и теоретических работах из-за отсутствия примеров сложно провести такую идентификацию. Приведенные далее выводы относятся только к массиву статей с эмпирическими данными, которые были опубликованы в научных журналах во всем мире. В качестве хронологического ограничения выбраны последние двадцать лет (2001–2020 гг.), поскольку ранее статей по заданной проблематике почти не было. Для поиска статей использовались одна отечественная и семь международных библиографических баз данных ( <a target=_blank href="http://www.elibrary.ru">www.elibrary.ru</a> , <a target=_blank href="http://www.link.springer.com">www.link.springer.com</a> , <a target=_blank href="http://www.onlinelibrary.wiley.com">www.onlinelibrary.wiley.com</a> , <a target=_blank href="http://www.sciencedirect.com">www.sciencedirect.com</a> , <a target=_blank href="http://www.login.webofknowledge.com">www.login.webofknowledge.com</a> , <a target=_blank href="http://www.scopus.com">www.scopus.com</a> , <a target=_blank href="http://www.journals.sagepub.com">www.journals.sagepub.com</a> , <a target=_blank href="http://www.ideas.repec.org">www.ideas.repec.org</a> ).

7

Массив статей формировался с помощью авторского алгоритма семантического поиска публикаций в библиографической базе данных [Блануца 2020]. У алгоритма существует лимитирующий фактор в связи с тем, что он отбирает публикации только на кириллице и латинице. Научные статьи с использованием другого алфавита (китайского, арабского и т.д.) остались вне анализа. Другим сдерживающим фактором стало использование только восьми баз данных, которые охватывают большинство, но не все статьи в мире.

8

Приоритеты

9

Семантический поиск, проведенный 25 июня 2021 г., позволил выявить 192 общественно-географические статьи (2001–2020 гг.) по рассматриваемой проблематике. Статьи опубликованы в 99 журналах (в том числе в 22 географических изданиях). Больше всего исследований представлено в журналах «Computers, Environment and Urban Systems» (19 статей), «International Journal of Geographical Information Science» (16) и «Environment and Planning B: Planning and Design» (7). Если каждую статью отнести к году ее публикации (рис. 1), можно зафиксировать хронологический приоритет: увеличение интереса (восходящий тренд) к применению интеллектуального анализа в общественно-географических исследованиях.

10

Рисунок 1. Изменение ежегодного количества статей по использованию интеллектуального анализа данных в общественно-географических исследованиях, результаты которых опубликованы в географических (1) и других (2) научных журналах во всем мире в 2001–2020 гг. Figure 1. Change in the annual number of articles on the use of data mining in socio-geographical research, the results of which were published in geographical (1) and other (2) scientific journals around the world in 2001–2020.

11

Источник: составлено автором.

12

Source: compiled by the author.

13

Для определения хорологического приоритета можно использовать аффилиацию авторов выявленных статей. При наличии у статьи соавторов из разных стран публикация как единица счета делилась на количество соавторов; например, при четырех авторах из разных стран на каждое государство приходилось по 0,25 статьи. Интерес к рассматриваемым исследованиям проявили в 34 странах, из них в 11 странах подготовлено по четыре и более статей (рис. 2). Основным хорологическим трендом стало доминирование публикаций из Китайской Народной Республики.

14

Рисунок 2. Ранжирование стран по количеству опубликованных статей (не менее четырех в 2001–2020 гг.; отнесение к стране по аффилиации автора) с результатами применения интеллектуального анализа данных в общественно-географических исследованиях Figure 2. Ranking of countries by the number of published articles (at least four in 2001–2020; attributed to the country by affiliation of the author) with the results of the use of data mining in socio-geographical research

15

Источник: составлено автором.

16

Source: compiled by the author.

17

Алгоритмы

18

В мировом массиве статей представлены результаты изучения территориальной организации общества с помощью 13 алгоритмов интеллектуального анализа. Наиболее часто авторы применяли искусственную нейронную сеть в виде многослойного персептрона (Multi-Layer Perceptron, MLP; 69 статей и еще 14 публикаций по сочетанию MLP с другими методами) и самоорганизующихся карт (Self-Organizing Maps, SOM; 44 и 1 статья). Менее распространены генетический алгоритм (Genetic Algorithm, GA; 18 и 6 статей), случайный лес (Random Forest, RF; 9 и 10), машина опорных векторов (Support Vector Machine, SVM; 8 и 9), оптимизация муравьиной колонии (Ant Colony Optimization, ACO; 8 и 2), оптимизация роя частиц (Particle Swarm Optimization, PSO; 5 и 2), сверточная нейронная сеть (Convolutional Neural Network, CNN; 3 и 3), искусственная иммунная система (Artificial Immune System, AIS; 3 и 1), дерево решений (Decision Tree, DT; 1 и 2), имитация отжига (Simulated Annealing, SA; 0 и 4), алгоритм летучих мышей (Bat Algorithm, BA; 1 и 1) и искусственная пчелиная колония (Artificial Bee Colony, ABC; 0 и 1). В большинстве исследований использовался один алгоритм (169 статей), но в некоторых работах применялось два (15), три (6) и четыре (2) метода. Перечисленные алгоритмы отличаются друг от друга, но для краткой характеристики их можно объединить в пять групп.

19

Нейросетевые алгоритмы (MLP, SOM, CNN). При разработке данной группы алгоритмов за основу взяли нейронную сеть человека. Персептрон состоит из нескольких слоев элементов (узлов, «нейронов») – входного, скрытого и выходного – и взвешенных линий связи («синапсов») между элементами соседних слоев. Основная задача заключается в поиске закономерностей во входных данных, для чего с помощью обучения корректируется вес синапсов. Обучение может быть контролируемым (используются помеченные данные), частично контролируемым (маркируется только часть учебного набора данных), неконтролируемым (данные никак не маркируются) и с подкреплением (сеть получает поощрения за правильные решения) [Grekousis 2019]. С некоторой условностью можно различать поверхностное (один скрытый слой) и глубокое (несколько скрытых слоев) обучение. В анализируемом массиве публикаций преобладало поверхностное обучение (76 из 83 статей). Основными преимуществами MLP можно назвать работу с разными видами данных (включая космические снимки и картографические изображения) и выявление нелинейных зависимостей между входом и выходом. К главным недостаткам следует отнести вычисления по принципу «черного ящика», что затрудняет интерпретацию и визуализацию полученных результатов. Для решения проблемы визуализации Т. Кохонен [Kohonen 2001] разработал самоорганизующиеся карты, которые позволяют проецировать входные многомерные данные на двумерное пространство с сохранением входных топологических отношений. В итоге получается «карта» (сетка) нейронов в виде шестиугольников или прямоугольников. Еще один вид ANN – сверточная нейронная сеть – представляет собой многослойную уплотняющую фильтрацию входных данных для генерации на выходе абстрактных понятий [LeCun et al. 1989]. При изучении территориальной организации общества CNN используют редко – например, для оценки бедности по снимкам дистанционного зондирования [Wu, Tan 2019] и дезагрегирования социально-экономических данных по землепользованию [Yao et al. 2020].

Нейросетевые алгоритмы (MLP, SOM, CNN). При разработке данной группы алгоритмов за основу взяли нейронную сеть человека. Персептрон состоит из нескольких слоев элементов (узлов, «нейронов») – входного, скрытого и выходного – и взвешенных линий связи («синапсов») между элементами соседних слоев. Основная задача заключается в поиске закономерностей во входных данных, для чего с помощью обучения корректируется вес синапсов. Обучение может быть контролируемым (используются помеченные данные), частично контролируемым (маркируется только часть учебного набора данных), неконтролируемым (данные никак не маркируются) и с подкреплением (сеть получает поощрения за правильные решения) [Grekousis 2019]. С некоторой условностью можно различать поверхностное (один скрытый слой) и глубокое (несколько скрытых слоев) обучение. В анализируемом массиве публикаций преобладало поверхностное обучение (76 из 83 статей). Основными преимуществами MLP можно назвать работу с разными видами данных (включая космические снимки и картографические изображения) и выявление нелинейных зависимостей между входом и выходом. К главным недостаткам следует отнести вычисления по принципу «черного ящика», что затрудняет интерпретацию и визуализацию полученных результатов. Для решения проблемы визуализации Т. Кохонен [Kohonen 2001] разработал самоорганизующиеся карты, которые позволяют проецировать входные многомерные данные на двумерное пространство с сохранением входных топологических отношений. В итоге получается «карта» (сетка) нейронов в виде шестиугольников или прямоугольников. Еще один вид ANN – сверточная нейронная сеть – представляет собой многослойную уплотняющую фильтрацию входных данных для генерации на выходе абстрактных понятий [LeCun et al. 1989]. При изучении территориальной организации общества CNN используют редко – например, для оценки бедности по снимкам дистанционного зондирования [Wu, Tan 2019] и дезагрегирования социально-экономических данных по землепользованию [Yao et al. 2020].

20

Эволюционные алгоритмы (GA, AIS, SA). Данная группа основана на искусственной имитации процессов естественного отбора. Вне ANN в анализируемых публикациях наиболее часто используют генетический алгоритм [Mitchell 1996], который опирается на выживание наиболее приспособленных индивидов (решений) в ходе генерирования новой популяции за счет операторов размножения, скрещивания и мутации. Известен ряд географических разновидностей GA, например, «пространственный генетический алгоритм» [Qiu et al. 2018] и «самоадаптивный генетический алгоритм роста городов» [Liu, Feng, Pontius 2014]. К недостаткам метода можно отнести неопределенность с остановкой алгоритма и тенденцию сходимости к локальному, а не глобальному оптимуму. Второй алгоритм данной группы копирует работу иммунной системы млекопитающих по выработке антител (решателей, классификаторов) для распознавания антигенов (географических ситуаций). Метод опирается на клонирование, мутацию и селекцию антител [De Castro, Timmis 2002]. В ходе мутации происходит обучение системы для выработки «зрелых антител», с помощью которых распознают неизвестные антигены. В анализируемых исследованиях представляют интерес «новый иммунный клональный алгоритм» [Ma, Zhao 2015] и «искусственная иммунная система обнаружения динамических правил перехода к урбанизированной территории» [He et al. 2015]. Алгоритм имитации отжига используют редко – в рассматриваемых работах его применяют только для верификации основных алгоритмов. Он не опирается на эволюционные процессы, а имитирует физический механизм кристаллизации вещества при отжиге (нагрев и контролируемое охлаждение) металлов, что позволяет обходить локальные и достигать глобальные оптимумы по аналогии с естественным отбором.

Эволюционные алгоритмы (GA, AIS, SA). Данная группа основана на искусственной имитации процессов естественного отбора. Вне ANN в анализируемых публикациях наиболее часто используют генетический алгоритм [Mitchell 1996], который опирается на выживание наиболее приспособленных индивидов (решений) в ходе генерирования новой популяции за счет операторов размножения, скрещивания и мутации. Известен ряд географических разновидностей GA, например, «пространственный генетический алгоритм» [Qiu et al. 2018] и «самоадаптивный генетический алгоритм роста городов» [Liu, Feng, Pontius 2014]. К недостаткам метода можно отнести неопределенность с остановкой алгоритма и тенденцию сходимости к локальному, а не глобальному оптимуму. Второй алгоритм данной группы копирует работу иммунной системы млекопитающих по выработке антител (решателей, классификаторов) для распознавания антигенов (географических ситуаций). Метод опирается на клонирование, мутацию и селекцию антител [De Castro, Timmis 2002]. В ходе мутации происходит обучение системы для выработки «зрелых антител», с помощью которых распознают неизвестные антигены. В анализируемых исследованиях представляют интерес «новый иммунный клональный алгоритм» [Ma, Zhao 2015] и «искусственная иммунная система обнаружения динамических правил перехода к урбанизированной территории» [He et al. 2015]. Алгоритм имитации отжига используют редко – в рассматриваемых работах его применяют только для верификации основных алгоритмов. Он не опирается на эволюционные процессы, а имитирует физический механизм кристаллизации вещества при отжиге (нагрев и контролируемое охлаждение) металлов, что позволяет обходить локальные и достигать глобальные оптимумы по аналогии с естественным отбором.

21

Алгоритмы роевого интеллекта (ACO, PSO, BA, ABC). Методы роевого интеллекта имитируют коллективное децентрализованное (самоорганизующееся) перемещение живых организмов (агентов) для достижения определенной цели при косвенном обмене информацией. В общественно-географических исследованиях чаще других применяют алгоритм оптимизации муравьиной колонии [Dorigo et al. 1999], который воспроизводил поиск муравьями оптимального маршрута от колонии к пище посредством маркировки предпочтительных дорог большим количеством феромона (продукты внешней секреции, обеспечивающие косвенный обмен информацией). Данный метод позволил, к примеру, оптимизировать территориальное распределение землепользования при различных сценариях развития [Liu, Tang et al. 2014] и прогнозировать пространственные пределы разрастания города [Wang et al. 2020]. Также в данную группу алгоритмов входит оптимизация роя частиц – имитация движения в стае птиц или косяке рыб, которое позволяет отдельным особям или частицам занимать более выгодное положение и менять направление перемещения роя с целью поиска наилучших решений. С его помощью можно моделировать политические последствия трансформации сельскохозяйственных территорий [Liu et al. 2017] и другие изменения в землепользовании [Liu et al. 2013]. Аналогичные оптимизационные задачи решаются с применением алгоритмов летучих мышей и пчелиной колонии [Cao et al. 2016; Naghibi et al. 2016].

Алгоритмы роевого интеллекта (ACO, PSO, BA, ABC). Методы роевого интеллекта имитируют коллективное децентрализованное (самоорганизующееся) перемещение живых организмов (агентов) для достижения определенной цели при косвенном обмене информацией. В общественно-географических исследованиях чаще других применяют алгоритм оптимизации муравьиной колонии [Dorigo et al. 1999], который воспроизводил поиск муравьями оптимального маршрута от колонии к пище посредством маркировки предпочтительных дорог большим количеством феромона (продукты внешней секреции, обеспечивающие косвенный обмен информацией). Данный метод позволил, к примеру, оптимизировать территориальное распределение землепользования при различных сценариях развития [Liu, Tang et al. 2014] и прогнозировать пространственные пределы разрастания города [Wang et al. 2020]. Также в данную группу алгоритмов входит оптимизация роя частиц – имитация движения в стае птиц или косяке рыб, которое позволяет отдельным особям или частицам занимать более выгодное положение и менять направление перемещения роя с целью поиска наилучших решений. С его помощью можно моделировать политические последствия трансформации сельскохозяйственных территорий [Liu et al. 2017] и другие изменения в землепользовании [Liu et al. 2013]. Аналогичные оптимизационные задачи решаются с применением алгоритмов летучих мышей и пчелиной колонии [Cao et al. 2016; Naghibi et al. 2016].

22

Алгоритмы решающих деревьев (RF, DT). Основной метод – «дерево обучения принятия решений» («дерево решений») – в анализируемом массиве встречается редко [Basse et al. 2016], а его разновидность «случайный лес» относительно часто. Данный распространенный метод представляет собой алгоритм машинного обучения, который создает множество («лес») не коррелируемых деревьев распределения объектов по классам с выбором оптимального результата путем голосования по большинству [Breiman 2001]. В общественно-географических исследованиях алгоритм случайного леса применяли, например, для прогнозирования изменения землепользования при различных сценариях социально-экономического развития [Gounaridis et al. 2019] и оценки численности населения [Brabyn, Jackson 2019]. Алгоритм обладает такими преимуществами, как интерпретируемость, масштабируемость и возможность оперировать измеренными в разных шкалах показателями, а главный недостаток связан с большим размером получаемой модели.

Алгоритмы решающих деревьев (RF, DT). Основной метод – «дерево обучения принятия решений» («дерево решений») – в анализируемом массиве встречается редко [Basse et al. 2016], а его разновидность «случайный лес» относительно часто. Данный распространенный метод представляет собой алгоритм машинного обучения, который создает множество («лес») не коррелируемых деревьев распределения объектов по классам с выбором оптимального результата путем голосования по большинству [Breiman 2001]. В общественно-географических исследованиях алгоритм случайного леса применяли, например, для прогнозирования изменения землепользования при различных сценариях социально-экономического развития [Gounaridis et al. 2019] и оценки численности населения [Brabyn, Jackson 2019]. Алгоритм обладает такими преимуществами, как интерпретируемость, масштабируемость и возможность оперировать измеренными в разных шкалах показателями, а главный недостаток связан с большим размером получаемой модели.

23

Машина опорных векторов (SVM). Алгоритм нацелен на построение гиперплоскости, которая оптимально разделяет объекты (векторы) на классы за счет максимизации (в ходе обучения) расстояния (зазора) между гиперплоскостью и ближайшими векторами, которые названы опорными [Vapnik 1998]. Метод позволяет минимизировать среднюю ошибку классификации за счет максимизации зазора, однако он зависит от информационного шума (ошибочных векторов), что приводит к созданию неправильной гиперплоскости. В анализируемом массиве SVM использовали, к примеру, для прогнозирования городской экспансии [Karimi et al. 2019] и верификации результатов других алгоритмов [Su et al. 2017].

24

Направления

25

Все общественно-географические задачи, которые решались с помощью алгоритмов интеллектуального анализа, можно объединить в четыре общенаучные группы: имитация, классификация, оптимизация и прогнозирование. Районирование территории отнесено к классификации, а моделирование существующей ситуации – к имитации. В 143 статьях решалась только одна задача, в 7 – две и в 1 – три задачи. Среди исследований, направленных на решение двух задач, чаще всего сочетались имитация и прогнозирование (41 статья). Наибольшее внимание уделялось имитации, а наименьшее – оптимизации (таб. 1).

26

Таблица 1

27

Количество журнальных статей (2001–2020 гг.), в которых представлены результаты применения алгоритмов интеллектуального анализа для решения задач общественно-географического исследования¹

1. В одной статье могут быть представлены несколько алгоритмов для решения одной и более задач или один алгоритм для решения нескольких задач. Поэтому общее количество статей в таблице превышает количество выявленных статей.

28

Table 1

29

The number of journal articles (2001–2020) presenting the results of the use of data mining algorithms to solve problems of socio-geographical research

Алгоритмы	Задачи
	Имитация	Классификация	Оптимизация	Прогнозирование
Нейросетевые	80	51	0	31
Эволюционные	22	0	7	8
Решающих деревьев	22	0	0	6
Роевого интеллекта	15	0	8	3
Опорных векторов	16	0	0	4

The number of journal articles (2001–2020) presenting the results of the use of data mining algorithms to solve problems of socio-geographical research<table class="docx-publication-table"><tr><td class="docx-publication-cell"> Алгоритмы</td><td class="docx-publication-cell"> Задачи</td><td class="docx-publication-cell"> </td><td class="docx-publication-cell"> </td><td class="docx-publication-cell"> </td></tr><tr><td class="docx-publication-cell"> </td><td class="docx-publication-cell"> Имитация</td><td class="docx-publication-cell"> Классификация</td><td class="docx-publication-cell"> Оптимизация</td><td class="docx-publication-cell"> Прогнозирование</td></tr><tr><td class="docx-publication-cell"> Нейросетевые</td><td class="docx-publication-cell"> 80</td><td class="docx-publication-cell"> 51</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 31</td></tr><tr><td class="docx-publication-cell"> Эволюционные</td><td class="docx-publication-cell"> 22</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 7</td><td class="docx-publication-cell"> 8</td></tr><tr><td class="docx-publication-cell"> Решающих деревьев</td><td class="docx-publication-cell"> 22</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 6</td></tr><tr><td class="docx-publication-cell"> Роевого интеллекта</td><td class="docx-publication-cell"> 15</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 8</td><td class="docx-publication-cell"> 3</td></tr><tr><td class="docx-publication-cell"> Опорных векторов</td><td class="docx-publication-cell"> 16</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 4</td></tr></table>

30

Источник: составлено автором.

31

Source: compiled by author.

32

По общественно-географическому содержанию все анализируемые исследования можно разделить на пять непересекающихся тематических направлений: пространственно-урбанистическое, регионально-типологическое, районологическое, геоиндикационное и территориально-коннекционное. В первом направлении применялись пять алгоритмов, в двух последних – по два, а во втором и третьем – по одному алгоритму (таб. 2), что на перспективу ставит проблему оценки возможности использования более широкого спектра алгоритмов искусственного интеллекта во втором и последующих направлениях. Кроме этого, интеллектуальный анализ данных не ограничивается 13 алгоритмами, применявшимися в общественно-географических исследованиях. Поэтому предстоит изучить возможность использовать остальные методы (рекуррентной нейронной сети, обучения ассоциативным правилам и др. [Полетаева 2020]), а также все методы – в других тематических направлениях общественной географии [Шарыгин, Столбов 2020].

33

Таблица 2

34

Количество журнальных статей (2001–2020 гг.), посвященных применению алгоритмов интеллектуального анализа в пяти направлениях общественно-географических исследований²

2. Каждая анализируемая статья относилась только к одному направлению, но в одной статье могли рассматриваться несколько алгоритмов. Направления: первое – пространственно-урбанистическое, второе – регионально-типологическое, третье – районологическое, четвертое – геоиндикационное, пятое – территориально-коннекционное.

35

Table 2

36

The number of journal articles (2001–2020) onthe application of data mining algorithms in five areas of socio-geographical research

Алгоритмы	Направления
	Первое	Второе	Третье	Четвертое	Пятое
Нейросетевые	77	21	14	9	7
Эволюционные	28	0	0	0	0
Решающих деревьев	19	0	0	3	1
Роевого интеллекта	17	0	0	0	0
Опорных векторов	17	0	0	0	0

The number of journal articles (2001–2020) onthe application of data mining algorithms in five areas of socio-geographical research<table class="docx-publication-table"><tr><td class="docx-publication-cell"> Алгоритмы</td><td class="docx-publication-cell"> Направления</td><td class="docx-publication-cell"> </td><td class="docx-publication-cell"> </td><td class="docx-publication-cell"> </td><td class="docx-publication-cell"> </td></tr><tr><td class="docx-publication-cell"> </td><td class="docx-publication-cell"> Первое</td><td class="docx-publication-cell"> Второе</td><td class="docx-publication-cell"> Третье</td><td class="docx-publication-cell"> Четвертое</td><td class="docx-publication-cell"> Пятое</td></tr><tr><td class="docx-publication-cell"> Нейросетевые</td><td class="docx-publication-cell"> 77</td><td class="docx-publication-cell"> 21</td><td class="docx-publication-cell"> 14</td><td class="docx-publication-cell"> 9</td><td class="docx-publication-cell"> 7</td></tr><tr><td class="docx-publication-cell"> Эволюционные</td><td class="docx-publication-cell"> 28</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td></tr><tr><td class="docx-publication-cell"> Решающих деревьев</td><td class="docx-publication-cell"> 19</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 3</td><td class="docx-publication-cell"> 1</td></tr><tr><td class="docx-publication-cell"> Роевого интеллекта</td><td class="docx-publication-cell"> 17</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td></tr><tr><td class="docx-publication-cell"> Опорных векторов</td><td class="docx-publication-cell"> 17</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td><td class="docx-publication-cell"> 0</td></tr></table>

37

Источник: составлено автором.

38

Source: compiled by author.

39

Пространственно-урбанистическое направление (139 статей). В географических науках уделяют повышенное внимание изучению территориальной экспансии городов [Triantakonstantis, Mountrakis 2012], а для пространственно-временного моделирования их роста весьма перспективно применение алгоритмов интеллектуального анализа данных [Grekousis 2019]. Лишь в данном направлении были использованы все 13 алгоритмов. Наиболее часто применялись следующие методы: MLP (69 статей), GA (23), SVM (17), RF (16) и ACO (10). Во многих исследованиях (66 статей) рассматриваемые алгоритмы встраивали в клеточные автоматы (Cellular Automata, CA). Ранее такие автоматы относились к искусственному интеллекту (см. игру «Жизнь» [Adamatzky 2010]), но в данном анализе это не сделано из-за отсутствия машинного обучения. Искусственная жизнь развивается благодаря тому, что последующее состояние клетки (прямоугольной ячейки) зависит от существующего состояния самой клетки и ее соседей. Зависимость определяют «правила перехода», которые могут генерироваться разными способами (включая рассматриваемые алгоритмы), и размером «окрестности» (количеством соседей). В данное направление включены исследования с правилами перехода на основе машинного обучения, состоянием клеток в виде дихотомии «урбанизированная – не урбанизированная территория» или трех и более типов землепользования, а также использованием социально-экономических переменных для построения правил. Задача состоит в том, чтобы для каждой не урбанизированной клетки определить, станет ли она урбанизированной и когда это произойдет.

Пространственно-урбанистическое направление (139 статей). В географических науках уделяют повышенное внимание изучению территориальной экспансии городов [Triantakonstantis, Mountrakis 2012], а для пространственно-временного моделирования их роста весьма перспективно применение алгоритмов интеллектуального анализа данных [Grekousis 2019]. Лишь в данном направлении были использованы все 13 алгоритмов. Наиболее часто применялись следующие методы: MLP (69 статей), GA (23), SVM (17), RF (16) и ACO (10). Во многих исследованиях (66 статей) рассматриваемые алгоритмы встраивали в клеточные автоматы (Cellular Automata, CA). Ранее такие автоматы относились к искусственному интеллекту (см. игру «Жизнь» [Adamatzky 2010]), но в данном анализе это не сделано из-за отсутствия машинного обучения. Искусственная жизнь развивается благодаря тому, что последующее состояние клетки (прямоугольной ячейки) зависит от существующего состояния самой клетки и ее соседей. Зависимость определяют «правила перехода», которые могут генерироваться разными способами (включая рассматриваемые алгоритмы), и размером «окрестности» (количеством соседей). В данное направление включены исследования с правилами перехода на основе машинного обучения, состоянием клеток в виде дихотомии «урбанизированная – не урбанизированная территория» или трех и более типов землепользования, а также использованием социально-экономических переменных для построения правил. Задача состоит в том, чтобы для каждой не урбанизированной клетки определить, станет ли она урбанизированной и когда это произойдет.

40

В анализируемом массиве территориальный рост городов фиксировался по космическим снимкам Земли (преимущественно со спутников Landsat), на которых каждый пиксель (в основном 30х30 м) был ячейкой, а степень трансформации ячеек ставили в зависимость от расстояния до различных социально-экономических объектов (центра города, железнодорожной станции, автомагистрали и др.). С помощью рассматриваемых алгоритмов строили модель перехода ячеек из одного состояния (класса землепользования) в другое за несколько лет («обучение»), а затем предлагали прогноз на последующие годы, по которым имелись спутниковые снимки. Сравнение прогноза с действительностью позволило оценить точность моделирования и внести в модель необходимые корректировки. Основным преимуществом клеточных автоматов и других способов (определение правил перехода каждой ячейки без учета ее соседей – 73 статьи) можно назвать повышенную точность моделирования разрастания городов по сравнению с традиционными методами (логистическая регрессия, цепь Маркова и др.), которая достигает 96,64% (город Ипсуич, Австралия; модель MLP-CA) [Lu et al. 2020]. Другое преимущество связано с возможностью обрабатывать разнокачественные данные (официальная статистика, расстояния на картах, космические снимки, а также пропуски данных). К недостаткам можно отнести (а) выявление корреляционных, а не причинно-следственных связей [Grekousis 2019], (б) отсутствие инвариантных правил перехода (имитация конкретной географической ситуации, а не построение общей модели для всех ситуаций) и (в) игнорирование структуры землепользования внутри ячейки [Qian et al. 2020].

В анализируемом массиве территориальный рост городов фиксировался по космическим снимкам Земли (преимущественно со спутников Landsat), на которых каждый пиксель (в основном 30х30 м) был ячейкой, а степень трансформации ячеек ставили в зависимость от расстояния до различных социально-экономических объектов (центра города, железнодорожной станции, автомагистрали и др.). С помощью рассматриваемых алгоритмов строили модель перехода ячеек из одного состояния (класса землепользования) в другое за несколько лет («обучение»), а затем предлагали прогноз на последующие годы, по которым имелись спутниковые снимки. Сравнение прогноза с действительностью позволило оценить точность моделирования и внести в модель необходимые корректировки. Основным преимуществом клеточных автоматов и других способов (определение правил перехода каждой ячейки без учета ее соседей – 73 статьи) можно назвать повышенную точность моделирования разрастания городов по сравнению с традиционными методами (логистическая регрессия, цепь Маркова и др.), которая достигает 96,64% (город Ипсуич, Австралия; модель MLP-CA) [Lu et al. 2020]. Другое преимущество связано с возможностью обрабатывать разнокачественные данные (официальная статистика, расстояния на картах, космические снимки, а также пропуски данных). К недостаткам можно отнести (а) выявление корреляционных, а не причинно-следственных связей [Grekousis 2019], (б) отсутствие инвариантных правил перехода (имитация конкретной географической ситуации, а не построение общей модели для всех ситуаций) и (в) игнорирование структуры землепользования внутри ячейки [Qian et al. 2020].

41

Регионально-типологическое направление (21 статья). Объединение административно-территориальных единиц в однородные группы (кластеры) по заданному набору признаков, часто применяют для познания территориальной организации общества [Блануца 2018]. В анализируемом массиве с данной целью были использованы в основном самоорганизующиеся карты (20 статей). С помощью SOM идентифицировали, например, группы итальянских регионов по особенностям внедрения «умных» технологий [Colantonio, Cialfi 2016] и типы региональных инновационных систем Европы [Hajek et al. 2014]. Эвристические возможности данного направления связаны с визуализацией и интерпретацией кластеров, а ограничивает ее невозможность (г) автоматически («без учителя») генерировать образ депрессивного или другого проблемного региона, (д) получать обоснованную иерархическую структуру (тип, подтип и т.д.) и (е) создавать новые (в том числе размытые) границы, не связанные с исходными границами регионов. Возможно, со временем снять некоторые ограничения позволит развитие идеи, заложенной в проекте GeoSOM [Henriques et al. 2012].

Регионально-типологическое направление (21 статья). Объединение административно-территориальных единиц в однородные группы (кластеры) по заданному набору признаков, часто применяют для познания территориальной организации общества [Блануца 2018]. В анализируемом массиве с данной целью были использованы в основном самоорганизующиеся карты (20 статей). С помощью SOM идентифицировали, например, группы итальянских регионов по особенностям внедрения «умных» технологий [Colantonio, Cialfi 2016] и типы региональных инновационных систем Европы [Hajek et al. 2014]. Эвристические возможности данного направления связаны с визуализацией и интерпретацией кластеров, а ограничивает ее невозможность (г) автоматически («без учителя») генерировать образ депрессивного или другого проблемного региона, (д) получать обоснованную иерархическую структуру (тип, подтип и т.д.) и (е) создавать новые (в том числе размытые) границы, не связанные с исходными границами регионов. Возможно, со временем снять некоторые ограничения позволит развитие идеи, заложенной в проекте GeoSOM [Henriques et al. 2012].

42

Районологическое направление (14 статей). В его основе лежит выявление специфических и целостных территориальных образований (районов) [Блануца 2018]. Для идентификации районов использовались SOM (11 статей), MLP (2) и CNN (1). Интересные решения были получены при выделении промышленных районов вертикальной и горизонтальной специализации в Италии [Carlei, Nuccio 2014], а также районов социального взаимодействия из контекста, генерируемого пользователями Twitter в городах Амстердам, Бостон и Джакарта [Psyllidis et al. 2018]. Главное достоинство данного направления – интеграционный потенциал, который позволяет объединить результаты всех остальных направлений, а среди ограничений целесообразно отметить отсутствие: (ж) концептуальной модели интегрального социально-экономического района на платформе искусственного интеллекта, (з) методологии эволюционного районирования [Блануца 2018], способствующей делимитации районов со сходной траекторией развития с помощью рассматриваемых алгоритмов, (и) центр-периферийных отношений внутри районов, без которых невозможно вычленить одно или несколько территориальных ядер посредством интеллектуального анализа.

Районологическое направление (14 статей). В его основе лежит выявление специфических и целостных территориальных образований (районов) [Блануца 2018]. Для идентификации районов использовались SOM (11 статей), MLP (2) и CNN (1). Интересные решения были получены при выделении промышленных районов вертикальной и горизонтальной специализации в Италии [Carlei, Nuccio 2014], а также районов социального взаимодействия из контекста, генерируемого пользователями Twitter в городах Амстердам, Бостон и Джакарта [Psyllidis et al. 2018]. Главное достоинство данного направления – интеграционный потенциал, который позволяет объединить результаты всех остальных направлений, а среди ограничений целесообразно отметить отсутствие: (ж) концептуальной модели интегрального социально-экономического района на платформе искусственного интеллекта, (з) методологии эволюционного районирования [Блануца 2018], способствующей делимитации районов со сходной траекторией развития с помощью рассматриваемых алгоритмов, (и) центр-периферийных отношений внутри районов, без которых невозможно вычленить одно или несколько территориальных ядер посредством интеллектуального анализа.

43

Геоиндикационное направление (10 статей). В него выделены различные попытки использовать интеллектуальный анализ для получения новых параметров (индикаторов) территориальной организации общества. Для этого применялись SOM (4 статьи), MLP (2), CNN (2), RF (1,5) и DT (0,5). Среди таких работ имеет смысл отметить заблаговременную индикацию общественной коррупции в испанских провинциях [Lόpez-Iturriaga, Sanz 2018] и оценку бедности в китайской провинции Гуйчжоу [Wu, Tan 2019]. Основное преимущество направления – возможность получать географические данные оперативнее, чем при использовании методов вне интеллектуального анализа. Ограничениями служат (к) узкий спектр генерируемых параметров (преимущественно социальные индикаторы), (л) относительно высокая зависимость от информационного шума и (м) отсутствие алгоритмов распознавания интегральной территориальной структуры.

44

Территориально-коннекционное направление (8 статей). Определение направленности и интенсивности различных потоков (товаров, информации и др.) между территориями оценивали с помощью MLP (6 статей), SOM (1), GA (0,5) и RF (0,5). Здесь можно отметить исследования, в рамках которых оценивали объем транспортных потоков между европейскими регионами [Nijkamp et al. 2004] и выявляли территориальную структуру внутреннего рынка авиаперевозок в США [Yan, Thill 2009]. Сравнение с гравитационными моделями, которые традиционно используют для моделирования пространственных взаимодействий, позволяет обозначить основное преимущество рассматриваемых алгоритмов [Fischer 1998] – учет нелинейных межрегиональных потоков. Развитие данного направления сдерживает отсутствие (н) детальной картографической маршрутизации потоков (обычно между двумя городами фиксируется общий трафик без его территориальных вариаций), (о) кластеризации потоков и (п) идентификации полимагистралей (каналов сосредоточения разных видов транспорта).

Территориально-коннекционное направление (8 статей). Определение направленности и интенсивности различных потоков (товаров, информации и др.) между территориями оценивали с помощью MLP (6 статей), SOM (1), GA (0,5) и RF (0,5). Здесь можно отметить исследования, в рамках которых оценивали объем транспортных потоков между европейскими регионами [Nijkamp et al. 2004] и выявляли территориальную структуру внутреннего рынка авиаперевозок в США [Yan, Thill 2009]. Сравнение с гравитационными моделями, которые традиционно используют для моделирования пространственных взаимодействий, позволяет обозначить основное преимущество рассматриваемых алгоритмов [Fischer 1998] – учет нелинейных межрегиональных потоков. Развитие данного направления сдерживает отсутствие (н) детальной картографической маршрутизации потоков (обычно между двумя городами фиксируется общий трафик без его территориальных вариаций), (о) кластеризации потоков и (п) идентификации полимагистралей (каналов сосредоточения разных видов транспорта).

45

Заключение

46

Семантический поиск в библиографических базах данных позволил выявить около двух сотен статей, в которых были приведены эмпирические результаты применения алгоритмов интеллектуального анализа данных для познания территориальной организации общества. Междисциплинарный характер таких исследований (на пересечении географии, экономики, социологии, политологии и data science), их фронтирность и фрагментарность указывают на начальный этап познания. Не исключено, что дальнейшее развитие подобных работ приведет к оформлению нового интеграционного направления в рамках общественной географии или частных направлений в других науках (в пространственной экономике, социологии пространства и т.д.). Так или иначе, впервые в мировой науке по рассматриваемой проблематике зафиксировано применение ограниченного количества алгоритмов (13 при потенциале в несколько десятков методов [Блануца 2020; Полетаева 2020; Cristianini 2014; Grekousis 2019; Haenlein, Kaplan 2019; Janowicz et al. 2020]), доминирующее положение нейросетевых алгоритмов, незначительное совместное использование нескольких методов, преобладание имитационного моделирования над прогнозированием и решением оптимизационных задач, а также фокус на изучении пространственного роста городов при значительно меньшем внимании к остальным предметам исследования общественной географии. Рассматриваемые алгоритмы не применяли для изучения, например, территориально-производственных комплексов и кластеров, энергопроизводственных циклов, пространственной диффузии инноваций и экономико-географического положения. Что касается тематических направлений, то можно предположить их конвергенцию в единую методологию выявления, прогнозирования и оптимизации системы общественно-географических районов, которая необходима для целостного понимания и управления территориальной организацией общества в ходе пространственной урбанизации, территориального перераспределения и концентрации потоков вещества, энергии и информации, специализации регионов и появления новых индикаторов этих и иных – диффузионных, дисперсионных и др. – процессов.

Семантический поиск в библиографических базах данных позволил выявить около двух сотен статей, в которых были приведены эмпирические результаты применения алгоритмов интеллектуального анализа данных для познания территориальной организации общества. Междисциплинарный характер таких исследований (на пересечении географии, экономики, социологии, политологии и data science), их фронтирность и фрагментарность указывают на начальный этап познания. Не исключено, что дальнейшее развитие подобных работ приведет к оформлению нового интеграционного направления в рамках общественной географии или частных направлений в других науках (в пространственной экономике, социологии пространства и т.д.). Так или иначе, впервые в мировой науке по рассматриваемой проблематике зафиксировано применение ограниченного количества алгоритмов (13 при потенциале в несколько десятков методов [Блануца 2020; Полетаева 2020; Cristianini 2014; Grekousis 2019; Haenlein, Kaplan 2019; Janowicz et al. 2020]), доминирующее положение нейросетевых алгоритмов, незначительное совместное использование нескольких методов, преобладание имитационного моделирования над прогнозированием и решением оптимизационных задач, а также фокус на изучении пространственного роста городов при значительно меньшем внимании к остальным предметам исследования общественной географии. Рассматриваемые алгоритмы не применяли для изучения, например, территориально-производственных комплексов и кластеров, энергопроизводственных циклов, пространственной диффузии инноваций и экономико-географического положения. Что касается тематических направлений, то можно предположить их конвергенцию в единую методологию выявления, прогнозирования и оптимизации системы общественно-географических районов, которая необходима для целостного понимания и управления территориальной организацией общества в ходе пространственной урбанизации, территориального перераспределения и концентрации потоков вещества, энергии и информации, специализации регионов и появления новых индикаторов этих и иных – диффузионных, дисперсионных и др. – процессов.

ГОСТ	Блануца В. И. Интеллектуальный анализ данных в общественно-географических исследованиях // Общественные науки и современность. – 2021. – Номер 6 C. 150-164 . URL: https://ons-journal.ru/s086904990017878-7-1/. DOI: 10.31857/S086904990017878-7
MLA	Blanutsa, Viktor "Intellectual Data Mining in Socio-Geographic Research." Obshchestvennye nauki i sovremennost. 6 (2021).:150-164. DOI: 10.31857/S086904990017878-7
APA	Blanutsa V. (2021). Intellectual Data Mining in Socio-Geographic Research. Obshchestvennye nauki i sovremennost. no. 6, pp.150-164 DOI: 10.31857/S086904990017878-7

Библиография

Комментарии

Библиография

Комментарии

Войти через