Исследование лексики пользователей социальных медиа

Целью данного исследования является понимание того, с какими словами пользователи различных регионов ассоциируют ценности. Для получения ответа на этот вопрос можно действовать как минимум двумя способами:

1. провести опросы населения и установить, что людям важно, что они понимают под ценностями: как они разделяются, какими словами описываются, какие ценности наиболее важные;

2. привлечь экспертов по каждому региону и зафиксировать «народное» определение каждой ценности.

Оба подхода позволяют получить предварительный ответ на поставленный вопрос и могут использоваться для сбора «информации к размышлению», тут важно отметить сложность составления корректных вопросов в первом случае и некоторую субъективность при использовании второго.

В качестве дополнительного инструмента сбора источников можно подключить анализ «больших данных», не применяя прямого воздействия на респондентов.

Важна методика сбора данных — исследование подразумевает сбор всех текстов пользователей в соцмедиа, размещённых публично, что позволяет максимально полно охватить лексику конкретного региона (вплоть до жаргонизмов и сокращений). При этом для получения пользовательских ассоциаций с той или иной ценностью из экспертного списка ФЦГП мы будем «задавать вопросы» массиву данных, без обращения к пользователям. Таким образом мы получим независимый от субъективных оценок массив слов, с которыми пользователи ассоциируют ценности в каждом из регионов.

Для решения задачи мы предлагаем применить современные алгоритмы по обработке естественного языка (NLP-алгоритмы; Обработка естественного языка (NLP) — это технология машинного обучения, которая даёт компьютерам возможность интерпретировать, анализировать и понимать человеческий язык), а наиболее подходящими будут те из них, которые позволяют сопоставлять семантические близости понятий, которые мы относим к ценностям. Принцип работы таких алгоритмов сводится к следующему: берём полный массив текстов по конкретному региону, далее тексты проходят предобработку (оставляются непосредственно слова, убираются лишние символы), после чего тексты переводятся в «машинный вид» — через NLP-алгоритмы переводятся в цифры и по итогам формируется связи между словами, где максимально близкие по смыслу слова будут находиться рядом друг с другом. На математическом языке, по сути, формируется многомерное пространство векторов, где два близко направленных слова (вектора) будут находиться в одном «смысловом поле». Наиболее популярным и хорошо зарекомендовавшим алгоритмом мы считаем Word2Vec (алгоритм на основе искусственных нейронных сетей, предназначенных для получения векторных представлений слов на естественном языке, используется для анализа семантики языков), который и использован в данной работе. То есть ключевой результат, который необходимо получить, — какими словами пользователи конкретного региона описывают (называют) ценности.

Для того, чтобы понять, насколько влияет количество текстов для анализа и сколько нужно данных для корректной оценки/выявления ценностей, а также какие источники необходимы для подобного анализа, мы провели исследование: на примере Республики Чувашия взяли в анализ 100 тысяч авторов «ВКонтакте» из региона и их тексты, 500 тысяч авторов из Чувашии «ВКонтакте» и их тексты, а также полный сбор за четыре дня всех авторов из региона и всех источников (ВКонтакте, Одноклассники, форумы, блоги, комментарии к новостям и т.п.). Полученные сравнительные результаты по распределению топ-слов применительно к ценностям приведены в таблице:

В итоге мы зафиксировали, что увеличение количества авторов (500 тысяч вместо 100 тысяч), а также включение новых источников (Одноклассники, Telegram и т.п.) помимо «ВКонтакте» значимо не влияет на состав ТОП-слов по нашей задаче (определение терминов ценностей). Однако если будет ставиться задача оценки поиска ценностей внутри каждой соцсети отдельно (ВКонтакте, Одноклассники, Telegram и др.), то необходим сбор всех этих источников.

Исследование по выявлению ценностей проведено на примере Республики Башкортостан. Для этого был собран массив пользовательских текстов из социальной сети «ВКонтакте», которые они оставляли у себя на странице (включая репосты публикаций) за период 1 января 2023 года по 31 июля 2023 года. Далее для случайно отобранных 100 тысяч пользователей региона получено 203 687 текстов, то есть 100 тысяч отобранных пользователей за первые семь месяцев 2023 года суммарно оставили 203 687 сообщений. Всего же по Республике Башкортостан было зафиксировано более 500 тысяч аккаунтов «ВКонтакте».

На основе полученных текстов была построена модель векторного представления слов: с помощью python-библиотек все тексты были приведены к начальной форме (например, «жизни -> жизнь»), далее был запущен процесс обучения модели Word2Vec и получены векторы каждого слова. Важным моментом для нас является то, что модель «запомнила» контекст каждого слова и теперь способна по заданному понятию показывать слова, которые часто употребляются в таком же контексте, по сути получать что-то похожее на синонимы.

То есть в нашем случае мы теперь можем «задавать вопросы» модели — какие слова пользователи региона употребляют при упоминании ценностей, для этого необходимо задать начальные реперные точки по самим ценностям, то есть погрузить в контекст нашу модель. Для этого мы определили ряд терминов по описанию каждой ценности, например, для ценности «вера» из модели «Четыре грани человечности» такими стартовыми для модели словами будут: «Бог», «вечность», «душа», с помощью которых мы и «запросим» у модели по Башкортостану информацию, чтобы «посмотреть» какие термины пользователи употребляют в таком контексте:

Таким образом были проанализированы все термины, которые были распределены по ценностям модели «Четыре грани человечности»: Вера, Благо, Красота, Мудрость, Состоятельность, Мастерство, Справедливость, Знание, Развитие, Семья, Род, Природа.

По каждой ценности были получены уникальные термины, которые эмпирически было невозможно «продумать» за конкретный регион (например, в ряде случаев появлялись непрогнозируемые термины, которые популярны для региона и конкретной ценности: «Милосердие -> искренность», «самореализация -> молодёжь», «самобытность -> индивидуальность», «независимость -> самоотверженность», «великодушие -> уступчивость», «добро -> человечность» и т.д.). А в ряде случаев некоторые стартовые понятия не позволяли получить новые термины — это значит, что исходные предположения по наличию таких понятий в регионе не подтвердились, что тоже является важным выводом (предполагаемый термин не употребляется в регионе).

Отметим, что такой анализ возможен на любом языке, в данном исследовании выполнена оценка для текстов на русском языке, однако в дальнейшем возможно получить уникальные ценностные термины на других языках, в том числе для учёта региональных особенностей.

По итогам выполненной работы можно сделать вывод, что с применением современных разработок в области машинного обучения для анализа естественных текстов возможно получить реальные и уникальные для каждого региона термины, которыми пользователи выражают свое отношение к ценностям.

Полученные результаты могут быть использованы для отслеживания отношения людей к ценностям по регионам РФ. Безусловно, стоит делать поправку, что анализ проводится на основе пользователей интернета, которые оставляют свои «следы» в социальных сетях — пишут комментарии, делают репосты и т.д. Такую поправку возможно делать за счёт учёта включения параметра проникновения социальных сетей по каждому региону — учитывать количество пользователей и численность населения в регионе.

Петров А. Исследование лексики пользователей социальных медиа // Инструментариум. Вып. 4. Цифровая эпоха. М.:ФЦГП, 2023. С. 24–27.