Анализ вербальной активности пользователей социальных медиа. О частотности употребления существительных

В последние годы социальные сети стремительно и прочно вошли в жизнь большинства современных людей. Включённость и погружённость в виртуальное пространство влияет на многие аспекты жизни человека: физическое и психическое здоровье, взаимоотношения с другими людьми, самовосприятие, самоотношение, самооценку и многое другое. Безусловно, эти изменения не могли остаться незамеченными многими отечественными и зарубежными учёными, которые используют материалы социальных сетей и Интернета для исследования.

Социальные сети предоставляют уникальную возможность для анализа общественных настроений и предпочтений. Когда пользователи делятся своими мнениями открыто, это даёт исследователям ценную информацию о том, что привлекает внимание и вызывает наиболее активное обсуждение.

Анализ контекста, в котором публикуется сообщение (социальных сетей), позволяет изучать социальные проблемы и вызовы, с которыми сталкивается современное общество. Пользователи обсуждают политику, экономику, экологию, здравоохранение и другие социальные вопросы.

Анализ обсуждений помогает выявлять ключевые проблемы, мнения и потребности общества, что может стать основой для разработки социальных программ.

В анализе контента отдельной большой задачей стоит изучение частотности употребления тех или иных слов в регионе, которое имеет несколько важных причин:

1. Лингвистическое исследование. Анализ частотности слов позволяет лингвистам изучать особенности языка в конкретном регионе. Это помогает выявить уникальные лексические особенности, сленговые выражения и диалектные варианты, которые могут отличаться от общепринятого стандарта языка.

2. Культурологическое исследование. Частотность слов может отражать особенности культуры и поведения общества региона. Изучение популярных слов и словосочетаний может помочь в понимании ценностей, интересов и предпочтений населения.

3. Языковое планирование. Изучение частотности слов может быть полезным при разработке программ обучения и языковой политики региона. Знание наиболее употребляемых слов важно при определении приоритетных лексических единиц и облегчает процесс изучения языка.

4. Машинное обучение и обработка естественного языка. Анализ частотности слов используется в задачах машинного обучения. Это помогает при определении ключевых слов, создании словарей и разработке алгоритмов автоматического перевода и обработки текстов.

Изучение наиболее часто встречающихся слов и словосочетаний в сообщениях активных пользователей в социальных сетях помогает лучше понять влияние социальных сетей на пользователей, заметить формирование мнений, ценностей и нового поведения.

Активные пользователи являются ключевыми факторами формирования и передачи информации, и их ценностные ориентации могут отражать ценности всего общества. Это важно для лучшего понимания современного общества и разработки соответствующих стратегий и политик для гармоничного развития личности.

Цель данной статьи — изучение частотности употребления слов активных пользователей десяти регионов Российской Федерации в социальной сети «ВКонтакте».

Для достижения цели использованы методы анализа содержания публикаций. Публикации собраны с помощью системы мониторинга и анализа социальных медиа Brand Analytics, а также с помощью системы Target Hunter, онлайн-сервиса для поиска сведений о целевой аудитории.

При сборе данных действуют следующие ограничения:

· Ограничения работы системы Target Hunter обусловлены тем, что к методам API «ВКонтакте» можно обращаться не чаще трёх раз в секунду. Для примера: чтобы однократно собрать все ID Башкортостана, необходимо примерно 180 тысяч секунд – это 50 часов!

· Ограничения Brand Analytics обусловлены количеством сообщений в тарифе; так, ежемесячно можно собирать 350 тысяч сообщений при условии, что эти сообщения написаны в течение 30 дней от момента обращения к системе, и 150 тысяч сообщений при условии, что эти сообщения написаны в течение 360 дней от момента обращения к системе. Для примера: во время проведения международной книжной ярмарки «Китап-байрам» в Уфе (Башкортостан) пользователи написали 30 тысяч сообщений в социальных медиа.

Период исследования — три месяца: июнь-август 2023 года

1. Башкортостан (701 608 слов на регион)

2. Калининградская область (751 175 слов)

3. Марий Эл (627 819 слов)

4. Мордовия (460 247 слов)

5. Нижегородская область (801 061 слов)

6. Пензенская область (709 810 слов)

7. Саратовская область (366 279 слов)

8. Татарстан (616 322 слов)

9. Томская область (441 088 слов)

10. Удмуртия (919 663 слов)

Среди данных, имеющихся в распоряжении команды исследователей, —обезличенный массив ID пользователей «ВКонтакте» с указанными гео. Суммарно — более 10 млн ID. На основании обезличенного массива ID собран массив пользовательских текстов. Текстовый массив очищен от «воды» (то есть совокупности частей текста, которая не несёт смысловой нагрузки). Существительные, прилагательные, глаголы приведены к нижнему регистру и объединены в кластеры. Рассчитана абсолютная частотность слов в каждом кластере для каждого региона: сколько раз то или иное слово встречается в регионе, а также нормализованная частотность: сколько раз то или иное слово встречается в регионе на каждую тысячу жителей.

В проекте принимали участие: Александр Петров (сбор данных), Маргарита Савина (статистика), Анастасия Подорожная (аналитика).

Рисунок 1. Количество слов на 1000 жителей региона

Калининградская область — самая «разговорчивая» в данном учётном периоде. Она же — в топе по проникновению социальной сети «ВКонтакте» — свыше 30%. Саратовская область – самая «тихая», при этом корреляции с проникновением социальной сети «ВКонтакте» в регион не наблюдается (так, у Мордовии проникновение в регион на 1% ниже, чем в Саратовской области).

Из кластера «Существительные» выбран топ-50 слов с максимальной частотностью в каждом из указанных регионов. Слова объединены в таблицу (метод доступа:https://clck.ru/35Xw9a).

Из топ-50 слов выбраны пять понятий, потенциально имеющие отношение к ценностным выборам человека, ко времени или к пространству, таким образом, что выбранные понятия встречаются во всех десяти исследуемых регионах: жизнь, время, человек, работа, друг.

Примеры слов, которые потенциально имеют отношение к ценностным выборам человека, но найдены в топ-50 не во всех регионах: рождение (девять регионов, кроме Башкортостана), ребёнок (девять регионов, кроме Нижегородской области), дом (восемь регионов, кроме Республик Марий Эл, Мордовия), любовь (восемь регионов, кроме Республики Башкортостан, Марий Эл).

Рисунок 2.Частотность слов по регионам, абсолютные значения

При этом минимумы и максимумы абсолютных значений выбранных слов распределились следующим образом:

· Жизнь (минимум 4 089 сообщений в Саратовской области, максимум 13 963 в Удмуртии)

· Время (минимум 2 801 в Саратовской области, максимум 12 550 в Удмуртии)

· Человек (минимум 3 851 в Калининградской области, максимум 23 878 в Удмуртии)

· Работа (минимум 1 556 в Саратовской области, максимум 10 219 в Пензенской области)

· Друг (минимум 933 в Саратовской области, максимум 9 231 в Татарстане)

Рисунок 3. Частотность слов по регионам, норм. на 1000 жителей

При этом минимумы и максимумы нормализованных значений выбранных слов распределились следующим образом:

· жизнь (минимум 1,24 слова на 1К жителей в Башкортостане, максимум 14,81 в Калининградской области)

· время (минимум 1,16 в Саратовской области, максимум 14,76 в Калининградской области)

· человек (минимум 1,8 в Башкортостане, максимум 16,56 в Удмуртии)

· работа (минимум 0,65 в Саратовской области, максимум 8,02 в Пензенской области)

· друг (минимум 0,39 в Саратовской области, максимум 5,38 в Калининградской области).

Понятий, вызывающих настороженность (новых слов, идеологем, иностранных понятий), в топ-50 нет.

«В современной лингвистике активно выполняются исследования с привлечением материалов частотных словарей. Применение данных об употребительности слова позволяет исследователям выяснить, насколько актуальным оно является для носителя языка.

Анализ высокочастотных лексем помогает выявить наиболее существенные характеристики лексики отдельной языковой идиомы. Частотность употребления слова в речи является отражением его функционального веса в системе языка, а кроме того, тесно связана с «его парадигматической значимостью, важностью, существенностью для языка».

В дальнейшем рекомендуется более глубокое изучение в социальных медиа высокочастотных слов активных пользователей из разных регионов. Например, в сравнении с современным русским частотным словарём Ольги Ляшевской и Сергея Шарова, который базируется на корпусе текстов объемом 92 миллионов словоформ. Или в сравнении с Национальным корпусом русского языка (более 2 миллиардов слов).

Изучение в социальных медиа высокочастотных слов активных пользователей из разных регионов позволит получить ценную информацию о цифровой и не только культуре региона, что может быть полезным для различных государственных задач.