Предсказание атрибутов профиля пользователя социальной сети путем анализа сообществ графа его ближайшего окружения

В.О. Чесноков

ISSN 0236-3933. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение. 2017. № 2

сматривались методы, основанные на машинном обучении, так как оно не все-

гда применимо, и методы, которые используют сведения о предпочтениях поль-

зователей, поскольку они требуют более разнородных данных, получение кото-

рых может быть затруднительным.

Первый простейший подход основан на переносе атрибутов голосованием и

заключается в объединении наиболее часто встречающихся атрибутов соседей

вершины. Если доля вершин, имеющих некоторый атрибут, превышает уста-

новленный порог, то считается, что и центральная вершина имеет данный атри-

бут.

Второй подход — анализ сообществ графа ближайшего окружения пользо-

вателя. Для каждого сообщества выбирается наиболее частый атрибут или

набор атрибутов, которые присутствуют у большинства вершин в сообществе.

Большинство вершин определяется порогом. В качестве алгоритмов выделения

сообществ были выбраны два распространенных метода: максимизация моду-

лярности [11] и Infomap [12]. Кроме того, были использованы три метода, кото-

рые также опираются на гипотезу об образовании сообществ по модели присо-

единения: AGM-fit [9], BigCLAM [13] и CESNA [14].

Третий подход основан на информации о связи между атрибутами вершин и

сообществами. Алгоритм CESNA [14] предоставляет веса для каждой пары атри-

бут–сообщество. Чем больше вес, тем больше вероятность того, что сообщество

было образовано по этому атрибуту. Значимые веса также определялись порогом.

Для тестирования подходов были использованы два набора данных от

Stanford Network Analisys Project [15]: графы ближайшего окружения пользова-

телей Facebook и Twitter. Их характеристики приведены в табл. 1. В данных

наборах предоставлена информация об эталонных сообществах, поэтому во

втором подходе к предсказанию профиля помимо сообществ, выделенных пя-

тью алгоритмами, были использованы эти сообщества. Кроме того, были ис-

пользованы графы ближайшего окружения 2000 случайно выбранных пользо-

вателей социальной сети ВКонтакте, полученные в [16].

Таблица 1

Характеристики наборов данных

Социальная

сеть

Число

графов

Среднее число

вершин

ребер

атрибутов

сообществ

Facebook

417

17 017

228

19.3

Twitter

973

138

2350

665

4,17

ВКонтакте

2000

164

1561

1665

n/a

В качестве меры качества предсказания была использована мера

∩ +

( , ) = 2 / (

) = 2 |

| /(| | | |),

F p p PR P R p p p p

где

— предсказанный профиль;

— истинный профиль;

= |

|| |

P p p p

∩

—

точность;

∩

| / | |

R p p p

— полнота. Для всех графов были получены множе-