Часть 3.1 Введение

Представьте, что вы устраиваете вечеринку на сто человек, которые изначально не знакомы друг с другом [1]. Вы угощаете их вином и сыром и вскоре они начинают общаться в группах по два-три человека. Теперь скажите Мэри, одной из ваших гостей, что красное вино в темно-зеленых бутылках без этикетки — это редкое старинное вино, которое гораздо лучше, чем то, что в бутылках с модной красной этикеткой. Если она расскажет об этом только своим знакомым, то ваше дорогое вино, по-видимому, останется нетронутым, поскольку у нее пока было время на то, чтобы встретить лишь несколько человек.

Однако, гости продолжат общаться друг с другом, образуя косвенную связь между людьми, которые все еще не знакомы лично. Например, в то время как Джон еще не встретил Мэри, оба они уже встретились с Майком, и таким образом, между Джоном и Мэри существует невидимая связь посредством Майка. Со временем гости будут все более и более переплетены такими неявными связями. В результате чего секрет бутылки без этикетки перейдет от Мэри к Майку, а от Майка к Джону, проникая в быстро растущую группу людей.

Несомненно, когда все гости перезнакомятся, каждый будет разливать это более качественное вино. Но если бы каждая новая встреча происходила раз в десять минут, на знакомство каждого гостя с остальными 99 людьми потребовалось бы около 16 часов. Таким образом, у вас есть все основания надеяться, что при подобном сценарии после ухода гостей вам останется несколько капелек этого первоклассного вина.

И все же, вы окажетесь неправы. В этой главе мы продемонстрируем, почему. Мы увидим, что данная вечеринка идеально ложится на одну из классических моделей науки о сетях, которая называется «модель случайной сети». А теория случайных сетей сообщает нам, что для того, чтобы наше дорогое вино оказалось в опасности, нет нужды ждать, пока все гости перезнакомятся. Скорее, как только кто-то из гостей встретится, между ними образуется невидимая сеть, через которую и распространится информация. Следовательно, все будут вскоре наслаждаться лучшим вином.

Возникновение сети знакомств через случайное общение на вечеринке.

Изначально гости формируют изолированные группы.

В процессе перехода людей от группы к группе, возникает невидимая сеть, объединяющая всех гостей.

Изображение 3.1От коктейльных вечеринок к случайным сетям.

Часть 3.2 Модель случайной сети.

Цель науки о сетях – создать модели, которые обладают свойствами реальных сетей. Узлы большинства сетей, с которыми мы сталкиваемся, не упорядочены регулярно, подобно узлам кристаллической решетки. Напротив, на первый взгляд кажется, что они расположены произвольно (Рисунок 2.4.). Теория случайных сетей описывает эту видимую случайность посредством моделирования и анализа сетей, которые по-настоящему случайны.

С точки зрения построения моделей, сети просты, так как состоят лишь из узлов и связей между ними. Вопрос здесь в том, как и какие узлы связать между собой, чтобы воспроизвести всю сложность реальных систем. В этом плане философия, лежащая в основе случайных сетей проста – мы уславливаемся, что лучшим способом решить эту задачу является полностью случайное соединение узлов сети. А это, в свою очередь, приводит нас к определению случайной сети (Памятка 3.1):

Случайная сеть состоит из N узлов, соединенных между собой попарно с вероятностью p.

Для создания случайной сети необходимо исполнить следующие шаги:

Создадим N изолированных узлов.
Выберем случайную пару узлов и сгенерируйте случайное число между 0 и 1. Если число больше чем p, проведем ребро между узлами.
Повторим пункт (2) для каждой из N(N-1)/2 пары узлов.

Полученная таким путем сеть называется случайным графом или случайной сетью. Два математика, Пол Эрдёш и Альфред Реньи, сыграли важную роль в понимании свойств случайных сетей. В их честь, случайные сети называются сетями Эрдёш-Реньи ( Памятка 3.2).

Памятка 3.2 Случайные сети: Краткая история

Пол Эрдёш и Альфред РеньиИзображение 3.2Изображение 3.2

(a) Пол Эрдёш (1913-1996)

Венгерский математик, известный как его неоценимым научным вкладом, так и эксцентричностью. Эрдёш опубликовал больше статей, чем любой другой математик в истории. За всю свою жизнь он написал статьи в соавторстве с более чем пятиста математиками, что послужило основой для знаменитого Числа Эрдёша. Его Легендарная манера и большой вклад в науку вдохновили две биографии [12, 13] и документальный фильм [14] (Видео 3.1)

(b) Альфред Реньи (1921-1970)

Венгерский математик, внесший фундаментальный вклад в комбинаторику, теорию графов, и теорию графов. Его влияние простирается и вне математики: Энтропия Реньи широко используется в теории хаоса; Теория случайных сетей, которую он создал в соавторстве, находится в основании науки о сетях. Память о нем увековечена в названии очага венгерской научной мысли - Института Математики имени Альфреда Реньи в Будапеште.

Видео 3.1
N - это число: Портрет Пола Эрдёша
Документальный фильм-биография 1993 года под режиссурой Георгия Павла Цискери описывает жизнь и научный вклад Эрдёша [14].

Анатолий Раппопорт (1911-2007), русский иммигрант в США, был первым исследователем случайных сетей. Раппопорт сфокусировал свой интерес на математике, поняв, что успешная карьера пианиста требует богатого патрона. Он фокусировался на математической биологии в то время, когда математика и биология практически не пересекались. В статье, написанной в соавторстве с Реем Соломонофф (Ray Solomonoff) в 1951 [11], Раппопорт продемонстрировал, что при повышении средней степени сети наблюдается резкий переход состояния от раздельных узлов к графу с большой единой компонентой.

Исследование случайных сетей получило признание благодаря фундаментальной работе Пола Эрдёша и Альфреда Реньи (Изображение 3.2). В серии из 8 работ, опубликованных между 1959 и 1968 [2-9], они объединили теории вероятности и комбинаторики с теорией графов, основывая фундамент теории случайных сетей, нового подраздела математики [2].

Независимо от вышеперечисленных, свою модель случайных графов опубликовал Эдгар Нельсон Гилберт (1923-2013) [10] в тот же год, что Эрдёша и Реньи опубликовали свю первую статью по этой теме. И все же, вклад Эрдёша и Реньи настолько значителен, что они по праву правозглашены основателями теории случайных графов.

“Математик - это автомат по переработке кофе в теоремы”

Альфред Реньи (Цитату часто приписывают Эрдёшу)

Часть 3.3 Количество связей

Случайные сети, образованные с одинаковыми параметрами N и p, несколько отличаются друг от друга (Изображение 3.3). Отличия заключаются не только в том, какие узлы связаны, а какие – нет, но и в общем количестве связей L. Таким образом, полезно определить, сколько связей образуется в каждой конкретной случайной сети с заданными параметрами N и p.

Вероятность, что случайная сеть содержит ровно L связей равна произведению трех величин:

Вероятность, что из N(N-1)/2 пар узлов сети L пар будут связаны, равная p^L.
Вероятность, что оставшиеся N(N-1)/2-L узлов не будут связаны, равная (1-p)N(N-1)/2-L.
Комбинаторный коэффициент $\left( {\begin{array}{*{20}c} {\frac{{N(N - 1)}}{2}} \\ L \\ \end{array}} \right) \hspace{20 mm} (3 . 0)$ который равен количеству способов разместить L связей между N(N-1)/2 парами узлов.

Таким образом, вероятность, что каждая конкретная случайная сеть содержит ровно L связей, равна

$p_L = \left( {\begin{array}{*{20}c} {\frac{{N(N - 1)}}{2}} \\ L \\ \end{array}} \right)p^L (1 - p)^{\frac{{N(N - 1)}}{2} - L} \hspace{20 mm} (3 . 1)$

Поскольку формула 3.1 описывает биномиальное распределение (памятка 3.3), математическое ожидание количества связей в случайном графе равно

$\left\langle L \right\rangle = \sum\limits_{L = 0}^{\frac{{N(N - 1)}}{2}} {Lp_L } = p\frac{{N(N - 1)}}{2} \hspace{20 mm} (3 . 2)$

Таким образом, 〈L〉 равно произведению вероятности p, что два узла связаны и общего количества пар узлов сети, которые мы можем соединить, равное L_max= (N(N-1))/2 (Глава 2).

Из формулы (3.2) мы можем вывести формулу для средней степени случайной сети

$\left\langle k \right\rangle = \frac{{2\left\langle L \right\rangle }}{N} = p(N - 1) \hspace{20 mm} (3 . 3)$

Следовательно 〈k〉 равно произведению вероятности p того, что два узла связаны и (N-1) – максимального количества связей любого из N узлов сети.

Резюмируя, количество связей различных случайных сетей с одинаковыми параметрами может отличаться. Его математическое ожидание определяется посредством N и p. Если мы увеличим p, случайная сеть становится более плотной. Среднее количество связей растет линейно от 〈L〉=0 до 〈L〉=L_max, а средняя степень узла увеличивается от 〈k〉= 0 до 〈k〉=N-1.

Случайные сети по-настоящему случайны Три разных случайных сети, созданных с одинаковыми параметрами p=1/6 и N=12. Несмотря на одинаковые параметры сети не просто отличаются, а также имеют различное количество связей (L=10, 10, 8). Нижний ряд Три разных случайных сети, созданных с параметрами p=0.03 и N=100. У некоторых узлов степень k=0. Такие изолированные узлы показаны отдельно снизу. Изображение 3.3Изображение 3.3

Памятка 3.3. Биномиальное распределение: среднее значение и дисперсия.

Если мы подбросим сбалансированную монету N раз, орел и решка появятся с одинаковой вероятностью p = ½. Биномиальное распределение обеспечивает вероятность p_x - того, что в последовательности из N бросков монеты решка появится ровно x раз.

В общем виде биномиальное распределение описывает количество удачных исходов в N независимых экспериментах с двумя возможными исходами, для которых вероятность одного исхода – p, а другого – 1-p.

Биномиальное распределение имеет форму

$p_x = \left( {\begin{array}{*{20}c} N \\ x \\ \end{array}} \right)p^x (1 - p)^{N - x}$

Cреднее значение случайной величины (первый момент) равно

$\left\langle x \right\rangle = \sum\limits_{x = 0}^N {xp_x } = Np \hspace{20 mm} (3 . 4)$

Ее второй момент равен

$\left\langle {x^2 } \right\rangle = \sum\limits_{x = 0}^N {x^2 p_x } = p(1 - p)N + p^2 N^2 \hspace{20 mm} (3 . 5)$

Что обеспечивает среднеквадратическое отклонение

$\sigma _x = \left( {\left\langle {x^2 } \right\rangle - \left\langle x \right\rangle ^2 } \right)^{\frac{1}{2}} = \left[ {p(1 - p)N} \right]^{\frac{1}{2}} \hspace{20 mm} (3 . 6)$

Уравнения (3.4) – (3.6) будут применяться повсеместно при описании случайных сетей.

Часть 3.4 Распределение степеней

В каждой конкретной случайной сети меньшее количество узлов обладает множеством связей, в то время как на большинство приходится значительно меньше связей, или же совсем ничего (Изображение 3.3). Эти отличия хорошо показывает распределением степеней p_k, которое обозначает вероятность, что случайно выбранный узел сети имеет степень k. В этом разделе мы выводим форму p_k для случайной сети и обсуждаем ее свойства.

Сравнение биномиального и Пуассоновского распределения степеней Биномиальное распределение (слева) является точной формой распределения степеней случайной сети. Для N значительно превосходящего k биномиальное распределение хорошо аппроксимируется пуассоновским распределением (справа). Поскольку обе формулы описывают одно и то же распределение, они обладают одинаковыми свойствами, но выраженными через разные параметры: биномиальное распределение зависит от N и p, а пуассоновское распределение зависит только от . Благодаря простоте вычислений предпочтение обычно отдается пуассоновскому распределению.Изображение 3.4Изображение 3.4

Биномиальное распределение

В случайной сети вероятность, что узел i обладает ровно k связями равна произведению трех величин [15]:

Вероятность, что узел имеет k связей, p_k
Вероятность, что связей кроме k (в количестве N-1-k) не существует, (1-p)^N-1-k.
Количество способов, которыми можно связать данный узел с k другими узлами из N-1 возможных связей, равное $\left( {\begin{array}{*{20}c} {N - 1} \\ k \\ \end{array}} \right)$ .

Следовательно, степени случайной сети распределены биноминально:

$p_k = \left( {\begin{array}{*{20}c} {N - 1} \\ k \\ \end{array}} \right)p^k (1 - p)^{N - 1 - k} \hspace{20 mm} (3 . 7)$

Форма такого распределения зависит от размера сети N и вероятности p (Изображение 3.4). Биномиальное распределение (памятка 3.3) позволяет нам вычислить среднюю степень сети 〈 k 〉 , используя (3.3), а также ее второй момент 〈𝑘²〉 и дисперсию 𝜎_𝑘 (Изображение 3.4).

Распределение Пуассона

Большинство реальных сетей имеют низкую плотность связей, т.е. их

‹k› ‹‹ N (Таблица 2.1). В таком предельном случае распределение степеней (3.7) хорошо аппроксимируется распределением Пуассона (Дополнительный материал 3.А)

$p_k = e^{ - \left\langle k \right\rangle } \frac{{\left\langle k \right\rangle ^k }}{{k!}} \hspace{20 mm} (3 . 8)$

которое часто называют (совместно с (3.7)) распределением степеней случайной сети.

Биномиальное и Пуассоновское распределения описывают одинаковую величину, т.е. у них одинаковые свойства (Изображение 3.4):

Оба распределения имеют максимум возле 〈 k 〉. Если мы увеличим вероятность p, то сеть станет плотнее, увеличивая 〈 k 〉 и сдвигая максимум вправо.
«Ширина» распределения, или дисперсия также зависит от p или 〈 k 〉. Чем плотнее сеть, тем «шире» распределение, и тем больше различия в степенях различных узлов.

Применяя распределение Пуассона (3.8), необходимо помнить, что

Наиболее точно распределение степеней описывается биномиальным распределением (3.7), а (3.8) – это аппроксимация, действительная лишь в случаях, когда 〈k〉 значительно меньше N. Поскольку большинство случайных сетей, обладающих практической ценностью, имеют низкую плотность связей, это условие обычно соблюдается.
Преимущество распределения Пуассона состоит в том, что ключевые характеристики сети, такие как 〈k〉, 〈k^2〉, σk вычисляются значительно проще (картинка 3.4) и зависят только от одного параметра 〈k〉.
Распределение Пуассона (3.8) не имеет прямой зависимости от количества узлов N. Таким образом, (3.8) предопределяет, что распределения степеней сетей разных размеров, но с одинаковой средней степенью 〈k〉 будут неотличимы друг от друга (Изображение 3.5).

В заключение отметим, что распределение Пуассона - это лишь аппроксимация настоящего распределения степеней случайной сети, однако благодаря его аналитической простоте ему отдается предпочтение для вычисления pk. Таким образом, в продолжение настоящей книги, если не оговорено иначе, мы будем считать, что степени случайной сети имеют распределение Пуассона (3.8). Его ключевая особенность состоит в том, что его свойства зависят не от размера сети, а только от одного параметра – средней степени 〈k〉.

Распределение степеней не зависит от размера сети Распределение степеней случайной сети с 〈k〉=50 и _N_= 10², 10³, 10³. **Маленькие сети: биномиальное распределение** Для маленькой сети (N=10²) распределение степеней значительно отклоняется от распределения Пуассона (3.8), поскольку необходимое условие для аппроксимирования распределением Пуассона, что N значительно превосходит , не выполнено. Поэтому для маленьких сетей следует использовать именно биномиальное распределение (3.7) (зеленая линия). **Большие сети: распределение Пуассона** Для больших сетей (N=10³,10⁴) распределение степеней становится неотличимым от распределения Пуассона (3.8), отмеченного серой линией. Таким образом, для больших N распределение степеней не зависит от размера сети. На картинке приведен результат усреднения более 1000 распределений различных случайных сетей, сгенерированных независимо друг от друга, с целью снизить влияние шума.Изображение 3.5Изображение 3.5

Часть 3.5 Реальные сети не следуют распределению Пуассона

Учитывая, что степень узла в случайной сети может принимать значения от 0 до N-1, как сильно могут отличаться степени узлов в какой-либо конкретной случайной сети? А именно, могут ли узлы с большими степенями сосуществовать с узлами с малыми степенями? Мы ответим на эти вопросы, оценивая размер самых больших и самых малых узлов случайной сети.

Давайте предположим, что всемирная социальная сеть укладывается в рамки модели случайной сети. Формирование общества случайным образом на самом деле не притянуто за уши, как это может показаться на первый взгляд. Мы встречаем новых людей и вступаем с ними в отношения совершенно случайно.

Социологи считают, что в среднем каждый из нас имеет порядка 1000 знакомых, что позволяет нам предположить, что ≈ 1000. Используя уже известные нам соотношения для случайных сетей, мы можем прийти к ряду занимательных выводов и умозаключений о случайном обществе, состоящем из N≈7×10⁹ человек (Дополнительный материал 3.Б):

Человек, имеющий наибольшее количество знакомых (узел с наибольшей степенью) в случайном обществе будет иметь порядка 1185 знакомых, k_max=1185.
Степень человека с наименьшим количеством связей будет равной 816, что не сильно отличается от k_max или 〈k〉.
Дисперсия случайной сети σ_k=〈k〉^(1/2). Для 〈k〉=1000 σ_k составляет 31,62, откуда следует, что среднее количество знакомых случайного человека лежит в пределах 〈k〉±σ_{k_{, или между 968 и 1032, т.е. в достаточно узком диапазоне.}}

Мы ожидаем, что у всех членов этого случайного сообщества будет сравнимое количество знакомых. Следовательно, если люди связаны друг с другом случайным образом, среди них нет как чрезвычайно популярных людей, количество знакомых которых значительно превышает среднее, как нет и изгоев, практически не имеющих знакомых. Это удивительное заключение является следствием одного важного свойства случайных сетей: в большой случайной сети степень большинства узлов не сильно отличается от 〈k〉.

Это предсказание вопиюще противоречит реальности. Действительно, существует множество примеров, когда кто-либо знает гораздо больше, чем 1185 людей. Например, в книге деловых встреч президента США Франклина Делано Рузвельта отмечено более 22000 имен людей, с которыми он встречался лично [16, 17]. Аналогичным образом, исследование социальной сети Facebook обнаружило множество людей, имеющих более 5000 друзей, что является максимально возможным количеством друзей на платформе Facebook [18]. Чтобы понять истоки этих расхождений, нам потребуется сравнить распределения степеней реальной и случайной сетей.

Куда пропали «центры притяжения»?

Следует отметить, что множитель 1/k! в формуле (3.8) значительно снижает шанс нахождения узла с большой степенью. Действительно, приближение Стирлинга

$k! \sim \left[ {\sqrt {2\pi k} } \right]\left( {\frac{k}{e}} \right)^k$

позволяет нам переписать (3.8) в виде

$p_k = \frac{{e^{ - \left\langle k \right\rangle } }}{{\sqrt {2\pi k} }}\left( {\frac{{e\left\langle k \right\rangle }}{k}} \right)^k \hspace{20 mm} (3 . 9)$

Для степеней k>e>〈k〉 множитель в скобках меньше единицы, следовательно, для больших k оба множителя, которые зависят от k в (3.9), а именно 1/√k and (e‹k›/k)^k стремительно уменьшаются с ростом k. В целом (3.9) предсказывает, что шанс встретить центр притяжения в случайной сети уменьшается быстрее, чем экспоненциально.

Распределение степеней реальной сети. Раcпределение степеней (а) сети Интернет, (б) сети научных сотрудников, (в) сети взаимодействия протеинов (Таблица 2.1). Зеленая линия отображает значения, предсказанные по распределению Пуассона, полученные путем измерения *〈k〉* реальных сетей по формуле (3.8). Значительное отклонение между реальными данными и распределением Пуассона означает, что модель случайной сети недооценивает размер и частоту появления как узлов с большими степенями, так и узлов с малыми степенями. Вместо этого модель случайной сети переоценивает количество узлов со степенями около *〈k〉*.Изображение 3.6Изображение 3.6

Часть 3.6 Эволюция случайных сетей

Коктейльная вечеринка, с которой мы столкнулись вначале этой главы описывает динамический процесс: начиная с N изолированных узлов, связи между случайными гостями постепенно устанавливаются с течением времени. Это соответствует постепенному увеличению p, что приводит к поразительным последствиям для топологии данной сети (Видео 3.2). Чтобы дать количественную оценку данному процессу, мы в первую очередь оцениваем как меняется размер самого большого связного кластера сети, N_G с изменением 〈k〉. Два предельных случая просты:

Для p=0 〈k〉=0 и следовательно все узлы изолированы. Следовательно самая большая компонента сети имеет размер 1, N^G=1, и N^G/N→0 для больших N.

Для p=1 〈k〉=N-1 и следовательно сеть является полным графом и все узлы принадлежат одной компоненте. Следовательно NG=N и Ng/N=1.

Видео 3.2
Эволюция случайных сетей
Видео демонстрирует изменение структуры случайной сети с увеличением _p_. Заметно отсутствие большого компонента для малых _p_ и его внезапное появление с приближением p к критическому значению.

Можно было бы ожидать, что самый большой компонент увеличивается постепенно с NG=1 до NG=N если 〈k〉 увеличивается с 0 до N-1. Но, как показывает Картинка 3.7а, этого не происходит: отношение NG/N остается близким к нулю для малых 〈k〉, указывая на отсутствие большого кластера. Как только 〈k〉 превысит критическое значение, NG/N увеличится, сигнализируя о быстром возникновении большого кластера, который мы называем гигантской компонентой. Эрдёш и Реньи в их классической статье 1959-го года предсказали, что необходимым условием для возникновения гигантской компоненты является [2]

$\left\langle k \right\rangle = 1 \hspace{20 mm} (3 . 10)$

Другими словами, гигантская компонента присутствует тогда и только тогда, когда каждый узел в среднем имеет более одной связи (Дополнительный материал 3.В).

Факт, что для наличия гигантской компоненты требуется как минимум одна связь на каждый узел не является неожиданным. Действительно, для существования гигантской компоненты нужно, чтобы каждый узел, который является ее частью, имел хотя бы одну связь с соседним узлом. С другой стороны, это условие противоречит здравому смыслу.

Мы можем выразить (3.10) через p, используя формулу (3.3),

$p_c = \frac{1}{{N - 1}} \approx \frac{1}{N} \hspace{20 mm} (3 . 11)$

Таким образом, чем больше сеть, тем меньшего значения p достаточно для возникновения гигантской компоненты.

Возникновение гигантской компоненты - это лишь одно из многих преобразований, которыми можно охарактеризовать случайную сеть по мере изменения . Можно выделить 4 топологически различных режима случайной сети (Изображение 3.7.а), каждый из которых обладает уникальными характеристиками.

Подкритический режим: 0

При 〈k〉=0 сеть состоит из N изолированных узлов. Увеличение 〈k〉 приводит к созданию N〈k〉=pN(N-1)/2 связей между узлами сети. И все же, при 〈k〉<1 в сети имеется лишь малое количество связей, и следовательно большинство кластеров имеет малый размер (Изображение 3.7б).

В любой момент мы можем обозначить самый большой кластер как гигантскую компоненту. И все же в таком режиме относительный размер самого большого кластера NG/N остается близким нулю. Это происходит потому, что при 〈k〉<1 самый большой кластер – это дерево размера NGlnN, размер которого увеличивается гораздо медленнее, чем размер сети. Поэтому в пределе NG/N≅lnN/N→0 при N→∞.

В итоге, в подкритическом режиме сеть состоит из множества маленьких компонент, размер которых распределен экспоненциально (3.35). Следовательно, эти компоненты имеют схожие размеры и среди них нет ярко выраженного лидера, которого можно было бы назвать гигантской компонентой.

Критическая точка: 〈k〉=1(p=1/N, Изображение 3.7 в)

Критическая точка отделяет режим сети, в котором еще нет гигантской компоненты (〈k〉<1) от режима сети, в котором она уже есть (〈k〉>1). В этом режиме относительный размер самой большой компоненты все еще близок к нулю (Изображение 3.7 в). Действительно, размер самой большой компоненты все еще NG~N^(2/3). Следовательно размер NG растет гораздо медленнее, чем размер сети и его относительный размер уменьшается по формуле NG~ N^(-1/3) при N → ∞.

Заметим, однако, что в абсолютных величинах размер самой большой компоненты совершает сильный скачок при = 1. Например, для случайной сети, состоящей из N=7×10⁹ узлов, и сравнимой по размерам с мировой социальной сетью всех людей, при < 1 самый большой кластер имеет размер порядка NG≅lnN=ln⁡(7×10⁹)≅22.7. Для сравнения, при = 1, для которого мы ожидаем NG~N^(2/3)=(7×10⁹)^(2/3 )≅3×10^6, мы имеем скачок на 5 порядков. И все же, в обоих случаях — в подкритическом режиме и критической точке — отношение количества узлов, которые содержит наибольшая компонента, к общему количеству узлов сети стремится к 0.

В итоге, в критической точке большинство узлов расположено во множестве малых компонент, размеры которых имеют распределение (3.36). Степенной закон указывает на то, что в сети присутствуют компоненты разных размеров. Множественные малые компоненты в основном представляют из себя деревья, в то время как большие компоненты могут содержать петли. Отметим, что многие свойства сети в критической точке похожи на свойства физической системы осуществляющей фазовый переход (Дополнительный материал 3.Е).

Сверхкритический режим: 〈k〉>1(p>1/N, Изображение 3.7г).

Данный режим является наиболее актуальным для моделирования реальных сетей, поскольку в нем впервые появляется гигантская компонента, которая имеет вид сети. В окрестности критической точки размер гигантской компоненты меняется по формуле

$\frac{{N_G }}{N} \sim \left\langle k \right\rangle - 1 \hspace{20 mm} (3 . 12)$

или

$N_G \sim (p - p_c )N \hspace{20 mm} (3 . 13)$

где величина pc задана по (3.11). Другими словами, гигантская компонента содержит существенную часть узлов случайной сети. Чем дальше мы продвигаемся за критическую точку, тем больше узлов входит в гигантскую компоненту. Отметим, что (3.12) имеет смысл только в окрестностях 〈k〉=1. Для больших 〈k〉 зависимость NG от 〈k〉 нелинейна (Изображение 3.7a).

Таким образом, в суперкритическом режиме множество изолированных компонент сосуществуют с гигантской компонентой и их размеры распределены как (3.35). Малые компоненты являются деревьями, в то время как гигантская компонента содержит петли. Суперкритический режим длится до тех пор, пока все узлы не войдут в гигантскую компоненту.

Связный режим: 〈k〉>lnN(p>lnN/N, Изображение 3.7д)

Для достаточно больших p гигантская компонента поглощает все узлы и компоненты, а следовательно NG≅N. С отсутствием изолированных узлов сеть становится связной. Средняя степень при этом начинает зависеть от N как (Дополнительный материал 3.Д)

$\left\langle k \right\rangle = \ln N \hspace{20 mm} (3 . 14)$

Отметим, что когда сеть переходит в связный режим, она все еще имеет низкую плотность связей, т.к. lnN/N→0 для больших N. Сеть становится полным графом только по достижении 〈k〉=N-1.

Таким образом, модель случайной сети предсказывает, что возникновение сети – это не плавный постепенный процесс: изолированные узлы и малые компоненты, наблюдаемые при малых 〈k〉 объединяются в гигантскую компоненту путем фазового перехода (Дополнительный материал 3.Е). Меняя значения 〈k〉 можно отметить 4 топологически различных режима сети (Изображение 3.7).

Приведенное выше обсуждение проводилось с практической точки зрения, удобной при сравнении случайных сетей с реальными системами. Взгляд на случайные сети с другой стороны, со всем её богатством и разнообразием приводится в математической литературе (Памятка 3.5).

Памятка 3.5. Эволюция сетей в теории графов

В литературе о случайных графах обычно предполагают, что вероятность связи p(N) увеличивается как N^z, где z – подбираемый параметр в диапазоне от -∞ до 0 [15]. При такой формализации Эрдёш и Реньи обнаружили, что с изменением z ключевые свойства случайных графов появляются довольно неожиданно.

Граф обладает свойством Q, если вероятность обладания Q стремится к 1 при N→∞. Т.е. для заданного z либо почти каждый граф обладает свойством Q, либо ни один из графов им не обладает. Например, для z меньших -3/2 почти все графы содержат только изолированные узлы и пары узлов, имеющих взаимную связь. Как только z превышает -3/2, большинство сетей будет содержать пути, соединяющие три и более узла (Изображение 3.8).

Эволюция случайных графов Пороги вероятности, при которых разные подграфы появляются внутри случайного графа, определяются экспонентой z в p(N)~N^z. При z<-3/2 граф состоит из изолированных вершин и ребер. Когда z проходит отметку в -3/2, появляются деревья порядка 3, а при z=-4/3 – порядка 4. При z=1 присутствуют деревья всех порядков, включая петли всех порядков. Полные подграфы порядка 4 появляются при z=-2/3, и с все большим и большим увеличением z, появляются полные подграфы все больших и больших порядков [19]. Изображение 3.8Изображение 3.8

Часть 3.7 Реальные сети - сверхкритические

Два предсказания теории случайных сетей имеют непосредственную важность для реальных сетей:

Как только средняя степень превысит значение 〈k〉= 1, должна появиться гигантская компонента, которая содержит существенную часть всех узлов. Т.е. только для 〈k〉> 1 узлы организуются в узнаваемую сеть.

Для 〈k〉> lnN все компоненты поглощаются гигантской компонентой, образуя единую полностью связную сеть.

Соответствуют ли реальные сети минимальному критерию существования гигантской компоненты, т.е. 〈k〉> 1? Будет ли эта гигантская компонента содержать все узлы при 〈k〉> lnN, или мы будем и дальше наблюдать изолированные узлы и компоненты? Чтобы ответить на эти вопросы, мы сравним структуру реальной сети при заданном 〈k〉 с теоретическими результатами, описанными ранее.

Эксперименты показывают, что реальные сети странным образом превышают порог в 〈k〉= 1. Действительно, социологи дают оценку, что в среднем человек имеет около 1000 знакомых; средний нейрон в человеческом мозге содержит порядка 7000 синапсов; в наших клетках каждая молекула участвует в нескольких химических реакциях.

Это заключение подтверждается в Таблице 3.1, которая отображает средние степени нескольких неориентированных сетей, каждая из которых имеет 〈k〉> 1. Таким образом, средняя степень реальных сетей значительно больше порогового значения 〈k〉= 1, что означает что каждая из них обладает гигантской компонентой. Что также верно для сетей, приведенных в Таблице 3.1.

Сеть	N	L	‹K›	lnN
Интернет	192,244	609,066	6.34	12.17
Энергосети	4,941	6,594	2.67	8.51
Научная коллаборация	23,133	94,437	8.08	10.05
Сеть киноактеров	702,388	29,397,908	83.71	13.46
Сеть взаимодействия белков	2,018	2,930	2.90	7.61

Таблица 3.1
Связны ли реальные сети?

Количество узлов N и связей L для неориентированных сетей, приведенных в Таблице 3.1, сопоставлены с соответствующими значениями 〈k〉 и lnN. Согласно прогнозу модели случайной сети гигантская компонента должна появиться в сети с 〈k〉> 1, а при 〈k〉> lnN все узлы должны стать её частью. Не смотря на то, что для всех сетей 〈k〉> 1, большинство значений 〈k〉 не превышает порог в lnN (См. Также Изображение 3.9).

Обратимся теперь ко второй части прогноза, проверяя – появилась ли единая компонента (т.е. 〈k〉> lnN), или же сеть раздроблена на множество компонент (т.е. 〈k〉< lnN). Для социальных сетей переход между сверхкритическим режимом и режимом полной связности должен происходить при 〈k〉> ln⁡(7×10⁹)≈22.7. Это означает, что если в среднем у каждого человека больше двух десятков знакомых, то случайное общество должно быть объединено в единый компонент, в котором никто не изолирован. При 〈k〉≈ 1000 это условие явно соблюдается. И все же, согласно Таблице 3.1 множество реальных сетей не удовлетворяют критерию полной связности. Следовательно, согласно теории случайных сетей такие сети должны быть раздроблены на несколько несвязных компонент. Это неутешительный прогноз для сети Интернет, поскольку это означает, что некоторые роутеры должны быть отсоединены от гигантской компоненты и не иметь возможности обмениваться информацией с другими роутерами. Аналогичная проблема возникает и с энергосетью, что означает, что некоторые потребители останутся без электричества. Такие прогнозы явно не соответствуют реальности.

Таким образом мы обнаружили, что большинство реальных сетей находятся в супер-критическом режиме (Изображение 3.9). Следовательно, для таких сетей прогнозируется наличие гигантской компоненты, что согласуется с наблюдениями. И все же, согласно прогнозу, эта гигантская компонента должна сосуществовать с множеством изолированных компонент, что не соответствует действительности для нескольких реальных сетей. Отметим, что эти прогнозы справедливы только для сетей, которые точно описываются моделью Эрдёша-Реньи, т.е. для реальных сетей, которые по-настоящему случайны. В следующих главах мы узнаем больше о структуре реальных сетей и поймем, почему реальные сети могут быть связными даже если они не удовлетворяют критерию 〈k〉> lnN.

Часть 3.8 Тесный Мир

Феномен «тесного Мира», также известный как шесть степеней отчуждения давно восхищает широкую публику. Он гласит, что если вы случайно выберете двух человек где угодно на Земле, вы обнаружите, что они связаны между собой не более чем через шесть знакомых (Рисунок 3.10). Тот факт, что люди, которые живут в одном и том же городе разделены лишь несколькими рукопожатиями друг от друга не является ни в коей мере неожиданным. Однако, концепция «тесного Мира» утверждает, что даже люди, которые находятся на другой стороне Земного шара могут быть связаны с нами через всего лишь нескольких знакомых.

Шесть степеней отчуждения
Согласно теории шести степеней отчуждения два человека из любой точки мира могут быть связаны между собой через цепь знакомых, которая состоит из не более чем шести звеньев. Это значит, что хотя Сара и не знает Питера, она знает Ральфа, который знает Джейн, которая в свою очередь знает Питера. Таким образом, Сара в трех рукопожатиях от Питера. На языке науки о сетях шесть степеней отчуждения также называют «свойством тесного Мира», что означает, что расстояние между любыми двумя узлами сети неожиданно мало.Изображение 3.10Изображение 3.10

На языке науки о сетях феномен тесного Мира подразумевает, что расстояние между двумя случайными узлами сети мало. Это утверждение поднимает два вопроса: Что значит малое расстояние, т.е малое в сравнении с чем? Как мы можем объяснить существование этих малых расстояний?

На оба вопроса можно ответить простым вычислением. Возьмем случайную сеть со средней степенью 〈k〉. Узел такой сети имеет в среднем:

〈k〉 узлов на расстоянии единица (d=1).

〖〈k〉〗^2 узлов на расстоянии двойка (d=2).

〖〈k〉〗^3 узлов на расстоянии три (d=3).

…

〖〈k〉〗^d узлов на расстоянии d.

Например, если 〈k〉≈1000, что равно, как считается, среднему количеству знакомых случайного индивидуума, то мы ожидаем 〖10〗^6 человек на расстоянии два или около миллиарда, т.е. практически все население Земли, на расстоянии три от нас.

Если быть точнее, математическое ожидание количества узлов на расстоянии d от изначального узла равно:

$N(d) \approx 1 + \left\langle k \right\rangle + \left\langle k \right\rangle ^2 + ... + \left\langle k \right\rangle ^d = \frac{{\left\langle k \right\rangle ^{d + 1} - 1}}{{\left\langle k \right\rangle - 1}} \hspace{20 mm} (3 . 15)$

N(d) не должно превысить полное количество узлов N сети. Таким образом, расстояния не могут принимать случайные значения. Мы можем определить максимальное расстояние dmax, или диаметр сети как

$N(d_{\max } ) \approx N \hspace{20 mm} (3 . 16)$

Полагая, что 〈k〉≫1, мы можем проигнорировать слагаемое «-1» в числителе и знаменателе (3.15) и получить

$\left\langle k \right\rangle ^{d_{\max } } \approx N \hspace{20 mm} (3 . 17)$

Следовательно, диаметр случайной сети удовлетворяет

$d_{\max } \approx \frac{{\ln N}}{{\ln \left\langle k \right\rangle }} \hspace{20 mm} (3 . 18)$

что и является математической записью феномена тесного Мира. Однако, вся суть в его интерпретации:

В изначальной форме (3.18) предсказывает масштабирование диаметра сети dmax вместе с размером системы, N. И все же для большинства сетей (3.18) предлагает лучшее приближение среднего расстояния между двумя случайно выбранными узлами, 〈d〉, чем приближение значения dmax (Таблица 3.2). Потому что несколько длины экстремальных путей часто доминируют над значением dmax, в то время как 〈d〉 является средним для всех пар узлов, что нивелирует все сильно отклоняющиеся значения. Таким образом, свойство тесного Мира определяется формулой $\left\langle d \right\rangle \approx \frac{{\ln N}}{{\ln \left\langle k \right\rangle }} \hspace{20 mm} (3 . 19)$ , которая описывает зависимость среднего расстояния в сети от N и 〈k〉.
В общем случае lnN≪N, поэтому зависимость 〈d〉 от lnN подразумевает, что расстояния в случайной сети на порядки меньше, чем размер сети. Поэтому под теснотой в «феномене тесного Мира» мы имеем в виду, что средняя длина пути, или диаметр сети зависят от размера сети логарифмически. Отсюда «малый» означает, что 〈d〉 пропорционально lnN, а не N или N в какой-либо степени (Картинка 3.11).
Множитель 1/ln〈k〉 подразумевает, что чем больше плотность сети, тем меньше расстояние между ее узлами.
Реальные сети систематически отклоняются от (3.19), что происходит из-за того, что количество узлов на расстоянии d>〈d〉 резко уменьшается (Дополнительный материал 3.Е).

Почему тесный Мир удивляют? Наше интуитивное представление о расстоянии основывается на нашем опыте взаимодействия с регулярными решетками, которые не обладают свойством тесного Мира:

1D: У одномерной решетки (линия длинной N) диаметр и средняя длина пути увеличиваются линейно с увеличением N:d_max ~〈d〉~N.

2D: У квадратной решетки d_max ~〈d〉~N^1/2.

3D: У кубической решетки d_max ~〈d〉~N^1/3.

4D: В общем, у решетки размерности d d_max ~〈d〉~N^1/d.
Такие полиномиальные зависимости предсказывают значительно более быстрый рост с ростом N, чем (3.19), что говорит о том, что в решетках длина пути значительно больше, чем в случайной сети. Например, в социальной сети, которая образует квадратную решетку (2D), у которой каждый человек знает только своих соседей, среднее расстояние между двумя людьми составляет (7×10⁹)^1/2 ≈ 83,666. Даже если мы учтем тот факт, что каждый человек имеет в среднем 1000 знакомы, а не четверых, среднее расстояние будет на несколько порядков больше, чем предсказывается формулой (3.19).

Рисунок отображает предсказанную зависимость 〈d〉 от N для регулярной и случайной сетей в линейном масштабе.

То же, что на (а), в логарифмическом масштабе.

Изображение 3.11Изображение 3.11

Давайте проиллюстрируем следствия формулы (3.19) для социальных сетей. Подставляя N≈(7×〖10〗^9) и 〈k〉≈〖10〗^3, мы получаем

$\left\langle d \right\rangle \approx \frac{{\ln 7 \times 10^9 }}{{\ln (10^3 )}} = 3.28 \hspace{20 mm} (3 . 20)$

Следовательно, все люди на Земле должны быть на расстоянии от трех до четырех рукопожатий друг от друга [20]. Оценка (3.20) вероятно ближе к настоящему значению, чем часто упоминаемые шесть степеней отчуждения (Памятка 3.7).

Мы знаем, что случайные сети обладают свойством «тесного Мира», включая результат (3.19), благодаря малоизвестной статье Манфреда Кохена и Итиэль де Сола Пула [20], в которой они сформулировали эту проблему математически и обсудили ее социологические следствия в деталях. Эта статья вдохновила хорошо известный эксперимент Милгрэма (Памятка 3.6), который в свою очередь вдохновил назвать этот феномен «шесть рукопожатий» или «шесть степеней отчуждения».

Несмотря на то, что свойство тесного Мира было обнаружено в социальных системах, оно находит свое применение за пределами социальных сетей. (Памятка 3.6). Для демонстрации этого факта в Таблице 3.2 мы сравниваем предсказания 3.19 со средней длиной пути 〈d〉 для различных реальных сетей и обнаруживаем, что несмотря на разнообразие сравниваемых систем и их существенные различия в терминах N и 〈k〉, (3.19) является хорошим приближением 〈d〉, наблюдаемого в экспериментах.

19 степеней отчуждения

Сколько переходов по страницам нужно совершить, чтобы попасть на случайно выбранную страницу в Интернете? Сложность ответа на этот вопрос заключается в том факте, что у нас отсутствует полная карта сети Интернет, у нас есть доступ только к маленькой ее части. Тем не менее, мы можем начать измерять среднюю длину пути, постепенно увеличивая размер доступной нам части сети. Такая процедура называется масштабированием в конечном пространстве. Измерения указывают, что средняя длина пути в Интернете увеличивается с размером сети как [21]

$\left\langle d \right\rangle \approx 0.35 + 0.89\ln N$

В 1999 году количество страниц в Интернете было оценено в 800 миллионов [22], для которых формула выше предсказывает 〈d〉≈18.69. Другими словами, в 1999 году две случайно выбранные страницы в среднем были на расстоянии 19 переходов, что породило название «19 степеней отчуждения». Последующие измерения на выборке из 200 миллионов страниц дало 〈d〉≈16 [23], что достаточно хорошо соответствует предсказанию 〈d〉≈17. На данный момент считается, что в Интернете содержится около триллиона узлов (N\10 ¹²), для которых формула предсказывает 〈d〉≈25. Таким образом, 〈d〉 с ростом сети не остается постоянным , как и расстояние между двумя страницами.

Средняя длина пути в 25 переходов гораздо больше общеизвестных 6 степеней отчуждения (Памятка 3.7). Легко понять, в чем причина такой разницы: в Интернете средняя степень узла меньше, а размер самой сети больше, чем у социальной сети. В соответствии с (3.19) оба этих различия увеличивают диаметр сети Интернет.

Таким образом, «тесный Мир» не только подогревает общественный интерес (Памятка 3.8), но и играет важную роль в науке о сетях. Феномен «тесного Мира» может быть достаточно хорошо понят в рамках модели случайной сети: он уходит корнями в тот факт, что число узлов на расстоянии d от данного узла возрастает экспоненциально с ростом d. В последующих главах мы увидим, что в реальных сетях встречаются систематические отклонения от (3.19), заставляя нас использовать другие более аккуратные формулы. И все же интуитивное объяснение феномена «тесного Мира», которое дает модель случайной сети остается верным.

Сеть	N	L	‹k›	‹d›	d_max	lnN/ln‹k›
Интернет	192,244	609,066	6.34	6.98	26	6.58
Всемирная сеть	325,729	1,497,134	4.60	11.27	93	8.31
Электросеть	4,941	6,594	2.67	18.99	46	8.66
Мобильные сети	36,595	91,826	2.51	11.72	39	11.42
Email	57,194	103,731	1.81	5.88	18	18.4
Сеть научного сотрудничества	23,133	93,437	8.08	5.35	15	4.81
Сеть актеров	702,388	29,397,908	83.71	3.91	14	3.04
Сеть цитирования	449,673	4,707,958	10.43	11.21	42	5.55
Метаболизм Кишечной палочки	1,039	5,802	5.58	2.98	8	4.04
Взаимодействия протеинов	2,018	2,930	2.90	5.61	14	7.14

Table 3.2
Шесть степеней отчуждения
Среднее расстояние 〈d〉 и максимальное расстояние d_max для 10 различных сетей. Последняя колонка отображает 〈d〉, вычисленное по (3.19), и показывает, что формула дает достаточно точное приближение измеренного 〈d〉. И все же, приближение не идеально, в следующих главах мы увидим, что (3.19) должна быть подкорректирована для многих реальных сетей. Для ориентированных сетей средняя степень и длина пути измеряются по направлению связей между узлами.

Шесть рукопожатий: экспериментальное подтверждение

Впервые феномен «тесного Мира» был исследован эмпирически в 1967 году, когда Стэнли Милгрэм, основываясь на работах Пула и Кохена [20], разработал эксперимент по измерению расстояний в социальных сетях [24, 25]. Милгрэм выбрал биржевого брокера в Бостоне и студента богословия из Шарона в Массачусетсе в качестве целевых узлов сети. Затем он случайным образом выбрал жителей Уичито и Омаха и отправил им письма с кратким описанием исследования, его цели, фотографии, имени, адреса и информации о целевых людях. Их попросили отправить письмо другу, родственнику, или знакомому, кто наиболее вероятно мог бы знать конечную персону.

В течение нескольких дней пришло первое письмо, которое прошло лишь через двух человек. В итоге, 64 из 296 писем вернулись, хотя некоторые из них при этом прошли около дюжины промежуточных звеньев [25]. Эти выстроенные цепочки позволили Милгрэму определить число людей, необходимое для доставки письма целевому человеку (Картинка 3.12 а). Он обнаружил, что медианное число посредников составило 5.2, что относительно мало и необыкновенно близко к догадке Фридьеша Каринти в 1929 году (Памятка 3.8). Количество цепей, Количество посредников В Мире, В США.

Шесть рукопожатий? От Милгрэма до Фейсбука

В эксперименте Милгрэма 64 из 296 писем дошли до адресата. Картинка отображает распределение длин завершенных цепей, показывая, что некоторым письмам было достаточно лишь одного посредника, в то время как другим потребовалось десять. Математическое ожидание распределения – 5.2, что означает, что в среднем требовалось совершить шесть «рукопожатий», чтобы письмо дошло до получателя. Драматург Джон Гуар назвал это «шесть степеней отчуждения» через пару десятилетий [25].
Распределение расстояний p_d попарно для всех пользователей Фейсбука по всему миру и отдельно в США. Используя параметры N и L для Фейсбука, (3.19) предсказывает, что средняя степень отчуждения составляет примерно 3.90, и не сильно отличается от полученных ранее 4 степеней [18].

Изображение 3.12Изобрвжение 3.12

У Милгрэма отсутствовали точные данные о всех знакомствах участников исследования, в результате чего его эксперимент не мог обнаружить настоящее расстояние между ними. Сегодня Фейсбук обладает наиболее полной картой социальной сети из когда-либо существовавших. Используя социальный граф Фейсбука, построенный в Мае 2011 года и состоящий из 721 миллиона активных пользователей с 68 миллиардами взаимных дружеских связей, исследователи обнаружили, что среднее расстояние между двумя пользователями составляет 4.74 (Картинка 3.12 б). Следовательно, исследование обнаружило лишь «четыре степени отчуждения» [18], что ближе к предсказанию (3.20), нежели к эксперименту Милгрэма с его шестью степенями [24, 25].

"Я спросил умного человека, сколько, по его мнению, потребуется людей, чтобы связать человека из Небраски и Шарона, и он ответил, что это потребует как минимум ста посредников.”

Стэнли Милгрэм, 1969

Часть 3.9 Коэффициент Кластеризации

Степень узла не содержит никакой информации об отношениях между его соседними узлами. Связаны они между собой или изолированы друг от друга? Ответ на этот вопрос дает локальный коэффициент кластеризации Ci, который измеряет плотность связей i-го ближайшего соседства данного узла: Ci=0 означает, что между i-ми соседями данного узла нет ни одной связи, в то время как Ci=1 означает, что все i-е соседи связаны между собой (Раздел 2.10).

Чтобы вычислить Ci для данного узла в случайной сети нам потребуется оценить математическое ожидание количества связей Li между его k_i соседями. В случайной сети вероятность, что двое из соседей i связаны между собой равна p. Так как всего может быть ki (ki-1)/2 возможных связей между ki соседями узла i, математическое ожидание L_i равно

$\left\langle {L_i } \right\rangle = p\frac{{k_i (k_i - 1)}}{2} \hspace{20 mm} (3 . 20)$

Таким образом, локальный коэффициент кластеризации случайной сети равен

$C_i = \frac{{2\left\langle {L_i } \right\rangle }}{{k_i (k_i - 1)}} = p = \frac{{\left\langle k \right\rangle }}{N} \hspace{20 mm} (3 . 21)$

Выражение (3.21) имеет два следствия:

(1) Для фиксированного значения 〈k〉 чем больше сеть, тем меньше коэффициент кластеризации узла. Как следствие, локальный коэффициент кластеризации заданного узла Ci должен уменьшаться пропорционально 1/N. Заметьте, что средний коэффициент кластеризации сети 〈C〉 также подчиняется (3.21).
(2) Локальный коэффициент кластеризации узла не зависит от степени узла.

Чтобы проверить верность (3.21), отобразим график зависимости 〈C〉/〈k〉 от N для нескольких неориентированных сетей (Картинка 3.13 а). Обнаруживается, что 〈C〉/〈k〉 не уменьшается пропорционально N^(-1), а в значительной мере не зависит от N, противореча (3.21) и вышеизложенному следствию (1). На Картинках 3.13 б-г также отображена зависимость C от степени узла ki для трех реальных сетей, которая показывает, что C(k) систематически уменьшается с уменьшением степени, также нарушая (3.21) следствие (2).

В заключение, мы обнаруживаем, что модель случайных сетей не охватывает кластеризацию реальных сетей. Напротив, реальные сети обладают гораздо более высоким коэффициентом кластеризации, чем ожидается для подобной случайной сети со схожими N и L. Расширение модели случайных сетей, предложенное Ваттсом и Строгацом [29], описывает сосуществование больших 〈C〉 и свойства «тесного Мира» (Памятка 3.9). Тем не менее, оно не позволяет объяснить, почему узлы с высокой степенью обладают меньшими коэффициентами кластеризации по сравнению с узлами с малой степенью. Модели, которые объясняют форму C(k), обсуждаются в главе 9.

Кластеризация в реальных сетях

Сравнение среднего коэффициента кластеризации реальных сетей с предсказаниями (3.21) для случайных сетей. Круги и их цвета соответствуют сетям из таблицы 3.2. Ориентированные сети были трансформированы в неориентированные для вычисления 〈C〉 и 〈k〉. Зеленая линия соответствует (3.21) и дает предсказание, что для случайной сети средний коэффициент кластеризации уменьшается пропорционально N^-1. В противоположность этому, для реальных сетей 〈C〉 оказывается независимым от N.

Зависимость локального коэффициента кластеризации C(k) от степени узла для б – Интернет, в – сеть научных сотрудников, г – сеть взаимодействий белков. C(k) измеряется путем усреднения значений локальных коэффициентов кластеризации всех узлов со схожей степенью k. Зеленая горизонтальная линия соответствует〈C〉.

Изображение 3.13.1Изображение 3.13

Модель Ваттса-Строгаца

Дункан Ваттс и Стивен Строгац предложили расширение модели случайных сетей (Картинка 3.4), мотивированное двумя наблюдениями [29]:

- Свойство «тесного Мира»

В реальных сетях среднее расстояние между двумя узлами скорее зависит логарифмически от N (3.18), чем следует полиномиальной зависимости, подходящей для регулярных решеток (Картинка 3.11).

- Высокая кластеризация

Средний коэффициент кластеризации реальных сетей гораздо выше, чем ожидается для случайных сетей со схожими N и L (Картинка 3.13 а).

Модель Ваттса-Строгаца (также именуемая «модель тесного Мира») задает промежуточную модель между моделями регулярных решеток, которая обладает высокой кластеризацией, но не имеет свойства «тесного Мира» и случайной сети, которая обладает низкой кластеризацией, но при этом имеет свойство «тесного Мира» (Картинка 3.14 а-в). Численные симуляции показывают, что для исчерпывающего количества параметров, которые изменяют связи узлов, средняя длина пути для этой модели мала, а коэффициент кластеризации высок, что и воспроизводит условия сосуществования высокой кластеризации и феномена «тесного Мира» (Изобрвжение 3.14 г).

Будучи расширением модели случайной сети, модель Ваттса-Строгаца предсказывает, что распределение степеней приближается к распределению Пуассона. И следовательно, узлы с высокими степенями, как те, которые показаны на Картинке 3.6 в нем отсутствуют. Более того, она предсказывает независимость C(k) от k и не способна уловить зависимость от k, наблюдаемую на Картинках 3.13 б-г. Как мы покажем в следующих главах, понимание сосуществования свойства «тесного Мира» с высокой кластеризацией должно иметь начало в определении правильного распределения степеней сети.

Модель Ваттса-Строгаца

Мы начинаем с узлов, формирующих кольцо, где каждый узел соединен с его непосредственными соседями. Таким образом, изначально каждый узел имеет ‹C› = 3/4 (p = 0).
С вероятностью p каждая связь перебрасывается на случайно выбранный узел. Для малых p сеть сохраняет высокую кластеризацию, но случайные связи между сильно удаленными узлами могут значительно снизить расстояния между узлами в общем.
Для p = 1 все связи переброшены и сеть становится случайной.
Зависимость средней длины пути d(p) и коэффициента кластеризации 〈C(p)〉 от параметра вероятности связей p. Заметьте, что d(p) и ‹C(p)› были нормализованы d(0) и ‹C(0)›, рассчитанными для регулярной решетки (т.е. для p=0 в (а)). Стремительное уменьшение d(p) извещает о проявлении феномена «тесного Мира». Во время этого уменьшения 〈C(p)〉 остается высоким. Таким образом, на промежутке 0.001 < p <0.1 малые длины путей и высокая кластеризация сосуществуют одновременно. Все графы обладают N=1000 и ‹k›=10, [29].

Изображение 3.14Изображение 3.14

Часть 3.10 Заключение: Реальные сети не случайны

С момента появления в 1959 году, модель случайных сетей доминировала среди математических методов по работе со сложными сетями. Модель предполагает, что сети, которые похожи на случайные и наблюдаются в сложных системах, следует рассматривать как исключительно случайные сети. Таким образом, сложность приравнивалась к случайности. Отсюда вытекает вопрос:

Действительно ли мы считаем, что все реальные сети случайны?

Разумеется, нет. Поскольку взаимодействия между белками подчиняются строгим законам биохимии, химическая архитектура функционирующей клетки не может быть случайной. Аналогично, в совершенно случайной социальной сети студент из Америки будет обладать большей вероятностью знать китайского рабочего, чем кого-либо из его одногруппников.

В реальности в большинстве сложных систем мы подразумеваем наличие глубокого внутреннего порядка. Этот порядок должен оказывать влияние на структуру сети, которая описывает её архитектуру, что, в свою очередь, должно приводить к систематическим отклонениям от исключительно случайной конфигурации.

Степень, с которой случайные сети могут или не способны описать реальные системы должна определяться не эпистемологическими аргументами, а систематическим численным сравнением. Мы можем это сделать благодаря множественным количественным предсказаниям, которые дает модель случайных сетей.

Распределение степеней

Случайная сеть обладает биномиальным распределением, которое хорошо аппроксимируется распределением Пуассона в пределах для k≪N. Все же, как показано на Картинке 3.5, распределение Пуассона не способно описать распределение степеней реальных сетей. В реальных системах присутствуют узлы, обладающие значительно большей связностью, чем можно учесть с помощью модели случайных сетей.

Связность

Теория случайных сетей предсказывает, что для 〈k〉>1 мы должны наблюдать гигантскую компоненту, условие, соблюдаемое всеми сетями, которые мы исследовали. Тем не менее, большинство сетей не удовлетворяют условию 〈k〉≫ ln N , подразумевая, что они должны распадаться на изолированные кластеры (Таблица 3.1). Некоторые сети действительно фрагментированны, но большинство – нет.

Средняя длина пути

Теория случайных сетей предсказывает, что средняя длина пути подчиняется (3.19), что дает достаточно точное приближение наблюдаемых длин путей. Таким образом, случайная сеть учитывает появление феномена «тесного Мира».

Коэффициент кластеризации

В случайной сети локальный коэффициент кластеризации не зависит от степени узла и 〈C〉 зависит от размера системы пропорционально 1/N. В противоположность этому измерения показывают, что для реальных сетей C(k) уменьшается вместе с уменьшением степени узла и не зависит значительно от размера системы (Картинка 3.13).

Все вышеперечисленное вместе означает, что феномен «тесного Мира» является единственным свойством, которое приемлемо объясняется моделью случайной сети. Все остальные характеристики сетей, начиная с распределения степеней и заканчивая коэффициентом кластеризации, значительно отличаются от реальных сетей. Расширение модели Эрдёша-Реньи, предложенное Ваттсом и Строгацом, успешно предсказывает сосуществование больших C и малых 〈d〉, но не способно объяснить распределение степеней и C(k). По сути, чем больше мы узнаем о реальных сетях, тем ближе мы подходим к потрясающему заключению, что нам не известна ни одна реальная сеть, которая бы точно описывалась моделью случайных сетей.

Такое заключение вызывает закономерный вопрос – если реальные сети не случайны, почему мы посвятили целую главу модели случайных сетей? Ответ прост: эта модель послужит важным эталоном по мере нашего продвижения в изучении свойств реальных сетей. Каждый раз, наблюдая какое-либо свойство какой-нибудь сети, мы будем задаваться вопросом – могло ли оно возникнуть случайно. Для этого мы превратим модель случайных сетей в руководство: если реальная сеть обладает свойством случайной сети, значит оно могло возникнуть случайно. Если случайная сеть не обладает каким-либо свойством, значит, что оно является признаком порядка и требует более глубокого объяснения. Итак, модель случайных сетей может быть плохой моделью для описания большинства реальных сетей, но она остается очень актуальной для науки о сетях (Памятка 3.10).

Случайные сети и наука о сетях

Расхождения между случайными и реальными сетями поднимает важный вопрос: Как теория сумела продержаться так долго, учитывая, что она так слабо согласуется с реальностью? Ответ прост: теория случайных сетей никогда не подразумевалась как модель реальных систем.

Эрдёш и Реньи пишут в своей статье [2], что случайные сети «могут быть интересны не только с чисто математической точки зрения. По сути, эволюция графов может считаться упрощенной моделью эволюции определенных коммуникационных сетей (железные дороги, дорожные или энергосети и т.п.) страны или ее области.» И все же, в череде из восьми статей под их авторством на эту тему [2-9] это единственное упоминание потенциальной практической ценности случайных сетей. Последующее развитие случайных графов было скорее движимо унаследованными математическими проблемами этой модели, чем ее практическим применением.

Интересна и точка зрения Томаса Куна о том, что теория сетей – это смена парадигмы от случайных графов к теории реальных сетей [30]. В действительности, парадигмы сетей до конца 1990-х не существовало. Этот период характеризуется отсутствием систематического подхода в сравнении свойств реальных сетей с теоретическими моделями графов.

Работа Эрдёша и Реньи приобрела известность за пределами математики только благодаря появлению теории сетей (Картинка 3.15).

Теория сетей не умаляет вклад Эрдёша и Реньи, а прославляет непреднамеренный вклад их работы. Когда мы обсуждаем расхождения между случайными и реальными сетями, мы по большей части делаем это в педагогических целях: чтобы предоставить лучшую базу, на основании которой мы сможем понять свойства реальных сетей.

Наука о сетях и реальные сети В то время как сегодня мы воспринимаем модель Эрдёша-Реньи как краеугольный камень теории сетей, раньше модель едва ли была известна за пределами маленького подраздела математики. Это хорошо иллюстрируют годичные индексы цитирования первых двух статей Эрдёша и Реньи, опубликованных в 1959 и 1960 [2, 3]. На протяжении сорока лет после их публикации статьи цитировались менее 10 раз в год. Число цитирований выросло лавинообразно после того, как первые статьи о безразмерных сетях [21, 31, 32] превратили работы Эрдёша и Реньи в эталонную модель теории сетей.Изображение 3.15Изображение 3.15

Домашнее Задание

Сети Эрдёша-Реньи

Имеется сеть Эрдёша-Реньи с N=3000 узлов, связанных между собой с вероятностью p=10^-3.

Каково математическое ожидание количества связей, 〈L〉?
В каком режиме находится случайная сеть?
Вычислите вероятность pc при которой сеть находится в критической точке
Для заданной вероятности p=〖10〗^(-3) вычислите количество узлов N^cr, для которого сеть обладает лишь одной компонентой.
Для сети (г) вычислите среднюю степень 〈k^cr〉 и среднее расстояние между двумя случайно выбранными узлами 〈d〉
Вычислите параметры распределения p^k для этой сети ( аппроксимируйте распределением степеней Пуассона)
Построение сетей Эрдёша-Реньи

Опираясь на модель G(N,p), сгенерируйте на компьютере 3 сети с количеством узлов N=500 и средней степенью (а) 〈k〉=0.8, (б) 〈k〉=1 и (в) 〈k〉=8. Визуализируйте эти сети.

Кольцевая сеть

Дана сеть с N узлами, расположенными на окружности так, что каждый узел соединяется с m соседними узлами с каждой стороны (следовательно каждый узел имеет степень 2m). Картинка 3.14 (а) показывает пример такой сети с m=2 и N=20. Вычислите средний коэффициент кластеризации 〈C〉 и средний кратчайший путь 〈d〉 этой сети. Для простоты считайте, что N и m выбраны так, что (N-1)/2m делится нацело. Что происходит с 〈C〉, когда N≫1? Что происходит с 〈d〉?

Дерево Кейли

Дерево Кейли – симметричное дерево, которое строится с корнями в центральном узле степени k. Каждый узел на расстоянии d от центрального узла имеет степень k, а крайние узлы на расстоянии P обладают степенью 1 и зовутся листьями (См. Изображение 3.16, на котором показано дерево Кейли с k=3, P=5).

Вычислите количество узлов, в которые можно попасть за t шагов от центрального узла.
Вычислите распределение степеней такой сети.
Вычислите диаметр d _max.
Найдите выражение для вычисления диаметра d_max по количеству узлов N.
Обладает ли такая сеть свойством «тесного Мира»?
Снобистская сеть

Дана сеть из N красных и N синих узлов. Вероятность связи между узлами одного цвета – p, а между узлами разного цвета – q. Сеть является снобистской, если p>q, что отражает тенденцию узлов устанавливать больше связей одного цвета. Для q=0 в сети есть не менее двух компонент, содержащих узлы одинакового цвета.

Вычислите среднюю степень «синей» подсети, состоящей только из синих узлов, а также среднюю степень всей сети.
Определите минимальные p и q, необходимые для наличия с высокой вероятностью лишь одной компоненты.
Покажите, что для больших N даже очень снобистские сети (p≫q) обладают свойством «тесного Мира».
Снобистские социальные сети

Рассмотрите следующую вариацию модели, описанной выше: мы имеем сеть из 2N узлов, состоящую из равного числа красных и синих узлов, при этом порция f из 2N узлов – фиолетовая. Синие и красные узлы не образуют связей (q=0), в то время как между собой они образуют связи с вероятностью p. Фиолетовые узлы связывается с той же вероятностью p как с красными, так и с синими узлами.

Мы называем красные и синие сообщества интерактивными, если обычный красный узел находится на расстоянии двух шагов от синего узла и наоборот. Оцените, какая часть узлов должна быть фиолетовой, чтобы красные и синие сообщества были интерактивными.
Опишите размер фиолетового сообщества, если средняя степень синих или красных узлов составляет 〈k〉≫1.
Каковы следствия из этой модели вытекают для структуры социальной (или других) сетей?

Дерево Кейли Дерево Кейли с k=3 и P=5.Изображение 3.16Изображение 3.16

Дополнение А. Получение Пуассоновского распределения

Для того чтобы получить Пуассоновское распределение степеней, начнем с точного биноминального распределения (3.7)

$\left( {\begin{array}{*{20}c} {N - 1} \\ k \\ \end{array}} \right) = \frac{{(N - 1)(N - 1 - 1)(N - 1 - 2)...(N - 1 - k + 1)}}{{k!}} \approx \frac{{(N - 1)^k }}{{k!}} \hspace{20 mm} (3 . 23)$

Характеризующего случайный граф. Перепишем первый элемент на правой стороне формулы как

$\left( {\begin{array}{*{20}c} {N - 1} \\ k \\ \end{array}} \right) = \frac{{(N - 1)(N - 1 - 1)(N - 1 - 2)...(N - 1 - k + 1)}}{{k!}} \approx \frac{{(N - 1)^k }}{{k!}} \hspace{20 mm} (3 . 23)$

Где для последнего значения k « N. Это последнее значение(3.22) может быть упрощено:

$\ln \left[ {(1 - p)^{(N - 1) - k} } \right] = (N - 1 - k)\ln \left( {1 - \frac{{\left\langle k \right\rangle }}{{N - 1}}} \right)$

Используя обобщение

$ln(1+x)=∑n=1∞(−1)n+1nxn=x−x22+x33−...,∀|x|≤1$

Мы получаем

$\ln \left[ {(1 - p)^{(N - 1) - k} } \right] \approx (N - 1 - k)\frac{{\left\langle k \right\rangle }}{{N - 1}} = - \left\langle k \right\rangle \left( {1 - \frac{k}{{N - 1}}} \right) \approx - \left\langle k \right\rangle$

для N » k. Это соответствует аппроксимации для небольших степеней в основе нашего рассчета. Таким образом последний элемент в (3.22) становится

$(1 - p)^{N - 1 - k} = e^{ - \left\langle k \right\rangle } \hspace{20 mm} (3 . 24)$

Соединяя (3.22), (3.23), и (3.24) мы получаем Пуассоновскую форму распределения степеней:

$p_k = \left( {\begin{array}{*{20}c} {N - 1} \\ k \\ \end{array}} \right)p^k (1 - p)^{(N - 1) - k} = \frac{{(N - 1)^k }}{{k!}}p^k e^{ - \left\langle k \right\rangle } = \frac{{(N - 1)^k }}{{k!}}\left( {\frac{{\left\langle k \right\rangle }}{{N - 1}}} \right)^k e^{ - \left\langle k \right\rangle }$

$p_k = e^{ - \left\langle k \right\rangle } \frac{{\left\langle k \right\rangle ^k }}{{k!}} \hspace{20 mm} (3 . 25)$

Дополнение Б. Максимальные и минимальные степени

Для определения степени для наибольшей степени узла в случайной сети, так же называемой верхним натуральным пределом сети, мы обозначим степень k_max, такую что для сети из N узлов будет существовать не более одного узла со степенью, большей чем k_max. Математически это означает что площадь под кривой Пуассоновского распределения p_k для k ≥ k_max должно равняться примерно 1 (Изображение 3.17). Так как площадь определяется как 1-P(k_max), где P(k) - кумулятивное распределение степеней p _k, наиболее связанному узлу сети соответствует:

$N\left[ {1 - P\left( {k_{\max } } \right)} \right] \approx 1 \hspace{20 mm} (3 . 26)$

Здесь мы используем ≈ вместо =, так как k_max - целое число, так что выражение не имеет решения в общем виде. Для Пуассоновского распределения

$1 - P(k_{\max } ) = 1 - e^{ - \left\langle k \right\rangle } \sum\limits_{k = 0}^{k_{\max } } {\frac{{\left\langle k \right\rangle ^k }}{{k!}}} = e^{ - \left\langle k \right\rangle } \sum\limits_{k = k_{\max } + 1}^\infty {\frac{{\left\langle k \right\rangle ^k }}{{k!}}} \approx e^{ - \left\langle k \right\rangle } \frac{{\left\langle k \right\rangle ^{k_{\max } + 1} }}{{(k_{\max } + 1)!}} \hspace{20 mm} (3 . 27)$

Где последний элемент выражения аппроксимируется к сумме его наибольшего значения.

For N = 109 and 〈k〉 = 1,000, roughly the size and the average degree of the globe’s social network, (3.26) and (3.27) predict kmax = 1,185, indicating that a random network lacks extremely popular individuals, or hubs.

We can use a similar argument to calculate the expected degree of the smallest node, kmin. By requiring that there should be at most one node with degree smaller than kmin we can write

NP(kmin−1)≃1(3.28)

For the Erdős-Rényi network we have

P(kmin−1)=e−⟨k⟩∑k=0kmin−1⟨k⟩kk!(3.29)

Solving (3.28) with N = 109 and 〈k〉 = 1,000 we obtain k_min = 816.

Минимальная и Максимальная степени графа Расчётная максимальная степень сети, k_max, выбирается таким образом, что может быть только один узел сети со степенью большей чем k_max. Эту метрику так-же часто называют натуральным верхним ограничением распределения степеней. Для её расчета, определим k_max таким образом, что площадь под кривой распределения p_k для k > k_max равна 1/N, т.е. расчётное количество узлов в этой области должно быть равно 1. Аналогично мы определяем расчётную минимальную степень сети, k_min.Изображение 3.17Изображение 3.17

Дополнение В. Гигантская компонента

В этом разделе мы введем новую переменную, предложенную независимо друг от друга Соломонофф и Раппопортом [11], и Эрдёшем и Реньи [2], - возникновение при〈k〉= 1 [33] гигантской компоненты.

Давайте определим u = 1 - N_G /N как часть узлов, не состоящей в гигантской компоненте (GC), размер которой вы определим как NG. Если узел i входит в GC, он должен быть связан с другим узлом j, который так-же принадлежит GC по определению. Таким образом, если i не принадлежит GC, из этого следует:

Связи между i и j нет (с вероятностью 1-p)
Либо связь между i и j есть, но j тоже не входит в GC (с вероятностью pu).

Таким образом, общая вероятность того, что i не входит в GC через j равна 1 - p + pu. Следовательно, вероятность того, что она не соединена с GC через любую другую компоненту равна (1 - p + pu)^{N - 1}, при N-1 узлах, которые могут связать i с GC.

Так как u - часть узлов вне GC, для каждого p и N решение формулы

$u = (1 - p + pu)^{N - 1} \hspace{20 mm} (3 . 30)$

Определяет размер гигантской компоненты через N_G = N(1-u). Учитывая что p=/(N-1) и взяв с каждой стороны логарифм, для << N мы получаем

$\ln u = (N - 1)\ln \left[ {1 - \frac{{\left\langle k \right\rangle }}{{N - 1}}(1 - u)} \right] \approx (N - 1)\left[ { - \frac{{\left\langle k \right\rangle }}{{N - 1}}(1 - u)} \right] = - \left\langle k \right\rangle (1 - u) \hspace{20 mm} (3 . 31)$

где для ln(1+x) мы использовали расширение серии.

При получении экспоненты по обе стороны мы получаем u = exp[- 〈k〉(1 - u)]. Если определим часть узлов входящих в GC как S, S = NG / N, тогда S = 1 - u и (3.31) соответствует

$S = 1 - e^{ - \left\langle k \right\rangle S} \hspace{20 mm} (3 . 32)$

Эта формула позволяет получить размер гигантской компоненты S как функцию от (Изображение 3.18). Хотя (3.32) выглядит аналогично, у него нет закрытого решения. Мы можем решить его визуально с помощью графика правой части (3.32) как функции S от различных значений . Для ненулевого решения, полученная кривая должна пересечь пунктирную диагональ, соответствующую левой части (3.32). Для небольших , две кривые пересекаются только для S=0, что означает что для небольших размер гигантской компоненты равен нулю. Не-нулевое решение появляется только когда превышает граничное значение.

Для того, чтобы определить значение , для которого мы получим не-нулевое значение, возьмем производное (3.32), — точка смены фазы окажется там, где правая сторона формулы (3.32) будет иметь ту же производную, что и левая, т.е. когда

$\frac{d}{{dS}}\left( {1 - e^{ - \left\langle k \right\rangle S} } \right) = 1$

При S=0, мы можем вычислить, что таковая точка смены фазы находится на =1 (см. Так-же ДОПОЛНЕНИЕ Д).

Графическое решение

Три пурпурные кривые соответствуют y = 1-exp[ -‹k› S ] для ‹k›=0.5, 1, 1.5. Зеленая штриховая диагональ соответствует y = S, пересечение пунктирной линии и кривых является решением для (3.32). Для ‹k›=0.5 существует только одно пересечение S = 0, что означает что гигантской компоненты не существует. Для ‹k›=1.5 кривая имеет пересечение на отметке S = 0.583 (зеленая вертикальная линия). Кривая ‹k› = 1 находится точно на критическом рубеже, и соответствует рубежу между двумя фазами - одной без гигантской компоненты, и одной с компонентой.

Расчетный размер гигантской компоненты для функции ‹k›, в соответствии с (3.32), по [33].

Изображение 3.18Изображение 3.18

Дополнение Г. Размер Компоненты

На изображении 3.7 мы исследовали размер гигантской компоненты, игнорируя другой важный вопрос: Сколько компонент мы расчитываем иметь для ‹k›? Каково их распределение размеров? В этом разделе мы отвечаем на эти вопросы.

Распределение размеров компонент

Для случайной сети вероятность случайного узла принадлежать компоненте размером s (не соответствующей гигантской компоненте G) равна [33]

$p_s \sim \frac{{\left( {s\left\langle k \right\rangle } \right)^{s - 1} }}{{s!}}e^{ - \left\langle k \right\rangle s} \hspace{20 mm} (3 . 34)$

Заменив ‹k›^s-1 выражением exp[(s-1) ln‹k›] и используя формула Стирлинга

$s! = \sqrt {2\pi s} \left( {\frac{s}{e}} \right)^s$

Для больших S мы получаем

$p_s \sim s^{ - 3/2} e^{ - (\left\langle k \right\rangle - 1)s + (s - 1)\ln \left\langle k \right\rangle } \hspace{20 mm} (3 . 35)$

Следовательно распределение размеров определяется двумя факторами: медленно уменьшающимся параметром степенным параметром s^-3/2 и быстро уменьшающимся экспоненциальным фактором e^{-(‹k›-1)s+(s-1)ln‹k›}. Учитывая доминантность экспоненциального параметра для больших s, (3.35) предсказывает отсутствие больших компонент. В критической точке, ‹k› = 1, все экспоненциальные факторы отменяются, и распределение соответствует степенному фактору

$p_s \sim s^{ - 3/2} \hspace{20 mm} (3 . 36)$

Так как степенной фактор уменьшается относительно медленно, в критической точке мы расчитывем наблюдать кластеры разнообразного размера, что соответсвует поведение систем при смене фаз (Дополнение 3.Д). Рассветы подтверждаются симуляциями, представленными на изображении 3.19.

Component Size Distribution Распределение размера компонент p_s в случайной сети, за исключением гигантской компоненты.

p_s для разных значений ‹k› и N, указывает на то, что при большом N p_s приходит к значениям, предсказанным (3.34).

p_s Для N = 104, для разных значений ‹k›. Хотя для ‹k› ‹ 1 и ‹k› › 1 распределение p_s имеет экспоненциальную форму, в критической точке ‹k› = 1 распределение соответствует степенному закону (3.36). Здесь зеленая линия соответствует (3.35). Первое количественное исследование распределения размеров компонент в случайных сетях было проведено в 1998 [34], предваряя всплеск интереса к сложным сетям.

Изображение 3.19Изображение 3.19

Средний размер компонент

Наш рассвет так-же показывает что средний размер компоненты (опять же, за исключением гигантской компоненты) соответствует [33]

$\left\langle s \right\rangle = \frac{1}{{1 - \left\langle k \right\rangle + \left\langle k \right\rangle N_G /N}} \hspace{20 mm} (3 . 37)$

Для ‹k› ‹ 1 гигантской компоненты не существует (NG = 0), следовательно (3.37) сводится к

$\left\langle s \right\rangle = \frac{1}{{1 - \left\langle k \right\rangle }} \hspace{20 mm} (3 . 38)$

Это выражение расходится при приближении средней степени к критической точке =1. Таким образом, при приближении к критической точке размер кластеров увеличивается, обозначение возникновение гигантской компоненты при ‹k› = 1. Эти предсказания подтверждаются симуляциями при больших N (Изображение 3.20).

Для определения среднего размера компонент при

‹k› › 1 используя (3.37), начнем с расчета размера гигантской компоненты. Этот шаг может быть исполнен независимо, указывая на уменьшение среднего размера кластера при ‹k› › 1, так как большинство кластеров поглотила гигантская компонента.

Заметьте что (3.37) предсказывает размер компонента соответствующего случайно выбранному узлу. Эта метрика неравноправна, так как шанс принадлежать большому кластеру выше, нежели маленькому. “Предвзятость” метрики линейно зависима от размера кластера s. При поправке на предвзятость, получим средний размер малых компонент, такой как если бы мы проверяли кластеры вручную, один за одним [33]

$\left\langle {s'} \right\rangle = \frac{2}{{2 - \left\langle k \right\rangle + \left\langle k \right\rangle N_G /N}} \hspace{20 mm} (3 . 39)$

Изображение 3.20 представляет подтверждение (3.39) через симуляции.

Дополнение Д. Фаза полного соединения

Для определения значения при котором большинство узлов оказываются включенными в гигантскую компоненту, рассчитаем вероятность того, что случайно выбранный узел не является членом ГК, что равняется (1-p)^N_G ≈(1-p)^N , так как в этой фазе N^G = N. Рассветное количество таких узлов равно

$I_N = N(1 - p)^N = N\left( {1 - \frac{{N \cdot p}}{N}} \right)^N \approx Ne^{ - Np} \hspace{20 mm} (3 . 40)$

, где мы аппроксимируем (1-x/n)ⁿ≈e^-x , что корректно при больших n. Если сделать p достаточно высокой, мы достигнем момента, при котором существует лишь один узел, не включенный в гигантскую компоненту. При этом условии I_N = 1, следовательно в соответствии с (3.40) p должно удовлетворять Ne-Np=1 . В соответствии с этим требованием, значение p , при котором мы переходим к фазе полного соединения равна

$p = \frac{{\ln N}}{N} \hspace{20 mm} (3 . 41)$

Из чего следует (3.14) для ‹k›.

Дополнение Е. Фазовый переход

Возникновение гигантской компоненты при ‹k›=1 в случайной сети - пример фазового перехода, феномена хорошо изученного в физике и химии [35]. Посмотрим на примеры:

Переход Вода-Лед (Изображение 3.21a): При высоких температурах молекулы H²O активно перемещаются, формируя небольшие группы и отделяясь, для того чтобы соединиться с в группу с другими молекулами. С охлаждением, при температуре 0˚C молекулы внезапно останавливают этот танец переходов, формируя упорядоченные и жесткие кристаллы льда.
Магнетизм (Изображение 3.21b): В ферромагнетиках, таких как железо, при высоких температурах спины направленны в случайных направлениях. При определенной критическое температуре T_c все атомы разворачиваются спинами в одном направлении, и металл превращается в магнит.

Замерзание жидкости и возникновение магнетизма - примеры фазового перехода, соответствующего переходу от хаоса к порядку. Действительно, по сравнению с упорядоченной структурой кристаллов льда, жидкая вода представляется достаточно хаотичной. Аналогично, случайно направленные магнитные оси атомов в ферромагнитных принимают упорядоченное состояние при T_c.

Многие свойства систем в течении фазового перехода универсальны. Это значит, что одни и те же количественные паттерны наблюдаются в широком спектре систем, от застывания магмы в камень, до керамических материалов, превращающихся в супер-проводники. Более того, вблизи точки перехода, называемой критической точкой , многие метрики ведут себя в соответствии со степенным законам.

Феномен, наблюдаемый около критической точки ‹k› = 1 в случайной сети во многом соответствует фазовому переходу:

Схожесть между Изображением 3.7а и диаграммой магнетизации на Изображении 3.21b неслучайна - обе показывают переход от хаоса к порядку. В случайной сети этот переход соответствует появлению гигантской компоненте при переходе через точку =1.
При достижении точки замерзания, мы наблюдаем кристаллы льда разнообразных размеров, как и в случае с группами атомов в ферромагнитах, ориентированных вместе. Распределение размеров кристаллов и атомов соответствуют степенному закону. Аналогично, хотя для ‹k› ‹ 1 и ‹k› › 1 размер кластеров соответствует экспоненциальному распределению, прямо в точке перехода p_s соответствует степенному распределения (3.36), означая существование компонент разнообразных размеров.
В критической точке средний размер кристаллов the ice crystals or of the magnetic domains diverges, assuring that the whole system turns into a single frozen ice crystal or that all spins point in the same direction. Similarly in a random network the average cluster size ‹s› diverges as we approach ‹k› = 1 (Image 3.20).

Фазовый переход

Фазовый переход Вода-Лед
Водородные связи, соединяющие молекулы воды вместе (пунктирная линия) слабы, постоянно рвутся и вновь соединяются, сохраняя частично упорядоченные локальные структуры (левая часть). Диаграмма температуры и давления (центральная часть) показывает, что при понижении температуры воды происходит фазовый переход от жидкого (пурпурная линия) к твердому (зеленая линия) состоянию. В твердом состоянии каждая молекула воды жестко связана с четырьмя другими молекулами, формируя ледяное кружево (правая часть). ссылка.

Фазовый переход Магнетизма
В ферромагнетических материалах магнитное поле индивидуальных атомов (спины) могут быть направлены в любом из двух направлений. При высоких температурах это направление определяется случайно (правая панель). В этом хаосе общая магнетизация системы (m = ΔM/N, где ΔM равно количеству спинов, направленных вверх минус количество спинов, направленных вниз) равно нулю. Фазовая диаграмма (центральная панель) показывает что при снижении температуры T, система претерпевает фазовый переход при T= T_c, приводящее к возникновению ненулевуму магнетизму. При дальнейшем понижении температуры T магнетизм m сводится к единице. В этом упорядоченном состоянии спины всех атомов направленны параллельно (левая панель).
Изображение 3.21Изображение 3.21

Дополнение Ж. Коррекция Маленького мира

Формула (3.18) предлагает только аппроксимацию диаметра сети, соответствующую большому N и маленькому d. Действительно как только ‹k›d достигает размера сети N , рост ‹k›d должен остановиться, так как для роста уже не хватает узлов. Как результат этого эффекта ограниченного количества происходит коррекция (3.18). Для случайной сети со средней степенью ‹k›, диаметр лучше аппроксимируется [36]

$d_{\max } = \frac{{\ln N}}{{\ln \left\langle k \right\rangle }} + \frac{{2\ln N}}{{\ln \left[ { - W\left( {\left\langle k \right\rangle \exp - \left\langle k \right\rangle } \right)} \right]}} \hspace{20 mm} (3 . 42)$

Где W-функция Ламберта W(z) равна основному обратному f(z) = z exp(z). Здесь первая переменная с правой стороны соответствует (3.18), в то время как вторая - корреляция, зависящая от средней степени графа. Такая поправка увеличивает диаметр, учитывая тот факт что при достижении диаметра сети количество узлов растет медленнее, чем ‹k›. Степень поправки становится очевидной, если мы учтем все ограничения (3.42).

В пределе ‹k› → 1 мы можем вычислить W-функцию Ламерта, определяя диаметр [36]

$d_{\max } = 3\frac{{\ln N}}{{\ln \left\langle k \right\rangle }} \hspace{20 mm} (3 . 43)$

Следовательно, в момент появления гигантской компоненты диаметр сети в три раза больше, чем мы предсказывали (3.18). Такое расхождение следует из того, что в критической точке ‹k› = 1 сеть имеет древовидную структуру, состоящую из длинных цепочек с минимальным количеством циклов, - конфигурацию, которая увеличивает d_max .

В пределе ‹k› → ∞ limit, соответствующем плотным сетям (3.42) становится

$d_{\max } = \frac{{\ln N}}{{\ln \left\langle k \right\rangle }} + \frac{{2\ln N}}{{\left\langle k \right\rangle }} + \ln N\left( {\frac{{\ln \left\langle k \right\rangle }}{{\left\langle k \right\rangle ^2 }}} \right) \hspace{20 mm} (3 . 44)$

Следовательно, при увеличении ‹k› , вторая и третья переменные пропадают и формула (3.42) сводится к (3.18).

Библиография

[1] A.-L. Barabási. Linked: The new science of networks. Plume Books, 2003.

[2] P. Erdős and A. Rényi. On random graphs, I. Publicationes Mathematicae (Debrecen), 6:290-297, 1959.

[3] P. Erdős and A. Rényi. On the evolution of random graphs. Publ. Math. Inst. Hung. Acad. Sci., 5:17-61, 1960.

[4] P. Erdős and A. Rényi. On the evolution of random graphs. Bull. Inst. Internat. Statist., 38:343-347, 1961.

[5] P. Erdős and A. Rényi. On the Strength of Connectedness of a Random Graph, Acta Math. Acad. Sci. Hungary, 12: 261–267, 1961.

[6] P. Erdős and A. Rényi. Asymmetric graphs. Acta Mathematica Acad. Sci. Hungarica, 14:295-315, 1963.

[7] P. Erdős and A. Rényi. On random matrices. Publ. Math. Inst. Hung. Acad. Sci., 8:455-461, 1966.

[8] P. Erdős and A. Rényi. On the existence of a factor of degree one of a connected random graph. Acta Math. Acad. Sci. Hungary, 17:359-368, 1966.

[9] P. Erdős and A. Rényi. On random matrices II. Studia Sci. Math. Hungary, 13:459-464, 1968.

[10] E. N. Gilbert. Random graphs. The Annals of Mathematical Statistics, 30:1141-1144, 1959.

[11] R. Solomonoff and A. Rapoport. Connectivity of random nets. Bulletin of Mathematical Biology, 13:107-117, 1951.

[12] P. Hoffman. The Man Who Loved Only Numbers: The Story of Paul Erdős and the Search for Mathematical Truth. Hyperion Books, 1998.

[13] B. Schechter. My Brain is Open: The Mathematical Journeys of Paul Erdős. Simon and Schuster, 1998.

[14] G. P. Csicsery. N is a Number: A Portait of Paul Erdős, 1993

[15] B. Bollobás. Random Graphs. Cambridge University Press, 2001.

[16] L. C. Freeman and C. R. Thompson. Estimating Acquaintanceship. Volume, pg. 147-158, in The Small World, Edited by Manfred Kochen (Ablex, Norwood, NJ), 1989.

[17] H. Rosenthal. Acquaintances and contacts of Franklin Roosevelt. Unpublished thesis. Massachusetts Institute of Technology, 1960.

[18] L. Backstrom, P. Boldi, M. Rosa, J. Ugander, and S. Vigna. Four degrees of separation. In ACM Web Science 2012: Conference Proceedings, pages 45−54. ACM Press, 2012.

[19] R. Albert and A.-L. Barabási. Statistical mechanics of complex networks. Reviews of Modern Physics, 74:47-97, 2002.

[20] I. de Sola Pool and M. Kochen. Contacts and Influence. Social Networks, 1: 5-51, 1978.

[21] H. Jeong, R. Albert and A. L. Barabási. Internet: Diameter of the world-wide web. Nature, 401:130-131, 1999.

[22] S. Lawrence and C.L. Giles. Accessibility of information on the Web Nature, 400:107, 1999.

[23] A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R. Stata, A. Tomkins, and J. Wiener. Graph structure in the web. Computer Networks, 33:309–320, 2000.

[24] S. Milgram. The Small World Problem. Psychology Today, 2: 60-67, 1967.

[25] J. Travers and S. Milgram. An Experimental Study of the Small World Problem. Sociometry, 32:425-443, 1969.

[26] K. Frigyes, “Láncszemek,” in Minden másképpen van (Budapest: Atheneum Irodai es Nyomdai R.-T. Kiadása, 1929), 85–90. English translation is available in [27].

[27] M. Newman, A.-L. Barabási, and D. J. Watts. The Structure and Dynamics of Networks. Princeton University Press, 2006.

[28] J. Guare. Six degrees of separation. Dramatist Play Service, 1992.

[29] D. J. Watts and S. H. Strogatz. Collective dynamics of ‘small-world’ networks. Nature, 393: 409–10, 1998.

[30] T. S. Kuhn. The Structure of Scientific Revolutions. University of Chicago Press, 1962.

[31] A.-L. Barabási and R. Albert. Emergence of scaling in random networks. Science, 286:509-512, 1999.

[32] A.-L. Barabási, R. Albert, and H. Jeong. Meanfield theory for scalefree random networks. Physica A, 272:173-187, 1999.

[33] M. Newman. Networks: An Introduction. Oxford University Press, 2010.

[34] K. Christensen, R. Donangelo, B. Koiller, and K. Sneppen. Evolution of Random Networks. Physical Review Letters, 81:2380-2383, 1998.

[35] H. E. Stanley. Introduction to Phase Transitions and Critical Phenomena. Oxford University Press, 1987.

[36] D. Fernholz and V. Ramachandran. The diameter of sparse random graphs. Random Structures and Algorithms, 31:482-516, 2007.