среда, 3 декабря 2008 г.

Закон Ципфа

Закон Ципфа – это еще одно свидетельство того, что все в этом мире подчиняется единому порядку, проявления которого можно наблюдать в широком спектре, казалось бы, не связанных событий.

Лингвист Георг Ципф в 1949 году эмпирическим путем установил, что распределение слов в книгах, газетах, журналах всегда следует одной и той же модели.

В своей работе Ципф показал, что частота появления слов, например в книге, обратно пропорциональна его рангу. Другими словами, второе в списке самых часто употребляемых слов будет употребляться в 2 раза реже, чем первое. Соответственно, четвертое – в два раза реже, чем второе, и т.д.


Команда исследователей из Федерального Технологического института в Цюрихе решила проверить вышеописанную теорию на примере дистрибутива Debian Linux. Над его созданием трудятся более 1000 добровольцев со всего мира, и если в начале 1996 года в дистрибутив входило 474 пакетов, то сейчас их более 18 тыс. Как объяснили участники эксперимента, экосистема Linux-дистрибутивов постоянно меняется: появляются новые пакеты, старые исчезают. В этом можно проследить аналогию со словами в языке. И эта аналогия была подтверждена практически, только вместо частоты употребления слов учеными использовались данные о количестве зависимостей у входящих в Debian пакетов.

Используя имеющиеся данные по Debian Linux, исследователи вывели следующую закономерность: если пакеты расположить в порядке возрастания числа их зависимостей, то для конкретного пакета это число будет прямо пропорционально его порядковому номеру. В добавление к этому, средний прирост числа зависимостей для выбранного пакета является функцией квадратного корня от времени, а увеличение зависимостей за период времени пропорционально этому периоду.

Комментариев нет: