[info]singpost


Руслан Еникеев


Previous Entry Add to Memories Share Next Entry
Очень странно
[info]singpost
Единая Россия набрала всего 50%, а все орут и протестуют так, как будто она набрала все 90.

UPD С подачи [info]m_i_x_u_s решил проверить занимательные картинки благо задача несложная и данные можно легко скачать. Как и во всех задачах, связанных с обработкой данных, самый важный момент - интерпретация. Зачастую, даже после очень тщательного анализа очень сложно однозначно утверждать что-нибудь и делать какие-либо выводы. Но время потрачено, а получить результат очень хочется. Тогда в ход идут самые слабые доказательства, а все что мешает попросту игнорируется. Если очень нужно что-то найти, то данные и графики почти всегда можно повернуть под нужным углом и впарить доверчивой публике (привет маркетологам!).

В оригинальной картинке мы видим зубчики Единой России, которые якобы показывают сознательное округление истинных результатов в пользу ЕР. Также говорится что форма кривой ЕР также доказывает фальсификации.



Если отвлечься от вопроса неужели они там на местах действительно настолько глупы что мухлюют до красивых круглых значений, то остается два утверждения: кривая должна быть гауссовой и зубчики около круглых значений свидетельствуют о фальсификации. Нисколько не сомневаясь в "честности" прошедших выборов, попробуем разобраться с этими двумя утверждениями.

1) Кривая не обязательно должна быть четко гауссовой. Истинной величины, на которую наложен шум, здесь не существует. Россия слишком большая страна чтобы мы получали идеальную картинку. Когда товарищи приводят "вот типа если будем мерить рост то получим гауссову кривую значит и здесь все должно быть точно также", они подменяют одно другим. Я почти уверен, что для такой большой страны как Россия, мы не получим гауссово распределение, т.к. Россию населяют много народов и каждого из них свой средний рост. Как минимум мы получим два бугра: женщины и мужчины. Так же и с выборами. Хрен его знает что у них там происходит на Кавказе (деньгами обожрались, почему бы и не поддержать всем скопом) и на дальнем востоке и в других регионах. Поэтому кривая вполне может отличаться от идеального гауссиана из учебника.

2) Зубчики. Я воспроизвел результаты для интервалов 0.1%, 0.5% и 1%

На первой картинке при 1% зубчиков почти не видно, кривые вполне себе адекватные.

На второй картинке при 0.5% видно несколько зубчиков, особенно у ЕР при 50%. Но почему-то все не так 
красиво как на оригинальном графике. Почему, я не знаю, возможно я допустил где-то ошибку.

И наконец третий, самый зубастый график:

здесь зубчиков много, и в основном они соответствуют круглым красивым значениям. 



или значениям 100/3, 100* 2/3:


Я не знаю с чем это связано. По идее так быть не должно. Но сказать однозначно, что эти зубчики свидетельствуют о подтасовсках в пользу ЕР, на мой взгляд, нельзя. Они есть и у других партий:


Напоследок Большая картинка для любознательных

Вывод: в пределах нашего исследования нельзя сказать однозначно, были ли подтасовки в пользу ЕР или другой политической партии или нет. 

Интуиция подсказывает "скорее всего да", но использовать сомнительные результаты в качестве доказательства, значит уподобляться этим самым чиновникам, которые "исправляют" результат в свою пользу.

Я считаю, что самое адекватное объяснение этих непонятных зубчиков, кроется не злом умысле, а в теории чисел. При делении целых чисел, красивый округленный результат будет получаться чаще чем страшненький некруглый. Например 50% можно получить поделив 1 на 2, 3 на 6, 2 на 4, 5 на 10, 7 на 14, а 42.8...% только если поделить 3 на 7. 

Для примера, вот такой график мы получим если на участке в среднем 600 человек (приблизительно соответствует среднему числу проголосовавших на каждом УИКе) и в среднем половина проголосовала "ЗА" (это числитель):


Четко видны зубцы при круглых значениях, а особенно при 50%. Т.е. красивые круглые значения получаются чаще даже на случайных данных. Будьте внимательны: этот график (как и все остальные выше) показывает сколько участков показали тот или иной результат. Например, ~1000 участков показали результат 20%, приблизительно 3000 показали результат 50%. Данные случайны, но если усреднить результат по всем участкам получим 50%. Проще говоря в целом по стране будет 50% за, но если брать каждый участок по отдельности, то результат будет тяготеть к красивым круглым значениям, потому что они чаще получаются при делении.

UPD Товарищи подсказывают что на больших масштабах эффект должен пропадать, но это не так. На больших массивах эффект ни куда не девается. Он зависит только от чисел в знаменателе и числителе, т.е. сколько проголосовало за партию делить на сколько всего проголосовало. Если бы на каждом участке голосовало по 10000 человек, эффект бы исчез. Данные показывают, что среднее число проголосовавших по всем участкам = 666 это знаменатель, числитель всегда меньше (хотя у Чурова вроде проскакивала цифра больше 100% o_O) При таких значениях эффект очень даже заметен. См. график выше. На более мелком уровне, эффект будет еще более заметен, так что нечему удивляться. К тому же, около трети УИКов показывают число проголосовавших меньше 300, они будут вносить большой вклад в зубцы на красивых значениях на общем графике.

UPD2 Часто можно услышать выборы в России не подчиняются статистике (а потому сфальсифицированы). Почему вообще результаты выборов должны "подчиняться статистике"? Что люди имеют ввиду, когда так говорят? Статистика описывает, но не диктует. Многие почему-то забывают об этом. Собрали голоса, применили методы, посмотрели на графики, можно задавать вопросы почему так получилось. Например, почему у ЕР так много УИКов >90%? Копнули, проверили, ага Кавказ так голосует. Почему он так голосует вопрос уже другой и статистика тут не причем и т.д. Нельзя утверждать что мы должны были получить картинку из учебника, а получили совсем другое значит нас обманывают (наоборот правда тоже нельзя). Статистика помогает задать вопросы и разобраться в данных, а вот искать ответы нужно в источнике данных, тут статистика не поможет.

Потому что она набрала 25-30%

Ты любишь математику, вот математика от ЦИКа:
http://lleo.me/dnevnik/2011/12/07_gauss.html

Математику я люблю. Попробую воспроизвести эти графики

Там в обсуждении проскакивала мысль (можно у автора графика спросить) что считается не процент от проголосовавших, а процент от списочной численности.
Попробуйте пересчитать так.

(Deleted comment)
А при бин 0.5 (как у автора графика) можно посмотреть крупный план?

(Deleted comment)
Думаю, стоит спросить у него самого - вроде очень адекватный человек.
А все-таки по такому расчету зубчики (пусть и не такие красивые) есть только у ЕдРо :-)

Да зубчики то есть, и вполне возможно они даже свидетельствуют о фальсификациях. Но однозначно утверждать я бы не стал.

Спрошу

http://pics.livejournal.com/singpost/pic/000230yf исправленная картинка. Автор подсказал что делить надо на сумму действительных и недействительных бюллетеней. Все остальные картинки тоже исправил

Спасибо огромное за проверку!


по нескольким партиям, чтоб сравнить?

Теперь зубчики совсем плохо видны стали...

О! Если нетрудно - подсчитайте по Москве только.
Судя по другим источникам - там наибольшее количество подтасовок было.
Очень интересно сравнить картинки.

Еще одна очень красивая картинка о природе антизубчиков :-)
http://oude-rus.livejournal.com/545739.html

Я, честно говоря, не очень это все понимаю, про зубчики я вообще ничего не понял, ни в первоисточнике, ни тут, но что-то мне подсказывает, что такого спада, как на этих графиках быть не должно. А так, убедительно рассуждаешь :)

С точки зрения мат. статистики возможно, что у одной из семи партий которая набрала (допустим, что это так) 50% по всему множеству (т.е. примерно 50 млн.) в одном из регионов был бы процент 96%?
И возможно ли что на двух соседних участках, которые находятся на одной улице, через дорогу друг от друга были бы результаты за одну из партий 70% и 25% соотв.?

вот еще товарищь математикой увлекается: http://kobak.livejournal.com/101512.html

Посмотри пожалуйста апдейты в конце поста. Я их переписал немного чтобы понятнее было. Там и ответ на твой вопрос.

ну вот хотя что то вразумительное написал
а вообще я соменваюсь что ближайшие лет 20 выборы в россии будут подчиняться статистике
ибо есть слишком много факторов, опять же агитации, голосование коллективами и тд
голосование дотационными республиками )

а насчёт зубчиков может просто спуститься до конкретных участков и посомтреть какие там цифры.
кстати у американцев есть такие графики?

высмысле
хоть кто то вразумительное написал, а не стал кричать ПОЖАР

Спасибо. Сначала писал вам а потом решил в пост добавить чтобы всем. Посмотрите UPD2 пож.

Да интересно было бы американские выборы прошерстить, я почти уверен у них такие же зубчики. Я искал немножко но не нашел.

У Подмосковника вышла статья в газете ру.
Там данные не по американцам, но по европейцам. У них все нормально.
http://www.gazeta.ru/science/2011/12/10_a_3922390.shtml

Да, интересно. Зубчиков почти не видно и распределения у них красивее. Правда у нас на бине 1% тоже зубчиков почти не видно. Но разница между их картинкой нашей все равно огромна.

Кстати сам автор никогда не утверждал что эти графики что-либо доказывают. Это уже потом разнесли все его график к себе в жежешки и наделали выводов.

Радует что у людей проснулся интерес к выборам и к математике. Очень хороший знак! #Спасибо Путину за это!

А Вы не могли бы написать, как в точности Вы получили картинку со смоделированными данными? Сколько было участков, с каким распределением Вы выбирали их размер, явку, голоса за ЕР и т.д.?

A и B случайные числа равномерно распределенные в диапазоне от 1 до 600. На графике показано распределение их отношения A/(A+B).

Т.е. это совсем не моделирование именно выборов, а просто график показывающий что при делении целых чисел "круглый" (особенно 50%) результат встречается чаще.

Спасибо огромное!

Я разобрался в ситуации и могу утверждать наверное, что пики на графике результатов ЕР -- это не артефакты. Вот, посмотрите: http://kobak.livejournal.com/102646.html


Предложение

[info]prohogu

2011-12-13 08:39 am (UTC)

Спасибо за столь подробные выкладки, было интересно почитать.

Делителей кратных 2 или 3 гораздо больше, поэтому очень странно,
что выделены именно числа с бином 5%.
У таких чисел выделенность чисто психологическая.

Можно предложить Вам сделать еще одну, на мой взгляд интересную, проверку?
Постройте, пожалуйста, для каждой пары партий двухмерное распределение:
% полученный одной в зависимости от % полученного другой.

А я прокомментирую полученный результат :)

Re: Предложение

[info]singpost

2011-12-14 01:52 am (UTC)

Да, интересное замечание. Делители кратные 2 дают всплески на четных процентах и особенно на 50%. Тройки дают особенно 33% и 66%... Пятерки это... Сложно очень стало, нужно серьезно ковыряться, а времени нет. Даже если расковырять все по полочкам, то это будет доказательством только для противников ЕР, а они и так уверены. Для всех остальных это будет всего лишь малопонятное ковыряние в числах.

Re: Предложение

[info]prohogu

2011-12-14 05:54 am (UTC)

Да, понимаю насчет отсутствия времени и достаточной мотивации.
Поэтому можем теоретически обсудить поведение такого двухмерного распределения.

Если пики на "красивый" числах есть следствие правильных дробей, то они
независимы для каждой партии, а значит при мелком бине мы увидим решетку, типа:
...|...|...
-----------
...|...|...
-----------
...|...|...

Если же были приписки, то для каждого участка менялось не только значение ЕР,
но и как минимум еще одной партии, у которой голоса забирались,
и след-но на двухмерном распределении будут узлы на "красивых числах":
...........
...*...*...
...........
...*...*...
...........

Надеюсь, идея понятна.

Re: Предложение

[info]singpost

2011-12-14 06:09 am (UTC)

Да, я понял вашу идею. Может найду время и мы посмотрим на эти узоры.

Руслан, вы исходите из того, что мы играем по честному. Я видел пачки вбросов за своем участке, я знаю, что был вброс перед голосованием на соседнем участке, я знаю, как писали протокол на участке, где наблюдал мой друг. Я видел пачки жалоб в штабе Яблока. Поэтому я исхожу из того, что нам обманули. По своей малой выборке.

Давайте вернемся к деталям.
Вот район Северное Тушино
https://ruelect.com/ru/?panel=uik&uik_id=87243
На УИК 2850 было 2004 избирателя, было 883 действительных бюллетеня, за едро 227
На УИК 2851 было 2563 избирателя, было 1819 действительных бюллетеня, за едро 935

Эти участки находятся в одном помещении, обслуживают 1 схожий район. У нас тут нет негритянских гетто, чеченских аулов, элитных поселков и прочих элементов сопротивляющихся ЦПТ.

Я задаю вам вопрос
Чем вы объясните такую разницу в результатах?

Мой ответ
На участке 2851 был активный наблюдатель, который не позволил фальсифицировать протокол. На участке 2850 был вброс приблизительно 650 бюллютеней, так как именно на эту величину увеличилась и явка и результат едра. Если вычесть эти 650 бюллютеней из результатов 2850, то получится та же явка, тот же процент едра.

> Чем вы объясните такую разницу в результатах?

Я не знаю.

Как это связано с пиками на круглых значениях процентов? Мой пост был об этом.

И как ни странно практически точно такой же результат для КПРФ! С точностью до процента.

Цитата: "Но сказать однозначно, что эти зубчики свидетельствуют о подтасовсках в пользу ЕР, на мой взгляд. Они есть и у других партий".

Мне кажется, Вы заблуждаетесь. Нельзя приписать "красивую" цифру одной партии не подрезав "красиво" значения у конкурентов. Хотя если голосуют 146% избирателей - то, конечно, Вы правы.

You are viewing [info]singpost's journal