31 мая 2014 г.

Боты: Москва-Петербург

Прежде, чем перейти к третьей части исследования ботоводческой деятельности, надо, наверное, сделать небольшой исторический обзор для тех, кто не следил за развитием этой индустрии.

Те, кто в своё время читал слитую нашистскую переписку, а теперь вот эту АИИ-шную, отметили, что последняя по сравнению с Почтой Потупчик довольно скучная, такого жира в ней, на первый взгляд, нет. У Наших кипела жизнь, креатив пёр из ушей, денег было много и они их не жалели, поэтому желающих от этого пирога что-то получить, было много и они слали свои предложения. Да и за коммент тогда могли платить по 85 рублей, так что представьте, сколько бы зарабатывали ольгинские боты со своей нормой в 100 комментов в день. У Наших была движуха, но главное, они были хоть и циничные ребята, но относительно идейные, их верхушка была публичной, а мероприятия массовыми и заметными: всякие марши, селигеры, акции и пробеги во славу Путина. Это столичный менталитет: богато и напоказ. Политический гламур. Не случайно потом бывшие активистки Наших зажили ровно такой же московской светской жизнью: стали выезжать в Куршевель или в Европу на шопинг всей компанией. Для среднего активиста Наших участие в этой ботве было испытательным сроком, проверкой на лояльность, пройдя которую каждый надеялся получить какую-нибудь симпатичную должность и жить уже спокойной бюргерской жизнью. Не всем удалось, правда. Вот Василию Якеменко как-то не повезло с этим.

Это была Москва. А АИИ и Ольгино - это Питер. Здесь уже никакой движухи и креатива, да и идейность никак не декларируется, публичности никакой, это просто завод, да и денег не так уж много. То есть, на всю контору уходит порядочно, но сотрудники по московским меркам (я помню, тут был тред, является ли зарплата в 150 тысяч "средней" для сисадмина) получают посредственно. Люди в тупую производят комметарии и посты, более того, комментарии они даже не сами сочиняют, потому что выяснилось, что некоторые халтурят, а другие не читают текст, который комментируют и могут написать под казенным же постом какую-нибудь ерунду. Поэтому им спускались "ТЗ для блогеров", куда входил список ссылок для форсинга и заготовки для комментариев.


На заводе был свой контроль качества - все удаленные комментаторы должны были снимать скриншоты со своей писанины и отправлять куратору, на удаленке в основном работали ночные биороботы. Всё это внимательно читалось и подсчитывалось, в таблице отчета была графа "комментарии" и "истинные комментарии", под которыми подразумевались уникальные законченные предложения, а не копипаста и не односложные реплики вроде "заебали". В московских отчетах, а была еще небольшая группа в Москве, в таблицах попадались пометки к комментам "это не наши", то есть, комментарии нужного содержания, но написаны чужими биороботами.


Никакой идейной веры тут нет и в помине, людей набрали по объявлениям (да, по объявлениям!) и они просто делали свою работу за деньги, не задумываясь. Поэтому всегда помните, увидев такого бота у себя в треде, - ему на вас наплевать, он отрабатывает норму, никакой эмоциональной вовлеченности у него нет, ему платят не за срач, а за количество одиночных реплик.

Еще один аспект - они ведь не задумываются, что именно они делают. Вот  эти программисты, которые заняты написанием алгоритмов для определения содержания треда или генерации статей, они видят лишь интересную для них техническую задачу. Как аналитик, писавший отчет по комментам в западных форумах и на сайтах, ограничивает себя простым вопросом "удаляют ли здесь комменты со словами fuck и shit". Сплошная механика.

Информация о ботоферме в Ольгино выплыла не вчера. Впервые о ней написали в питерской газете "Мой район" в сентябре прошлого года. Дальше за них взялась "Новая газета", тем более, что "Конкорд" успел насолить СМИ (см. историю с "Форбсом", о которой подробно писала Лента.ру). А теперь вот аноны выкладывают их переписку, которая только подтверждает рассказанное в репортажах. Всего сейчас выложено три архива:

1. переписка Ольги Дзалбы, финансового директора АИИ. Переписка представляет собой отчеты, зарплатные ведомости, сметы по закупке оборудования, офисной мебели и ремонтных работ - всякая скучная финансовая документация, дающая представление о структуре и объеме организации.

2. переписка Игоря Осадчего (в основном). Отчеты по троллям, документация по другим проектам (та же "Америка"), аналитические отчеты и записки. Осадчий какая-то шишка в АИИ, Кстати, он там не единственный человек по фамилии "Осадчий". Игорь Осадчий, в частности, отвечает за расширение бизнеса на запад - организацию ботов в англоязычном ФБ (не поленитесь, скачайте там док по ссылке с раскладкой по фб-шным эккаунтам "План развития площадок на Facebook", он небольшой).

3. перписка Дениса Осадчего (Денис Осадчий в прошлом рядовой блогобот, пробившийся по службе) и Игоря Мангушева. Она касается странной операции по засылке своих людей в газеты и информагентства в качестве шпионов. О ней я расскажу позже.

Если сравнивать деятельность Наших и АИИ, то питерские чисто в производственном отношении эффективнее - затрат явно меньше, народу при этом занятого именно "работой" больше, контроль более жесткий, начальство, скажем, позволить себе может только поездку с женой в Рим (Наши жили на широкую ногу), хотя, как оказалось, верхушка приворовывала неслабо. На деле же деятельность всё равно бессмысленная: все эти отчеты, ТЗ и аналитические записки обламывались об конечного исполнителя, потому что он всё равно дебил и сама его работа дебильная. Сколько их не учи, не спускай им сверху указаний, они же всё равно перемещаются по сети "мелкими группами по 2 миллиона человек" - срут кучно и тупо, поскольку им платят за количество. Их наняли, чтобы они изображали людей, мол, текст будет человеческим, но он всё равно механический, а при такой кучности еще и сразу выдает происхождение этого мусора. Единственное, чего они могут добиться - это засрать тред. Но в половине случаев им надо создать позитивную картинку - видимость поддержки того или иного поста, а результат всё тот же - тред засран. Вот поэтому айти-отдел и возится с разработкой генераторов текстов, людям-то уже доверять нельзя, только портят всё, это и без платных троллей заметно на многих площадках:

2. Задача с комментариями-решение найдено, реализация сделана-за эту неделю тестим на "живых" комментах. Используем алгоритм поиска нечётких дубликатов, немного видоизмененный алгоритм шинглов. Есть идея написать полностью свой алгоритм, основанный на вычислении средневесовой характеристики текста, где по сути весом будет являться сумма весов всех слов, для этого в словаре синонимов будет проставлен вес не только для целевого слова, но и для синонимов, немного меньший. Алгоритм будет самообучающийся, для проверки будет использоваться модернизированый под короткие тексты алгоритм Шинглов+человек.
3. До среды планируем предоставить реализацию репостов в ЖЖ, немного закопались с этим заданием.
4. По генерации текстов-используется по сути обратный алгоритм шинглов, плюс перестановки. Алгоритм в перспективе также самообучающийся. В идее заложено поиск фраз в поисковых системах и выдергивание "похожих" по смыслу из запросов. Beta-релиз планируется в начале следующей недели (18-19 числа)


Я могу только заметить, что фантасты, мечтая об искусственном интеллекте, вряд ли думали, что развитие пойдет именно в эту сторону.

29 комментариев:

  1. Я сегодня порадовалась за Потупчик - наконец-то хоть куда-то пристроили девушку. Общественная палата это, конечно, не бог весть что, ну да хоть так.

    ОтветитьУдалить
    Ответы
    1. Да, мы еще с нежностью будем вспоминать её тёплый ламповый звук!

      Удалить
  2. читаю я про эту ферму, читаю и хуею (прастите, любое другое слово не отразит реального положения дел), дорогая редакция...

    ОтветитьУдалить
    Ответы
    1. В подмосковье тоже делом занимаются. Отсюда - vk.com/kiberdryzhina


      27 Мая 2014 года Кибердружина посетила подмосковный город Одинцово. Цель поездки – проверить ряд общественных мест на исполнение 436 ФЗ, а именно есть ли открытый wi-fi или нет, а если есть, то фильтруется ли? На обход 16 мест потребовался почти весь день. Удалось посетить 7 библиотек, 9 кафе.
      Результаты, в общем, должны порадовать!

      В библиотеках вообще нет wi-fi точек, что не может не радовать, ведь в библиотеку надо ходить читать книги, а не сидеть в интернете.
      Что касается кафе, то часть владельцев добросовестно исполняет закон. Например, местная сеть кафе «Луковка» вообще не имеет wi-fi точки. Почему спросят многие? – это наполовину детское кафе.
      Сеть кафе KFC – имеет открытый wi-fi, Но! Они поставили фильтр себе, и ребенок не найдет противоправной информации, подключившись к их сети.
      Самый злостный нарушитель – это сеть кафе Макдональдс и "Пронто". Что в октябре 2013 года, что 27 мая предоставляют не фильтрованный открытый доступ к сети интернет.

      А так же решили проверить интернет в автобусе. Как ожидалось - открытый не фильтрованный интернет.

      Результат проведения акции «Белый интернет» уже передан в прокуратору города Одинцово.

      Удалить
    2. Полный пинцет уже. Борцы с вай-фаем.
      Мне интересно, какого возраста "дети" имеются в виду? Есть какая-то спецификация на вот этого ребенка?

      Удалить
    3. уроды оруэлловских утопий.

      Удалить
    4. О, это уже не Оруэлл. Это Jasper Fforde в натуре: http://en.wikipedia.org/wiki/Shades_of_Grey_1:_The_Road_to_High_Saffron

      Удалить
  3. Этот комментарий был удален автором.

    ОтветитьУдалить
  4. Дежа вю. Даже в терминологии. В питерском филиале американской компании Artificial Life мы занимались разработкой ботов/аватаров, которые действительно смогли бы общаться с людьми. 15 лет назад. Для "просто программиста" эта задача может быть и интересной, но нерешаемой. Так же, впрочем, как и культивирование "человеко-ботов", способных к творческому процессу.

    ОтветитьУдалить
    Ответы
    1. Но Ольгино же не айти-компания, это детище пиарщиков, так что им всё внове. И потом в задачу их роботв не входит общение с людьми, а только написание комментов из одного-двух предложений, соответствующих теме поста. Потому что живые люди умудрялись и тут напутать.

      Удалить
    2. Задача, грубо говоря, в том, чтобы создать базу шаблонов, из которой псевдослучайным образом будут генерировать псевдоосмысленный текст. Эта база - ноу-хау, чтобы ее создать нужны знания и умения отсутствующие у "простого программиста" и тем более блоггера за 85 рупь. Дополнительный геморрой - морфология русского языка, с английским намного проще.
      Но, разумеется, никто там и не пытался решать задачу всерьез. Просто сферический фейк в вакууме.

      Удалить
    3. Создание искусственного интеллекта это задача создания модели релевантной не семантике, а смысловому и эмоциональному содержанию. Не вычислительной, а ассоциативной. Плюс на это все накладываются не менее сложные технические задачи - распознавание образов и тд. Текстовый смайл алгоритм еще может интерпретировать, а вставленный картинкой?
      А если мы начнем писать "капчей"? Всё, заело машину в Ольгино? :)

      Удалить
    4. [Тут должна стоять история про Ходжу Насреддина, учившего осла говорить.]

      Удалить
    5. читать, читать он его учил.

      Удалить
    6. 2corpuscula: Ну а тут они учат осла ПИСАТЬ, даже не заморачиваясь чтением...

      Удалить
  5. Остаётся надеяться, что другие светлые головы напишут алгоритмы как убивать такие каменты, и вообще технология борьбы с ботами и спамом шагнёт вперёд.

    ОтветитьУдалить
    Ответы
    1. Ну в общем более менее понятно как это делать. На комментариях уже выявленных крысяток тренируется bayesian network, которой затем скармливаются комментарии новых крысяток. Если по сумме нескольких десятков комментариев сетка Святого Бейза заявляет что комментатор - грызун, то его посты стираются, а сам грызун зОбанивается. Идентификация грызунов может происходить как по их никам, так и по исходным IP адресам или их пулам.

      Собственно, этот механизм может прихватить и не-пригожинских жывотных, но если Бейз сказал "крыса", то как правило крыса и есть.

      Удалить
  6. Я рискую показаться в глазах общественности полной лохушкой, но я упустила гланвый момент - откуда деньги на все это? Если, как я поняла из предыдущих постов, Путину-то это всё до лампочки, то кто же им деньги дает (государственные как я понимаю?) на этот бред? Тот самый Евгений Пригожин свои собственные деньги? Извините, если спрашиваю очевидное, но я несколько потерялась. Читать очень интересно, но что-то запуталась уже в конец.

    ОтветитьУдалить
    Ответы
    1. Получается, что Пригожин на свои. Ну тут как сказать, "на свои". Вот он получил заказ на снабжение армии харчами, представляете объем, или обеспечение школ обедами, а в качестве любезности вернул часть казенных денег в виде ботофермы. В виде предположения.

      Удалить
    2. Т.е. думаете там наверху Путин и Ко реально заказывают создание ботофермы? Мне все не верится, что он вообще в курсе, и что он вообще понимает что значит комментарии и блоги, и что он следит...

      Удалить
    3. В отчете Володина Путину это называется 'продвижением российской точки зрения на мировые события в интернете и сми'. Ботофермой врядли парят мозги даже Володину.

      Удалить
    4. Совершенно согласна с fms - там дается расплывчатая команда "обеспечить правильный информационный фон" и уже отдельно "вы, Иван Петрович, посодействуйте, мы знаем вас как хорошего организатора", а уж там Иваны Петровичи стараются, кто как может, но они тоже не велят "писать комментарии у Навального в ЖЖ", они говорят "есть пролбема, надо навести порядок в Интернете, вы знаете, какая обстановка там неспокойная, это ж прям война, так что Ваня и Петя, наймите ребят толковых и работайте"

      Удалить
    5. Да уж, интересно, но как они доказательства своей проделанной работы-то предъявляют, если Володина и выше даже не парят на тему комментариев и ботофермы? Можно же деньги себе забрать и через какое-то время сказать, мол, а вот, все сделали, продвинули российскую точку зрения. Не пойдет же Путин в самом деле в интернете проверять :)

      Удалить
    6. Это многоступенчатая система, чем выше уровень - тем больше обобщение. На самой нижней ступени сидит несчастный куратор ночной смены, который читает и считает всё. Над ним еще один контролёр (в письме упоминалось, что "благодаря некоторым у нас теперь внешний контроль"), дальше уже оценки все более абстрактные, но подкреленные цифрами - "налажена работа в жж, охвачно 120 площадок, из которых 35 - топовых", "создано и успешно продвигается 200 групп в Вконтакте общей численностью 100 тысяч человек" и так далее. Еще выше приходит отчет "сформировано инофрмационное ядро в основных соцсетях, охват - 2 млн человек", а уже куда-то совсем наверх доходит полторы строчки "успешно проведена информационная кампания по правильному освещению событий в мировых соцсетях". Путину, и даже Володину, ничего проверять не надо, под ними целый полк проверяющих, которые кормятся с этого.

      Удалить
    7. В крайнем случае, на вопрос "а что эти х#$сосы вообще делают?" Государю предъявляется россыпь веб-страниц, усеянных одобрительными мнениями народа о Его деятельности. Просто, показательно, создает положительную картину деятельности подчиненных.

      Удалить
    8. Спасибо за разъяснения, теперь хоть понятна вся картина.

      Удалить
  7. Этот комментарий был удален автором.

    ОтветитьУдалить

Здесь иногда пропадают комменты - это баг.