Data Adventures

247
Статистика
Статистика
247
Статистика темы
  • Популярность
    Топ-56
  • Постов
    521
  • Просмотров
    80,311
  • Подписок
    247
  • Карма автора
    +4,149
Лучшие посты автора
Лучшие посты читателей
1 4 22 23 24 25 26 27
Какие темы вам наиболее интересны?
  • MTT
    27%
    4
  • NLH cash
    13%
    2
  • Omaha
    13%
    2
  • Spins
    0%
    0
  • "Философские"
    47%
    7
  • frozenatra

     

    Ответить Цитировать
    95/95
    + 2
  • c00l0ne @ 01.04.24 

    0-1 не читал 2 мельком

    Основной текст в 3-4

    Всё правильно сделал :) 

    Почему зафиксирована именно такая структура софта: Аля типа как там флопзилла, честно пару раз видел но сам не открывал , не сильно интересно, в эпоху сильных солверов... Но я особо покером не интересуюсь ...

    Вот в этом и проблема. Когда сильно интересуешься улучшением игры, то потребности в софте меняются. Сейчас есть дурной тренд на "сильные солверы" и нет возможности решать практические задачи связанные с игрой

    Но почему это выглядеть должно именно так?

    Не должно. просто пример. Общая идея это перевод диапазонов омахи, которые трудно визуализировать в какую-то более легко визуализируемую форму. В современном научном подходе это называется "когнитивой графикой". Визуализировать надо всё. Попадание диапазонов, сами диапазоны, диапазон vs диапазон и т.д. Наш мозг не создан чтобы воспринимать длинные таблицы, единственный шанс его продолжать использовать это подавать ему информацию в более воспринимаемом формате (карты, графы, схемы).

     

    c00l0ne @ 01.04.24 

    я выше  давал идею про атомные фичи, делал что нибудь в этом направлении?

    Скинь ссылку. я уже потерялся в тексте блога

    Ответить Цитировать
    238/257
    + 0
  • awakening @ 01.04.24 

    SnowBeaver, у меня немного опыта в омахе, но создалось впечатление, что в холдеме фиш 60+впип значит "точно заливной фиш". А вот в омахе не значит - если фиш старается собирать натсы, он может и с лютыми статами заливать не так много и не покрывать рейк. Так что я бы сделал какой-то норм расчет ожидания со стола в зависимости от стат и рейка

    Я так вижу мотивацию становиться регом в омахе, а не в холдеме: 

     

    1. В холдеме невероятно легко раздевать фишей, но с равным оппонентом ты месишь рейк. Даже если можешь эксплуатировать, то скорее всего слишком слабо чтобы имело смысл с ним играть. Все уже научились игре достаточно хорошо.

     

    2. В омахе сложнее раздеть фиша, но при этом ты можешь получить довольно высокий edge против более слабых регуляров. А так как долбить ты будешь в итоге в полях с реглярами, то в долгосрочной перспективе выживания омаха лучше. В ней всё ещё можно перейти планку 10бб/100 профита после уплаты рейка. Топовые игроки занимаются тем, что детально эксплойтят других регов. Бамхантят конечно тоже, но эта игра представляет высокую планку, которую всегда можно ещё немного поднять в своей игре. Я вообще не понимаю тех кто в 2024 решает начать учить холдем как способ заработка.

    Ответить Цитировать
    239/257
    + 1
  • HuanXIV @ 01.04.24 

     

    3. Есть еще один калькулятор для Омахи, причем создатель его - наш форумчанин  (ищется поиском по названию калькулятора) - https://holdemranges.com/omaha.html

     

    Плюс все еще можно купить PLOCalc, несмотря на то, что оно давно не поддерживается. И его можно поставить в виртуалку в отличии от oranges.

     

    SnowBeaver,

    Не очень понимаю любви к флопзилле, по-моему у нее отвратительный интерфейс. А что касается в целом визуализации, не думаю что это реально визуализировать омаху. Хотя теоретически было бы очень круто, если бы PLO можно было представить в удобоворимом формате.

    Ответить Цитировать
    1/1
    + 0
  • HuanXIV @ 01.04.24 

    Несколько технических слов от себя.

    спасибо

    1. У Оддс оракла, очевидно , неправильная бизнес модель. Он свою прогу продавал, а надо было установить ежемесячную аренду, как делают многие. Калькулятор на сайте был лишь витриной для продажи проги. Но, судя по всему, покупателей не очень много, поэтому создатель не видит смысла в перепрограммировании сайта, а оффлайн версию раздает бесплатно. Я ей до сих пор пользуюсь, и да, когда-то была лицензия.

    Смотри, насколько я помню, то odds oracle появился прилично давно. Боюсь соврать, но в 2010 он точно уже был. Скорее всего в том виде, в котором он есть сейчас, он уже был написан в 2005-2006. Если я и напутал, то не сильно. Представь себе как выглядел софт в 2010. Тогда по подписке мало чего продавалось. Аудитория бы просто не поняла такой выходки. Окно Овертона тогда ещё не было пройдено чтобы так ебать покупателей софта. 

     

    Сегодня же есть ощущение, что люди готовы даже туалетную бумагу по подписке покупать. Я недавно посмотрел таки сериал "Кибердеревня", там у чувака даже жена по подписке :) Меня не слишком радует такое будущее. Если у меня будет возможность, то я не буду писать программы по подписке. Т.к. для меня это не совсем работа за деньги, а скорее творческая самореализация. Но я конечно понимаю, что решать будет издатель, а не я. Но вообще у меня пока ещё есть мечта что-то крутое написать, чем люди бы 20 лет пользовались. Приблизиться к крутизне Odds Oracle или Far Manger. 

     

    Ну и даже если отбросить лирику и амбиции, то на мой взгляд если ты делаешь что-то по подписке, то это должно соответствовать архитектурно тем системам, которые работают по подписке. Ну, типа должна быть какая-то база в облаке, которую надо оплачивать постоянно. Или это должен быть софт типа stars-helper, который вынужден обновляться с каждым изменением старзов. И я понимаю за что плачу в такой схеме, очевидно, что если требуется постоянный труд по поддержке системы, то он не может быть бесплатным. Другое дело когда ты покупаешь что-то стационарное. Например солвер. Он же не будет больше меняться в процессе твоего использования. Если разработчик его оптимизирует и сделает лучше, то он волен просто новую версию выпустить, и я решу нужен ли мне апгрейд. Вот скажем у меня есть две купленные лицензии на пиосолвер. одна на про, другая на edge. когда я её покупал, то edge стоила около тысячи $. И тогда тысяча баксов была дороже, чем сейчас. Я эту программу от силы раз в год теперь использую, я бы не стал покупать на неё подписку. Апгрейд мне тоже пока не нужен, но я знаю, что когда я куплю его, то программа будет в моей собственности. А вот скажем HRC выстрелили себе в ногу со своей жадностью. Я бы с радость купил у них standalone версию баксов за 500. Списал бы в инвестиции и забыл. Вместо этого я им всего кажется 4 месяца оплатил по 40 баксов, и может быть ещё пару оплачу когда будет работа для этого солвера. В итоге ребята с меня не добрали очень сильно. Тоже самое произошло с Simple holdem. Я был готов за хорошие деньги купить их софт когда-то давно, но сейчас 250$ подписка выглядит как неконкурентный прайз за их солвер. Что же касается odds oracle, который 20 лет продавался по 100 баксов... я думаю это успешное финансовое начинание. Да. с большим горизонтом. но 1000 человек по всему миру уж точно купило его за это время. 100k$ вполне достаточная цена разработки подобной тулзы. Я бы наверное за полгода бы и лучше написал сейчас. как з.п. за полгода 100к норм. Так что не думаю, что Dan прогадал. Просто видимо сейчас его время стоит сильно дороже и тратит он его на что-то другое. 

    В эпоху солверов ПДж и ОО никому особо не нужны.

    Я так не считаю. Вообще я не против солверов, это вполне рабочий инструмент. Он не должен нравиться или не нравится. Но чтобы эффективно использовать солвер надо иметь возможность эффективно манипулировать диапазонами. А также уметь эти диапазоны собственно получать на основе наигранных данных. Софта, который бы качественно помогал это делать сейчас нет. Любой чел, кто что-то пилит в анализе по омахе сейчас будет вынужден написать свою обвязку кода для этого. Может быть таких людей не так уж и много. Может быть для меня это даже очень хорошая ситуация в целом, что никто ничего не умеет. 

     

    3. Есть еще один калькулятор для Омахи, причем создатель его - наш форумчанин  (ищется поиском по названию калькулятора) - https://holdemranges.com/omaha.html

    О спасибо, изучу с пристрастием. Проморгал.

    Но так-то я в Оддс Оракл надрочился так, что добавить в него любые диапазоны или исключить из него любые диапазоны = лично для меня не проблема.

    Ну, что-то на глазок сделать я тоже могу. Но вот скажем перебить туда диапазон из солвера для меня серьёзная комбинаторная задача

    Солверы мне как игроку любителю не нравятся, потому что они не учат думать, а даже наоборот - отучают думать.  

    Не солверы сами по себе, а люди, которые генерят обучающий материал по ним. Типа это очень удобно, ситуаций дофига, можно до конца дней что-то считать и людям рассказывать. У тебя всегда будет контент. А реально выигрывающие реги знают, что их знания, которых достаточно для высокого винрейта можно уместить в нетолстой книжечке на 200-300 страниц. Где как раз будет осмысление игры на качественном уровне. Когда я помню только стартовал plo trainer с Фернандо, то мне пару регов написали типа ну нахер я в это полез... мы же тут без тебя уже всё также изучали. Теперь все получили инструментарий. А на деле, никто его не освоил. Люди так и остались необучаемы в массе :)

    Ответить Цитировать
    240/257
    + 3
  • xbapbapx @ 01.04.24 

    SnowBeaver

    С другой , я абсолютно уверен, что создание продвинутого софта по омахе лично для меня будет точно -EV .

    Да ты не боись, к тому моменту когда люди массово ринутся в hi-low мы уже успеем внуков вырастить :)

    Ответить Цитировать
    241/257
    + 0
  • frozenatra, Да, такое я бы тоже купил :)

    Ответить Цитировать
    242/257
    + 1
  • squirrel367 @ 03.04.24 

    Плюс все еще можно купить PLOCalc, несмотря на то, что оно давно не поддерживается. И его можно поставить в виртуалку в отличии от oranges.

    я изучал эту прогу, но лицензию не купил. Не нашёл для себя никакого сценария полезного использования. Я возможно недостаточно описал концепцию того, что хочу. Со временем улучшу описание. Просто не готов тут сразу книгу написать.

    Не очень понимаю любви к флопзилле, по-моему у нее отвратительный интерфейс.

    Ты пока просто дзен не поймал :) все топ профики холдемовские любят эту софтину. Ну или по крайней мере должны это делать на мой взгляд

    А что касается в целом визуализации, не думаю что это реально визуализировать омаху. 

    Ну... есть подходы. Можно визуализировать например переходы по графу в зависимости от разных условий. И скажем таблицу рук преобразить в направленный граф. Я в этом блоге даже код кидал как это делать. Потом что-то вроде спектра по категориям JN и SS тоже даёт хорошее понимание о диапазоне на самом деле, хотя к нему надо привыкать. Визуализировать можно что угодно, хоть горизонт событий :) Вопрос полезна ли визуализация для реального использования на практике, даёт ли она какой-то профит.

    Ответить Цитировать
    243/257
    + 0
  • SnowBeaver @ 03.04.24 

    Да ты не боись, к тому моменту когда люди массово ринутся в hi-low мы уже успеем внуков вырастить :)

     Ну у меня пока внуков нет, хотя все дочки уже взрослые.

    И того, что люди массово в хай-лоу кинутся я как раз не боюсь, а вот того, что в скором времени написать плюсового бота будет намного проще- побаиваюсь.

    Ответить Цитировать
    2/2
    + 0
  • SnowBeaver @ 03.04.24 

    Ну... есть подходы. Можно визуализировать например переходы по графу в зависимости от разных условий.

    Эксплойтные фичи никому не нужны.

    У PIO все просят импорт сгенерированных ХХ, а эксплойтный лок через incentives всем до лампочки. Баги заметили через 3 недели после релиза :)

    В ХРЦ частотные локи всем интересны, а шаблона деревьев и пресетов рейнджей нет и не намечается. Собирай с нуля всё сам и сейви. Время же бесконечное у всех кто лицензию взял. 

    Гтовиз добавил АИ уже на готовую базу, фичей для дорогой подписки. Да и эксплойт функционал условный, только пофлексить что у конкурентов его нет и всё быстро делается.

    Т.е. это мёртвое направление, за исключением прям душевных проектов.

     

    По обучению всё гораздо лучше, т.к. непаханное поле. А пересечение с MDA вообще целина.

    Вывод дефолтных статов в солверах не сделан. Эквити есть, а WTSD, WWSF, кол-во рейзов, средний пот, бет волюм никому не интересны?

    Вроде изначально все хотели сравнивать своё и ГТО, поле и ГТО.

    То же самое с всякими Cbet success, которые можно в Aggregated Reports добавить.

     

    Блокеры в гтовизе шуточные. Кастомная оценка, EV выражения нет, вэлью/трэш вместо fold-call-raise сплита (т.к. колл будет плохой/хорошей нодой в зависимости от спота).

    В рейз ветках и омахе это всё будет х10 поди по важности. 

     

    Ну и самый сок ты уже знаешь/делал. 

    Комбо бакеты это то, что мозг интуитивно определяет первым делом на постфлопе. После практики в омахи в холдеме потом себя чувствуешь супермэном в этом плане. Все бэкдоры у оппа видно, не зеваешь доезды его.  Ну и более важная часть, что это клей / проводник, которым можно соединить вообще всё со всем.

    Если не упрощать до "наш юзер вчера выучил правила"

    и не раздувать до 100500+ как абстракционные алгоритмы в ХРЦ / Монкере.

    Можно почти прямые переходы в страты делать. Например, что фолдить а что нет

    И если исключать "не такие как все" флопы, для остальных проблема вариативности "комбо@flop" исчезает

    4IUlVIo.gif

    Не нужно париться что 77 десять раз меняла комбо-бакет при переборе флопов, главное помнить в каком бакете по силе она фолдилась. Ну или наоборот, выводить именно вариации флопов, где не типично играется. Фолд 80%, это же не всё по 20% коллится, где то 100% будет и обычно это однообразные флопы. Т.е. сразу получается форма: правила + исключения.

    В омахе бакетов будет больше, но возможно не в "качественно отличающиеся" выражении. И скорее всего флопы надо делить больше, чем в холдеме, где монотонки и супер дисбалансные спаренные/строенные можно выкинуть и дальше двигаться. 

    Перспективнее этого уж хз что придумать. Ну и офк главное это не вырвиглазное месево от прогроматематиков на выходе получать. ГТОвизы вон обёрточка, оформление, удобство и что угодно могут впаривать по содержанию.

    Ответить Цитировать
    10/11
    + 6
  • SnowBeaver @ 03.04.24 

    frozenatra, Да, такое я бы тоже купил :)

    есть гораздо лучше

    https://forum.gipsyteam.ru/index.php?viewtopic=138219

     

    вот бы для омашки бы такой еще 😌

    Ответить Цитировать
    2/2
    + 1
  • ExeRco, спасибо. Как всегда насыщенно и плодовито пишешь :)

    ExeRco @ 04.04.24 

    Эксплойтные фичи никому не нужны.

    У PIO все просят импорт сгенерированных ХХ, а эксплойтный лок через incentives всем до лампочки. Баги заметили через 3 недели после релиза :)

    Люди отталкиваются от того что видят и имеют. Очень сложно попросить фичу, которую ты пока нигде больше не видел. Давно не следил за развитием пио. Ну с тех пор как пересел на jes. там можно зафорсить ev линий, но это работает на мой взгляд слишком мутно чтобы на практике где-то пользу с этого получить. Надо быть крутым эзотериком покерным...

     

    А баги, ну такое. Я вот на днях нашёл критический баг при построении матрицы в plo trainer у себя. Типа матрицу если строить на борде типа 222-AAA, то оно в 100% вылетало с ошибкой. Какой вывод? Никто за 3 года ни разу не построил матрицу в таком борде. Т.е. никто в серьёз не изучал ультимативный инструмент без аналогов на рынке. Люди живут простой жизнь - скачал диапазончик, в тестиках позадрачивал, получил увеличение попадания, лёг спать с выполненным долгом.

    В ХРЦ частотные локи всем интересны, а шаблона деревьев и пресетов рейнджей нет и не намечается. Собирай с нуля всё сам и сейви. Время же бесконечное у всех кто лицензию взял. 

    Да ладно, там целое комьюнити есть в дискорде. скриптами любое дерево можно построить. Всего-то пару процедур на javascript заполнить. У меня к ним ноль претензий, они пока всё равно в топе у меня. 

    Гтовиз добавил АИ уже на готовую базу, фичей для дорогой подписки. Да и эксплойт функционал условный, только пофлексить что у конкурентов его нет и всё быстро делается.

    Я не доверяю AI. Это лютейший buzz word современности. Если я от кого-то слышу, что он работает в AI, то я сразу в голове ставлю нотс, что это какой-то скам. Да, у этой конторы вроде как есть ресурсы заниматься сейчас R&D в области покера, но почему следует верить советам системы, которую я не смогу перепроверить? Может там конечно какая-то заебись инновация, но мне если честно времени жалко разбираться.

    Т.е. это мёртвое направление, за исключением прям душевных проектов.

    Да! вот я как раз хочу душевный. Чтоб он остался как standalone приложение на долгие годы. Я не рассчитываю на золотые горы в своей работе. Просто хочу окупить разработку когда идея созреет. Может с шапкой пойду на какой-то аналог кикстартера или ещё куда. В целом у меня есть много контактов кому я могу продать идею. Но я должен сначала сам осознать как продукт чтобы людей убеждать, что они получат возврат средств хотя бы, а не просто вложат в высокое искусство. 

    По обучению всё гораздо лучше, т.к. непаханное поле. А пересечение с MDA вообще целина.

    Мир сложен. С одной стороны я понимаю, что MDA это единственный путь в современном покере идти доказательным путём, а не просто верить на слово кому-то. Т.к. этот кто-то делая обучающий материал либо выдаёт своё имхо за знания, либо тоже использует MDA. Т.е. вроде бы это хорошо и должно было бы быть нужно людям. Но на практике скорее обложат хуями софт, который работает с майнингом чем купят лицензию. Такое можно и нужно делать только в тишине на группу заинтересованных лиц. 

    Вывод дефолтных статов в солверах не сделан. 

    Эквити есть, а WTSD, WWSF, кол-во рейзов, средний пот, бет волюм никому не интересны?

    по-моему опыту никому :) Я делал прототип продукта для анализа. Не смог продать. В данном блоге я по этому софту показывал какой процент постфлопа вообще в целом можно по ГТО разбирать. На мой взгляд слишком чёрная магия сравнивать постфлоп статы с ГТО если префлоп не соответствует ГТО.

    Ну и самый сок ты уже знаешь/делал. 

    Комбо бакеты это то, что мозг интуитивно определяет первым делом на постфлопе. После практики в омахи в холдеме потом себя чувствуешь супермэном в этом плане. 

    Есть дисциплины разгоняющие сложность в покере. да. Если наиграться омахой, то по-другому уже смотришь на блокеры, бэкдоры и т.д. Ещё надо наиграться в ХА. Чтобы уметь играть в широких диапазонах, и вообще научиться качественному постфлопу, а не fit to win. Это путь самурая, который рвёт всех. А те, кто типа пишут "ия турнирщик, играю только МТТ" скорее всего играют посредственно, если вообще не минусово. 

    проводник, которым можно соединить вообще всё со всем.

    ....

    получается форма: правила + исключения.

    ....

    Ну и офк главное это не вырвиглазное месево от прогроматематиков на выходе получать. ГТОвизы вон обёрточка, оформление, удобство и что угодно могут впаривать по содержанию.

    тут ты как-бы замахиваешься на некий blueprint по игре... это не совсем софт. Это скорее некий результат глубокой аналитической деятельности как я его вижу. Если скажем упростить всю сложность оставив только самый Core по тому как бакеты матчатся с флопом в омахе, то тут можно толстенную книгу написать. Но делать этого не нужно, проще подписаться на plomastermind от Фернандо, и там всё в видеоформате. Но есть большое но - это всё ГТО. Пока нет инструментов, которые бы на качественном уровне выдавали по майнингу диапазоны приближенные в реальности (ну в паблике нет), поэтому едва ли имеет смысл ещё раз выдаивать людей на пересказах ГТО. Эта ниша занята теми кто умеет в маркетинг. Единственный мой шанс зацепиться за аудиторию как независимый (ну или полунезависимый :) ) разработчик это сделать что-то с душой. Я думаю, когда вышел odds oracle, его тоже не утопии деньгами и вниманием, но дистанция показала, что продукт успешный. Ну в моём скромном понимании успеха, который бы устроил и меня.

    Ответить Цитировать
    244/257
    + 1
  • ExeRco, Вообще, я для себя разделяю анализ майнинга на что-то вроде двух больших категорий. Можно делать light, а можно hard. На лайте как раз происходит построение сгруппированных статистик, попытки их осознать, сравнить и применить как-то знание. Чтобы на лайте получить какое-то преимущество и профит у нас должна быть рабочая гипотеза про то, что мы ищем, и как используем. Т.е. мы анализируем не всю игру в целом. 

     

    Скажем прикольная гипотеза для лайт анализа - вот допустим мы думаем выстроить свой спектр открытия с какой-то позиции. Пусть будет UTG для простоты. У нас есть посчитанный по GTO префлоп. Мы можем посмотреть в GTO префлопе какое у нас EV каждого открытия и посмотреть из чего оно складывается. А именно, какая часть EV идёт от фолдэквити, какое EV генерируется в SRP поте в позиции и без. Какое в 3BP в позиции и без, какое в мультивее. Мы можем по одному лишь префлопу довольно чётко записать функцию EV = p(A1)*EV(A1) + p(A2)*EV(A2) + ... + p(An)*EV(An). p здесь вероятности исходов. И типа рука открывается если общее EV > 0 (по ГТО оно этому соответствует). Потом собственно собираем майнинг и по нему смотрим реальные вероятности p. Ну не совсем реальные... скажем так - оценочные. Мы же увы не можем учесть тут card removal. И пересчитываем каждую руку в UTG. получаем скорректированные оупены. Наверное тут можно много написать всякие если и сомнения выразить, что такой метод рабочий. Я его собственно только сейчас придумал. сам никогда не производил. Но у Чемберса много текста на тему того в каком типе банков лучше всего реализуется велью разных рук. Типа если ты ожидаешь ХА, то тебе нужно с плавным распределением эквити руку, а если ты идёшь в жёсткий мультивей, то только натсовость, а на распределение насрать. Тут я просто обобщил это на возможный light анализ базы. 

     

    Так то концепция довольно понятная на интуитивном уровне. И я примерно понимаю что я хочу увидеть. Типа маргинальные руки открывать не надо, т.к. фолдэквити низкое и количество ХА потов будет сильно меньше, чем в ГТО, нужно иметь натсовый потенциал больше в среднем, чем в ГТО открытии. Т.е. когда я получу результаты, я могу их сверить со здравым смыслом и интуицией. 

     

    Для hard анализов же уже всё строится не от идеи, а от технических возможностей и от погружённости в науку ML. Мы уже реально хотим не просто факты из игры. Мы хотим реальные диапазоны получать. Я помню твои результаты в этой дисциплине. Также помню, что я почти ничего не понял там и испытал некоторую фрустрацию :) Я же хочу сделать заход по методу из этой книжки

    В ней детально описан метод как из майнинга получать диапазоны. Ну... вернее всё чуть сложнее. Как у меня будут практические результаты, то я постараюсь объяснить просто и на картинках. Давно хочу проделать пример такого анализа. Хочу задрать планку до максимума для мамкиных MDA аналитиков покерных :) В книжке описан холдем как пример, но это не принципиально. Просто в омахе другие бакеты будут.

    Ответить Цитировать
    245/257
    + 2
  • Сегодня добил таки специализацию Deep Learning на Coursera

    Специализация это когда несколько курсов объединены в одну программу. Было тяжело мотивировать себя проходить 2 последних из 5. Т.к. мне вообще не интересен image processing и NLP. Вообще курсы все содержат в себе не особо удобоваримые лабы (мне по крайней мере не понравилось). Иногда я понимаю чё делать, но из-за какой-то мелкой ошибки не мог сохранить работу. В итоге на эти пять курсов я раз пять за помощью обращался к комьюнити чтобы понять что с моими лабами не так. Так что прохождение курса это не просмотр видео на перемотке, иногда надо прям поебаться.

     

    В сухом остатке могу сказать, что узнал дофига нового и расширил кругозор, но не практические навыки. Довольно сложные архитектуры сетей в лабе я повторить сам у себя на питоне не смогу, тупо часть не понимаю вещей. Буду закрывать пробелы. Теперь в планах какую-то книжку прочесть. Чтоб уже бесплатно и в свободном режиме. Собираюсь вкурить "Deep Learning" от Ian Goodfellow, Yoshua Bengio, Aaron Courville. Есть pdf в хорошем переводе. Вроде трудностей не должно возникнуть. Дальше уже поизучаю что-то по MLOps и попробую сертифицироваться у гугла или где-то ещё. Чтоб уже ближе к работе было. 

     

    Для задачи c hard MDA мне эти знания нафиг не нужны в любом случае. Там будет от силы CNN, а то и вообще классический MLP, т.е. самые основы. Для прогресса нужно только данные подготовить, ну и описать схему из тезиса ван дер клея.

     

    Вообще предыдущая специализация Machine Learning от тех же deeplearning.ai мне больше зашла. Она более базовая, проходится быстрее, нет лишних курсов. А потом уже лучше добирать по потребностям. Моё желание хапнуть крупный бейджик для linkedin не факт что хорошая стратегия с точки зрения затрат времени \ отдачи.

    Сообщение отредактировал SnowBeaver - 8.4.2024, 23:24
    Ответить Цитировать
    246/257
    + 7
  • Уже несколько дней развлекаюсь с новым для себя майнингом. Потратил уже прилично времени, но всё ещё колеблюсь между желаниями опубликовать как есть, поизучать как-то ещё и отредактировать или забить совсем и не выкладывать. Думаю всё же выложу как есть.

     

    Итак, сегодня будем майнить отзывы на gipsyteam. У меня были некоторые априорные гипотезы, которые я хотел проверить. Что-то совпало с ожиданиями, а что-то нет. 

     

    1. Собственно парсер

     

    Учитывая, что все отзывы это публичные данные, и для них не требуется даже авторизации, я решил, что ничего нарушающего правила комьюнити или какие-то основ нравственности здесь нет. Делается всё довольно просто. 

     

    - выбираем какого-то пользователя с большим количеством отзывов

     

    - собираем профиль на страничке с его никнеймом, который включает

           - никнейм разумеется

           - город \ страну

           - пол

           - даты регистрации и последнего захода на сайт

           - отзывы других пользователей

     

    - сохраняем данные по пользователю в отдельном файлике и идём в цикле по всем его отзывам с целью выделить новых пользователей

     

    - если пользователь из списка уже есть в отдельном файлике, если нет, то проходим сбор данных по пользователю

     

    - далее разворачиваем отзывы и делаем их свойством автора, а не получателя. Т.е. если А оставил отзыв на B,C,D, то у A теперь 3 активных отзыва в профиле. 

     

    Таким образом делаем проход по дереву в глубину и получаем всех пользователей. Ну или почти всех... в данном анализе новые недавно зарегистрировавшиеся и не написавшие хотябы 10 отзывов люди меня не интересуют. А также меня здесь интересуют авторы отзывов, а не кто их получил. 

    получилось 15249. До количество уникальных комб в Омахе не дотянули, бигдатой не считаем :) И все эти замечательные люди за время существования сайта сгенерили 355301 отзыв на друг друга (на момент парсинга 21.05.2024). Понятно, что не все пользователи до сих пор активные. Если интересно число пользователей, которые заходили на сайт в этом году, то это 6653 человека. Хотя основное количество пользователей указали ex-ussr как свою страну и нас больше всего из России \ Украины \ Беларуси \ Казахстана, в данных можно встретить 183 страны (+ вариант неуказанной), что добавляет в анализ красок. 

     

    2. Общие данные

     

    Я решил строить весь анализ на статистике, которую назвал hate factor. Считается она просто - делим количество негативных отзывов от какого-то пользователя на общее количество его отзывов о всех пользователях джипси (всего или по какому-то отдельно взятому периоду). Наверное корректнее было бы назвать эту статистику hate frequency, но мне больше нравится factor. У меня было априорное ожидание увидеть здесь распределение Парето где 20% наиболее токсичных пользователей сгенерили бы 80% негатива. Но данные показали что это правило на нас не работает. 

     

    Первое же что я сделал это построил гистограмму по хейтфакторам всех пользователей и с удивлением обнаружил, что приличная часть комьюнити вообще не ставит негативных отзывов. Распределение похоже на логнормальное если выкинуть из него людей, которые вообще не ставят негативных отзывов. 

    1. Логнормальное распределение обычно свойственно процессам, которые складываются из множества мелких случайных событий, которые накапливаются со временем. Богатый становится богаче, бедный беднее и т.д. Сразу же возникла идея попробовать отследить события, которые повлияли на hate factor. Они очевидные - мировые политические события, которые нас всех затронули. Но есть и некоторые выбросы, которые сложно было ожидать. 

     

    2. В логнормальном распределении среднее значение больше медианного, что говорит о каком-то небольшом количестве крайне высоких значений, т.е. таки скорее всего есть люди, которые хейтят сильно больше общей массы, которая использует этот "инструмент".

     

    3. В целом логнормальное распределение свойственно любой медийке, и оно часто описывает популярность в интернете, цитируемость и т.д. Если бы я здесь увидел какое-то сильно другое, то я бы крепко задумался над корректностью работы парсера и моего анализа. 

     

    Итак. Я уже написал, что я выкинул из анализа "случайных" людей и оставил только с пороговым значением 10 отзывов. И общее количество людей, которые вообще не ставят негативных отзывов (ставят только положительные):

     

    33.72%

     

    т.е. треть пользователей джипси не сочло нужным пойти отмениться негативом в чужой профиль. Я тоже отношусь к этой группе и мне было любопытно сколько всего таких людей на джипси. Моё сугубое ИМХО, что я имею право оценивать поступки и слова, но не людей. Приятно видеть такое количество единомышленников. Далее я выделю специально чемпионов из этой группы. Я считаю, что они достойны внимания. 

     

    Я не увидел правила 80/20. Но всё же выделил количество топовых по hate factor пользователей, которые сгенерили 80% общего хейта в личке. Их тоже оказалась ровно треть. т.е. треть пользователей генерит 80% хейта. В целом с точки зрения социологии я бы сказал, что наше сообщество здоровее общества в целом. У меня правда мало самостоятельного опыта в социологических исследованиях, так что говорю скорее по теории. 

     

    ну и есть условно треть умеренно хейтящих людей, которые используют данный инструмент время от времени (зачастую в ответку). Число ответного хейта составляет 20%. Мне не удалось убрать ответки из общей статистики, т.к. как правило они случаются в один день с первоначальным хейт-отзывом, а сайт не показывает точное время отзывов. 

     

    Среднее значение хейта по всем данным включая первую чистую группу - 9.7 негатива на 100 отзывов. Медиана 4.7. Т.е. половина пользователей оставляет больше 4.7 негативных комментариев на 100 своих отзывов. Можете посчитать у себя в профиле чтобы узнать слева вы или справа от медианы и задуматься о жизни. 

     

    У группы хейтеров средняя/медиана - 24.5 / 19.5. т.е. если каждый ваш 4-5 отзыв негативный, то вы в этой группе. 

     

    У умеренной группы средняя/медиана - 8 / 7. Т.е. отличие средней от медианы почти нет. Распределение близко к нормальному, изучать там особо нечего.

     

    3. Распределение по полу

     

    Тут я увидел ровно то что и ожидал. Девчонки как всегда не подвели   Вопреки общепринятому мнению, что женщины типа склочные эмоциональные существа, тут мы это не наблюдаем.

     

    общий состав на джипси

    - мужчин 14531

    - женщин 558

    - не указано 160

     

    т.е. женщин у нас 3.7% от зарегистрированных пользователей... Что вообще говоря непропорционально мало. Это наверное меньше чем девушек на мехмате. Либо similarweb врёт, либо женщины зависают на сайте сильно больше мужиков если уж зашли.

    при этом по хейту в личке мы имеем для мужчин среднее значение 2.3, для женщин 1.4, для не пожелавших указывать - 1.6. Вангую, что большая часть пользователей, кто не указали пол тоже женщины. Просто предпочли это скрыть чтобы к ним не относились предвзято. Что заставляет их уважать ещё больше. 

     

    3. По странам 

     

    Выборка стран, из которых было сделано хотябы 500 отзывов в порядке уменьшения количества выглядит вот так

     

    Беларусь и Казахстан оказались наиболее няшые и корректные из СНГ. Среди статистически значимых хейтеров как-то выделяется Мексика. А если отсортировать по убыванию хейта, то будет вот так.

    Что не так с Мексикой, народ? Кто-то в курсе? :) 

     

    Попытаемся теперь как-то визуализировать и осознать исторические данные в динамике раз само логнормальное распределение подталивает нас к изучению составляющих процесса. 

     

    тут я построил общий hate factor по месяцам со дня основания джипси

    С прискорбием хочу вам всем сообщить, что градус хейта растёт. и делает это неуклонно (красная линия - интерполяция по годам). Я выделил месяцы с пиковыми значениями. Скорее всего эти пики должны быть результатом обсуждения событий которые произошли либо в текущем либо предыдущем месяце. Моя память и гугл отказывается мне подкинуть резонансные события августа-сентября 2018 года. может какой-то крупный покерный скам случился, если помните, напишите. С мартом 2022 увы всё понятно. Произошедшая духовная дихотомия комьюнити всем причинила боль. В феврале 24 из общего количества хейта в 583 сообщения почти сотка у Макса с его поздравлением, что является существенной долей хейта в этот месяц. Но всё же не всей. Рост с 245 в январе до 583 в феврале. 

     

    Если построить такой же график, но выделить данные только по России, то увидим, что пики и проценты по ним близки

     

    По Украине. Я не берусь судить здесь измышлять какие-то выводы. Просто данные. 

    Беларусь. Общие пики здесь совсем не пики. Живут другой повесткой наверно. Ну и + шум.

    На остальные страны слишком мало данных. Нет смысла визуализировать шум. 

     

    Ну и да, гадания по графика это такое :) Не принимайте в серьёз. Я мог и накосячить, а в данные просто папала диспа. Всё как в покере. 

     

    4. Про доброту

     

    Я хотел как-то особенно выделить уважаемых мной членов джипси, которые умудрились совсем не ставить минусов в личку. Я думал их будет крайне мало. И в тайне я надеялся что буду там чуть ли не один. Но как показали данные я просто ребёнок на этом фоне позитивных людей. У нас аж 87 человек, которые оставили 100 и более положительных отзывов при нуле отрицательных. Поэтому я решил ещё сузить и выбрать топ 3. И результат вызвал у меня массу эмоций. И так, барабанная дробь. Перед вами чемпионы

     

    1. kazaf 581+

    2. Bachinskiy 570+

    3. smallballspoker 557+

     

    всё же отмечу близко подошедшего к этой группе

     

    4. amphetamine 457+

     

    Остальные уже с большим отрывом

     

    К своему сожалению никогда не читал и не выделял как-то для себя уважаемого kazaf. Возможно отсутствие своего блога делает человека добрее или как минимум убирает большую часть возможных седых волос. При активном форумном стаже со дня основания джипси этот человек также не словил ни одного отрицательного отзыва (как и amphetamine), а это надо уметь... Видимо меньше осуждать кого-то, больше заниматься покером, вот это вот всё. Моё почтение вобщем.

     

    Кто не знает кто такой Бачинский поднимите руку? Нет, реально не в курсе? Товарищ специфический и в отличии от kazaf он очевидно всегда будет огребать какую-то порцию негатива. Слежу за ним время от времени ещё с покерстратеджи. Но не был в курсе, что он святой. То что ему срали таки в личку, а он не делал это в ответ не может не вызывать уважение. Я сел уже вручную поизучать как так вышло и попытался в какие-то яркие срачи вчитаться. Оказалось, что Бач таки ставил когда-то негативные отзывы, но потом передумал и убрал. Подчистил все, что были :) Я думаю не смотря ни на что в тройке лидеров он заслуженно.

     

    Поздравить smallballspoker увы не получится. Очень жаль. "Прощай, Юра! Прощай, добрый человек." - лучше и не напишешь. 

     

    5. В качестве выводов

     

    Да х.з. Какие тут могут быть выводы? Мы клёвые. Если изучать наше сообщество, то оно по определённым метрикам лучше чем толпа в среднем. Можем гордиться. Однако есть постоянная тенденция к росту хейта, который становится слишком очевиден и напрягает. Предлагаю быть добрее к друг другу. А тем, кто не успел ещё остаётся вариант Бачинского :)

    Сообщение отредактировал SnowBeaver - 24.5.2024, 19:27
    Ответить Цитировать
    247/257
    + 79
  • SnowBeaver @ 24.05.24 

     

    4. Про доброту

     

    Я хотел как-то особенно выделить уважаемых мной членов джипси, которые умудрились совсем не ставить минусов в личку. Я думал их будет крайне мало. И в тайне я надеялся что буду там чуть ли не один. 

    2. Bachinskiy 570+

     

     

    давай рейтинг топ токсиков теперь ))))

     

    Бачинский кстати активно лепил всем минуса в репу, причем вообще на пустом месте.... но видимо стал принимать таблетки наконец-то, и все эти рейтинги потёр у всех (мне он тоже лепил)

    Ответить Цитировать
    1/1
    + 12
  • Согласен, нужен рейтинг токсиков

    а ещё остаётся загадкой, что же такое случилось в августе 2018 года  

    Ответить Цитировать
    1/1
    + 0
  • SnowBeaver @ 24.05.24 

    Что не так с Мексикой, народ? Кто-то в курсе? :) 

    Там же, вроде, Бэбишарк...

    Ответить Цитировать
    1/1
    + 0
  • У меня сейчас 55 отрицательных и 46 положительных.

    Скажите, пожалуйста, сколько нужно еще отрицательных, чтоб выйти в лидеры?

    Ответить Цитировать
    1/2
    + 0
  • lotob1ngo @ 24.05.24 

     

    давай рейтинг топ токсиков теперь ))))

    На мной взгляд типа много чести их упоминать. Самый лучший способ показать своё отношение в данном случае это пройти мимо.

    Ответить Цитировать
    248/257
    + 7
1 4 22 23 24 25 26 27
2 человека читают эту тему (1 пользователь, 1 гость):
Зачем регистрироваться на GipsyTeam?
  • Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
  • Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
  • Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
  • На каждой странице будет видно, где появились новые посты и комментарии.
  • Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.