Nameless00 @ 21.11.2016
Эти числа - это не ответ, а отражают степень аргументированности и обоснованности ответа, где большое число - это полный и справедливый учет всех вообще факторов.
А правильный ответ где жить можно и случайно угадать вообще не имея аргументов.
Remember the Bayes mammogram problem? The correct answer is 7.8%; most doctors (and others) intuitively feel like the answer should be about 80%. So doctors – who are specifically trained in having good intuitive judgment about diseases – are wrong by an order of magnitude. And it “only” being one order of magnitude is not to the doctors’ credit: by changing the numbers in the problem we can make doctors’ answers as wrong as we want.
So the doctors probably would be better off explicitly doing the Bayesian calculation. But suppose some doctor’s internet is down (you have NO IDEA how much doctors secretly rely on the Internet) and she can’t remember the prevalence of breast cancer. If the doctor thinks her guess will be off by less than an order of magnitude, then making up a number and plugging it into Bayes will be more accurate than just using a gut feeling about how likely the test is to work. Even making up numbers based on basic knowledge like “Most women do not have breast cancer at any given time” might be enough to make Bayes Theorem outperform intuitive decision-making in many cases.
And a lot of intuitive decisions are off by way more than the make-up-numbers ability is likely to be off by. Remember that scope insensitivity experiment where people were willing to spend about the same amount of money to save 2,000 birds as 200,000 birds? And the experiment where people are willing to work harder to save one impoverished child than fifty impoverished children? And the one where judges give criminals several times more severe punishments on average just before they eat lunch than just after they eat lunch?
And it’s not just neutral biases. We’ve all seen people who approve wars under Republican presidents but are horrified by the injustice and atrocity of wars under Democratic presidents, even if it’s just the same war that carried over to a different administration. If we forced them to stick a number on the amount of suffering caused by war before they knew what the question was going to be, that’s a bit harder.
Thus is it written: “It’s easy to lie with statistics, but it’s easier to lie without them.”
Some things work okay on System 1 reasoning. Other things work badly. Really really badly. Factor of a hundred badly, if you count the bird experiment.
It’s hard to make a mistake in calculating the utility of living in North Korea that’s off by a factor of a hundred. It’s hard to come up with values that make a war suddenly become okay/abominable when the President changes parties.
I generally support applying made-up models to pretty much any problem possible, just to notice where our intuitions are going wrong and to get a second opinion from a process that has no common sense but is also lacks systematic bias (or else has unpredictable, different systematic bias).
БоевойСлон @ 21.11.2016
Приведи пример, в котором отсутствие ложной уверенности приведёт тебя к более правильным действиям.
БоевойСлон @ 21.11.2016
Для меня основной плюс от отсутствия ложной уверенности - это способность к корректировке своих представлений. Но так как корректировка своих представлений на основе новых фактов - это краеугольный камень байесианства, которое ты уже объявил вредным, то тебе придётся привести какую-то другую пользу.
Пришли мыши к филину, жалуются:
- Мы, мыши, самые маленькие, слабые, каждый обидеть и сожрать норовит.
Че делать?
Филин подумал, подумал - говорит:
- Вам, мыши, надо превратиться в ежей. Будете колючими - и вас не так
просто будет съесть.
Мыши убежали, радостные:
- Да, да! Превратимся в ежей! Спасемся!
Через некоторое время возвращаются к филину и робко спрашивают:
- Ты сказал, надо в ежей превращаться... НО КАК???
Филин подумал, подумал:
- Да пошли вы, мыши на хрен! Я не тактик - я стратег!!!
БоевойСлон @ 21.11.2016
А к чему тогда эти числа? Цель ведь не "учесть все факторы", а "повысить вероятность правильного ответа". По этой шкале и нужно сравнивать рационализм с чуйкой.
БоевойСлон @ 21.11.2016
А вот статья как раз в тему о том, есть ли смысл использовать взятые с потолка цифры. Процитирую один фрагмент, чтобы легче понять, читать ли всё:
Nameless00 @ 21.11.2016
Ну самое очевидное это ложноотрицательная постановка диагноза например.
Я не болен раком. Я не болен спидом.
Ну или "при такой дозе алкоголя я еще могу водить безопасно".
Nameless00 @ 21.11.2016
Ну или совсем простое, я не знаю кто победит в матче Спартак-Зенит и не делаю/не принимаю ставку. 0ЕВ.
Но если я неверно посчитал шансы и считаю что знаю кто победит - я эту ставку принимаю. -ЕВ.
БоевойСлон @ 21.11.2016
Т.е. ты реально считаешь, что обычный человек в среднем правильнее примет решение, провериться ли на рак, чем рационалист, который почитал информацию про свои симптомы, присвоил веса ошибкам обоего рода (ложноположительным и ложноотрицательным) и на основе этих взятых с потолка цифр принял решение?
БоевойСлон @ 21.11.2016
Ты реально считаешь, что обычный человек по чуйке реже сядет пьяным за руль, чем рационалист, который посмотрел статистику аварий с пьяными водителями, присвоил веса своей жизни, угрозе для чужой жизни, стоимости поездки на такси и пр., и вычислил таким образом своё действие?
Nameless00 @ 21.11.2016
А теперь расскажи мне как на примере с диагнозом рака груди доказывается полезность использования взятых с потолка цифр?
И на всякий случай конкретно этот пример не очень. Нерациональные доктора которые все повально ошиблись в определении истинной вероятности, просто зная (имея методички) о том что тут шанс ложноположительного диагноза достаточно высок - всегда делают повторное обследование перед постановкой окончательного диагноза и даже предупреждают пациентов о том что диагноз не окончательный. Вот так вот просто, без Байеса.
Khishtaki @ 21.11.2016
рационалист одинаково ошибётся в обе стороны. Но опытные бетторы сожрут его линию только с той стороны, с которой он ошибётся :)
Nameless00 @ 21.11.2016
Гипотетический обычный человек: видел недавно Машкин сожитель пьяный в жопу въехал в столб, машина в хлам, сам в лоскуты, кровищи было, потом неделю отмывали тротуар, ну нахуй такую езду, вызывайте такси. (Хотя он тут нерационально оверреактит на шанс редкого события, как в случае с авиакатастрофами).
Khishtaki @ 21.11.2016
Но опытные бетторы сожрут его линию только с той стороны, с которой он ошибётся :)
Nameless00 @ 21.11.2016
Потому что любой человек в среднем против линии букмекеров чаще ошибается в неправильную сторону, независимо от того рационалист он или дзюдоист.
БоевойСлон @ 21.11.2016
Идея в том, что если доктор из своего опыта прикинет априорную (неизвестную ему точно) вероятность наличия рака груди, и затем применит Байеса - то он почти всегда получит более точный ответ, чем он дал изначально, по чуйке.
Важный вывод данного исследования состоит в том, что алгоритм, сочиненный «на коленке»... с легкостью превосходит прогноз эксперта. Это правило применимо ко многим областям, будь то выбор акций для инвестиционного портфеля или выбор метода лечения врачами или пациентами. Классическое применение этот подход нашел в простом алгоритме, который спас жизнь сотням тысяч новорожденных. Акушеры знают, что ребенок, у которого в первые минуты после рождения не устанавливается нормальное дыхание, впоследствии подвержен высокому риску повреждений головного мозга и гибели. До вмешательства анестезиолога Вирджинии Апгар в 1953 году врачи и повивальные бабки, оценивая состояние новорожденного, полагались на собственные клинические суждения. При этом каждый специалист искал определенные симптомы: одни изучали проблемы с дыханием, другие – когда раздастся первый крик. Без стандартизированной процедуры признаки опасности часто упускались из виду, и многие дети погибали в младенчестве.
Однажды за завтраком начинающий врач спросил Апгар, как проводить комплексную оценку состояния новорожденного. «Это просто, – ответила она. – Надо сделать вот так...» С этими словами Апгар наскоро записала пять параметров (пульс, дыхание, выраженность рефлексов, мышечный тонус и цвет кожных покровов) и три варианта оценки (0, 1, 2 – в зависимости от степени проявления признака). Осознав, что ее метод легко применить в любой родильной палате, Апгар начала оценивать по этой шкале младенцев через минуту после рождения. Ребенок с общим показателем от 8 и выше находился в хорошем состоянии: он дрыгался, кричал и гримасничал, имел пульс от 100 и выше, а также розовый цвет кожи. В то же время ребенок с показателем 4 и ниже – синюшного цвета, вялый, малоподвижный, со слабым пульсом – нуждался в срочной медицинской помощи. Персонал родильных палат, пользуясь шкалой Апгар, получил постоянные стандарты для определения того, какому ребенку грозит опасность, что в итоге значительно понизило смертность среди детей до года.
Я склонялся к процедуре, при которой интервьюеры могли бы выделить значимые личностные характеристики и оценивать их по отдельности. Конечная оценка боепригодности должна была вычисляться по стандартной формуле без каких-либо дополнительных вкладов со стороны оценщиков. Я составил список из шести характеристик, важных, как мне казалось, для выполнения боевых задач, – «ответственность», «коммуникабельность», «мужская гордость» и так далее. Затем были составлены вопросы по каждому пункту, в основном касающиеся жизни новобранца до призыва: места его работы, отношение к службе или учебе, частота встреч с друзьями, спортивные интересы и тому подобное. Нам необходимо было как можно объективнее определить, насколько хорошо новобранец себя проявил в каждой из областей. Отдавая предпочтение стандартным, фактическим вопросам, я надеялся победить эффект ореола, при котором благоприятное первое впечатление влияет на последующие суждения. В дальнейшем для предотвращения этой ошибки я предлагал вести опрос в строгой последовательности по списку качеств и оценивать каждое по пятибалльной шкале, прежде чем переходить к следующему. На этом нововведения закончились. Я посоветовал интервьюерам не тревожиться о будущем призывников на новом поприще – в их задачи входил лишь поиск фактов о прошлом новобранцев и применение этих фактов для оценки личностных качеств в баллах. «Ваше дело – произвести измерения, а прогностическую оценку предоставьте мне», – сказал я своим подопечным, имея в виду, что займусь составлением формулы, которая сочетала бы данные по всем параметрам.
Интервьюеры готовы были взбунтоваться. Смышленым девушкам и парням не понравилось, когда кто-то чуть старше их велел отключить интуицию и целиком сосредоточиться на нудных опросах. «Вы превращаете нас в роботов!» – возмутился один. Я пошел им навстречу. «Проведите опрос точно как я сказал, а когда закончите, закройте глаза, представьте новобранца в качестве солдата и поставьте ему балл от одного до пяти». Мы провели несколько сот собеседований по новому методу, а спустя несколько месяцев собрали данные об успехах солдат от офицеров тех подразделений, к которым приписали новобранцев. Результаты нас порадовали. Как и предполагалось в работе Мила, новая процедура собеседования значительно превзошла старую в результативности.
Комплексная оценка по всем шести показателям предсказывала успехи новобранца гораздо точнее, нежели прежняя. Правда, метод все же был далек от совершенства. Мы сделали «абсолютно бесполезное» «умеренно полезным»,но не более.
Меня поразило, что интуитивные суждения интервьюеров по методу «закрой глаза» также хорошо себя зарекомендовали – результат был не хуже, чем при
механическом суммировании шести отдельных оценок. Я получил урок, которого никогда не забуду: интуиция спасает даже в случае справедливо раскритикованного отборочного собеседования, но лишь после продуманного сбора объективных данных и продуманного же подсчета баллов по каждому параметру. Оценкам, полученным в ходе метода «закрой глаза», я придавал тот же вес, что и сумме оценок по шести параметрам. Иначе говоря, я научился
не доверять интуитивным суждениям (как своим, так и чужим), но вместе с тем и не отметать их.
In cases where we really don’t know what we’re doing, like utilitarianism, one can still make System 1 decisions, but making them with the System 2 data in front of you can change your mind. Like “Yes, do whatever you want here, just be aware that X causes two thousand people to die and Y causes twenty people an amount of pain which, in experiments, was rated about as bad as a stubbed toe”.
БоевойСлон @ 21.11.2016
Ребенок с общим показателем от 8 и выше находился в хорошем состоянии: он дрыгался, кричал и гримасничал, имел пульс от 100 и выше, а также розовый цвет кожи. В то же время ребенок с показателем 4 и ниже – синюшного цвета, вялый, малоподвижный, со слабым пульсом – нуждался в срочной медицинской помощи.
БоевойСлон @ 21.11.2016
Меня поразило, что интуитивные суждения интервьюеров по методу «закрой глаза» также хорошо себя зарекомендовали – результат был не хуже, чем при механическом суммировании шести отдельных оценок.
БоевойСлон @ 21.11.2016
Мы сделали «абсолютно бесполезное» «умеренно полезным»,но не более.
БоевойСлон @ 21.11.2016
Достаточно грубой прикидки нескольких важных факторов, чтобы заметно улучшить точность решения.
Nameless00 @ 21.11.2016
Цитата (БоевойСлон @ 21.11.2016)
Меня поразило, что интуитивные суждения интервьюеров по методу «закрой глаза» также хорошо себя зарекомендовали – результат был не хуже, чем при механическом суммировании шести отдельных оценок.
А гемора больше. Я же говорю, наукоподобие.
Цитата (БоевойСлон @ 21.11.2016)
Мы сделали «абсолютно бесполезное» «умеренно полезным»,но не более.
Вот я об этом всю дорогу говорю. Результаты не лучше чем у стандартной методики, но шума то.
Nameless00 @ 20.11.2016
А тем временем, если кому интересно, НАСА официально подтвердила EmDrive.
А он вообще-то нарушает закон сохранения импульса.
Вместе с тем наездом на темную материю и энергию о которой я тут писал, может сложитьсч прелюбопытнейшая картина в скором будущем.
Пока мне привели два примера оценки ситуаций.
Авторами примеров были Юдковский и Соул.
И мое мнение что эти данные примеры я оцениваю верно. Почему мне из стана рационалистов не привели более лучших примеров - я хз.
Хотя вру, не хз.
Потому что более лучших примеров нет.
Потому что все примеры будут относиться к одному из двух типов:
1. Там где ошибка в конкретных цифрах вероятностей и оценок не меняет решение (как в случае дочки и скоростного шоссе), но в таких случаях правильное решение очевидно и без Байеса
2. Там где ошибка в цифрах меняет решение (как в случае с предположением врет/не врет Ивана), но тогда у меня возникает резонный вопрос - откуда взяты числа и как им можно доверять? Подсказка - никак.