Автор Тема: Реал-кейс на байесианский вывод (Прочитано 27870 раз)

kuuff · « : 01 Марта 2018, 23:13 »

Допустим у меня есть гипотеза, я хочу проверить её экспериментально. Для этого мне надо поставить эксперимент, намерить N точек данных, и сделать по ним вывод. У меня есть два способа поставить эксперимент, "надёжный" и "ненадёжный". Надёжный дорогой -- требуется много усилий на каждую точку данных. Ненадёжный дешёвый -- можно получить на порядок, а то и на два порядка больше точек данных теми же усилиями, но в данные потенциально будет примешиваться больше "шума".

Мне тут предложили сделать таким образом -- набрать пару десятков точек надёжным способом, и сотню-другую ненадёжным. И если результаты совпадут, то заявить, что достоверность результата зашкаливает. То есть логика какая: пара десятков точек -- это минимум требуемый правилами приличия, но если к ним приложить ещё пару сотен других точек, то будет очень круто.

Но меня гложут сомнения. Кажется подозрительным такой способ принятия решений. Ну, если наивно рассуждать, то если результаты совпадут, то мы можем сделать вывод, что ненадёжный способ не такой уж и ненадёжный, как казалось -- с этим я могу согласиться. Но когда мы делаем сразу два вывода -- из совпадения данных вывод о надёжности метода, а потом из надёжности метода, делаем вывод о том, что данные подтверждают гипотезу, мне начинает казаться, что тут где-то подвох и пахнет циклом в причинно-следственных связях в наших рассуждениях. А за такие штуки с экзаменов по матану выгоняют с двойкой, не глядя на всё остальное... Короче детские психологические травмы привили мне глубоко сидящий страх совершить подобную ошибку, который не позволяет мне просто согласиться с такими рассуждениями.

Так вот, я к чему это. Я не настолько вник во все эти байесианские методы рассуждений, чтобы формализовать проблему и тупо посчитать. Я, наверное, могу это сделать, не сваливая эту задачу на других, но это займёт у меня кучу времени, которого нет. Мне проще потрепать языком на форуме об этой проблеме, чем я и предлагаю заняться. Но если кто-то может формализовать проблему и дать полный расклад по мастям, то я буду премного благодарен.

nar · « **Ответ #1 :** 02 Марта 2018, 00:15 »

"Шум" недостаточно определён. Как и задача в целом. Во-первых, надо отделить случайную погрешность от систематической. Во-вторых, вы измеряете одну величину, или график?
Случайный шум в любом случае определяется не сравнением с другими результатами, а полной статистикой серии измерений (по дисперсии).
Если одну величину, все результаты после этого можно будет сложить в единую статистику, понизив вес неточных, если у них больше дисперсия. Систематический - да, надо сравнивать, но если есть подозрение что он есть, с ним надо бороться перед сложением статистик индивидуально для каждого из двух способов. Как именно - зависит от конкретной задачи. Не уверен, что в итоге будет польза.

Если график - то предложенный метод, по-моему, вполне разумный. Можно его описать так: у вас есть график, но вы ему не доверяете (он получен ненадёжным методом). Для проверки вы выбираете случайным (это важно) образом список точек на нём и проверяете их тщательно. Каждая новая совпавшая точка - свидетельство в пользу правильности графика. С каждой новой точкой будет падать вероятность того, что вы просто случайно наткнулись на точку, где данные случайно совпали. Ну а если точки не совпадут, то вам скорее всего придётся выкинуть "неточные" измерения в помойку и вы зря потратили время (если только там не тривиальный случай вида "неточный результат всегда больше точного на одинаковую величину/в одинаковое число раз/итд").

Иными словами: от случайных погрешностей вы никуда не денетесь и вам всё равно придётся их учитывать в том количестве, в котором они есть. И даже оценить их количество этот метод никак не поможет (вы сможете оценить их количество и без него). А вот проверить наличие/отсутствие систематических это сравнение поможет и, в случае их отсутствия либо тривиальности, повысит вес данных, полученных априори сомнительным методом, убрав из него "дефект" систематической погрешности до уровня тех, которые получены хорошим.

Kroid · « **Ответ #2 :** 02 Марта 2018, 01:56 »

В первую очередь - насколько большая погрешность разрешена, на отрезке между "абсолютно уверен" и "ну, примерно так"?

Во-вторых, какова природа шума? Случайный, нормальное распределение относительно правильных данных или же там идет систематический "перекос в одну сторону"?

Получить много зашумленных точек. Сгладить их, получив прямую/кривую. Дальше проверка: получить несколько чистых точек, построить на них кривую и сравнить со сглаженной кривой. Те, кто занимаются машинным обучением, только так и проверяют свои алгоритмы. Хотя для финансовых целей, вроде биржевых игр, подобный метод не гарантирует аналогичные результаты в будущем - но в этой сфере за последние полвека так и не смогли придумать надежный способ доказательства корректности.

fil0sof · « **Ответ #3 :** 02 Марта 2018, 11:21 »

Наверное, для более-менее предметного обсуждения желательно получить больше деталей о задаче

a_konst · « **Ответ #4 :** 02 Марта 2018, 13:33 »

Сразу скажу, что я не специалист в мат-статистике (только, общий курс мат-меха на 4 курсе).

Про задачу - я понял так, что есть "входные параметры", и "выходные". В теории (ну, то есть, в Вашей Гипотезе) выходные параметры определяются по выходным однозначно. (если нет, если там есть неустранимая неизвестная случайность и если стоит задача поиска её распределения, а примешивается ещё и шум от измерений при ненадёжном методе - то труба, я не представляю, как такое решать).

Я бы делал так. Чтобы пользоваться "ненадёжным" методом, лучше бы понять что-то про его шум.
Фиксируем с десяток пар наборов "входных" параметров. Для каждого набора проведем одно надёжное измерение и несколько (раз уж они дешёвые) - ненадёжных. И будем сравнивать.

Для начала выдвинем технические стат.гипотезы:
1. шум независим в разных измерениях.
2. шум имеет нормальное распределение с неизвестными параметрами. (ну или какое-то другое стандартное, которое можно предположить а-приори из общего понимания природы происходящего, но проверка нормальности - самая простая и изученная, ЕМНИП)
И проверяем их на имеющихся данных.

Для этих задач есть специальные критерии и методы, чтобы их найти, мне придется с пол-дня штудировать старый конспект и книги.
Но надеюсь, что Вы и сами справитесь, если есть матем. образование и доступ к хорошим книгам по мат.статистике.

Если ОБЕ гипотезы подтвердились - то установить "истинную" картину зависимости на всей области "входных" параметров уже можно многими ненадёжными измерениями. Ну может добавить парочку надежных там, где дисперсия шума ненадёжных почему-то оказалась слишком большой.

kuuff · « **Ответ #5 :** 02 Марта 2018, 20:57 »

Да, про шум я неудачно выразился. Речь на самом деле шла о валидности, я просто хотел изложить максимально просто, с минимумом отвлекающих деталей.

Валидность. Например, мы можем измерять температуру тела замеряя инфракрасное излучение от него, и во многих случаях это валидный способ. Но если мы померяем инфракрасное излучение от ИК светодиода, то мы получим правильное значение для интенсивности ИК излучения (с точностью до погрешности наших приборов), но вывод о температуре будет неверным (если он сделан на тех же общих основаниях, типа абсолютно чёрного тела или как там принято в физике). И в этом случае нарушается валидность.
Мы всегда меряем не совсем то, что хотим померять, это можно сказать такой закон нашей реальности. Иногда это незаметно (если мы меряем длину линейкой, то придётся серьёзно поизвращаться, чтобы описать чем же замерянная величина принципиально отличается от такой величины как "длина", но можно вспомнить, например, про тепловое расширение линейки, и понять, что мы меряем длину не в метрах, а "в попугаях", точнее "в линейках"), но иногда это очень важно. Скажем мерять массу динамометром можно -- надо только не забыть умножить силу на g=9.8, -- но если мы забудем о том, что мы меряем на самом деле не массу, а силу, то мы рискуем потерять валидность в каких-то ситуациях (меряя массу в неинерциальной системе на Земле, или забыв учесть силу Архимеда, или меряя массу не на Земле).

Вот здесь то же самое. Эксперимент в любом варианте несёт в себе риск потери валидности, но надёжный вариант резко снижает этот риск, потому что гораздо больше вмешивающихся переменных находится под контролем экспериментатора (на примере с динамометром: экспериментатор может иметь специальный прибор, контролирующий, чтобы g было бы равно 9.8 в течение всех измерений). При этом, проблема в том, что реально никто не знает списка вмешивающихся переменных. В случае с весом и силой у нас есть законы физики, которые объясняют, как и от чего зависят показания динамометра, в моём же случае законов нет. Их ещё не нашли. Есть лишь здравый смысл, который подсказывает, что валидность не будет нарушена ни в одном из вариантов проведения эксперимента.

Вообще речь идёт о психологическом эксперименте и есть два способа -- можно по старинке набирать испытуемых по-одному, приводить каждого в одно и то же помещение, сажать за один и тот же монитор, следить, чтобы температура, освещённость, уровень шума и всё остальное в помещении оставались бы прежними, короче выдерживать максимум условий постоянными от испытуемого к испытуемому. А можно по-хипстерски сделать веб-приложение, и накидать везде ссылки, и тогда разные испытуемые будут проходить эксперименты в разных условиях. Вторым способом можно быстро набрать десятки и сотни испытуемых, но встанет вопрос: чем объяснять различия в их результатах? Различиями в условиях, или различиями в уровнях независимой переменной, которая варьируется веб-приложением согласно плану эксперимента?

Ну или если математически это записывать, то есть зависимая переменная Y, есть независимая X, и есть гипотеза, что Y зависит от X по закону f, то есть: Y=f(X). В реальности, конечно же, есть ещё куча переменных Z1, Z2, ..., ZN, влияющих на значение Y, то есть Y=f(X; Z1, Z2, ..., ZN). Если мы контролируем условия достаточно жёстко, то Zi будут постоянны, и любые изменения Y будут следствием изменений X. Значит мы можем дальше разговаривать о том, как выглядит f(X). Если же мы не контролируем условия, то некоторые (или все) Zi будут изменяться наряду с X, и мы потеряем возможность объяснять изменения Y изменениями X.

Отмечу, что есть статистические методы, которые описывают, как можно, получив кучу замеров (то есть точек (Xi, Yi)) делать выводы о том, верна ли наша гипотеза о f -- с этим проблем нет никаких. Но эти методы ничего не говорят о валидности, они построены на предположении, что валидность соблюдена. То есть в них можно включить больше данных, не двумерные точки (Xi, Yi), а многомерные (Xi, Yi, Z1i, Z2i, ... ZNi), тогда статистика попыхтит и выдаст нам какой-нибудь результат (с p<0.5, вместо p<0.05, лол). Но для этого надо научится замерять все эти Z, что невозможно, потому что мы не знаем списка этих самых Z: мы не знаем, что влияет. Поэтому мы предпочитаем другой путь -- контролировать окружение по-максимуму, скрещивая пальцы, чтобы ничего не упустить.

Отсюда вытекают пробемы. Если "надёжный" эксперимент подтвердил гипотезу об f с какой-то достоверностью P1, а ненадёжный эксперимент подтвердил ту же гипотезу об f с какой-то достоверностью P2, можно ли имея эти числа, делать вывод, что итоговая достоверность P больше чем P1 и больше чем P2? (Хм. Чёт я изложил в таком варианте, и мне кажется очевидным, что будет больше. Странно. Но я устал, голова не варит, может быть просто поэтому очевидно?)

Форум LessWrong.ru

Новости:

Автор Тема: Реал-кейс на байесианский вывод (Прочитано 27870 раз)

kuuff

Реал-кейс на байесианский вывод

nar

Re: Реал-кейс на байесианский вывод

Kroid

Re: Реал-кейс на байесианский вывод

fil0sof

Re: Реал-кейс на байесианский вывод

a_konst

Re: Реал-кейс на байесианский вывод

kuuff

Re: Реал-кейс на байесианский вывод