Да, про шум я неудачно выразился. Речь на самом деле шла о валидности, я просто хотел изложить максимально просто, с минимумом отвлекающих деталей.
Валидность. Например, мы можем измерять температуру тела замеряя инфракрасное излучение от него, и во многих случаях это валидный способ. Но если мы померяем инфракрасное излучение от ИК светодиода, то мы получим правильное значение для интенсивности ИК излучения (с точностью до погрешности наших приборов), но вывод о температуре будет неверным (если он сделан на тех же общих основаниях, типа абсолютно чёрного тела или как там принято в физике). И в этом случае нарушается валидность.
Мы всегда меряем не совсем то, что хотим померять, это можно сказать такой закон нашей реальности. Иногда это незаметно (если мы меряем длину линейкой, то придётся серьёзно поизвращаться, чтобы описать чем же замерянная величина принципиально отличается от такой величины как "длина", но можно вспомнить, например, про тепловое расширение линейки, и понять, что мы меряем длину не в метрах, а "в попугаях", точнее "в линейках"), но иногда это очень важно. Скажем мерять массу динамометром можно -- надо только не забыть умножить силу на g=9.8, -- но если мы забудем о том, что мы меряем на самом деле не массу, а силу, то мы рискуем потерять валидность в каких-то ситуациях (меряя массу в неинерциальной системе на Земле, или забыв учесть силу Архимеда, или меряя массу не на Земле).
Вот здесь то же самое. Эксперимент в любом варианте несёт в себе риск потери валидности, но надёжный вариант резко снижает этот риск, потому что гораздо больше вмешивающихся переменных находится под контролем экспериментатора (на примере с динамометром: экспериментатор может иметь специальный прибор, контролирующий, чтобы g было бы равно 9.8 в течение всех измерений). При этом, проблема в том, что реально никто не знает списка вмешивающихся переменных. В случае с весом и силой у нас есть законы физики, которые объясняют, как и от чего зависят показания динамометра, в моём же случае законов нет. Их ещё не нашли. Есть лишь здравый смысл, который подсказывает, что валидность не будет нарушена ни в одном из вариантов проведения эксперимента.
Вообще речь идёт о психологическом эксперименте и есть два способа -- можно по старинке набирать испытуемых по-одному, приводить каждого в одно и то же помещение, сажать за один и тот же монитор, следить, чтобы температура, освещённость, уровень шума и всё остальное в помещении оставались бы прежними, короче выдерживать максимум условий постоянными от испытуемого к испытуемому. А можно по-хипстерски сделать веб-приложение, и накидать везде ссылки, и тогда разные испытуемые будут проходить эксперименты в разных условиях. Вторым способом можно быстро набрать десятки и сотни испытуемых, но встанет вопрос: чем объяснять различия в их результатах? Различиями в условиях, или различиями в уровнях независимой переменной, которая варьируется веб-приложением согласно плану эксперимента?
Ну или если математически это записывать, то есть зависимая переменная Y, есть независимая X, и есть гипотеза, что Y зависит от X по закону f, то есть: Y=f(X). В реальности, конечно же, есть ещё куча переменных Z1, Z2, ..., ZN, влияющих на значение Y, то есть Y=f(X; Z1, Z2, ..., ZN). Если мы контролируем условия достаточно жёстко, то Zi будут постоянны, и любые изменения Y будут следствием изменений X. Значит мы можем дальше разговаривать о том, как выглядит f(X). Если же мы не контролируем условия, то некоторые (или все) Zi будут изменяться наряду с X, и мы потеряем возможность объяснять изменения Y изменениями X.
Отмечу, что есть статистические методы, которые описывают, как можно, получив кучу замеров (то есть точек (Xi, Yi)) делать выводы о том, верна ли наша гипотеза о f -- с этим проблем нет никаких. Но эти методы ничего не говорят о валидности, они построены на предположении, что валидность соблюдена. То есть в них можно включить больше данных, не двумерные точки (Xi, Yi), а многомерные (Xi, Yi, Z1i, Z2i, ... ZNi), тогда статистика попыхтит и выдаст нам какой-нибудь результат (с p<0.5, вместо p<0.05, лол). Но для этого надо научится замерять все эти Z, что невозможно, потому что мы не знаем списка этих самых Z: мы не знаем, что влияет. Поэтому мы предпочитаем другой путь -- контролировать окружение по-максимуму, скрещивая пальцы, чтобы ничего не упустить.
Отсюда вытекают пробемы. Если "надёжный" эксперимент подтвердил гипотезу об f с какой-то достоверностью P1, а ненадёжный эксперимент подтвердил ту же гипотезу об f с какой-то достоверностью P2, можно ли имея эти числа, делать вывод, что итоговая достоверность P больше чем P1 и больше чем P2? (Хм. Чёт я изложил в таком варианте, и мне кажется очевидным, что будет больше. Странно. Но я устал, голова не варит, может быть просто поэтому очевидно?)