SPC. Рациональная выборка

Возобновляем разговор об управлении процессом в условиях неполноты знаний и присущей миру изменчивости. Обыграем ранее предложенную картину на новый лад, внеся дополнительную глубину и насыщенность. Обозначим второстепенное значение контрольных карт, и основополагающую роль фактора человеческого интеллекта работающего над задачей. Коснемся понятия однородности результатов. А для начала, обобщим некоторые моменты из предыдущих рассуждений (здесь и здесь).

Во-первых, инженеру необходим метод позволяющий делать достоверные предсказания будущих результатов процесса на основании предыдущих. Представим, для наглядности, простой производственный процесс, направленный на задание некой характеристики качества Y для каждой из последовательно производимых деталей. Каким образом зная предыдущие значения Y можно достоверно предсказать последующие? Очевидно, что прямая экстраполяция – от результатов измерения одной детали к неизвестному значению той же характеристики другой детали – невозможна.

Необходимо, чтобы изделия, характеристики которых неизвестны, имели нечто общее с изделиями, которые были измерены. Другими словами, для всех интересующих изделий должна существовать единая совокупность причин, обуславливающая значения изучаемой характеристики Y в прошлом и будущем. В противном случае пропадает всякое рациональное основание для подобной экстраполяции.

В качестве такой единой причины и рассматривается производственный процесс. Или, – что то же самое, но понятнее, – совокупность значений факторов процесса. Если такая совокупность остается неизменной, то и последовательные значения Y будут одинаковы (исключая погрешность измерений). Другими словами, если процесс будет оставаться абсолютно неизменным, то и последующие результаты будут полностью совпадать с предыдущими. Но мы либо (а) не знаем всех факторов, либо (б) не умеем или не хотим удерживать значения известных факторов на одном уровне постоянно. В реальных процессах почти всегда сходятся и первое, и второе, иногда и при неполном знании о значениях известных факторов в каждый момент времени.

Во-вторых, инженеру необходимо знать когда выгоднее вмешаться в процесс для обнаружения причин наблюдаемой изменчивости, а когда выгоднее списать всё на случайность. Можно было бы попытаться сформулировать вопрос по-другому: произошло ли изменение в процессе, т.е. имеем ли мы дело с уже новым (изменившимся) процессом? Однако, реальные процессы практически во всех случаях изменяются неуправляемо на каждой итерации, ведь если бы они не изменялись, значения последовательных результатов были бы идентичны. Необходимо полезное для практических целей определение по сути неизменного процесса, в противном случае получается абсурд – каждая итерация процесса представляет собой новый процесс. Такая позиция в исследовании не принесла бы практической ценности для решения озвученных ранее задач.

В статистическом управлении, в немалой мере исходя из принципа экономической целесообразности, проводится искусственная граница между изменением результата, которое выгодно приписать конкретной причине в процессе, и считать, что процесс изменился значимым образом, и изменениями, которые более целесообразно списать на волю случая и не реагировать на одиночный результат вмешательством в процесс, полагая, что процесс остается по сути неизменным. Для практических целей этого обычно достаточно, учитывая, что установить некий универсальный формальный критерий изменчивости, помимо однозначного {0, 1}, кажется невозможным.

Теперь вернемся к контрольной карте, которая сама по себе очень простой график. Расчетная часть работы с контрольными картами не представляет трудностей: достаточно найти корректные формулы и подставить в них значения результатов процесса, предварительно обработанные неким магическим образом. Сложность и интерес кроется как раз в предварительной работе с данными, что включает, помимо прочего, изучение физического устройства процесса (здесь и далее под данными будем понимать совокупность всех имеющихся значений факторов и соответствующих им результатов процесса, с учетом последовательности их появления).

По скромным оценкам, много больше 50% работы инженера, говоря о статистическом управлении, состоит в планировании, сборе и предварительной обработке данных из процесса (в большей степени речь идет о факторах X, в меньшей степени о результатах Y), и почти все остальное время в интерпретации результатов и поиске особых причин в процессе. То есть основная работа она там, где невозможно составить единый формальный алгоритм действий на все случаи, немалая часть решений основана на субъективном суждении инженера, и не существует эталонов истинности, с которыми можно сравнить полученные результаты для однозначного заключения об их корректности или некорректности. Собственно время работы с самой контрольной картой (бумага, excel, Minitab, qs-stat, StatSoft Statistica, etc) есть величина несущественная.

Можно условно представить контрольную карту в виде шаблона, прилагаемого к результатам работы инженера над данными. Адекватность и прецизионность оценок, вынесенных с использованием такого шаблона, полностью зависит от способа организации значений Y, поступающих на вход. Классический принцип GIGO выполняется здесь неотвратимо.

Каким образом необходимо обработать результаты процесса, прежде чем скармливать их контрольной карте? Общий принцип таков: сбор и группировка значений результатов процесса для контрольной карты должны производиться таким образом, чтобы сигналы о наличии особых причин, если таковые присутствуют, были обнаружены на контрольной карте. Немного печально, т.к. опять не приведено универсальных решений и абсолютных истин; у инженера нет шансов переложить ответственность на бездушные математические формулы.

Предварительная работа с данными неким образом сочетает базовые принципы и интуицию. Прежде всего результаты процесса рассматриваются в порядке их появления (производства). О важности порядка появления значений в последовательности можно говорить долго, поэтому здесь сошлемся на первую лекцию Шухарта в сборнике 1939 года (перевод на русский язык планируем выложить в июне).

Далее по тексту мы рассмотрим базовый подход к предварительной работе с данными, в части формирования рациональной выборки, который достаточен, чтобы начать большинство исследований и понять основную идею. А дальше необходимо практиковаться, рефлексировать, делать выводы и изучать особые случаи. В каком-то смысле изучение процесса до сих пор не четко алгоритмизировано, а значит осмысленный опыт и интуиция играют в этом деле важную роль.

Обычно говорят, что значения результатов внутри подгруппы должны быть однородными. В каком-то смысле это так, но не всегда именно так. Пока возьмемся за обычный случай, а про редкие исключения поговорим в другой раз. В идеале под однородными результатами понимаются результаты одного фактически неизменного процесса. Однако, как указано выше, в реальности такая постановка вопроса почти всегда невозможна, а когда возможно, то и нет нужды в контрольных картах. На практике под однородными результатами подразумеваются результаты полученные из процесса, в котором в этот период времени действуют лишь общие причины изменчивости.


Здесь мы возвращаемся к предварительной работе проделанной инженером по обнаружению и управлению факторами процесса, его субъективному выводу и контрольной карте как шаблону дополнительной проверки вывода инженера. Подчеркнем еще раз, что граница между неизменным и изменившимся процессом, а следовательно между относительно однородными и неоднородными результатами, в реальных процессах всегда будет не истинной, а приближением, причем не к истине, а к некой условной договоренности, которая будучи полезной, позволяет не ошибаться слишком часто с практической точки зрения.

Как правило, сначала инженер стремится привести физический процесс в состояние, когда как минимум значимые факторы остаются, с его точки зрения неизменными, и он может поддерживать их в этом неизменном состоянии желаемое время. Далее инженер формирует из последовательности результатов, в порядке их производства, подгруппы таким образом, чтобы в каждую отдельную подгруппу попали результаты за период времени, когда факторы, оказывающие значимое воздействие на результат, оставались неизменными, а шанс появления в процессе нового фактора был минимален.

В начале исследования эмпирические данные могут отсутствовать, тогда “…инженер может предположить, какие могут быть существенные различия в условиях производственного процесса, в разные моменты времени, например различия в источниках сырья, колебания влажности, износ инструментов и тому подобное. (…) когда исследование процесса только начинается, эти различия в условиях представляют собой наши наилучшие предположения о том, что при дальнейшем исследовании может оказаться особыми причинами.” (Shewhart, 1939, p. 28) В общем случае, результаты отбираемые в одну и туже подгруппу должны извлекаться из процесса в промежутке между предполагаемыми изменениями в условиях процесса.


Разумно разделять по разным подгруппам или даже по разным картам процессы, которые явно различаются по составу или значениям факторов, к примеру в них работают различные операторы или станки, до тех пор, пока явным образом не подтверждена относительная однородность их результатов. Разделение по разным подгруппам поможет проверить являются ли фактические различия особыми причинами, тогда как разделение по разным картам может использоваться, когда фактическое различие не является целью исследования, а значит не должно мешать поиску иных особых причин.


Часто последовательность результатов для одной подгруппы ограничена небольшим отрезком времени или пространства. Это связанно, помимо прочего, с тем, что при увеличении того времени работы процесса, которое охватывается одной подгруппой, увеличивается вероятность появления в это время в процессе особой причины, что приведет к нарушению принципа однородности данных внутри подгруппы. В то же время нет никаких правил всегда ограничивать объем выборки, скажем, тремя, пятью или десятью значениями, или неким определенным количеством минут, часов, дней. Вопрос о размере выборки решается инженером для конкретного процесса исходя из приведенных выше измышлений и априорных знаний.

Возьмем производственный процесс, в котором периодически проводится измерение некой характеристики производимой продукции (Рис.1). Значение y1 описывает значение характеристики Y для конкретной детали. Тоже верно в отношении значений y2 и y3.


Рис. 1. Выборка из предположительно неизменного процесса.

Допустим, что инженер, на основании своих знаний и имеющихся данных, объединяет y1, y2, y3 в одно подгруппу. Такая группировка подразумевает относительную однородность данных. Другими словами: такая группировка будет соответствовать идее однородности внутри подгруппы, только если условия процесса в период от t-1 до t0 оставались по сути неизменными. Предположим, что реальное положение дел немного отличается: в указанный период времени в процессе происходили значимые изменения факторов - особые причины (Рис.2). Первая особая причина временно повлияла на результаты процесса в период ta - tb, когда вторая появилась начиная с tc.

Рис. 2. Фактическое наличие особых причин в процессе

Таким образом, предположение лежащее в основе корректной группировки данных ложно. В некоторых случаях, такое нарушение однородности будет оставлять сигнал на карте размахов. В других случаях, когда подобные нарушения принципа однородности продолжаются от подгруппы к подгруппе на постоянной основе, совокупность сигналов сама может превратиться в шум.

Далее, необходимо обозначить “фундаментальную и очень важную практическую разницу между выводом об отсутствии на контрольной карте сигналов о наличии особых причин и выводом о том, что процесс находится в состоянии статистической управляемости, сделанным на основании отсутствия на контрольной карте сигналов о наличии в процессе особых причин.” (Shewhart, 1939, p. 37)

Вернемся к ситуации на Рис. 2. В этот раз представим, что инженер сформировал три подгруппы объемом в одно наблюдение: у1 в первой подгруппе, y2 - во второй, y3 - в третьей. Несмотря на наличие особой причины в процессе в период ta - tb, отсутствует всякая возможность обнаружить сигнал о ней на контрольной карте, по причине отсутствия соответствующих данных на входе. Карта не сможет поправить инженера, который спланировал выборку подобным образом.

Очевидно, что не существует универсальной правильной периодичности выборки для любого процесса. (Особенно странными в таком свете кажутся универсальные рекомендации “делайте выборку три раза в смену”). Задача стоящая перед инженером, фактическая или предполагаемая изменчивость факторов в процессе, наравне с постоянно присутствующим ограничением в виде экономической целесообразности, задают ту периодичность выборки, которая может быть названа наиболее адекватной в конкретной ситуации. Если периодичность выборки не позволяет получить результаты после каждого потенциально значимого изменения фактора в процессе, контрольные карты не будут отражать состояние управляемости процесса в полном смысле этого слова, но на практике… Снова не все идеально, но теперь мы к этому уже привыкли и знаем что делать: инженер стремится установить такую периодичность выборки, чтобы…

Обобщая, можно сказать, что рациональная выборка подразумевает, что внутри подгрупп мы собираем постоянную изменчивость процесса образующую шум, на фоне которого мы проверяем, присутствует ли сигнал отражающий значимую разницу в факторах процесса между различными подгруппами.

Исходя из всего ранее сказанного заключим, что результаты процесса должны интерпретироваться только в контексте реальных физических условий процесса во времени, а для этого такой контекст должен в какой-то мере сформироваться в голове у инженера. Не зная ничего о физическом устройстве процесса в исследуемый период, а опираясь лишь на контрольную карту можно сделать какие-то предположения, но не разумно будет делать выводы.