19 Reliability - 신뢰성

Measurements of Successful Operation—No Repair

Useful Approximations

Measurements of Successful Operation—Repairable

Average Unavailability with Periodic Inspection and Test

Periodic Restoration and Imperfect Testing

Equipment Failure Modes

SIF Modeling of Failure Modes

Redundancy

19.1 서론(Introduction)

Reliability 신뢰성

신뢰성 공학(Reliability Engineering) 분야에서는 여러 가지 공통적인 지표(Metrics)가 사용됩니다. 주요 지표로는 신뢰도(Reliability), 비신뢰도(Unreliability), 가용성(Availability), 비가용성(Unavailability), 평균 고장 시간(Mean Time to Failure, MTTF)이 있습니다. 그러나 다양한 고장 모드(Failure Modes)를 고려해야 하는 경우—예를 들어 안전 계장 기능(Safety Instrumented Functions, SIF)을 검증할 때—새로운 지표들이 필요합니다. 이러한 지표에는 안전하게 고장날 확률(Probability of Failing Safely, PFS), 요구 시 고장 확률(Probability of Failure on Demand, PFD), 평균 요구 시 고장 확률(PFDavg), 오작동 평균 고장 시간(Mean-Time-To-Failure Spurious, MTTFS), 위험한 고장의 평균 시간(Mean Time to Dangerous Failure, MTTFD) 등이 포함됩니다.

19.2 수리 없는 성공적인 작동의 측정(Measurements of Successful Operation – No Repair)

성공 확률(Probability of Success)은 시스템이 지정된 한계 내에서 작동되고 의도된 기능을 수행할 확률로 정의됩니다. 문장의 마지막 부분은 장비 사용자에게 시스템이 오용되거나 지정된 한계를 벗어나 작동될 경우, 공표된 고장률이 적용되지 않음을 알려줍니다.

신뢰성 공학의 규칙을 활용하면 특정 상황에 대한 성공적인 작동 확률을 계산할 수 있습니다. 상황에 따라 이 확률은 “신뢰도(Reliability)” 또는 “가용성(Availability)” 등으로 불립니다.

신뢰도(Reliability)는 특정 시간 간격 동안 성공적인 작동을 측정하는 지표입니다. 신뢰도 R(t)는 다음과 같이 정의됩니다: “시스템이 지정된 운전 시간 동안 지정된 한계 내에서 작동할 경우, 필요할 때 의도된 기능을 수행할 확률.” 이 정의에는 다음과 같은 다섯 가지 중요한 요소가 포함됩니다:

시스템의 “의도된 기능”이 명확히 정의되어야 합니다.
“시스템이 기능을 수행해야 하는 시점”이 판단되어야 합니다.
“만족스러운 성능(Satisfactory performance)”이 무엇인지 판단되어야 합니다.
“지정된 설계 한계(Specified design limits)”가 명확히 정의되어야 합니다.
운전 시간 간격(Operating time interval)이 지정되어야 합니다.

새롭게 제조되어 시험을 성공적으로 마친 구성요소를 생각해보면, 서비스에 투입되는 시점(T = 0)에서는 정상적으로 작동합니다. 그러나 운전 시간 간격(T)이 증가함에 따라 해당 구성요소가 계속해서 성공적으로 작동할 가능성은 점점 낮아집니다. 구성요소는 결국 고장나게 되므로, 무한한 시간 간격에 대한 성공 확률은 0입니다. 따라서 모든 신뢰도 함수는 확률 1에서 시작하여 점차 확률 0으로 감소하게 됩니다(Figure 19-1 참조).

신뢰도(Reliability)는 운전 시간 간격(Operating Time Interval)의 함수입니다. “시스템의 신뢰도가 0.95이다”라는 표현은 시간 간격이 명시되지 않으면 의미가 없습니다. 반면 “임무 시간(Mission Time)이 100시간일 때 신뢰도는 0.98이다”라는 표현은 명확한 의미를 갖습니다.

신뢰도 함수는 확률 이론을 기반으로 직접 도출할 수 있습니다. 예를 들어, 1시간 동안 성공적으로 작동할 확률이 0.999라고 가정해 봅니다. 그렇다면 2시간 동안 성공적으로 작동할 확률은 얼마일까요? 시스템이 성공적으로 작동하려면 첫 번째 시간과 두 번째 시간 모두 성공해야 하므로, 2시간 동안의 성공 확률은 다음과 같습니다:

0.999 × 0.999 = 0.998 (19-1)

이 분석은 더 긴 시간 간격에 대해서도 계속 적용할 수 있습니다. 각 시간 간격에 대해 성공 확률 P(t)은 다음 식으로 계산할 수 있습니다:

P(t) = 0.999^t (19-2)

Figure 19-2는 이 식을 사용하여 확률과 운전 시간 간의 관계를 나타낸 그래프이며, 이는 신뢰도 함수입니다.

신뢰도는 특정 “임무 시간(Mission Time)” 동안 성공적으로 작동할 확률을 결정하기 위해 개발된 지표입니다. 예를 들어 비행 시간이 10시간이라면, “전체 비행 동안 성공적으로 작동할 확률은 얼마인가?”라는 질문이 자연스럽게 나올 수 있습니다. 이에 대한 답은 10시간 동안의 신뢰도가 됩니다. 일반적으로 신뢰도는 온라인 수리가 불가능한 상황—예: 무인 우주 비행이나 비행 중인 항공기—에 적용되는 측정값입니다.

비신뢰도(Unreliability)는 신뢰도의 여집합(Complement)으로, 특정 임무 시간 동안 고장이 발생할 확률(1-P(t))로 정의됩니다.

평균 고장 시간(MTTF, Mean Time To Failure)—가장 널리 사용되는 신뢰도 지표 중 하나로, 고장까지 걸리는 시간이라는 확률 변수의 “기대값(Expected Value)”으로 공식적으로 정의됩니다. 그러나 이 지표는 시간이 지나면서 혼란스러운 수치로 변질되었으며, 오용되거나 오해되는 경우가 많습니다. 예를 들어, MTTF를 “보장된 최소 수명”으로 잘못 해석하는 경우가 있습니다.

MTTF에 대한 공식은 일반적으로 제품의 유효 수명 기간(Useful Life Period)에 대해 도출되어 사용됩니다. 이 방법은 마모로 인한 고장을 제외합니다. 예를 들어, 숙련된 플랜트 엔지니어에게 “압력 트랜스미터의 MTTF는 얼마입니까?”라고 물으면, 해당 엔지니어는 마모까지 포함하여 “35년”이라고 답할 수 있습니다. 그리고 명시된 MTTF가 300년이라고 되어 있는 것을 보면, 그 수치를 계산한 사람이 실제 현장에 와서 몇 년간 함께 일해보기를 바랄 수도 있습니다.

일반적으로 MTTF는 장비의 유효 수명 기간 동안 정의되며, “수명 종료(End of Life)”에 따른 고장은 이 수치에 포함되지 않는 경우가 많습니다.

고장률이 일정한 경우(Constant Failure Rate)

장비의 유효 수명 기간 동안 고장률이 일정하다고 가정하면, 신뢰도(Reliability), 비신뢰도(Unreliability), 평균 고장 시간(MTTF) 간의 관계는 명확해집니다. 고장률이 일정할 경우, 다음과 같은 관계가 성립합니다:

고장률 λ(t)가 일정하다고 가정하면:

λ(t) = λ (19-3)

이러한 가정 하에서는 다음과 같은 관계가 성립합니다:

신뢰도(Reliability):

R(t) = e^(-λt) (19-4)

비신뢰도(Unreliability):

F(t) = 1 – e^(-λt) (19-5)

평균 고장 시간(MTTF):

MTTF = 1 / λ (19-6)

Figure 19-3은 시간당 0.001건의 고장률(Constant Failure Rate)을 가정했을 때의 신뢰도(Reliability) 및 비신뢰도(Unreliability) 함수를 보여줍니다. 이 그래프에서 신뢰도 곡선은 Figure 19-2와 유사한 형태를 띠고 있으며, 이는 1시간 동안의 성공 확률이 0.999일 때의 성공적인 작동 확률을 나타낸 것입니다.

이러한 결과는 일정한 성공 확률(Constant Probability of Success)이 운전 시간 간격에 따라 지수 함수 형태의 성공 확률 분포(Exponential Probability of Success Distribution)와 동등하다는 것을 보여줍니다.

19.3 유용한 근사식(Useful Approximations)

수학적으로, 특정 함수는 다른 함수들의 급수(Sum of Series)로 근사될 수 있음이 증명되어 있습니다. 모든 x 값에 대해 다음과 같은 식이 성립합니다:

x 값이 충분히 작을 경우, 지수 함수는 다음과 같이 근사할 수 있습니다:

여기서 x에 –λt를 대입하면:

따라서 λt가 충분히 작을 경우, 비신뢰도(Unreliability)는 다음과 같이 근사할 수 있습니다:

이것은 어디까지나 근사식이며, 기본적인 공식은 아닙니다. 비신뢰도를 나타낼 때는 종종 PF(Probability of Failure, 고장 확률)라는 표기를 사용하며, 다음과 같은 식으로 나타냅니다:

19.4 수리 가능한 시스템의 성공적인 작동 측정(Measurements of Successful Operation—Repairable Systems)

“신뢰도(Reliability)”라는 측정값은 시스템이 일정 시간 간격 동안 성공적으로 작동해야 한다는 조건을 포함합니다. 이 확률은 임무 수행 중 시스템을 수리할 수 없는 상황에서는 매우 유용한 추정치입니다. 그러나 산업용 공정 제어 시스템처럼 공정이 작동 중일 때도 수리가 가능한 경우에는 다른 측정 방식이 필요합니다.

복구 평균 시간(MTTR, Mean Time To Restore)

MTTR은 “복구 시간(Restore Time)”이라는 확률 변수의 기대값(Expected Value)입니다. 이 정의에는 고장을 감지하는 데 걸리는 시간과 고장을 감지하고 식별한 후 수리하는 데 걸리는 시간이 모두 포함됩니다. MTTF와 마찬가지로 MTTR도 평균값입니다. MTTR은 실패 상태에서 성공 상태로 전환되는 데 걸리는 평균 시간입니다.

과거에는 MTTR이 “평균 수리 시간(Mean Time To Repair)”을 의미했습니다. 그러나 IEC 61508에서는 이 용어가 포함하는 범위에 대한 혼란 때문에 “복구 시간”으로 변경되었습니다. 일부는 이 용어가 실제 수리 시간만 포함한다고 생각했고, 다른 일부는 진단 시간과 수리 시간을 모두 포함한다고 해석했습니다. 일부 지역에서는 “평균 정지 시간(Mean Dead Time, MDT)”이라는 용어를 사용하며, 이는 MTTR과 동일한 의미입니다.

MTTR은 진단 감지 시간과 실제 수리 시간을 모두 명확히 포함하기 위해 정의된 용어입니다. 실제로 MTTR을 추정할 때는 고장을 감지하고 인식하며 식별하는 시간, 예비 부품을 확보하는 시간, 수리 인력이 대응하는 시간, 실제 수리 시간, 모든 활동을 문서화하는 시간, 장비를 다시 가동하는 시간 등을 모두 포함해야 합니다.

신뢰성 엔지니어들은 종종 수리 확률이 지수 분포 함수(Exponential Distribution Function)를 따른다고 가정하며, 이 경우 “복구율(Restore Rate)”은 일정한 값이 됩니다. 관례적으로 그리스 문자 μ(뮤)를 복구율로 사용하며, 복구율에 대한 식은 다음과 같습니다:

복구 시간은 추정하기 어려운 경우가 많습니다. 특히 주기적인 활동이 포함된 경우에는 더욱 그렇습니다. 예를 들어, 안전 계장 시스템(SIS)에서 고장이 발생했지만 주기적인 점검과 시험을 통해서만 발견되는 상황을 생각해볼 수 있습니다. 고장이 점검 직전에 발생하면 감지 시간은 거의 0에 가까울 수 있지만, 점검 직후에 발생하면 감지 시간은 점검 주기만큼 길어질 수 있습니다.

이러한 경우에는 수리 확률을 일정한 값이 아닌 주기 함수(Periodic Function)로 모델링하는 것이 더 적절할 수 있습니다(참고문헌 1 참조). 이에 대해서는 이후 “주기적 점검 및 시험을 고려한 평균 비가용성(Average Unavailability with Periodic Inspection and Test)” 항목에서 자세히 설명됩니다.

고장 간 평균 시간(MTBF, Mean Time Between Failures)

MTBF는 고장/수리 주기의 평균 시간으로 정의됩니다. 여기에는 고장까지의 시간, 고장을 감지하는 데 걸리는 시간, 실제 수리 시간이 포함됩니다. 이는 구성요소가 고장난 후 성공적으로 수리되었음을 의미합니다. 단순한 수리 가능한 구성요소의 경우:

MTBF라는 용어는 혼란을 줄 수 있습니다. 일반적으로 MTTR은 MTTF보다 훨씬 작기 때문에 MTBF는 MTTF와 거의 동일하게 간주됩니다. MTBF는 종종 MTTF 대신 사용되며, 수리 가능한 시스템과 수리 불가능한 시스템 모두에 적용됩니다.

가용성(Availability)

신뢰도는 수리 가능한 시스템에서 시스템의 평균 성공 가능성을 판단하기에는 충분하지 않습니다. 따라서 수리 가능한 시스템의 성공을 측정하기 위한 또 다른 지표가 필요하며, 그것이 바로 “가용성(Availability)”입니다. 가용성은 “장치가 필요할 때 지정된 한계 내에서 작동하여 성공적으로 작동할 확률”로 정의됩니다. 여기에는 운전 시간 간격이 직접적으로 포함되지 않습니다. 시스템이 성공적으로 작동하고 있다면, 그것은 가용 상태입니다. 과거에 고장이 발생했더라도 수리되어 다시 작동 중이라면, 또는 처음부터 고장 없이 계속 작동 중이라면 모두 가용한 상태로 간주됩니다.

가용성은 시스템, 유닛 또는 모듈의 “가동 시간(Uptime)”을 측정하는 지표입니다. 가용성과 신뢰도는 서로 다른 지표입니다. 신뢰도는 항상 고장률과 운전 시간 간격의 함수이며, 가용성은 고장률과 수리율의 함수입니다. 운전 시간 동안 순간 가용성은 고장 확률과 수리 상황의 변화에 따라 달라질 수 있습니다. 일반적으로 가용성은 긴 운전 시간 간격에 대해 평균값으로 계산되며, 이를 “정상 상태 가용성(Steady State Availability)”이라고 합니다.

일부 시스템, 특히 안전 계장 시스템(SIS)에서는 수리 상황이 일정하지 않습니다. SIS에서는 고장이 주기적인 점검과 시험 중에 발견되고 수리되는 경우가 많습니다. 이러한 시스템에서는 정상 상태 가용성이 시스템 성공을 측정하는 데 적절하지 않습니다. 대신, 점검 간 운전 시간 간격에 대해 평균 가용성(Average Availability)을 계산해야 합니다.

[참고: 이는 정상 상태 가용성과는 다른 측정 방식입니다.]

비가용성(Unavailability)

비가용성은 주로 수리 가능한 시스템에서 사용되는 고장 측정 지표입니다. “장치가 특정 시점(t)에 성공적으로 작동하지 못할(고장난) 확률”로 정의됩니다. 정상 상태 비가용성(Steady State Unavailability)과 운전 시간 간격에 대한 평균 비가용성(Average Unavailability) 등 다양한 지표가 계산될 수 있습니다.

비가용성은 가용성의 여집합(Complement)이므로 다음과 같은 관계가 성립합니다:

정상 상태 가용성(Steady State Availability)

전통적으로 신뢰성 엔지니어들은 수리율이 일정하다고 가정합니다. 이 경우 확률 모델을 통해 “정상 상태(Steady State)” 또는 평균 성공 확률을 계산할 수 있습니다. 이 지표는 유용할 수 있지만, 오랜 시간 간격에 대해서만 의미가 있습니다.

Figure 19-4는 단일 고장 모드를 가진 단일 구성요소의 마르코프 확률 모델(Markov Probability Model)을 보여줍니다. 이 모델은 정상 상태 가용성과 정상 상태 비가용성을 계산하는 데 사용될 수 있습니다.

Figure 19-4의 마르코프 모델(Markov Model)을 운전 시간 간격에 따른 가용성 함수로 해석하면, 그 결과는 Figure 19-5에 A(t)로 표시되어 있습니다. 이 그래프를 보면, 일정 시간이 지나면 가용성이 “정상 상태(Steady State)”에 도달하는 것을 확인할 수 있습니다.

Figure 19-6은 비가용성(Unavailability)과 비신뢰도(Unreliability)의 관계를 나타낸 그래프입니다. 이 그래프들은 Figure 19-5에 나타난 그래프와 상호 보완적인 관계를 가지고 있습니다.

19.5 주기적 점검 및 시험을 고려한 평균 비가용성(Average Unavailability with Periodic Inspection and Test)

저수요(저빈도) 안전 계장 시스템(Safety Instrumented System, SIS)에서는 복구율(Restore Rate)이 일정하지 않습니다. 고장이 주기적인 점검과 시험을 통해서만 감지되는 경우, 시험 시점까지는 복구율이 0입니다. 시험을 통해 시스템이 정상적으로 작동하고 있음이 확인되면 고장 확률은 0으로 설정됩니다. 반대로 고장이 발견되면 수리가 이루어집니다. 이 두 경우 모두에서 복구율은 짧은 시간 동안 매우 높아집니다.

Julia V. Bukowski 박사는 이러한 상황을 설명하며, 수리를 주기적 임펄스 함수(Periodic Impulse Function)로 모델링할 것을 제안했습니다(참고문헌 1).

Figure 19-7은 이러한 상황에서의 고장 확률 그래프를 보여줍니다. 이 그래프는 일정한 복구율 모델을 사용하여 운전 시간에 따른 비가용성을 계산한 결과와 비교할 수 있습니다. 일정한 복구율 모델에서는 비가용성이 정상 상태 값에 도달합니다. 이 값은 주기적 복구 모델을 사용하여 계산한 비가용성 평균값과는 명확히 다릅니다.

일반적으로는 주기적인 점검과 시험이 모든 고장 구성요소를 감지하고 시스템을 완전한 상태로 복원한다고 가정합니다. 따라서 이 경우에는 비신뢰도 함수(Unreliability Function)가 적절한 모델이 됩니다. 임무 시간(Mission Time)은 주기적 점검 및 시험 사이의 시간으로 설정됩니다.

안전 계장 시스템(SIS)에서는 위험한 조건이 발생할 때 시스템이 고장날 확률을 모델링하는 것이 목적입니다. 이러한 위험한 조건은 “요구(Demand)”라고 불립니다.

따라서 우리의 목적은 요구 시 고장 확률(PFD, Probability of Failure on Demand)을 계산하는 것입니다. 시스템이 요구가 드물게 발생하는 환경(예: 10년에 한 번)에서 작동하고, 이러한 요구가 시스템의 검증 시험과는 독립적일 경우, 비신뢰도 함수의 평균값을 사용하여 평균 고장 확률을 계산할 수 있습니다. 이 값은 정의상 “비가용성 함수(Unavailability Function)”이며, 수리가 허용된다는 점에서 그렇습니다.

[참고: 이 평균화 기법은 요구가 더 자주 발생하는 경우에는 유효하지 않으며, 그 경우에는 특수한 모델링 기법이 필요합니다.]

예를 들어, 식 19-5에서 제시된 단일 구성요소의 비신뢰도 함수는 다음과 같습니다:

이 식은 앞서 설명한 식 19-8을 사용하여 다음과 같이 근사할 수 있습니다:

평균값은 기대값 공식(Expected Value Equation,(식 19-15))을 사용하여 계산할 수 있으며

(식 19-15)

그 결과는 다음과 같은 근사식으로 나타낼 수 있습니다:

단일 구성요소(비중복) 또는 단일 채널 시스템의 경우, 이 근사식은 Figure 19-8에 나타나 있습니다. 이 근사식은 보수적인 접근 방식이며, 실제보다 다소 높은(비관적인) 값을 제공합니다.

19.6 주기적 복구 및 불완전한 시험(Periodic Restoration and Imperfect Testing)

점검 및 시험 과정이 모든 고장을 감지할 수 있다고 가정하는 것은 현실적이지 않습니다. 최악의 경우, 시험이 전혀 수행되지 않을 수도 있습니다. 이러한 상황에서 임무 시간(Mission Time)은 무엇일까요? 장비가 산업 시설의 수명 동안 사용된다면, 플랜트의 수명이 곧 임무 시간이 됩니다. 이 경우 고장 확률은 비신뢰도 함수(Unreliability Function)를 사용하여 플랜트 수명을 시간 간격으로 설정해 모델링합니다.

장비가 오직 요구(Demand)가 있을 때만 작동해야 하며, 그 요구가 시스템 고장과는 독립적인 경우에는 앞서 설명한 방식대로 비신뢰도 함수를 평균화하여 사용할 수 있습니다.

일부 고장만이 주기적 점검 및 시험을 통해 감지되는 경우, 평균 고장 확률(PFavg)은 시험을 통해 감지된 고장과 감지되지 않은 고장을 결합한 식을 통해 계산할 수 있습니다. 이를 위해서는 시험을 통해 감지되는 고장의 비율을 추정해야 합니다. 해당 식은 다음과 같습니다:

19.7 장비 고장 모드(Equipment Failure Modes)

계측 장비는 다양한 방식으로 고장날 수 있으며, 이를 “고장 모드(Failure Modes)”라고 합니다. 예를 들어, 2선식 압력 트랜스미터를 생각해보면, 이 장비는 압력 입력에 비례하는 4–20mA의 전류 신호를 출력하도록 설계되어 있습니다.

이러한 장비들에 대해 고장 모드, 영향, 진단 분석을 자세히 살펴보면 여러 가지 고장 모드를 확인할 수 있습니다. 예를 들어, 출력 고정(Frozen Output), 전류 상한값(Current to Upper Limit), 전류 하한값(Current to Lower Limit), 진단 고장(Diagnostic Failure), 통신 고장(Communications Failure), 출력 드리프트 또는 불규칙한 출력(Drifting/Erratic Output) 등이 있습니다.

이러한 계측기 고장은 적용 분야에 따라 고장 모드 범주로 분류할 수 있습니다. 예를 들어, 단일 트랜스미터(이중화 없음)가 고전류 발생 시 트립(Trip)하도록 프로그래밍된 안전 PLC에 연결되어 있다면, 해당 계측기의 고장 모드는 Table 19-1과 같이 분류할 수 있습니다.

디지털 입력과 디지털 출력이 모두 ‘비통전 시 트립(de-energize to trip, 논리 0)’ 설계인 PLC(Programmable Logic Controller, 프로그래머블 로직 컨트롤러)의 가능한 고장 모드를 고려해야 합니다.

PLC의 고장 모드는 안전 기능(safety function)과 관련하여 표 19-2에 제시된 바와 같이 분류할 수 있습니다.

최종 요소(final element) 구성품들도 고장이 발생할 수 있으며, 이때 각 구성품의 구체적인 고장 모드는 적용 분야에 따라 관련된 고장 모드로 분류할 수 있습니다. 트립(trip) 시 밸브가 열리는지 또는 닫히는지를 아는 것이 중요합니다. 표 19-3은 ‘트립 시 닫힘(close to trip)’ 구성에 기반한 고장 모드 분류의 예시를 보여줍니다.

앞서 언급한 고장 모드 분류는 개별 계측기(instrument)에 적용되는 것이며, 안전 계측 기능(safety instrumented function)을 수행하는 장비 세트 전체에는 적용되지 않을 수 있습니다. 이는 장비 세트에 이중화(redundancy)가 포함되어 있을 수 있기 때문입니다. 또한, 위에 나열된 항목들은 모든 구성품 유형을 포괄하거나 대표하려는 의도가 아니라는 점을 분명히 해야 합니다.

Fail-Safe(페일 세이프)

대부분의 실무자들은 계측기(instrument)에 대해 “페일 세이프(Fail-Safe)”라는 정의를 사용할 때, 안전 계측 기능(safety instrumented function)의 ‘오작동 또는 허위 트립(false or spurious trip)’을 유발하는 고장을 의미하며, 이러한 트립이 안전 계측 기능의 아키텍처에 의해 방지되지 않는 경우를 말합니다.

보다 공식적인 정의로는 “시스템이 안전 상태로 전환되거나 안전 상태로 전환될 가능성을 높이는 고장”이라는 표현이 사용되기도 합니다. 이 정의는 시스템 수준에서 유용하며, 이중화(redundant) 아키텍처가 적용된 많은 사례를 포함합니다.

IEC 61508에서는 “안전 관련 시스템을 위험한 상태 또는 기능 상실 상태로 만들 가능성이 없는 고장”으로 정의하고 있습니다. 이 정의는 어떤 상황에서도 허위 트립을 유발하지 않는 많은 고장을 포함하며, 실무자들이 허위 트립 확률을 계산할 때 사용하는 정의와는 상당히 다릅니다.

Fail-Danger(페일 데인저)

많은 실무자들은 “페일 데인저(Fail-Danger)”를 안전 계측 기능이 자동 보호 기능을 수행하지 못하게 만드는 고장으로 정의합니다. 이 정의에는 여러 표준에서 다양한 변형이 존재합니다.

IEC 61508에서는 이 책에서 사용된 정의와 유사한 표현을 사용하며, “안전 관련 시스템을 위험한 상태 또는 기능 상실 상태로 만들 가능성이 있는 고장”으로 정의합니다. IEC 61508은 여기에 다음과 같은 주석을 덧붙입니다: “이러한 가능성이 실제로 실현되는지는 시스템의 채널 아키텍처에 따라 달라질 수 있습니다. 안전성을 높이기 위해 다중 채널이 적용된 시스템에서는 위험한 하드웨어 고장이 전체 시스템을 위험하거나 기능 상실 상태로 이끌 가능성이 낮습니다.”

이 주석은 장비 단위에서의 정의가 안전 계측 기능 수준이나 시스템 수준에서는 동일한 의미를 갖지 않을 수 있음을 인정하고 있습니다.

Annunciation(경보 기능)

일부 실무자들은 안전 계측 기능에 사용되는 장비 내에서 발생하는 특정 고장이 자동 진단 기능의 정상적인 작동을 방해한다는 점을 인식하고 있습니다. 신뢰성 모델을 구축할 때, 많은 경우 자동 진단 기능이 고장 확률을 줄이는 역할을 한다고 가정합니다. 이러한 진단 기능이 작동하지 않게 되면, 위험한 고장이나 허위 트립의 확률이 증가합니다. 이러한 영향이 크지 않을 수 있지만, 모델링되지 않으면 그 영향을 알 수 없습니다.

따라서 경보 기능 고장(annunciation failure)은 장비 내부에서 발생한 고장을 자동 진단 기능이 감지하거나 경보하지 못하게 만드는 고장으로 정의됩니다. 이 고장은 고장이 발생한 장비 내부일 수도 있고, 자동 진단을 위해 설계된 외부 장비 내부일 수도 있습니다.

이러한 고장들은 IEC 61508에서 정의한 바에 따르면 “페일 세이프(Fail-Safe)”로 분류됩니다.

No Effect(무영향 고장)

장비 내부에서 발생하는 일부 고장은 안전 계측 기능에 영향을 주지 않으며, 허위 트립을 유발하지도 않고 자동 진단 기능의 작동을 방해하지도 않습니다. 장비가 수행하는 일부 기능이 손상될 수는 있지만, 해당 기능이 필수적이지 않은 경우입니다. 이러한 고장은 단순히 “무영향(No Effect)” 고장이라고 부를 수 있습니다.

이러한 고장들은 일반적으로 허위 트립 확률이나 페일 데인저 확률을 산출하기 위한 신뢰성 모델에서는 사용되지 않습니다. IEC 61508에 따르면, 이러한 고장들은 “페일 세이프(Fail-Safe)”로 분류되거나 분석에서 완전히 제외될 수 있으며, 이는 분석자의 해석에 따라 달라질 수 있습니다.

Detected/Undetected(감지됨/감지되지 않음)

고장 모드는 안전 계측 시스템 내에서 자동 진단 기능에 의해 “감지됨(detected)” 또는 “감지되지 않음(undetected)”으로 추가적으로 분류될 수 있습니다.

19.8 안전 계측 기능(SIF, Safety Instrumented Function)의 고장 모드 모델링

안전 계측 기능의 안전 무결성(safety integrity)을 평가할 때, 엔지니어는 단순히 성공적인 작동 확률만을 검토해서는 안 되며, 시스템의 고장 모드를 개별적으로 계산해야 합니다. 신뢰성(reliability), 가용성(availability), 평균 고장 간 시간(MTTF, Mean Time To Failure)과 같은 일반적인 지표들은 성공 가능성을 나타내는 수치일 뿐입니다. 안전 무결성을 측정하기 위한 추가 지표로는 요구 시 고장 확률(PFD, Probability of Failure on Demand), 평균 요구 시 고장 확률(PFDavg), 위험 감소 계수(RRF, Risk Reduction Factor), 위험한 고장까지의 평균 시간(MTTFD, Mean Time To Fail Dangerously)이 있습니다. 이 외에도 관련 용어로는 안전하게 고장날 확률(PFS, Probability of Failing Safely)과 허위 트립까지의 평균 시간(MTTFS, Mean Time To Fail Spurious)이 있습니다.

PFS / PFD

안전 계측 기능이 고장나서 공정에 허위 트립(spurious/false trip)을 유발할 확률이 존재합니다. 이를 ‘안전하게 고장날 확률(PFS)’이라고 합니다. 또한, 안전 계측 기능이 고장나서 잠재적으로 위험한 상태에 대응하지 못할 확률도 존재하며, 이는 ‘요구 시 고장 확률(PFD)’이라고 합니다.

PFDavg

평균 요구 시 고장 확률(PFDavg)은 요구 시 고장 확률(PFD)의 평균값을 나타내는 용어입니다. PFD는 장비의 운전 시간 간격에 따라 달라지며, 주기적인 점검, 시험 및 수리가 이루어지는 경우에는 정상 상태(steady state) 값에 도달하지 않습니다. 따라서 일정 기간 동안의 PFD 평균값은 유용한 지표가 될 수 있으며, 이는 잠재적인 위험 상태(hazard)가 안전 계측 기능의 장비 고장과 독립적이라고 가정할 때 유효합니다.

위험 상태와 안전 계측 기능의 고장이 서로 독립적이라는 가정은 매우 현실적인 것으로 간주됩니다.

(※ 참고: 제어 기능과 안전 기능이 동일한 장비에서 수행되는 경우에는 이 가정이 유효하지 않을 수 있습니다. 이러한 상황에서는 안전을 확보하기 위해 상세한 분석이 필요하며, 이러한 설계는 가능한 피하는 것이 바람직합니다.)

위험 상태와 장비가 독립적인 경우, 위험은 언제든지 발생할 수 있습니다. 따라서 국제 표준에서는 PFDavg가 안전 계측 기능의 효과를 측정하는 데 적절한 지표라고 명시하고 있습니다.

PFDavg는 정의된 시간 간격에 대한 산술 평균으로 정의됩니다. 안전 계측 기능이 주기적으로 점검되고 시험되는 경우, 시험 간격이 적절한 시간 간격이 됩니다.

이 정의는 여러 시스템 모델링 기법에서 수치적 결과를 도출하기 위해 사용됩니다. 수치 해석 기법을 사용하는 이산 시간 마르코프 모델(discrete time Markov model)에서는 시간에 따라 변하는 수치 값을 직접 평균 내는 방식이 가장 정확한 결과를 제공합니다. 고장수목(fault tree)을 사용하여 PFD에 대한 해석적 방정식을 도출할 경우, 위의 방정식을 활용하여 PFDavg에 대한 방정식을 얻을 수 있습니다.

19.9 이중화(Redundancy)

단일 계측기의 신뢰성(reliability)이나 안전 무결성(safety integrity)이 충분하지 않은 경우가 있습니다. 이러한 경우에는 하나 이상의 계측기를 설계에 사용하게 됩니다. 일부 계측기 배열은 더 높은 신뢰성을 제공하도록 설계되며(일반적으로 단일 ‘안전한’ 고장에 대비하기 위함), 다른 배열은 더 높은 안전 무결성을 제공하도록 설계됩니다(일반적으로 단일 ‘위험한’ 고장에 대비하기 위함). 또 어떤 배열은 높은 신뢰성과 높은 안전 무결성을 모두 제공하도록 설계됩니다. 복수의 계측기가 하나 이상의 고장 모드에 대비하여 배선되거나 구성되어 이중화를 제공하는 경우, 이러한 배열을 ‘아키텍처(architecture)’라고 합니다. 일반적인 아키텍처의 목록은 표 19-4에 제시되어 있으며, 이들 아키텍처는 참조 문헌 2의 14장에서 자세히 설명되어 있습니다.

명명 규칙은 ‘X out of Y’ 형식으로 표현되며, 여기서 Y는 설계에 포함된 장비 세트의 수를 의미하고, X는 기능을 수행하는 데 필요한 장비 세트의 수를 의미합니다. 일부 고급 아키텍처 명칭에서는 ‘D’라는 용어가 추가되며, 이는 진단 기능(diagnostics)에 의해 제어되는 스위치를 나타내며, 하나의 장비 세트에서 고장이 감지될 경우 장비를 재구성(reconfigure)하기 위한 용도입니다.

EnglishRO.COM

Featured Posts

20 Process Safety and Safety Instrumented System – 프로세스 안전 및 안전 계장 시스템

19 Reliability – 신뢰성

18 Alarm Management – 알람 관리