Safety Instrumented System Design Life Cycle

System Technologies

System Analysis

Abnormal Situation Management

20.1 서론(Introduction)

Process Safety and Safety Instrumented System 프로세스 안전 및 안전 계장 시스템

프로세스 플랜트(process plant)는 오늘날 사회에 필요한 제품을 생산합니다. 이러한 플랜트의 단점은 운영 시 일정한 위험이 수반된다는 점입니다. ‘제로 리스크(zero risk)’라는 개념은 존재하지 않지만, 목표는 가능한 한 실용적인 수준까지 위험을 낮추는 것입니다. 이를 위해서는 위험을 평가하고 순위를 매겨, 다양한 설계 및 비용 옵션에 대한 의사결정을 통해 위험을 제어할 수 있어야 합니다.

안전 계측 시스템(SIS, Safety Instrumented System)은 프로세스 플랜트의 안전을 유지하기 위한 수단 중 하나입니다. 이 시스템은 플랜트 내의 잠재적으로 위험한 상태를 모니터링하고, 특정 조건이 위반될 경우 장비나 공정을 안전한 상태로 전환시킵니다. 오늘날의 안전 계측 시스템 관련 표준은 성능 기반(performance-based)이며, 규정 중심(prescriptive)이 아닙니다. 즉, 특정 기술이나 이중화 수준, 시험 주기, 시스템 로직 등을 강제하지 않습니다. 본질적으로 이들 표준은 “위험 수준이 높을수록 이를 제어하기 위한 안전 시스템의 수준도 높아야 한다”고 명시하고 있습니다.

위험을 평가하는 방법에는 여러 가지가 있으며, 위험을 안전 시스템이 요구하는 성능 수준과 연계하는 방법도 다양합니다. 안전 계측 시스템의 전체 설계는 단순하거나 직관적인 작업이 아닙니다. 필요한 전체 엔지니어링 지식과 기술은 종종 한 사람의 역량을 넘어섭니다. 공정, 운영, 계측기술, 제어 시스템 및 위험 분석에 대한 이해가 필요하며, 이는 일반적으로 다학제팀(multi-disciplined team)의 협업을 요구합니다.

경험에 따르면, 안전 계측 시스템을 설계할 때는 상세하고 체계적이며 방법론적이고 문서화가 잘 된 설계 프로세스가 필수적입니다. 이 과정은 공정에 대한 안전 검토, 다른 안전 계층의 구현, 체계적인 분석, 그리고 상세한 문서화 및 절차 수립으로 시작됩니다. 이러한 단계들은 다양한 규정, 표준, 지침 및 권장 실무에서 설명되고 있으며, 이를 ‘안전 설계 생애 주기(safety design life cycle)’라고 부릅니다. 그 목적은 문서화되고 감사 가능한 기록을 남기며, 조직 내에서 발생할 수 있는 누락이나 간과를 방지하는 데 있습니다.

사후 분석(hindsight)은 쉽습니다. 누구나 사후적으로는 명확한 시각을 갖습니다. 그러나 사전 예측(foresight)은 훨씬 더 어렵습니다. 오늘날의 대규모 고위험 시스템에서는 사전 예측이 필수적입니다. 우리는 대형 석유화학 플랜트를 시행착오(trial and error) 방식으로 설계할 여유가 없습니다. 위험이 너무 크기 때문에 그런 방식으로 배워서는 안 됩니다. 아직 발생하지 않았더라도, 가능성이 아주 낮더라도, 특정 사고를 예방하려는 노력이 필요합니다. 이것이 바로 시스템 안전(system safety)의 주제입니다.

20.2 안전 계측 시스템(SIS) 설계 생애 주기

안전 계측 시스템은 중요한 항목들이 누락되지 않도록 하기 위해 체계적인 설계 프로세스를 필요로 합니다. 그림 20-1은 ANSI/ISA-84.00.01-2004 Part 1~3(IEC 61511-1~3 개정판) – 공정 산업 분야의 기능 안전: 안전 계측 시스템 표준에서 설명된 생애 주기 단계를 보여줍니다. 이는 하나의 예시일 뿐이며, 다른 산업 문서에서는 다양한 생애 주기 모델이 제시되어 있습니다. 기업은 고유한 요구사항에 따라 자체적인 생애 주기 모델을 개발할 수도 있습니다.

일부에서는 생애 주기의 모든 단계를 수행하는 것이 위험을 줄이기 위한 다른 작업들과 마찬가지로 전체 비용을 증가시키고 생산성을 저하시킨다고 불만을 제기하기도 합니다. 그러나 주요 엔지니어링 학회, 20개 산업, 60개 제품 그룹이 참여하고 총 500억 시간 이상의 노출 데이터를 기반으로 수행된 심층 연구에 따르면, 안전성이 향상될수록 생산성도 증가하는 것으로 나타났습니다. 미국에서는 산업안전보건청(OSHA, Occupational Safety and Health Administration)이 자사의 공정 안전 관리 규정(29 CFR 1910.119)을 도입한 이후, 사고 발생 건수가 20% 이상 감소했으며, 기업들은 생산성이 향상되었다고 보고하고 있습니다.

20.2.1 위험 및 리스크 분석(Hazard & Risk Analysis)

프로세스 플랜트 설계의 주요 목표 중 하나는 본질적으로 안전한(inherently safe) 시설을 구축하는 것입니다. 공정 안전 분야의 권위자인 트레버 클레츠(Trevor Kletz)는 “존재하지 않으면 누출되지 않는다(What you don’t have, can’t leak)”라는 말을 여러 차례 강조한 바 있습니다. 이상적으로는 공정 설계를 통해 중간 생성물의 불필요한 저장, 보다 안전한 촉매의 사용 등과 같은 많은 위험 요소들을 제거할 수 있어야 합니다.

안전 시스템 설계의 초기 단계 중 하나는 공정과 관련된 위험 및 리스크에 대한 이해를 구축하는 것입니다.

위험 분석(hazard analysis)은 위험 요소와 위험 사건(hazardous event)을 식별하는 작업입니다. 이를 위해 사용할 수 있는 기법은 다양하며, 예를 들어 HAZOP(HAZard and OPerability study), What-if 분석, 고장수목(fault tree), 체크리스트(checklist) 등이 있습니다.

체크리스트와 같은 기법은 축적된 지식이 많은 잘 알려진 공정에 유용합니다. 이러한 지식은 설계 단계에서 고려해야 할 항목들을 체크리스트 형태로 요약할 수 있습니다. 반면, HAZOP이나 What-if 분석은 축적된 지식이 적은 공정에 더 적합하며, 보다 체계적인 접근 방식을 취합니다. 이러한 기법은 일반적으로 다학제 팀의 참여가 필요하며, 설계 도면에 대한 상세한 검토와 잠재적인 문제 및 그 원인에 대해 팀이 사고하도록 유도하는 일련의 질문을 포함합니다. 예를 들어, 유량이 너무 많거나, 너무 적거나, 역류하는 경우에는 어떤 일이 발생할 수 있는가? 이러한 상태는 무엇 때문에 발생할 수 있는가?

리스크 평가(risk assessment)는 위험 분석을 통해 식별된 위험 사건의 리스크를 순위화하는 작업입니다. 리스크는 사건의 빈도 또는 확률과 사건의 심각도 또는 결과의 함수로 정의됩니다. 리스크는 인명, 생산, 자산, 환경, 기업 이미지 등에 영향을 미칠 수 있습니다.

리스크 평가는 정성적(qualitative) 또는 정량적(quantitative) 방식으로 수행될 수 있습니다. 정성적 평가는 리스크를 주관적으로 낮음에서 높음까지 순위화하며, 정량적 평가는 사망률, 사고율, 실제 누출량 등과 같은 수치적 요소를 리스크에 할당하려고 시도합니다.

이러한 분석은 계측기나 제어 시스템 엔지니어만의 책임이 아닙니다. 안전, 운영, 유지보수, 공정, 기계 설계, 전기 등 다양한 분야의 전문가들이 함께 수행해야 하는 작업입니다.

20.2.2 보호 계층에 대한 안전 기능의 할당

그림 20-2는 플랜트에서 사용할 수 있는 다중 독립 보호 계층의 예시를 보여줍니다. 다양한 산업 표준에서는 안전 시스템이 제어 시스템과 완전히 분리되고 독립적으로 구성되어야 한다고 명시하거나 강력히 권장하고 있습니다. 각 계층은 전체적인 리스크 수준을 낮추는 데 기여합니다. 내부 계층은 위험한 사건(예: 과압 상태로 인한 폭발)이 발생하지 않도록 방지하는 역할을 하며, 이를 보호 계층(protection layer)이라고 합니다. 외부 계층은 위험한 사건이 이미 발생한 이후 그 결과를 완화하는 데 사용되며, 이를 완화 계층(mitigation layer)이라고 합니다.

그림 20-3은 각 계층이 제공하는 리스크 저감 효과를 시각적으로 표현한 것입니다. 그림의 오른쪽 수직선은 공정에 내재된 리스크 수준을 나타내며, 이는 안전 검토를 통해 결정됩니다. 예를 들어, 안전 계층이 전혀 없는 상태에서 심각한 폭발이 발생할 리스크가 연 1회라고 가정해보겠습니다. 또한, 해당 사건에 대한 기업의 안전 목표(즉, 허용 가능한 리스크 수준)는 연 1/10,000이라고 가정합니다. (이러한 목표를 설정하는 것은 매우 중요한 주제이며, 본 장의 범위를 벗어납니다.)

기본 공정 제어 시스템(BPCS, Basic Process Control System)은 공정 변수들을 안전한 범위 내에서 유지함으로써 일정 수준의 보호 기능을 제공합니다. 표준에서는 BPCS에 대해 리스크 저감 계수(risk reduction factor)를 10 이상으로 주장해서는 안 된다고 명시하고 있습니다.

제어 시스템과 별도로 구성된 경보 시스템이 있고, 운영자가 충분한 대응 시간을 가지며 적절한 절차를 따를 수 있다고 가정할 경우, 운영자에 대해 리스크 저감 계수를 10으로 가정할 수 있습니다. 또한, 릴리프 밸브(relief valve)가 과압 상태를 방지할 수 있다면, 고장률과 시험 주기를 기반으로 해당 밸브의 리스크 저감 계수를 계산할 수 있습니다. (이 역시 매우 중요한 주제이며 본 장의 범위를 벗어납니다.) 여기서는 릴리프 밸브에 대해 리스크 저감 계수를 100으로 가정하겠습니다. 안전 계측 시스템이 없는 경우, 전체 리스크 수준은 다음과 같습니다:

Figure 20-2: Multiple Independent Protection Layers

안전 시스템이 없는 경우, 위의 예시는 연 1/10,000이라는 기업의 리스크 목표를 충족하지 못합니다. 그러나 리스크 저감 수준이 최소 10 이상인 안전 시스템을 추가하면 기업의 리스크 목표를 달성할 수 있습니다. 아래의 표 20-1에 나타난 바와 같이, 이는 SIL(Safety Integrity Level, 안전 무결성 등급) 1 범위에 해당합니다. 이는 여러 안전 시스템 성능 요구 수준을 결정하는 기법 중 하나인 LOPA(Layer Of Protection Analysis, 보호 계층 분석)의 예시입니다.

위험한 사건과 관련된 리스크가 계측기(instrumentation)가 아닌 다른 수단으로 예방되거나 완화될 수 있다면—계측기는 복잡하고, 비용이 많이 들며, 유지보수가 필요하고 고장 가능성이 있기 때문에—그것이 더 바람직합니다. 예를 들어, 방류벽(dike)은 액체 누출을 쉽게 차단할 수 있는 단순하고 신뢰성 높은 장치입니다. “KISS(Keep It Simple, Stupid)”는 이러한 설계에서 중요한 원칙이 되어야 합니다.

계측기에 할당된 모든 안전 기능(즉, 안전 계측 기능)에 대해서는 요구되는 성능 수준을 결정해야 합니다. 표준에서는 이를 SIL(Safety Integrity Level, 안전 무결성 등급)이라고 부릅니다. 이 단계는 많은 조직에게 여전히 어려운 과제입니다. SIL은 공정 리스크의 직접적인 측정값이 아니라, 앞서 식별된 리스크를 허용 가능한 수준으로 제어하기 위해 필요한 안전 시스템의 성능 수준을 나타내는 지표입니다. 표준에서는 안전 무결성 등급을 결정하는 다양한 기법을 설명하고 있습니다. 본 문서에서는 위에서 간략히 설명한 LOPA 예시 외에는 해당 내용을 요약하지 않습니다.

표준에 제시된 표에서는 각 무결성 등급에 대한 성능 요구사항을 보여줍니다. 표 20-1은 공정 산업에서 가장 일반적인 “저요구(low demand)” 모드 시스템에 대한 성능 요구사항을 나열하고 있습니다. 이는 표준이 기술, 이중화 수준, 시험 주기 등을 강제하지 않고 성능 중심(performance-oriented)임을 보여줍니다.

Figure 20-3: Risk Reduction Provided by Each Protection Layer

20.2.3 안전 요구사항 명세서(Safety Requirements Specification) 작성

다음 단계는 안전 요구사항 명세서를 작성하는 것입니다. 이 단계에서는 각 안전 기능에 대한 입출력(I/O, Input & Output) 요구사항, 기능 로직(functional logic), 그리고 SIL(Safety Integrity Level, 안전 무결성 등급)을 문서화합니다. 이 내용은 시스템마다 자연스럽게 달라지며, 모든 시스템에 일괄적으로 적용할 수 있는 일반적인 권장사항은 존재하지 않습니다.

간단한 예시로는 다음과 같은 문장이 있을 수 있습니다:

“온도 센서 TT2301이 410도를 초과할 경우, 밸브 XV5301 및 XV5302를 닫으십시오. 이 기능은 3초 이내에 반응해야 하며, SIL 2 등급을 충족해야 합니다.”

만약 불필요한 트립(nuisance trip)이 우려되는 경우에는 신뢰성(reliability) 요구사항을 함께 명시하는 것도 도움이 될 수 있습니다. 예를 들어, 여러 시스템이 SIL 2 요구사항을 충족하도록 설계될 수 있지만, 각각의 시스템은 불필요한 트립에 대한 성능이 다를 수 있습니다. 생산 중단으로 인한 손실 비용과 안전 문제를 고려할 때, 이는 중요한 고려사항이 될 수 있습니다.

또한, 공정의 모든 운전 조건—기동(start-up), 정지(shutdown), 유지보수(maintenance)까지—를 포함해야 합니다. 공정의 다양한 운전 모드에서 특정 로직 조건이 상충하는 경우가 발생할 수 있습니다.

이 단계에서 결정된 로직에 따라 시스템이 프로그래밍되고 시험됩니다. 만약 이 단계에서 오류가 발생하면, 이후 설계 전반에 걸쳐 영향을 미치게 됩니다. 시스템이 아무리 이중화되어 있거나 자주 수동 시험을 하더라도, 필요한 순간에 제대로 작동하지 않을 수 있습니다. 이러한 고장은 ‘시스템적(systematic)’ 또는 ‘기능적(functional)’ 고장이라고 합니다.

20.2.4 SIS 설계 및 엔지니어링(SIS Design & Engineering)

제안된 개념 설계(즉, 구현 제안)는 기능 및 성능 요구사항을 충족하는지 분석되어야 합니다. 초기 단계에서는 기술, 구성(configuration), 시험 주기(test interval) 등을 선택해야 하며, 이는 현장 장치(field device)뿐만 아니라 로직 박스(logic box)에도 적용됩니다.

고려해야 할 요소로는 전체 시스템 규모, 예산, 복잡성, 응답 속도, 통신 요구사항, 인터페이스 요구사항, 바이패스 구현 방식, 시험 방법 등이 있습니다. 이후 간단한 정량 분석을 수행하여 제안된 시스템이 성능 요구사항을 충족하는지 확인할 수 있습니다.

이 단계의 목적은 솔루션을 명세(specify)하기 전에 시스템을 평가하는 것입니다. 플랜트를 건설한 후가 아니라 그 전에 HAZOP을 수행하는 것이 더 나은 것처럼, 안전 시스템도 명세, 구축, 설치 전에 분석하는 것이 바람직합니다. 그 이유는 간단합니다. 문서상에서 재설계하는 것이 더 저렴하고, 빠르며, 수월하기 때문입니다. 이 주제는 아래에서 더 자세히 설명됩니다.

상세 설계(detail design)는 시스템의 실제 문서화 및 제작을 포함합니다. 설계가 결정되면, 시스템은 엄격하고 보수적인 절차에 따라 엔지니어링되고 구축되어야 합니다. 이는 설계 및 구현 오류를 방지할 수 있는 유일한 현실적인 방법입니다.

이 과정에서는 철저한 문서화가 필요하며, 이는 감사 가능한 기록(auditable trail)을 제공하여 제3자가 독립적인 검증을 수행할 수 있도록 합니다. 자신의 실수를 스스로 발견하기는 어렵습니다.

시스템이 구축된 후에는 하드웨어 및 소프트웨어를 통합업체(integrator)의 시설에서 완전히 시험해야 합니다. 필요한 변경 사항은 설치 현장보다 공장에서 구현하는 것이 훨씬 수월합니다.

20.2.5 설치, 시운전 및 검증(Installation, Commissioning and Validation)

시스템이 설계 요구사항에 따라 설치되고 시운전되며, 안전 요구사항 명세서에 따라 작동하는지 확인하는 것이 중요합니다. 이번에는 현장 장치(field device)를 포함하여 전체 시스템을 점검해야 합니다. 설치, 시운전 및 시험 절차를 상세히 설명하는 문서가 있어야 하며, 모든 점검 항목은 서면으로 서명되어야 하며, 각 기능이 점검되었고 모든 시험을 만족스럽게 통과했음을 문서화해야 합니다.

20.2.6 운전 및 유지보수(Operations and Maintenance)

모든 고장이 스스로 드러나는 것은 아닙니다. 따라서 모든 안전 계측 시스템은 주기적으로 시험되고 유지보수되어야 합니다. 이는 실제 요구 상황 발생 시 시스템이 제대로 반응할 수 있도록 하기 위한 필수 조건입니다. 점검 및 시험의 빈도는 생애 주기의 이전 단계에서 결정되었을 것입니다. 모든 시험은 문서화되어야 하며, 이를 통해 초기 설계 시 가정했던 고장률, 고장 모드, 시험 주기 등이 실제 경험에 기반하여 유효한지를 감사할 수 있습니다.

20.2.7 변경(Modifications)

공정 조건이 변경됨에 따라 안전 시스템을 수정해야 할 필요가 생길 수 있습니다. 제안된 모든 변경 사항은 생애 주기의 적절한 단계로 되돌아가 변경의 영향을 검토해야 합니다. 한 사람이 사소하다고 판단한 변경이 전체 공정에 중대한 영향을 미칠 수 있습니다. 이러한 영향은 변경 사항이 문서화되고, 자격을 갖춘 팀이 철저히 검토할 때만 파악할 수 있습니다. 과거 사례를 보면, 많은 사고가 이러한 검토 부족으로 인해 발생했습니다. 변경 사항은 반드시 철저히 시험되어야 합니다.

20.2.8 시스템 폐기(Decommissioning)

시스템을 폐기(decommissioning)할 때는 해당 시스템을 서비스에서 제거하는 것이 공정이나 주변 장치에 영향을 미치지 않는지 검토해야 합니다. 폐기 과정에서는 인력, 장비 및 환경을 보호할 수 있는 수단이 반드시 마련되어야 합니다.

20.3 시스템 기술(System Technologies)

20.3.1 로직 시스템(Logic Systems)

안전 시스템에 사용할 수 있는 기술에는 공압식(pneumatic), 전기기계식 릴레이(electromechanical relays), 솔리드 스테이트(solid state), PLC(Programmable Logic Controller, 프로그래머블 로직 컨트롤러) 등이 있습니다. 전체적으로 “최고의” 시스템은 존재하지 않으며, 각각의 기술은 장단점을 가지고 있습니다. 어떤 시스템이 특정 응용 분야에 가장 적합한지는 예산, 시스템 규모, 리스크 수준, 유연성, 유지보수, 인터페이스 및 통신 요구사항, 보안 등 다양한 요소에 따라 결정됩니다.

공압식 시스템은 단순성, 본질적 안전성(intrinsic safety), 전력 공급의 제약이 우려되는 소규모 응용 분야에 가장 적합합니다.

릴레이 시스템은 비교적 단순하고, 구매 비용이 저렴하며, 대부분의 EMI/RFI(전자기 간섭/무선 주파수 간섭)에 대해 면역성이 있고, 다양한 전압 범위에 맞게 제작할 수 있습니다. 일반적으로 인터페이스나 통신 기능은 포함되어 있지 않으며, 로직 변경 시 문서를 수동으로 수정해야 합니다. 일반적으로 릴레이 시스템은 비교적 소규모 응용 분야에만 사용됩니다.

솔리드 스테이트 시스템(소프트웨어를 포함하지 않는 하드와이어 시스템)도 사용 가능합니다. 이들 중 일부는 안전 응용을 위해 특별히 제작되었으며, 시험, 바이패스, 통신 기능 등을 포함하고 있습니다. 로직 변경은 여전히 문서를 수동으로 수정해야 합니다. 이러한 시스템은 높은 비용과 소프트웨어 기반 시스템의 수용 증가로 인해 많은 사용자들 사이에서 선호도가 낮아졌습니다.

소프트웨어 기반 시스템은 일반적으로 산업용 PLC로, 소프트웨어 유연성, 자동 문서화(self-documentation), 통신 기능, 고급 인터페이스를 제공합니다. 그러나 많은 범용 시스템은 안전을 위해 특별히 설계되지 않았으며, 중요한 응용 분야에 필요한 기능(예: 효과적인 자동 진단 기능)을 제공하지 않습니다. 하지만 보다 중요한 응용 분야를 위해 개발된 특수한 단일, 이중, 삼중화(triplicated) 시스템은 공정 산업에서 확고히 자리 잡고 있으며, 이러한 시스템은 광범위한 진단 기능과 우수한 이중화 구조를 제공하며 일반적으로 “안전 PLC(Safety PLC)”라고 불립니다.

20.3.2 현장 장치(Field Devices)

공정 산업에서는 하드웨어 고장이 로직 시스템 자체보다 주변 장비—즉, 측정기기(센서/트랜스미터) 및 제어 밸브—에서 더 자주 발생합니다. 따라서 컴퓨터 기반 제어 시스템의 전체적인 신뢰성은 기존의 하드와이어 릴레이 또는 솔리드 스테이트 시스템과 크게 다르지 않을 수 있습니다.

센서(Sensors)

센서는 온도, 압력, 유량, 레벨 등과 같은 공정 변수(process variable)를 측정하는 데 사용됩니다. 이들은 설정값에 도달했을 때 상태가 변경되는 단순한 공압식 또는 전기식 스위치일 수도 있고, 공압식 또는 전기식 아날로그 트랜스미터로서 공정 변수의 강도나 수준에 따라 출력이 달라지는 장치일 수도 있습니다.

센서도 다른 장치들과 마찬가지로 다양한 방식으로 고장날 수 있습니다. 입력 신호의 변화 없이 반응하는 불필요한 트립(nuisance trip)을 유발할 수 있으며, 실제 입력 조건의 변화에 반응하지 못할 수도 있습니다. 이러한 두 가지 고장 모드는 안전 시스템에서 가장 우려되는 사항이지만, 그 외에도 누출(leaking), 출력 이상(불규칙한 출력), 잘못된 수준에서 반응하는 등의 추가적인 고장 모드가 존재합니다.

대부분의 안전 시스템은 페일 세이프(fail-safe) 방식으로 설계됩니다. 이는 일반적으로 전원이 차단되었을 때 공정을 안전한 상태로 되돌리는 것을 의미하며, 대부분의 경우 생산을 중단하는 방식입니다. (불필요한 트립은 안전상의 이유로도 피해야 하며, 기동 및 정지 작업은 일반적으로 가장 높은 수준의 리스크와 관련되어 있습니다.) 센서가 페일 세이프 방식으로 반응하도록 어떻게 설계할 것인지에 대해 충분한 고려가 필요합니다.

20.4 시스템 분석(System Analysis)

SIL 1, SIL 2, SIL 3에 적합한 시스템은 무엇일까요? (SIL 4는 ANSI/ISA-84.00.01 2004 버전에서 정의되었지만, 해당 시스템은 공정 산업에서는 매우 드물어야 하므로 IEC 61508을 참조하도록 권장됩니다.) 어떤 기술을 사용할 것인지, 어떤 수준의 이중화를 적용할 것인지, 수동 시험 주기는 어떻게 설정할 것인지, 현장 장치에 대한 고려사항은 무엇인지 등 다양한 질문에 대한 답이 필요합니다.

겉보기에는 직관적으로 명확해 보일 수 있지만, 실제로는 그렇지 않습니다. 이중화가 항상 단일보다 나은 것은 아니며, 삼중화가 항상 이중화보다 나은 것도 아닙니다.

우리는 원자력 발전소나 항공기를 직감이나 직관에 따라 설계하지 않습니다. 엔지니어로서 우리는 판단의 근거로 정량적 평가에 의존해야 합니다. 정량 분석은 부정확하거나 불완전할 수 있지만, 다음과 같은 이유로 여전히 매우 가치 있는 작업입니다:

  • 시스템이 설계 요구사항을 충족할 가능성을 조기에 파악할 수 있습니다.
  • 시스템 내의 약점을 식별하고, 필요한 경우 이를 개선할 수 있습니다.

시스템의 성능을 예측하려면 모든 구성품의 성능 데이터가 필요합니다. 이러한 정보는 사용자 기록, 공급업체 기록, 군용 예측 방식, 다양한 산업 분야의 상업용 데이터베이스 등에서 얻을 수 있습니다.

안전 시스템의 성능을 모델링할 때는 두 가지 고장 모드를 고려해야 합니다:

  • 안전한 고장(Safe failures): 불필요한 트립(nuisance trip)과 생산 손실을 초래합니다. 이 모드를 설명하는 일반적인 용어로는 MTBFsp(불필요한 고장 간 평균 시간, Mean Time Between Failure – spurious) 및 불필요한 트립률(nuisance trip rate)이 있습니다.
  • 위험한 고장(Dangerous failures): 시스템이 요구 시 반응하지 않는 숨겨진 고장(hidden failure)을 의미합니다. 이 모드의 성능을 정량화하는 일반적인 용어로는 PFD(요구 시 고장 확률, Probability of Failure on Demand), RRF(위험 감소 계수, Risk Reduction Factor, PFD의 역수), SA(안전 가용성, Safety Availability, 1-PFD)가 있습니다.

안전 무결성 등급(SIL)은 오직 위험한 고장 성능만을 기준으로 정의됩니다. 안전한 고장 성능과 위험한 고장 성능 사이에는 직접적인 연관성이 없습니다. 예를 들어, SIL 4 시스템이 매달 불필요한 트립을 발생시킬 수 있는 반면, SIL 1 시스템은 20년에 한 번만 불필요한 트립을 발생시킬 수도 있습니다. 한 가지 고장 모드의 성능을 안다고 해서 다른 모드의 성능을 알 수 있는 것은 아닙니다.

안전 시스템의 성능을 분석하고 예측하기 위해 다양한 모델링 기법이 사용됩니다. ISA 기술 보고서 ISA-TR84.00.02-2002 – Part 1~5, Safety Instrumented Functions (SIF) Safety Integrity Level (SIL) Evaluation Techniques Package에서는 신뢰성 블록 다이어그램(reliability block diagram), 고장수목(fault tree), 마르코프 모델(Markov model) 등의 개요를 제공합니다.

각 기법은 장단점이 있으며, 어떤 방법이 더 “옳다”거나 “그르다”고 할 수는 없습니다. 이들은 모두 단순화된 모델이며, 다양한 요소들을 반영할 수 있습니다. 이러한 기법을 활용하면 다양한 기술, 이중화 수준, 시험 주기, 현장 장치 구성 등을 모델링할 수 있습니다.

모델링은 손 계산기(hand calculator)를 사용하거나, 스프레드시트 또는 독립 실행형 프로그램을 개발하여 작업을 자동화하고 단순화할 수 있습니다. 표 20-2는 이러한 모델링 기법 중 하나를 사용하여 개발할 수 있는 “요리책(cookbook)”의 예시입니다.

표 주석(Table Notes)

이러한 표는 본질적으로 단순화된 형태입니다. 하나의 표 안에 모든 설계 요소(고장률, 고장 모드 분포, 진단 수준, 장비 수량, 수동 시험 주기, 공통 원인 요인 등)의 영향을 모두 반영하는 것은 불가능합니다. 사용자는 설계 결정을 정당화하기 위해 반드시 자체적인 분석을 수행해야 합니다. 위의 표는 다음과 같은 가정에 기반한 예시로만 간주되어야 합니다:

  1. 안전 응용을 위해 별도의 로직 시스템이 사용된다고 가정합니다. 안전 기능은 BPCS(Basic Process Control System, 기본 공정 제어 시스템) 내에서만 수행되어서는 안 됩니다.
  2. 하나의 센서와 두 개의 최종 요소가 사용된다고 가정합니다. 현장 장치(field device)는 안전 및 위험 고장 모드 모두에서 MTBF(Mean Time Between Failure, 평균 고장 간 시간)가 50년으로 가정됩니다.
  3. 단일(Simplex, 비이중화) 트랜스미터는 30%의 진단 기능을 갖는 것으로, 이중화된 트랜스미터는 95% 이상의 진단 기능을 갖는 것으로 가정합니다.
  4. “비교 기능이 있는 트랜스미터(Transmitters with comparison)”는 제어용 트랜스미터와 안전용 트랜스미터를 비교하며, 90%의 진단 기능을 갖는 것으로 가정합니다.
  5. “단순(Dumb)” 밸브는 자체 진단 기능이 없으며, “스마트(Smart)” 밸브(예: 자동 부분 스트로크 밸브)는 80%의 진단 기능을 제공하는 것으로 가정합니다.
  6. 솔리드 스테이트 로직 시스템을 고려할 때는 안전 응용을 위해 특별히 제작된 솔리드 스테이트 시스템만을 고려해야 합니다. 이러한 시스템은 릴레이처럼 본질적으로 페일 세이프(fail-safe)하거나, 광범위한 자체 진단 기능을 제공합니다.
  7. 범용 PLC는 SIL 1 이상의 응용에는 적합하지 않습니다. 이들은 더 높은 성능 요구사항을 충족하기 위한 충분한 진단 수준을 제공하지 않습니다. 자세한 사항은 공급업체에 문의하시기 바랍니다.
  8. 모든 장치에 대해 1년 주기의 수동 시험이 가정됩니다. (더 자주 시험할 경우 더 높은 수준의 안전 성능을 제공할 수 있습니다.)
  9. 이중화 구성은 1oo2 또는 2oo3으로 가정됩니다. [편집자 주: “1oo2”는 ISA 표준에서 “2개 중 1개(one out of two)”를 의미하며, 두 장치가 모두 “작동(go)” 상태일 때만 출력이 발생합니다. 전기적 등가물은 직렬로 연결된 두 개의 스위치입니다.] 1oo2 구성은 더 많은 불필요한 트립을 감수하는 대신 더 안전하며, 2oo2 구성은 단일(Simplex)보다 덜 안전하므로 전체 안전 요구사항을 충족함을 문서화할 수 있는 경우에만 사용해야 합니다.
  10. 위의 표는 각 시스템의 불필요한 트립 성능(nuisance trip performance)을 분류하지 않습니다.

20.5 이상 상황 관리(Abnormal Situation Management)

프로세스 플랜트 안전의 하위 주제 중 하나는 이상 상황(abnormal situation)의 처리입니다. Abnormal Situation Management® (ASM®) Consortium(이 명칭은 Honeywell Inc.의 미국 등록 상표임)은 산업 플랜트 사고의 부정적인 영향에 대해 우려하는 11개 기업 및 대학으로 구성된 연구 개발 컨소시엄입니다.

이 그룹은 1990년대 초, DCS(Distributed Control System, 분산 제어 시스템) 경보 시스템 기술 개선을 정의하려는 노력의 연장선으로 설립되었습니다. 이들의 목표는 이상 상황 동안 산업 플랜트 운영이 직면하는 문제를 식별하고, 이에 대한 해결책을 개발하는 것입니다.

컨소시엄의 결과물은 제품 및 서비스, 지침 및 기타 문서, 정보 공유 워크숍 등으로 구성됩니다.

이상 상황은 예방(prevention), 조기 감지(early detection), 완화(mitigation)를 통해 관리됩니다. 그 목적은 계획되지 않은 가동 중단 및 공정 변동성을 줄여 수익 감소를 방지하고, 플랜트 직원 및 지역 주민의 안전을 확보하는 데 있습니다.

ASM 컨소시엄의 비전은 조직이 플랜트를 능동적으로 관리하여 안전을 극대화하고 환경 영향을 최소화하는 동시에 공정을 최적의 한계까지 추진할 수 있도록 지원하는 것입니다. 컨소시엄은 회원들의 집단 지식을 개발하고 발전시키는 연구를 수행하며, ASM 지식을 실제로 적용할 수 있도록 도구, 모범 사례, 서비스를 개발합니다.

컨소시엄은 다음 세 가지 프로그램을 통해 사명을 달성합니다: 연구, 개발, 커뮤니케이션.

  • 연구 프로그램은 이상 상황을 성공적으로 줄이는 데 기여하는 요인에 대해 조사하고 경험을 공유합니다.
  • 개발 프로그램은 컨소시엄이 보유하거나 개발한 지식을 제품 및 서비스 형태로 고객에게 제공합니다.
  • 커뮤니케이션 프로그램은 컨소시엄 회원 간 정보를 공유하여 효과적인 ASM 실무에 대한 이해와 활용을 증진시킵니다.

20.6 핵심 사항(Key Points)

  • 안전 설계 생애 주기에서 정의된 단계를 따르십시오.
  • 정의할 수 없다면, 제어할 수도 없습니다.
  • 모든 의사결정을 정당화하고 문서화하십시오. (즉, 감사 가능한 기록을 남기십시오.)
  • 목표는 본질적으로 안전한 공정을 갖추는 것입니다. (즉, SIS가 필요 없는 공정)
  • 모든 안전을 하나의 시스템에 의존하지 마십시오. (즉, 다중의 독립적인 안전 계층을 갖추십시오.)
  • SIS는 페일 세이프(fail-safe) 또는 고장 허용(fault-tolerant) 방식이어야 합니다.
  • 솔루션을 명세하기 전에 문제를 분석하십시오.
  • 모든 시스템은 주기적으로 시험되어야 합니다.
  • 정상 운전 중에는 절대로 바이패스 상태를 유지하지 마십시오!

20.7 경험 기반 규칙(Rules of Thumb)

  • 진단 기능을 최대화하십시오. (이는 안전 성능에서 가장 중요한 요소입니다.)
  • 어떤 표시(indication)라도 없는 것보다는 낫습니다. (예: 트랜스미터는 스위치보다 장점이 있으며, 시스템은 신호가 바이패스 상태일 때도 표시 기능을 제공해야 합니다.)
  • 공통 원인(common cause) 문제의 가능성을 최소화하십시오.
  • 범용 PLC는 SIL 1을 초과하는 용도에는 적합하지 않습니다.
  • 가능하다면, 독립적으로 승인되었거나 인증된 구성품/시스템(FM, TÜV 등)을 사용하십시오.