Ein strukturiertes Incident Management (Management von Störfällen), bestehend aus Prozessen und Verfahren zur Identifizierung, Diagnose und Behebung von IT-Störungen, ermöglicht uns genau das. Panagiotis Fezoulidis ist IT-Qualitätsmanager bei Porsche und erläutert das richtige Management von IT-Problemen.

Was ist Incident Management?

Unter Incident Management sind sämtliche Prozesse zusammengefasst, mit deren Hilfe IT-Teams Störungen, die besondere Aufmerksamkeit erfordern, schnell erkennen und beheben können. Der Fokus liegt dabei weniger auf der Entwicklung der perfekten Lösung oder dem Aufspüren der zugrundeliegenden Fehlerquelle, sondern vielmehr auf dem Finden von Ad-hoc- und Übergangslösungen. Im Falle einer unvorhergesehenen Betriebsstörung versetzt das Incident Management die IT-Teams in die Lage, den betroffenen Dienst schnellstmöglich wiederherzustellen. Incident Management ist Bestandteil des ITIL-Regelwerks (IT Infrastructure Library), welches in den 1980er Jahren von der Central Computer and Telecommunications Agency der britischen Regierung zur Standardisierung von IT-Managementpraktiken entwickelt und zur Verfügung gestellt wurde.

Das Ziel des Incident Managements bei Porsche besteht darin, die Dienste für unsere Kunden möglichst umgehend wiederherzustellen und so allen Kunden stets einen erstklassigen Service zu bieten. Indem wir alle IT-Vorfälle über einen einzigen Ansprechpartner kanalisieren, bewahren wir den Überblick über sämtliche IT-Probleme und halten zugleich die IT-Kosten unter Kontrolle.

Störungstypen, Phasen und Prioritäten

Bei Porsche unterscheiden wir grundsätzlich zwischen drei Arten von Störungen:

Drei Arten von Vorfällen, 2021, Porsche AG

1. Serviceanfragen, wie z. B. das Zurücksetzen eines Passworts oder Kontoregistrierungen,

2. Störfälle (jeder Störfall wird im Incident-Management-Prozess als Incident-Ticket erfasst; bei ähnlichen Service-Anfragen kann es sich um eine Beeinträchtigung des IT-Systems/IT-Dienstes handeln),

3. Großstörungen (Major Incidents), die zusätzlich zu einem Incident Ticket den Prozess des Major Incident Management auslösen.

Unser Vorgehen im Umgang mit Störfällen ist in vier Phasen untergliedert:

1. Störfälle identifizieren, erfassen, klassifizieren und erste Unterstützung leisten,

2. den Störfall untersuchen und diagnostizieren,

3. Behebung des Störfalls und Wiederaufnahme des Betriebs,

4. Schließen des Störfalls.

Nach der Implementierung einer Übergangslösung initiieren wir bei Bedarf auf Grundlage einer Ursachenanalyse langfristige Maßnahmen zur Fehlerbehebung, die im Problem-Management-Prozess angegangen werden.

Woher wissen unsere IT-Teams nun aber, welche Vorfälle als kritisch einzustufen sind und welche nicht? Wir priorisieren Störfälle nach ihrer Tragweite und Dringlichkeit, wobei kritische Störfälle die höchste Priorität erhalten. Basierend auf dem eingeschätzten Schweregrad werden die Vorfälle klassifiziert und anschließend von unseren Teams bearbeitet.

Management von Großstörungen

Großstörungen können eine enorme Beeinträchtigung der IT-Systeme mit sich bringen, was sich unter anderem in einem Stillstand von Produktionsanlagen oder aber auch zum Verhindern eines Autoverkaufs niederschlagen kann. Derartige Störungen können das Unternehmen sehr viel Geld kosten. Daher hat die Behebung größerer Störfälle für alle Beteiligten Vorrang gegenüber den sonstigen Aufgaben des Tagesgeschäfts. Die erfolgversprechendste Lösung hat dabei höchste Priorität und wird gemeinsam vorangetrieben. Der Major Incident Manager (MIM) koordiniert Aufgaben und Entscheidungen und ist dafür verantwortlich, dass der Störfall möglichst schnell behoben wird.

Störfallmanagement-Prozess bei Porsche, 2021, Porsche AG

Unser Major Incident Management Prozess ist ebenfalls in vier Phasen gegliedert:

1. Erkennung und Priorisierung der Großstörung

2. automatische Warnmeldung (eine vorausgewählte Gruppe wird per SMS und E-Mail benachrichtigt),

3. Übernahme, Kommunikation und Lösung (On-Demand-Kommunikation mit der gesamten Abteilung via Email),

4. Schließung des Störfalls (abschließende Kommunikation mit der gesamten Abteilung per E-Mail und Qualitätsprüfung des Incident Tickets).

Darüber hinaus haben wir mehrere Unternehmensregeln für die Handhabung schwerwiegender Störfälle definiert. So sollten für den Fall, dass die zuständigen Personen mit den entsprechenden Kompetenzen nicht erreichbar sind, die technische und inhaltliche Verantwortlichkeit im Sinne einer Lösungsfindung übernommen werden. Eine Entscheidung, die getroffen wird, ist in aller Regel besser als keine Entscheidung, da dadurch die Möglichkeit zur Verbesserung der Situation geschaffen wird.

Panagiotis Fezoulidis, IT Quality Manager bei Porsche, 2021, Porsche AG
Panagiotis Fezoulidis, IT Quality Manager bei Porsche

Wenn der Major Incident Manager bei einer Großstörung bereits aktiv ist und die Kommunikation der MIM angestoßen hat, darf nur er die Störung herabstufen. Gleichzeitig übernimmt er die Deeskalation des MIM. Sobald ein Störfall behoben ist, darf dessen Priorität post-hoc nicht mehr angepasst werden, da dies die Evaluation der entsprechenden Dienstleistungs-Güte-Vereinbarung verfälschen würde.

Abschließend lässt sich somit festhalten, dass Vorfälle in IT-Prozessen immer wieder auftreten. Was zählt, ist die Art und Weise, wie wir mit ihnen umgehen, um etwaige Folgeeffekte möglichst abzuwenden. So verhindern wir IT-Ausfälle und maximieren zugleich die Leistungsfähigkeit unserer Teams.

Weitere Artikel

Verbrauchsangaben

911 Carrera 4S

WLTP*
  • 11,1 – 10,2 l/100 km
  • 253 – 231 g/km
  • G Klasse

911 Carrera 4S

Kraftstoffverbrauch* / Emissionen*
Kraftstoffverbrauch* kombiniert (WLTP) 11,1 – 10,2 l/100 km
CO₂-Emissionen* kombiniert (WLTP) 253 – 231 g/km
CO₂-Klasse G

Taycan Turbo (2023)

WLTP*
  • 23,6 – 20,2 kWh/100 km
  • 0 g/km
  • A Klasse

Taycan Turbo (2023)

Kraftstoffverbrauch* / Emissionen*
Stromverbrauch* kombiniert (WLTP) 23,6 – 20,2 kWh/100 km
CO₂-Emissionen* kombiniert (WLTP) 0 g/km
CO₂-Klasse A