Produktmatrix • Unterstütze DataONTAP Versionen
Allgemeine Produktmatrix des Monitoring Plugins für NetApp
Diese Matrix bieten den Überblick über alle Produkt-Versionen: Sowohl für die stabile und bewährte Version check_netapp (2.x) also auch die neue und für Cluster Mode geeignete Version check_netapp_pro (3.x).
Produktbezeichnung | check_netapp_pro |
Produktversion | 4.x (2010-2019) |
Data-ONTAP Versionen |
7-Mode Cluster-Mode |
Leistungsmerkmale | ZAPI, Overall-Checks, rm_ack, Metrocluster-Support, Kollektor-Architektur |
Link zur Detail-Matrix | → check_netapp_pro |
Für Informationen über die Zuordnung zu Bundles sowie das geplante Releasdatum für Checks im Status on_road_map, wählen Sie bitte die jeweilige produktversions-spezifische Detail-Matrix.
Allgemeine Produktmatrix: Pluginbeschreibung und Status
Plugin | Status | ||
---|---|---|---|
check_netapp | check_netapp_pro | ||
7m | 7m | cm | |
AggregateState alarmiert, wenn Aggregate nicht online (konfigurierbar) sind. [help] | - | stable | stable |
AutosizeMode überwacht den autosize-mode der Autosize-Volumes und alarmiert, wenn dieser nicht dem gewünschten Soll-Wert (grow, grow_shrink, ...) entspricht. [help] | - | - | beta |
BadlyPerformingDisks prüft alle Festplatten eines NetApp-Systems (oder einer bestimmten RAID-Gruppe). Sendet einen Alarm wenn eine bestimmte Anzahl der Disks eine zu hohe Auslastung haben. [help] | - | stable | stable |
BufferCache prüft verschiedenste Messwerte des Buffer Cache (System-Speicher) wie Buffers being read, Buffers being written, Empty (unused) buffers, Buffers with modified data, Buffers associated with CP IO, u.a. [help] | stable | stable | stable |
Certificate prüft Server-Zertifikate (aber auch andere Zertifikate) auf deren Ablaufdatum. In Kürze ablaufende Zertifikate werden rechtzeitig alarmiert - die Schwellwere dazu sind einstellbar. | - | - | - |
check_netapp7_cluster prüft den HA Status (connected, taken over, takeover failed, ...). | - | stable | - |
check_netapp7_fcpstats überwacht bei FCP Adaptern ob crc-Fehler verstärkt auftreten und alarmiert. Auch zahlreiche andere Kennzahlen eines FCP Adapters können damit überwacht werden. | - | stable | - |
check_netapp7_head überwacht Hardware Objekte (Lüfter, NVRAM, Netzteile, Temperatur-Sensoren) am 7-Mode-Head. | - | stable | - |
check_netapp7_snapvault überwacht den Status und die "lag-time" der 7m Snapvaults. (Cdot Filer werden mit den SnapMirror-Checks überwacht.) | - | stable | - |
check_netapp7_vfiler überwacht den Status des vFilers (ob er läuft und ob Netzwerkressourcen konfiguriert wurden) | - | stable | - |
check_netapp_anycli zur Erstellung von Checks mit einfachen CLI-Kommandos. | - | - | - |
check_netapp_asup überwacht das ASUP-log und alarmiert wenn fehlerhafte collections oder transmissions gefunden wurden. | - | - | stable |
check_netapp_ems überwacht die EMS-Logdatei und alarmiert, wenn bestimmte Ereignisse gehäuft (Rate = Ereignisanzahl/Zeiteinheit) auftreten. Damit lassen sich beispielsweise Alarme generieren, wenn in der letzten Stunde vermehrt autogrow-events aufgetreten sind. | - | - | - |
check_netapp_health überwacht den system-health Status. Alarmiert wenn dieser nicht 'ok' ist. | - | stable | stable |
check_netapp_license überprüft ob am Filer (Demo-)Lizenzen ablaufen. | - | stable | stable |
check_netapp_mc_config prüft den mode und configuration-state des Metro Clusters. | - | - | stable |
check_netapp_nfs-persist alarmiert wenn nicht-persistente NFS Freigaben gefunden wurden. | - | - | pre-alpha |
check_netapp_process alarmiert wenn einzelne Prozesse am Filer zu viel CPU Ressourcen aufbrauchen (wie mit dem ps Kommando zu sehen). | - | - | stable |
check_netapp_quotas überwacht die Quotas eines NetApp Cluster-Mode Filers. | - | - | stable |
check_netapp_scrub alarmiert wenn bei einem Aggregat der Zeitpunkt des letzten scrub-Vorganges zu lange in der Vergangenheit liegt. | - | stable | stable |
check_netapp_snapcenter überprüft laufend die SnapCenter Datenbank und meldet fehlgeschlagene oder fehlende Jobs sofort. | - | - | stable |
check_netapp_spare überwacht den Spare-Low-Status des Filers (ob genügend Spare Disks vorhanden sind). | - | unsupported | unsupported |
check_netapp_takeover alarmiert wenn die "storage failover facility" deaktiviert oder anderweitig eingeschränkt ist. | - | - | stable |
check_netapp_time überprüft die NTP-Konfiguration am Filer (zumindest ein Time-Server muss konfiguriert sein) und misst die Zeitdifferenz zwischen der Systemzeit des Filers und der des Monitoring Servers. Wenn diese zu hoch wird, kann das Plugin auch alarmieren. | - | - | stable |
check_netapp_unused_lun sucht LUNs die online aber ohne verbundenen Initiator sind. | - | - | beta |
Cluster prüft Mitglieder eines NetApp-Clusters bezüglich ihres state (connected, taken over, takeover failed, ...) und time-master-status (master, slave). [help] | stable | - | - |
ClusterPeerHealth überwacht den Peer-Health mittels verschiedener Ping- und Health-Status. [help] | - | - | stable |
ConsistencyPoints misst die Consistency-Points pro Sekunde. Die Art des CP (wafl-timer, back-to-back, ...) kann angegeben werden. Die von diesem Plugin gemessenen Raten entsprechen der CPty-Spalte von 'sysstat -x 1' [help] | stable | - | - |
Disk prüft ob disks failed, unassigned oder offline sind. [help] | - | stable | stable |
DiskCount zählt die vorhandene Festplatten, die definierbaren Kriterien entsprechen (disk-type, container (spare, ...), storage-pool). Üblicherweise wird dieser Check verwendet um die Anzahl der noch vorhandenen spares für einen bestimmten disk-type zu überwachen. [help] | - | - | stable |
DiskFailed prüft ob disks failed bzw. offline sind. | - | unsupported | unsupported |
DiskPathQuality überwacht die path-quality, zeichnet den Verlauf der E/A-Fehler-Rate auf und alarmiert sobald die 'error percentage' größer 0 wird. [help] | - | alpha | beta |
DiskPaths prüft ob jede Disk ausreichend redundant mit Pfaden ausgestattet ist (A/B, B/A, ABAB, ABBA, ...). [help] | - | beta | stable |
EpsilonNode überwacht den Epsilon-Status (Gewichtung) | - | - | pre-alpha |
FCPAdapter überprüft den Operational-Status aller FCP-Adapter. [help] | - | - | stable |
FC_ISL überwacht die jeweiligen Switches (z.B. Brocade) in Hinblick auf Traffic/Bandbreite und Errorcounter zur Früherkennung eventueller Hardwaremängel. | - | - | pre-alpha |
FlashCache prüft verschiedenste Messwerte des FlashCache (PAM II) wie External cache hit rate, Average latency of read I/Os, Number of wafl buffers served off the external cache, u.a. [help] | stable | stable | stable |
FlexCache prüft verschiedenste Messwerte des FlexCache wie Bandwidth savings on FlexCache volume, Proxy rate on FlexCache volume, Per-op hit rate on FlexCache volume, ... [help] | unsupported | - | - |
FlexCacheConnections misst die Datenrate einer FlexCache Verbindung. [help] | unsupported | - | - |
Hardware überprüft Zustand des NVRAM, sowie die Lüfter, Temperatursensoren und Netzteile am Head und in den angeschlossenen Shelves. Weiters kann das gesamte System mit einem Check auf broken disks u.ä. geprüft werden. [help] | stable | unsupported | unsupported |
Head überwacht Hardware Objekte (Lüfter, NVRAM, Netzteile, Temperatur-Sensoren, Health-State) am Head. [help] | - | - | stable |
IfConfig überprüft ob die Netzwerk-Schnittstellen aktiviert sind oder nicht [help] | unsupported | - | - |
IfGrp überprüft ob eine Interface-Gruppe über genügend Links im Status up verfügt um noch redundant zu sein. [help] | - | stable | stable |
iSCSI überwacht einen oder alle iSCSI-Adapter und alarmiert entsprechend dem state (online, offline, local, partner, error). Der aus einem bestimmten state resultierende Nagios-Status (OK, WARNING, CRITICAL) ist über Komandozeilenparameter einstellbar. [help] | stable | unsupported | unsupported |
Job alarmiert bei fehlgeschlagenen jobs. [help] | - | - | stable |
LogEMS überwacht /etc/log/ems. | - | - | pre-alpha |
LunAlignment alarmiert, wenn eine bestimmte Anzahl an misaligned LUNs gefunden wird. [help] | - | - | stable |
LunLatency prüft und protokolliert Latenz (latency) und 'Operationen pro Sekunde' (ops) je LUN, jeweils gegliedert in total, read, write und other. NetApp empfiehlt ausdrücklich sich bei der Überwachung der Performance auf die Latenz zu konzentrieren. [help] | beta | stable | stable |
LunSize alarmiert den Admin, wenn die durch eine LUN belegten aber nicht genutzten Blöcke einen bestimmten Wert überschreiten (und es vielleicht an der Zeit wäre unmap für den VMware ESX Server anzuwerfen). [help] | - | stable | stable |
LunState alarmiert, wenn LUNs offline oder nicht an einen initiator gebunden ('mapped') sind. [help] | - | stable | stable |
MetroClusterVserver sendet einen Alarm, wenn der configuration-state eines MetroCluster Vservers 'unhealthy' wird. [help] | - | - | stable |
NetInterface alarmiert, wenn bei einem Netzwerk Interface der Current-Port nicht gleich dem Home-Port ist (Ausgabe des CLI Kommandos `network interface show -is-home false`) oder der Operational Mode down statt up ist. [help] | - | - | stable |
NetPort überprüft ob die Netzwerk-Schnittstellen aktiviert sind oder nicht [help] | - | - | stable |
NetPort7m überprüft ob die Netzwerk-Schnittstellen aktiviert sind oder nicht [help] | - | stable | - |
NVRAM misst die Datenrate und Latenzzeit am NVRAM. [help] | stable | stable | stable |
OvercommitAggr überwacht die Relation zwischen tatsächlicher Größe eines Aggregates und der Summe der darauf angelegt (thin provisioned) volumes. [help] | stable | stable | stable |
PerfAggr erkennt wenn die Zahl der für Schreibvorgänge freien Blöcke eines Aggregates zu klein wird, so dass es zu Auswirkungen auf die Performance dieses Aggregates kommen kann. Somit können dann rechtzeitig zusätzliche Platten beschafft werden. [help] | beta | unsupported | unsupported |
PerfAggregate Prüft und protokolliert Latenz (latency) und Transferraten (transfer-rate) je Aggregat, gegliedert in total, read, write und other. Auch die Erfassung und Überwachung von Summe und Mittelwert sind möglich, so dass die Aggregatslatenz oder -Transferrate auf der Ebene des Filers gemessen und überwacht werden kann. [help] | - | beta | stable |
PerfCpu überwacht die 'Utilization' (processor busy) in Prozent eines bestimmten oder aller CPUs im System. [help] | stable | stable | stable |
PerfDisk prüft alle Festplatten eines NetApp-Systems bezüglich deren 'Utilization' (Percentage of time there was at least one outstanding request to the disk). Optional können auch nur die Platten eines bestimmten Aggregates geprüft werden. [help] | stable | stable | stable |
PerfHostadapter prüft und zählt Transferraten je Host Adapter (Fibre Channel, Serial Attached SCSI and parallel SCSI) [help] | - | stable | stable |
PerfIf prüft und zählt Transferraten und Fehler je Netzwerk-Interface. Besonders wichtig zur Überwachung von 10GB-Ethernet-Interfaces (10GbE-Ports). [help] | stable | stable | stable |
PerfLif prüft und zählt Transferraten und Fehler je Netzwerk-Interface (lif) für DataONTAP 8.2.x oder höher. [help] | - | stable | stable |
PerfNic überwacht verschiedene Performance Werte eines physischen Netzwerkports (NIC, Netzwerkkarte). Darunter auch Prüfsummen (CRC) um Fehler der pysischen Netzwerkschiuckt erkennen zu können. [help] | - | - | beta |
PerfQtree überwacht einige ops (operations per second) Zähler per Q-Tree (nfs-ops, cifs-ops, ...) [help] | - | alpha | stable |
PerfSys überwacht die System-Performance (Operationen pro Sekunde und Transferrate). Gemessen werden net_data_sent, dafs_ops, total_ops, disk_data_written, net_data_recv, cifs_ops, streaming_pkts, http_ops, nfs_ops, fcp_ops, disk_data_read, iscsi_ops. Zur Überwachung einzelner Instanzen (einzelne Disk oder Disken eines bestimmten Aggregates, einzelne Netzwerkinterfaces, ...) haben wir spezielle Checks im Angebot. [help] | stable | stable | stable |
PerfSysNode überwacht die System-Performance (Operationen pro Sekunde und Transferrate). Gemessen werden net_data_sent, dafs_ops, total_ops, disk_data_written, net_data_recv, cifs_ops, streaming_pkts, http_ops, nfs_ops, fcp_ops, disk_data_read, iscsi_ops. Zur Überwachung einzelner Instanzen (einzelne Disk oder Disken eines bestimmten Aggregates, einzelne Netzwerkinterfaces, ...) haben wir spezielle Checks im Angebot. Dieser Check überwacht die Counter per Node und wird nur auf DataONTAP ab der Version 8.3 unterstützt. [help] | - | beta | stable |
PerfTcpIp überwacht Prüfsummen (CRC) und versendete Paket sowohl auf der IP- als auch der TCP-Netzwerkebene. [help] | - | - | stable |
PerfVolume Prüft und protokolliert Latenz (latency) und 'Operationen pro Sekunde' (ops) je Volume, jeweils gegliedert in total, read, write und other. NetApp empfiehlt ausdrücklich sich bei der Überwachung der Performance auf die Latenz zu konzentrieren. [help] | stable | stable | stable |
Quotas alarmiert, wenn die am NetApp-Gerät definierten Quotas erreicht oder überschritten werden. Da als Schwellwerte die NetApp-internen Quota-Limits verwendet werden, kann ein einziger Servicecheck alle Quotas eines Filers überwachen. Performancedaten für die Trendanalyse werden in kB ausgeben. [help] | stable | unsupported | unsupported |
Raidstatus schlägt Alarm, wenn die Redundanz eines RAID nicht mehr gegeben ist. [help] | stable | stable | stable |
ReportIOPS IOPS Check für die mandantenfähige Berichtserstellung (von einem bestimmten Kunden konsumierte IOPS). Der Check kann auch Alarm auslösen, wenn ein Kunde bestimmte Schwellwerte überschreitet und liefert die zeitliche Entwicklung als Graphik. [help] | - | - | stable |
ReportSpace ist ein Speicherplatz Check für mandantenfähige Berichtserstellung (von einem bestimmten Kunden belegt Bytes). Der Check kann auch Alarm auslösen, wenn ein Kunde bestimmte Schwellwerte überschreitet und liefert die zeitliche Entwicklung als Graphik. [help] | - | - | stable |
ServiceProcessor überprüft den Status der Service-Prozessoren je Node sowie deren Konfiguration (auto-update, IP-Adresse). [help] | - | - | stable |
ShelfBay prüft die Shelf-Status und Disk-Port Status aller Shelves (am Cluster). Erkennt beispielsweise wenn Diskports auf BYP (Disk Bypass) stehen. [help] | - | stable | stable |
ShelfEnvironment prüft den Shelf-Status, Netzteile und Lüfter, sowie die Temperatur-, Spannungs- und Stromstärkensensoren. [help] | - | stable | stable |
Sis überwacht dedup-Werte (stale-fingerprint-percentage, run-time der letzten erfolgreichen Operation). [help] | - | - | stable |
SisStatus findet Volumes, bei den die compression oder deduplication nicht aktiviert ist. [help] | - | - | beta |
SnapMirror überprüft die lag-time und last-transfer-duration. Überwacht werden auch der pair-state, pair-transfer-status und falls vorhanden transfer-errors. | stable | - | - |
SnapMirrorMetrics überprüft die lag-time, die last-transfer-duration oder die last-transfer-size von SnapMirrors (inkl. Typ Vault). [help] | - | - | stable |
SnapMirrorState überwacht den mirror-state und das is-healthy Flag für SnapMirrors (auch vom Typ 'Vault'). [help] | - | - | stable |
SnapshotChangeRate berechnet und überwacht die change-rate (daily data change) von Snapshots in Gigabytes per Tag. [help] | - | - | pre-alpha |
SnapshotLessVolume zeigt Volumes auf, die keine Snapshots haben. [help] | - | - | stable |
Snapshots überwacht laufend, ob die definierte Snap-Reserve noch ausreichend groß ist. Die Schwellwerte werden in Prozent angegeben; die Performancedaten können wahlweise absolut oder prozentual übergeben werden. Ermittelt wird auch das Alter der Snapshots; so kann man erkennen, wieviel Platz veraltete (verwaiste) Snapshots verbrauchen oder ob die Backups noch aktuell sind. Ein weiters mögliches Kriterium ist, ob der Snaphot-Name einem bestimmten Muster entspricht. Damit lässt sich wiederum der Verbrauch durch bestimmte Applikationen überwachen. [help] | stable | stable | stable |
SnapVault überwacht eine SnapVault-Relationship (lag-time, state, last-transfer-duration, transfer-errors) [help] | stable | - | - |
Status alarmiert, entsprechend dem Global Status. [help] | stable | - | - |
StorageAdapter überprüft den Link-Status der Storage Adapter | deprecated | - | - |
StorageEfficiency erlaubt Rückschlüsse, inwieweit die NetApp-Technologien zur sparsamen Nutzung der Festplattenkapzitäten effizient genutzt werden. | deprecated | - | - |
StorageUtilization misst laufend die Auslastung eines gesamten Storage-Systems. Gibt Auskunft über den Verbrauch durch beispielsweise Snapshots, A-SIS, Metadaten, WAFL-Reserve. Diese Aufzeichnungen helfen den Storage effizient zu nützen und sind Grundlage für die Planung. [help] | stable | stable | stable |
SyncMirror überwacht den "Mirror Status" der Aggregate eines Metroclusters. [help] | - | stable | stable |
UnprotectedVolume sucht nach Volumes die nicht durch eine SnapMirror Relation geschützt sind. [help] | - | - | alpha |
Uptime misst die Uptime in Sekunden seit dem letzten Systemstart. [help] | stable | - | stable |
Usage prüft den belegten Speicherplatz in Volumes und Aggregaten. Die Schwellwerte können absolut in GB oder prozentual gesetzt werden. [help] | stable | stable | stable |
UsageTrend prognostiziert wie lange es dauern würde, bis ein Aggregat oder Volume voll wäre, wenn der Trend der letzen 48h (konfigurierbar) sich fortsetzen würde. Versendet dann rechtzeitig (einstellbar) einen Alarm. Überwacht sowohl die Usage in Bytes als auch die inodes. [help] | - | stable | stable |
vFiler überwacht den Status des vFilers (ob er läuft und ob Netzwerkressourcen konfiguriert wurden) [help] | stable | - | - |
VolumeAge sucht nach alten, eventuell vergessenen Volume-Clones. Die Logik kann auch umgedreht werden, so dass nur außergewöhnlich junge beispielsweise im Laufe der letzten 24 Stunden angelegte Volumes angezeigt werden. [help] | - | alpha | alpha |
VolumeAutosize alarmiert, wenn sich die Volume-Größe dem Maximum für autosize nährt. [help] | - | stable | stable |
VolumeState alarmiert, wenn Volumes nicht online (konfigurierbar) sind. [help] | - | stable | stable |
Vserver überwacht den Admin-/Operational-Status der Vserver (running, stopped, inconsistent or defunct) [help] | - | - | stable |
Wafl misst WAFL-Zähler wie zum Beispiel Consistency-Points pro Sekunde. Die Art des CP (wafl-timer, back-to-back, ...) kann angegeben werden. Die von diesem Plugin gemessenen Raten entsprechen der CPty-Spalte von 'sysstat -x 1' [help] | - | stable | stable |
Statusbeschreibungen
Status | Beschreibung |
---|---|
- | kein Status definiert |
alpha | Erste für einen Test geeignete Version. Programm- und Dokumentationsfehler noch sehr wahrscheinlich. Ungeeignet für den produktiven Einsatz. |
beta | Unfertige, für den produktiven Einsatz bedingt geeignete Version. |
deprecated | Entwicklung eingestellt |
on_road_map | Geplant mit konkretem Datum |
pre-alpha | Entwicklervorschau, oftmals nur Dokumentation ohne lauffähigen Code |
stable | Für den produktiven Einsatz geeignete, vollständig dokumentierte Version. |
unsupported | Check wird nicht mehr angeboten oder vertrieben. |