Microsoft Lumos ist jetzt Open Source und ermöglicht die Überwachung von Web-App-Metriken und die schnelle Erkennung von Anomalien durch Eliminieren von Fehlalarmen

Microsoft /. Microsoft Lumos ist jetzt Open Source und ermöglicht die Überwachung von Web-App-Metriken und die schnelle Erkennung von Anomalien durch Eliminieren von Fehlalarmen 3 Minuten gelesen

Microsoft



Microsoft hat den Zugriff auf 'Lumos' eröffnet, eine leistungsstarke Python-Bibliothek zum automatischen Erkennen und Diagnostizieren von Metrikregressionen in 'Web-Scale' -Anwendungen. Die Bibliothek war Berichten zufolge in Microsoft Teams und Skype sehr aktiv. Im Wesentlichen ist ein hochleistungsfähiger und intelligenter „Anomaliedetektor“ jetzt als Open-Source-Version verfügbar und steht Webentwicklern zur Verfügung, um Regressionen in wichtigen Leistungsmetriken zu erkennen und zu beheben und gleichzeitig die Mehrheit der Fehlalarme nahezu zu eliminieren.

Microsoft Lumos ist jetzt Open Source. Es wurde aktiv in ausgewählten Microsoft-Produkten verwendet und wird nun für die allgemeine Web- und App-Entwickler-Community verfügbar sein. Berichten zufolge ermöglichte die Bibliothek den Ingenieuren, Hunderte von Änderungen an Metriken zu erkennen und Tausende von Fehlalarmen abzulehnen, die von Anomaliedetektoren aufgetaucht sind.



Laut Microsoft reduziert Lumos die Rate falsch positiver Warnungen um über 90 Prozent.

Lumos ist eine neue Methode, die vorhandene domänenspezifische Anomaliedetektoren umfasst. Microsoft versichert jedoch, dass die Python-Bibliothek die Falsch-Positiv-Alarmrate um über 90 Prozent reduzieren kann. Mit anderen Worten, Entwickler können jetzt sicher nach dauerhaften Problemen suchen, anstatt nach zeitweiligen Problemen, die sich langfristig nicht nachteilig auswirken.



Der Zustand von Onlinediensten wird normalerweise überwacht, indem KPI-Metriken (Key Performance Indicator) über einen längeren Zeitraum verfolgt werden. Ingenieure, die eine „Regressionsanalyse“ durchführen, benötigen viel Zeit und Ressourcen, um Probleme zu beseitigen, die auf größere Probleme hinweisen können. Diese Probleme können zu steigenden Betriebskosten und sogar zum Verlust von Benutzern führen, wenn sie nicht behoben werden.



Das Aufspüren der Grundursache jeder KPI-Regression ist natürlich zeitaufwändig. Darüber hinaus verbringen Teams oft viel Zeit damit, die Probleme zu analysieren, nur um festzustellen, dass es sich lediglich um eine Anomalie handelt. Hier bietet sich Microsoft Lumos an. Die Python-Bibliothek eliminiert den Prozess der Feststellung, ob eine Änderung auf eine Verschiebung der Grundgesamtheit oder eine Produktaktualisierung zurückzuführen ist, indem eine priorisierte Liste der wichtigsten Variablen zur Erklärung von Änderungen des Metrikwerts bereitgestellt wird.



Microsoft Lumos dient auch dem umfassenderen Zweck, den Unterschied in einer Metrik zwischen zwei beliebigen Datensätzen zu verstehen. Interessanterweise enthält die Plattform 'Bias'. Durch Vergleichen eines Kontroll- und Behandlungsdatensatzes, während Agos gegenüber der Zeitreihenkomponente agnostisch bleibt, kann Lumos den Anomalien.

Wie funktioniert Microsoft Lumos?

Microsoft Lumos arbeitet mit den Prinzipien des A / B-Testens, um Datensatzpaare zu vergleichen. Die Python-Bibliothek überprüft zunächst, ob die Regression in der Metrik zwischen Datensätzen statistisch signifikant ist. Anschließend werden eine Populations-Bias-Prüfung und eine Bias-Normalisierung durchgeführt, um etwaige Populationsänderungen zwischen den beiden Datensätzen zu berücksichtigen. Lumos entscheidet, dass es sich nicht lohnt, das Problem zu verfolgen, wenn die Metrik keine statistisch signifikante Regression aufweist. Wenn das Delta in der Metrik jedoch statistisch signifikant ist, markiert Lumos die Merkmale und ordnet sie nach ihrem Beitrag zum Delta in der Zielmetrik.

Die Lumos Python Library dient als Hauptwerkzeug für die Szenarioüberwachung von Hunderten von Metriken. Entwickler und Teams, die Leistungsanalysen durchführen, können die Zuverlässigkeit von Anrufen, Besprechungen und PSTN-Diensten (Public Switched Telephone Network) bei Microsoft überwachen und bearbeiten. Die Bibliothek ist auf Azure Databricks, dem auf Apache-Spark basierenden Big-Data-Analysedienst des Unternehmens, betriebsbereit. Es wurde für die Ausführung mit mehreren Jobs konfiguriert, die nach Priorität, Komplexität und Metriktyp angeordnet sind. Die Jobs werden asynchron abgeschlossen. Wenn das System eine Anomalie erkennt, wird ein Lumos-Workflow ausgelöst, und die Bibliothek analysiert und prüft auf intelligente Weise, ob es sich lohnt, die Anomalie zu verfolgen und zu beheben.

Microsoft hat festgestellt, dass Lumos nicht garantiert alle Regressionen bei Diensten abfängt. Darüber hinaus benötigt der Dienst eine große Anzahl von Datensätzen, um zuverlässige Einblicke zu bieten. Das Unternehmen plant, eine kontinuierliche Metrikanalyse durchzuführen, ein besseres Feature-Ranking durchzuführen und auch Feature-Clustering einzuführen. Diese Schritte sollten die primäre Herausforderung der Multikollinearität im Feature-Ranking angehen.

Stichworte Microsoft