Amazon SageMaker Feature Store
Ein vollständig verwalteter Service für Machine-Learning-Funktionen
Speichern Sie, geben Sie frei und verwalten Sie ML-Modellfunktionen für Training und Inferenz, um die Wiederverwendung von Funktionen in ML-Anwendungen zu fördern.
Nehmen Sie Funktionen aus beliebigen Datenquellen auf, einschließlich Streaming und Batch, wie Anwendungsprotokolle, Serviceprotokolle, Clickstreams, Sensoren und tabellarische Daten aus AWS- oder Drittanbieter-Datenquellen
Transformieren Sie Daten in ML-Funktionen und erstellen Sie Funktions-Pipelines, die MLOps-Praktiken unterstützen und die Zeit bis zur Modellbereitstellung verkürzen.
Amazon SageMaker Feature Store ist ein vollständig verwaltetes, speziell entwickeltes Repository zum Speichern, Freigeben und Verwalten von Funktionen für Machine Learning (ML)-Modelle. Die Funktionen sind Eingaben für ML-Modelle, die beim Training und bei der Inferenz verwendet werden. Beispielsweise könnten in einer Anwendung, die eine Musikwiedergabeliste empfiehlt, Funktionen wie Songbewertungen, Hördauer und demografische Daten des Hörers enthalten sein. Die Funktionen werden wiederholt von mehreren Teams verwendet, und die Qualität der Funktionen ist entscheidend für ein hochgenaues Modell. Außerdem ist es schwierig, die beiden Funktionsspeicher synchron zu halten, wenn Funktionen, die für das Offline-Training von Modellen im Batch-Verfahren verwendet wurden, für Echtzeit-Inferenzen zur Verfügung gestellt werden. Der SageMaker Feature Store bietet einen sicheren und einheitlichen Speicher für die Verarbeitung, Standardisierung und Nutzung von Funktionen in großem Umfang über den gesamten ML-Lebenszyklus hinweg.
Funktionsweise
Schlüsselfunktionen
Verarbeitung und Aufnahme von Funktionen
Sie können Daten aus unterschiedlichen Quellen in den SageMaker Feature Store aufnehmen, z. B. aus Anwendungs- und Service-Protokollen, Clickstreams, Sensoren und tabellarischen Daten von Amazon Simple Storage Service (Amazon S3), Amazon Redshift, AWS Lake Formation, Snowflake und Databricks Delta Lake. Mithilfe der Funktionsverarbeitung können Sie Ihre Batch-Datenquelle und die Funktion zur Funktionstransformation angeben (z. B. Anzahl der Produktansichten oder Zeitfensteraggregate) und SageMaker Feature Store wandelt die Daten zum Zeitpunkt der Aufnahme in ML-Funktionen um. Mit Amazon SageMaker Data Wrangler können Sie Funktionen direkt in SageMaker Feature Store veröffentlichen. Mit dem Apache-Spark-Konnektor können Sie mit einer einzigen Codezeile eine große Datenmenge im Batch-Verfahren aufnehmen.
Speicherung, Katalogisierung, Suche und Wiederverwendung von Funktionen
Amazon SageMaker Feature Store markiert und indiziert Funktionsgruppen, sodass sie über eine visuelle Benutzeroberfläche in Amazon SageMaker Studio leicht auffindbar sind. Das Durchsuchen des Funktionskatalogs ermöglicht es den Teams, vorhandene Funktionen zu entdecken, die sie ohne Bedenken wiederverwenden können, und die Duplizierung von Pipelines zu vermeiden. SageMaker Feature Store verwendet standardmäßig den AWS-Glue-Datenkatalog, erlaubt Ihnen aber, einen anderen Katalog zu verwenden, wenn Sie dies wünschen. Sie können auch Funktionen mit vertrautem SQL mit Amazon Athena oder einem anderen Abfragetool Ihrer Wahl abfragen.
Funktionskonsistenz
Der SageMaker Feature Store unterstützt die Offline-Speicherung für das Training und die Online-Speicherung für die Echtzeit-Inferenz. Training und Inferenz sind sehr unterschiedliche Anwendungsfälle und die Speicheranforderungen sind für beide unterschiedlich. Beim Training verwenden die Modelle oft den kompletten Datensatz und können Stunden in Anspruch nehmen, während die Inferenz innerhalb von Millisekunden erfolgen muss und in der Regel eine Teilmenge der Daten verwendet wird. Bei gleichzeitiger Verwendung stellt SageMaker Feature Store sicher, dass Offline- und Online-Datensätze synchron bleiben, was von entscheidender Bedeutung ist, denn wenn sie voneinander abweichen, kann dies die Modellgenauigkeit negativ beeinflussen.
Verfolgung der Abstammung
Um eine zuverlässige Wiederverwendung von Funktionen zu gewährleisten, müssen Datenwissenschaftler wissen, wie die Funktionen erstellt wurden und von welchen Modellen und Endpunkten sie genutzt werden. SageMaker Feature Store ermöglicht es Datenwissenschaftlern, ihre Funktionen in Amazon SageMaker Studio mit SageMaker Lineage zu verfolgen. Mit SageMaker Lineage können Sie geplante Pipeline-Ausführungen nachverfolgen, die Upstream-Herkunft visualisieren, um Funktionen bis zu ihren Datenquellen zurückzuverfolgen, und den Code zur Verarbeitung von Funktionen anzeigen – alles in einer einzigen Umgebung.
Zeitreise
Datenwissenschaftler müssen möglicherweise Modelle mit dem exakten Satz von Funktionswerten aus einer bestimmten Zeit in der Vergangenheit trainieren, ohne das Risiko einzugehen, Daten von späteren Zeitpunkten einzubeziehen (auch als Funktionsverlust bezeichnet), wie etwa medizinische Patientendaten vor einer Diagnose. Die Offline-API des SageMaker Feature Store unterstützt zeitpunktbezogene Abfragen, um den Status jeder Funktion zum gewünschten historischen Zeitpunkt abzurufen.
ML-Vorgänge
Feature-Stores sind eine Schlüsselkomponente im Lebenszyklus von MLOps. Sie verwalten Datensätze und Funktionspipelines, beschleunigen datenwissenschaftliche Aufgaben und verhindern, dass dieselben Funktionen mehrfach erstellt werden müssen. SageMaker Feature Store kann als eigenständiger Service oder zusammen mit anderen SageMaker-Services auf integrierte Weise über den gesamten MLOps-Lebenszyklus hinweg genutzt werden.
Sicherheit und Compliance
Um Sicherheits- und Compliance-Anforderungen zu erfüllen, benötigen Sie unter Umständen eine genaue Kontrolle darüber, wie auf gemeinsam genutzte ML-Funktionen zugegriffen wird. Diese Anforderungen gehen oft über die Zugriffskontrolle auf Tabellen- und Spaltenebene hinaus und erstrecken sich auch auf die Zugriffskontrolle auf Zeilenebene. Beispielsweise können Sie Kundenbetreuern die Möglichkeit geben, Zeilen aus einer Verkaufstabelle nur für ihre Konten zu sehen und das Präfix von sensiblen Daten wie Kreditkartennummern zu verbergen. SageMaker Feature Store kann gemeinsam mit AWS Lake Formation verwendet werden, um fein abgestufte Zugriffskontrollen zu implementieren, um Feature-Store-Daten zu schützen und den Zugriff rollenbasiert zu gewähren.
Kunden
„Wir bei Climate glauben daran, den Landwirten weltweit genaue Informationen zur Verfügung zu stellen, damit sie datengestützte Entscheidungen treffen und ihren Ertrag auf jedem Feld maximieren können. Um dies zu erreichen, haben wir in Technologien wie Tools für Machine Learning investiert, um Modelle zu erstellen, die auf messbaren Funktionen basieren, z. B. dem Ertrag eines Feldes. Mit dem Amazon SageMaker Feature Store können wir die Entwicklung von ML-Modellen mit einem zentralen Feature Store beschleunigen, um auf Funktionen zuzugreifen und diese problemlos in verschiedenen Teams wiederzuverwenden. SageMaker Feature Store macht es einfach, über den Online-Store in Echtzeit auf Funktionen zuzugreifen oder über den Offline-Store Funktionen nach einem Zeitplan für verschiedene Anwendungsfälle auszuführen. Mit dem SageMaker Feature Store können wir ML-Modelle schneller entwickeln.“
Daniel McCaffrey, Vice President, Data and Analytics, Climate
„Wir haben uns 2017 dafür entschieden, die neue Plattform für Machine Learning von Intuit in AWS zu entwickeln. Dabei haben wir die leistungsstarken Funktionen von Amazon SageMaker für die Modellentwicklung, das Training und das Hosting mit den eigenen Fähigkeiten von Intuit in den Bereichen Orchestrierung und Feature Engineering kombiniert. Dadurch konnten wir den Lebenszyklus unserer Modellentwicklung drastisch verkürzen. Was früher sechs volle Monate gedauert hat, dauert jetzt weniger als eine Woche. Das ermöglicht es uns, die KI-Funktionen in unsere Produkte TurboTax, QuickBooks und Mint in einem stark beschleunigten Tempo zu integrieren. Wir haben im Vorfeld der Veröffentlichung des Amazon SageMaker Feature Store eng mit AWS zusammengearbeitet und sind begeistert von der Aussicht auf einen vollständig verwalteten Feature Store, sodass wir nicht mehr mehrere Feature-Repositorys in unserem Unternehmen verwalten müssen. Unsere Datenwissenschaftler werden in der Lage sein, bestehende Funktionen aus einem zentralen Speicher zu nutzen und sowohl die Standardisierung als auch die Wiederverwendung von Funktionen über Teams und Modelle hinweg voranzutreiben.“
Mammad Zadeh, Intuit Vice President of Engineering, Data Platform
„Wir bei Experian glauben, dass es unsere Aufgabe ist, Verbraucher zu befähigen, Kredite in ihrem finanziellen Leben zu verstehen und zu nutzen, und Kreditgebern beim Management von Kreditrisiken zu helfen. Während wir weiterhin bewährte Methoden zur Erstellung unserer Finanzmodelle implementieren, suchen wir nach Lösungen, die die Produktion von Produkten, die Machine Learning nutzen, beschleunigen. Amazon SageMaker Feature Store bietet uns eine sichere Möglichkeit zur Speicherung und Wiederverwendung von Funktionen für unsere ML-Anwendungen. Die Fähigkeit, die Konsistenz sowohl für Echtzeit- als auch für Batch-Anwendungen über mehrere Konten hinweg aufrechtzuerhalten, ist eine wichtige Voraussetzung für unser Geschäft. Mit den neuen Funktionen des Amazon SageMaker Feature Stores können wir unsere Kunden in die Lage versetzen, die Kontrolle über ihre Kredite zu übernehmen und die Kosten in der New Economy zu senken.“
Geoff Dzhafarov, Chief Enterprise Architect, Experian Consumer Services
„Wir bei DeNA haben es uns zur Aufgabe gemacht, mit Hilfe des Internets und KI/ML Wirkung und Freude zu erzeugen. Die Bereitstellung wertorientierter Services ist unser oberstes Ziel, und wir wollen sicherstellen, dass unsere Unternehmen und Services bereit sind, dieses Ziel zu erreichen. Wir möchten Funktionen innerhalb des Unternehmens entdecken und wiederverwenden. Der Amazon SageMaker Feature Store bietet uns eine einfache und effiziente Möglichkeit, Funktionen für verschiedene Anwendungen wiederzuverwenden. Amazon SageMaker Feature Store hilft uns auch bei der Beibehaltung von Standardfunktionsdefinitionen und unterstützt uns bei einer konsistenten Methodik, wenn wir Modelle trainieren und sie in der Produktion bereitstellen. Mit diesen neuen Fähigkeiten von Amazon SageMaker können wir ML-Modelle schneller trainieren und bereitstellen. So können wir weiterhin unsere Mission umsetzen, unsere Kunden mit den besten Dienstleistungen zu begeistern.“
Kenshin Yamada, General Manager / AI System Dept System Unit, DeNA
„Eine starke Pflegebranche, in der das Angebot der Nachfrage entspricht, ist für das Wirtschaftswachstum von der einzelnen Familie bis zum BIP des Landes unerlässlich. Wir freuen uns über den Amazon SageMaker Feature Store, da wir glauben, dass er uns helfen wird, unsere Datenwissenschafts- und Entwicklungsteams besser zu skalieren, indem wir einen konsistenten Satz kuratierter Daten verwenden. Mit den neu angekündigten Funktionen von Amazon SageMaker können wir die Entwicklung und Bereitstellung unserer ML-Modelle für verschiedene Anwendungen beschleunigen und unseren Kunden helfen, durch schnellere Echtzeitempfehlungen fundiertere Entscheidungen zu treffen.“
Clemens Tummeltshammer, Data Science Manager, Care.com
„Mit ML verbessert 3M bewährte Produkte wie Sandpapier und treibt Innovationen in mehreren anderen Bereichen voran, darunter im Gesundheitswesen. Da wir planen, Machine Learning auf weitere Bereiche von 3M zu skalieren, sehen wir, dass die Menge an Daten und Modellen schnell wächst und sich jedes Jahr verdoppelt. Wir sind von den neuen SageMaker-Funktionen begeistert, weil sie uns bei der Skalierung helfen. Amazon SageMaker Data Wrangler macht es viel einfacher, Daten für das Modelltraining vorzubereiten, und der Amazon SageMaker Feature Store macht es überflüssig, immer wieder dieselben Modellfunktionen zu erstellen. Schließlich wird uns Amazon SageMaker Pipelines dabei helfen, die Datenvorbereitung, Modellerstellung und Modellbereitstellung in einen End-to-End-Workflow zu automatisieren, damit wir die Markteinführungszeit für unsere Modelle verkürzen können. Unsere Forscher freuen sich darauf, die neue Geschwindigkeit der Wissenschaft bei 3M zu nutzen.“
David Frazee, Technical Director, 3M Corporate Research Systems Lab