ทำไมต้องกาว?

AWS Glue ช่วยให้คุณชำระอัตรารายชั่วโมงซึ่งเรียกเก็บตามวินาทีสำหรับโปรแกรมรวบรวมข้อมูล (การค้นพบข้อมูล) และกระบวนการ Extract, Transform and Load (ETL) (ประมวลผลและโหลดข้อมูล) แค็ตตาล็อกข้อมูลของ AWS Glue ช่วยให้คุณสามารถชำระเพียงค่าธรรมเนียมรายเดือนสำหรับการจัดเก็บและการเข้าถึงข้อมูลเมตา ให้คุณจัดเก็บหนึ่งล้านอ็อบเจ็กต์แรกได้ฟรี และเข้าถึงหนึ่งล้านครั้งแรกได้ฟรี หากคุณจัดเตรียมตำแหน่งข้อมูลการพัฒนาเพื่อพัฒนาโค้ด ETL อย่างต่อเนื่อง คุณจะชำระอัตรารายชั่วโมงซึ่งเรียกเก็บตามวินาที สำหรับ AWS Glue DataBrew ระบบจะเรียกเก็บค่าบริการเซสชันแบบอินเทอร์แอคทีฟเป็นรายเซสชัน และเรียกเก็บค่าบริการงาน DataBrew เป็นรายนาที การใช้งานรีจิสทรีของ AWS Glue Schema นั้นไม่มีค่าใช้จ่ายเพิ่มเติม

หมายเหตุ: ราคาอาจแตกต่างกันออกไปตาม AWS Region

  • งาน ETL และเซสชันเชิงโต้ตอบ
  • ตัวอย่างราคา

    งาน ETL: สมมติว่างาน AWS Glue Apache Spark รันเป็นเวลา 15 นาทีและใช้ 6 DPU ราคาของ 1 DPU ต่อชั่วโมงคือ 0.44 USD เนื่องจากงานของคุณเรียกใช้เป็นเวลา 15 นาที และใช้ 6 DPU ดังนั้น AWS จะเรียกเก็บค่าบริการจากคุณ 6 DPU * 0.25 ชั่วโมง * 0.44 USD หรือ 0.66 USD

    AWS Glue Studio Job Notebooks และเซสชันเชิงโต้ตอบ: สมมติว่าคุณใช้โน๊ตบุ๊กใน AWS Glue Studio เพื่อพัฒนาโค้ด ETL ของคุณเชิงโต้ตอบ ตามค่าเริ่มต้น เซสชันเชิงโต้ตอบจะมี 5 DPU ราคาของ 1 DPU ต่อชั่วโมงคือ 0.44 USD หากคุณรันเซสชันเป็นเวลา 24 นาที จะมีการเรียกเก็บค่าบริการสำหรับ 5 DPU * 0.4 ชั่วโมง * 0.44 USD หรือ 0.88 USD

  • แค็ตตาล็อกข้อมูล
  • แค็ตตาล็อกข้อมูลของ AWS Glue เป็นที่เก็บข้อมูลเมตาทางเทคนิคแบบรวมศูนย์สำหรับสินทรัพย์ข้อมูลทั้งหมดของคุณในทั่วทุกแหล่งที่มาของข้อมูลต่าง ๆ รวมถึง Amazon S3, Amazon Redshift และแหล่งที่มาของข้อมูลของบริษัทภายนอก สามารถเข้าถึงแค็ตตาล็อกข้อมูลเพื่อใช้ข้อมูล การวิเคราะห์ และ AI ได้จาก Amazon SageMaker Lakehouse มีอินเทอร์เฟซแบบครบวงจรสำหรับจัดระเบียบข้อมูลเป็นแค็ตตาล็อก ฐานข้อมูล และตาราง แล้วสืบค้นจาก Amazon Redshift, Amazon Athena และ Amazon EMR ความสามารถของ AWS Lake Formation ในแค็ตตาล็อกข้อมูลช่วยให้คุณสามารถรวมศูนย์การกำกับดูแลข้อมูลใน AWS ได้ กำกับดูแลสินทรัพย์ข้อมูลโดยใช้สิทธิ์ในข้อมูลแบบละเอียดและฟีเจอร์สไตล์ฐานข้อมูลที่คุ้นเคย

    เมื่อใช้แค็ตตาล็อกข้อมูล จะมีการเรียกเก็บค่าบริการสำหรับการจัดเก็บและการเข้าถึงข้อมูลเมตาตาราง และสำหรับการรันงานการประมวลผลข้อมูลที่ประมวลผลสถิติตารางและการเพิ่มประสิทธิภาพตาราง

    ราคาข้อมูลเมตา

    แค็ตตาล็อกข้อมูลจะช่วยให้คุณจัดเก็บข้อมูลฟรีได้สูงถึงหนึ่งล้านอ็อบเจกต์ข้อมูลเมตา หากคุณจัดเก็บข้อมูลมากกว่าหนึ่งล้านอ็อบเจกต์ข้อมูลเมตา จะมีการเรียกเก็บค่าบริการ 1 USD ต่อ 100,000 อ็อบเจกต์ที่เกินจากหนึ่งล้านต่อเดือน อ็อบเจกต์ข้อมูลเมตาในแค็ตตาล็อกข้อมูลคือตาราง เวอร์ชันของตาราง พาร์ติชัน ดัชนีพาร์ติชัน สถิติ ฐานข้อมูล หรือแค็ตตาล็อก

    การบำรุงรักษาตารางและสถิติ

    แค็ตตาล็อกข้อมูลมอบการบีบอัดที่มีการจัดการสำหรับตาราง Apache Iceberg ในพื้นที่เก็บข้อมูลอ็อบเจกต์ Amazon S3 ซึ่งจะบีบอัดอ็อบเจกต์ขนาดเล็กหลายรายการให้กลายเป็นอ็อบเจกต์ขนาดใหญ่ขึ้นเพื่อประสิทธิภาพการอ่านที่ดีขึ้นด้วยบริการวิเคราะห์ของ AWS เช่น งาน Amazon Redshift, Athena, Amazon EMR และ AWS Glue ETL จะมีการเรียกเก็บค่าบริการตามอัตรารายชั่วโมงโดยอิงตามจำนวนหน่วยประมวลผลข้อมูล (หรือ DPU) ที่ใช้ในการบีบอัดตาราง หน่วยประมวลผลข้อมูล (DPU) หนึ่งหน่วยจะมี 4 vCPU และหน่วยความจำขนาด 16 GB จะมีการเรียกเก็บค่าบริการในการเพิ่มครั้งละ 1 วินาที โดยปัดเศษขึ้นให้เป็นวินาทีที่ใกล้เคียงที่สุดในระยะเวลาอย่างน้อย 1 นาทีต่อการรันแต่ละครั้ง

    นอกจากนี้แค็ตตาล็อกข้อมูลยังรองรับสถิติตารางระดับคอลัมน์สำหรับตาราง AWS Glue ด้วย ซึ่งสถิติเหล่านี้จะผสานรวมเข้ากับเครื่องมือเพิ่มประสิทธิภาพตามต้นทุน (CBO) ใน Athena และ การสืบค้น Data Lake ของ Amazon Redshift ซึ่งจะส่งผลให้ประสิทธิภาพการสืบค้นดีขึ้นและประหยัดต้นทุนได้

    การเพิ่มประสิทธิภาพ

    • 0.44 USD ต่อ DPU ต่อชั่วโมงสำหรับการเพิ่มประสิทธิภาพตาราง Apache Iceberg ซึ่งจะเรียกเก็บค่าบริการต่อวินาทีโดยมีขั้นต่ำ 1 นาที

    สถิติ:

    • 0.44 USD ต่อ DPU ต่อชั่วโมงสำหรับการสร้างสถิติ ซึ่งจะเรียกเก็บค่าบริการต่อวินาที โดยขั้นต่ำอยู่ที่ 1 นาที

    การใช้งานและค่าใช้จ่ายเพิ่มเติม

    พื้นที่เก็บข้อมูล

    การใช้แค็ตตาล็อกข้อมูลจะทำให้คุณสามารถสร้างและจัดการตารางใน Amazon S3 และ Amazon Redshift ได้ และจะมีการเรียกเก็บค่าบริการในอัตรามาตรฐานของ Amazon S3 หรือ Amazon Redshift สำหรับพื้นที่เก็บข้อมูลตาราง ไม่มีการเรียกเก็บค่าบริการเพิ่มเติมสำหรับพื้นที่เก็บข้อมูลในแค็ตตาล็อกข้อมูล

        1. เมื่อจัดเก็บข้อมูลไว้ใน Amazon S3 จะมีการเรียกเก็บค่าบริการในอัตรามาตรฐานของ Amazon S3 สำหรับพื้นที่เก็บข้อมูล คำขอ และการโอนถ่ายข้อมูล ดูข้อมูลเพิ่มเติมได้ที่ราคา Amazon S3

        2. เมื่อจัดเก็บข้อมูลใน Amazon Redshift จะมีการเรียกเก็บค่าบริการในอัตรามาตรฐานของ Amazon Redshift สำหรับพื้นที่เก็บข้อมูล ดูรายละเอียดได้ที่ราคา Amazon Redshift

    การประมวลผล

    เมื่อคุณเข้าถึงตาราง Amazon Redshift จาก Amazon EMR, AWS Glue, Athena หรือกลไกที่ใช้งานร่วมกันได้กับ Apache Iceberg ของบริษัทภายนอกหรือแบบโอเพนซอร์ใดก็ตาม จะมีการใช้เวิร์กกรุ๊ป Amazon Redshift แบบไม่ต้องใช้เซิร์ฟเวอร์เป็นทรัพยากรการประมวลผล เวิร์กกรุ๊ปที่มีการจัดการของ Amazon Redshift แบบไม่ต้องใช้เซิร์ฟเวอร์ จะใช้ในการกรองผลลัพธ์ของตาราง และจะมีการเรียกเก็บค่าบริการสำหรับทรัพยากรคำนวณที่คุณใช้ตามอัตรามาตรฐานของ Amazon Redshift แบบไม่ต้องใช้เซิร์ฟเวอร์ ไม่มีการเรียกเก็บค่าบริการแยกต่างหากสำหรับการสืบค้นตารางที่จัดเก็บไว้ใน Amazon Redshift โดยใช้ Amazon Redshift เรียนรู้เพิ่มเติมได้ที่ราคา Amazon Redshift

    สิทธิ์ของ Lake Formation

    Lake Formation ผสานรวมเข้ากับแค็ตตาล็อกข้อมูลและให้สิทธิ์ในระดับฐานข้อมูล ตาราง คอลัมน์ แถว และเซลล์โดยใช้การควบคุมการเข้าถึงตามแท็กหรือตามชื่อและการแชร์ข้ามบัญชี ไม่มีการเรียกเก็บค่าบริการแยกต่างหากเมื่อสร้างสิทธิ์ของ Lake Formation หรือใช้สิทธิ์ของ Lake Formation กับบริการ AWS แบบผสานการทำงานในตัว

    ตัวอย่างราคา

    แค็ตตาล็อกข้อมูลบน AWS Free Tier: สมมติว่าคุณจัดเก็บอ็อบเจกต์ข้อมูลเมตาหนึ่งล้านรายการในแค็ตตาล็อกข้อมูลในเดือนที่กำหนดและส่งคำขอข้อมูลเมตา 1 ล้านรายการเพื่อเข้าถึงตารางเหล่านี้ ค่าบริการที่คุณต้องชำระคือ 0 USD เนื่องจากการใช้งานของคุณอยู่ในช่วง Free Tier ของแค็ตตาล็อกข้อมูลของ AWS Glue คุณสามารถจัดเก็บหนึ่งล้านรายการแรกของอ็อบเจกต์ข้อมูลเมตาและส่งหนึ่งล้านคำขอต่อเดือนได้ฟรี

    แค็ตตาล็อกข้อมูลระดับมาตรฐาน: ตอนนี้สมมติว่าการใช้งานพื้นที่เก็บข้อมูลเมตาของคุณยังคงเท่าเดิมที่ 1 ล้านอ็อบเจกต์ข้อมูลเมตาต่อเดือน แต่คำขอเพิ่มขึ้นสองเท่าเป็น 2 ล้านคำขอข้อมูลเมตาต่อเดือน สมมติว่าคุณใช้ Crawler เพื่อค้นหาตารางใหม่ด้วย และรันโปรแกรมเป็นเวลา 30 นาทีและใช้ไป 2 DPU

    ค่าใช้จ่ายของพื้นที่เก็บข้อมูลของคุณก็จะยังคงเป็น 0 USD เนื่องจากพื้นที่เก็บข้อมูลสำหรับหนึ่งล้านรายการแรกของอ็อบเจกต์ข้อมูลเมตาไม่ต้องเสียค่าบริการ หนึ่งล้านคำขอแรกก็ไม่เสียค่าบริการเช่นกัน จะมีการเรียกเก็บค่าบริการ 1 USD สำหรับ 1 ล้านคำขอที่ไม่ได้อยู่ในช่วงของ Free Tier

    การใช้แค็ตตาล็อกข้อมูลกับบริการอื่น ๆ:

    ตัวอย่างเช่น เมื่อคุณสืบค้นตารางใน Amazon Redshift โดยใช้ Athena SQL ใน SageMaker Lakehouse จะมีการเรียกเก็บค่าบริการสำหรับ: การจัดเก็บตารางใน Amazon Redshift ในราคามาตรฐานของ Amazon Redshift, คำขอข้อมูลเมตาที่ส่งไปยังแค็ตตาล็อกข้อมูลตามราคามาตรฐานสำหรับคำขอแค็ตตาล็อกข้อมูล, พื้นที่เก็บข้อมูลเมตาสำหรับการจัดเก็บแค็ตตาล็อก ฐานข้อมูล และข้อมูลเมตาตารางในแค็ตตาล็อกข้อมูล, RPU ต่อชั่วโมงสำหรับ Amazon Redshift แบบไม่ต้องใช้เซิร์ฟเวอร์ โดยจะเรียกเก็บเป็นรายวินาที (ค่าบริการขั้นต่ำ 60 วินาที) สำหรับการกรองผลลัพธ์ตาราง Amazon Redshift และจำนวนไบต์ที่สแกนโดยการสืบค้น Athena ซึ่งจะปัดเศษขึ้นเป็นเมกะไบต์ที่ใกล้ที่สุด โดยมีขั้นต่ำ 10 MB ต่อการสืบค้นข้อมูลโดยใช้ราคามาตรฐานของ Athena

    ในอีกสถานการณ์ที่คุณสืบค้นตารางใน Amazon Redshift โดยใช้ Amazon EMR Serverless จะมีการเรียกเก็บค่าบริการสำหรับ: การจัดเก็บตารางใน Amazon Redshift ในราคามาตรฐานของ Amazon Redshift, คำขอข้อมูลเมตาที่ส่งไปยังแค็ตตาล็อกข้อมูลตามราคามาตรฐานสำหรับคำขอแค็ตตาล็อกข้อมูล, พื้นที่เก็บข้อมูลเมตาสำหรับการจัดเก็บแค็ตตาล็อก ฐานข้อมูล และข้อมูลเมตาตารางในแค็ตตาล็อกข้อมูล, RPU ต่อชั่วโมงสำหรับ Amazon Redshift แบบไม่ต้องใช้เซิร์ฟเวอร์ โดยจะเรียกเก็บเป็นรายวินาที (ค่าบริการขั้นต่ำ 60 วินาที) สำหรับการกรองผลลัพธ์ตาราง Amazon Redshift และจำนวน vCPU, หน่วยความจำ และทรัพยาการพื้นที่เก็บข้อมูลที่พนักงานของคุณใช้ในการใช้งาน Amazon EMR

    ในอีกสถานการณ์ที่คุณสืบค้นตาราง Apache Iceberg ในพื้นที่เก็บข้อมูลอ็อบเจกต์ Amazon S3 โดยใช้ Amazon Redshift แบบไม่ต้องใช้เซิร์ฟเวอร์ จะมีการเรียกเก็บค่าบริการสำหรับ: การจัดเก็บตาราง Apache Iceberg ใน Amazon S3 ในราคามาตรฐานของ Amazon S3, คำขอข้อมูลเมตาที่ส่งไปยังแค็ตตาล็อกข้อมุลในราคามาตรฐานสำหรับคำขอข้อมูลแค็ตตาล็อก, พื้นที่เก็บข้อมูลเมตาสำหรับการจัดเก็บแค็ตตาล็อก และเวลาประมวลผล (ชั่วโมง RPU) ตามราคามาตรฐานของ Amazon Redshift

    AWS Glue Crawler จะเรียกเก็บค่าบริการ 0.44 USD ต่อ DPU ต่อชั่วโมง ดังนั้นคุณจะต้องชำระเงินสำหรับ 2 DPU * 0.5 ชั่วโมงที่อัตรา 0.44 USD ต่อ DPU ต่อชั่วโมง ซึ่งจะเท่ากับ 0.44 USD

    หากคุณสร้างสถิติสำหรับตาราง AWS Glue และการรันสถิติใช้เวลา 10 นาทีและใช้ 1 DPU จะมีการเรียกเก็บค่าบริการ 1 DPU * 0.1666 ชั่วโมง * 0.44 USD/DPU ต่อชั่วโมง ซึ่งเท่ากับ 0.07 USD

    หากคุณบีบอัดตาราง Apache Iceberg ที่จัดเก็บไว้ในพื้นที่เก็บข้อมูลอ็อบเจกต์ Amazon S3 และการบีบอัดรันเป็นเวลา 30 นาทีและใช้ 2 DPU จะมีการเรียกเก็บค่าบริการ 2 DPU* 0.5 ชั่วโมง* 0.44 USD/DPU ต่อชั่วโมง ซึ่งเท่ากับ 0.44 USD

  • Crawler
  • เซสชันแบบอินเทอร์แอคทีฟ DataBrew
  • ตัวอย่างราคา

    AWS Glue DataBrew: ราคาสำหรับเซสชันแบบอินเทอร์แอคทีฟ 30 นาทีแต่ละเซสชันคือ 1.00 USD หากคุณเริ่มเซสชันในเวลา 9.00 น. แล้วออกจากคอนโซลทันที และกลับมาในเวลา 9.20 น. - 9.30 น. การดำเนินการนี้จะใช้ 1 เซสชันโดยมีมูลค่ารวมที่ 1.00 USD

    หากคุณเริ่มเซสชันเวลา 9.00 น. และโต้ตอบกับคอนโซล DataBrew จนถึงเวลา 9.50 น. ให้ออกจากพื้นที่โปรเจกต์ DataBrew และกลับมาดำเนินการโต้ตอบครั้งสุดท้ายเวลา 10.15 น. การดำเนินการนี้จะใช้ 3 เซสชันและระบบจะเรียกเก็บค่าบริการคุณ 1.00 USD ต่อเซสชัน รวมเป็นเงิน 3.00 USD

  • งาน DataBrew
  • ตัวอย่างราคา

    DataBrew: หากงาน AWS Glue DataBrew รันเป็นเวลา 10 นาทีและใช้โหนด DataBrew 5 โหนด ราคาจะอยู่ที่ 0.40 USD เนื่องจากงานทำงานเป็นเวลา 1/6 ชั่วโมงและใช้ไปแล้ว 5 โหนด ระบบจึงจะเรียกเก็บค่าบริการสำหรับ 5 โหนด * 1/6 ชั่วโมง * 0.48 USD ต่อชั่วโมงทำงานของโหนด รวมเป็นเงิน 0.40 USD

  • คุณภาพข้อมูล
  • การตรวจคุณภาพข้อมูลของ AWS Glue จะมอบความมั่นใจในด้านของข้อมูลให้กับคุณ โดยการช่วยให้คุณได้รับข้อมูลที่มีคุณภาพสูง ซึ่งจะวัด ตรวจสอบ และจัดการคุณภาพข้อมูลใน Data Lake และไปป์ไลน์ของคุณโดยอัตโนมัติ ทำให้สามารถระบุข้อมูลที่ขาดหายไป ที่ไม่ได้อัปเดต หรือเป็นข้อมูลที่ไม่ดีได้ง่ายยิ่งขึ้น

    คุณสามารถเข้าถึงคุณสมบัติคุณภาพของข้อมูลได้จากแค็ตตาล็อกข้อมูลและ AWS Glue Studio และผ่านทาง API ของ AWS Glue

    การราคาสำหรับการจัดการคุณภาพข้อมูลของชุดข้อมูลที่จัดทำแค็ตตาล็อกไว้ในแค็ตตาล็อกข้อมูล:

    คุณสามารถเลือกชุดข้อมูลจากแคตตาล็อกข้อมูล และสร้างคำแนะนำได้ การดำเนินการนี้จะเป็นการสร้างงานคำแนะนำสำหรับคุณในการจัดเตรียมหน่วยประมวลผลข้อมูล (DPU) หลังจากที่คุณได้รับคำแนะนำแล้ว คุณจะสามารถแก้ไขหรือเพิ่มกฎใหม่ และกำหนดเวลาให้กับกฎเหล่านั้นได้ งานเหล่านี้เรียกว่างานคุณภาพข้อมูล ซึ่งคุณจะสามารถจัดเตรียม DPU เอาไว้ได้ คุณจะต้องมี DPU ขั้นต่ำ 2 รายการ พร้อมระยะเวลาการเรียกเก็บเงินขั้นต่ำ 1 นาที

    การราคาสำหรับการจัดการคุณภาพข้อมูลของชุดข้อมูลที่ประมวลผลบน AWS Glue ETL:

    คุณสามารถเพิ่มการตรวจสอบคุณภาพข้อมูลให้กับงาน ETL ของคุณ เพื่อป้องกันไม่ให้ข้อมูลที่ไม่ดีเข้าสู่ Data Lake ได้ กฎคุณภาพข้อมูลเหล่านี้จะอยู่ในงาน ETL ของคุณ ซึ่งจะส่งผลให้มีรันไทม์เพิ่มขึ้น หรือมีการใช้ DPU ที่เพิ่มขึ้นด้วย นอกจากนี้คุณยังสามารถใช้การดำเนินการแบบยืดหยุ่นสำหรับเวิร์กโหลดที่ไม่ไวต่อ SLA ได้

    การกำหนดราคาสำหรับการตรวจจับความผิดปกติใน AWS Glue ETL:

    การตรวจจับความผิดปกติ:
    คุณจะต้องเสีย 1 DPU ต่อสถิติ นอกเหนือจาก DPU ของงาน ETL ของคุณ สำหรับระยะเวลาที่ใช้ในการตรวจจับความผิดปกติ โดยเฉลี่ยแล้วจะใช้เวลาประมาณ 10 -20 วินาทีในการตรวจจับความผิดปกติสำหรับ 1 สถิติ ลองสมมติว่าคุณได้กำหนดค่ากฎสองข้อ (กฎข้อที่ 1: ปริมาณข้อมูลต้องมากกว่า 1,000 บันทึก กฎข้อที่ 2: จำนวนคอลัมน์ต้องมากกว่า 10) และตัววิเคราะห์หนึ่งตัว (ตัววิเคราะห์ 1: ตรวจสอบความสมบูรณ์ของคอลัมน์) การกำหนดค่านี้จะสร้างสถิติสามอย่าง: จำนวนแถว จำนวนคอลัมน์ และเปอร์เซ็นต์ความสมบูรณ์ของคอลัมน์ คุณจะถูกเรียกเก็บเงินจำนวน DPU เพิ่มเติม 3 DPU สำหรับเวลาที่ใช้ในการตรวจจับความผิดปกติที่มีระยะเวลาขั้นต่ำ 1 วินาที ดูตัวอย่าง - 4 สำหรับรายละเอียดเพิ่มเติม

    การฝึกซ้ำ:
    คุณอาจต้องการแยกการทำงานของงานที่ผิดปกติหรือสถิติออกไป เพื่อให้อัลกอริธึมการตรวจจับความผิดปกติสามารถทำนายความผิดปกติที่ตามมาได้อย่างแม่นยำ ในการดำเนินการนี้ AWS Glue ช่วยให้คุณสามารถไม่รวมหรือรวมสถิติได้ คุณจะต้องเสีย 1 DPU ในการฝึกโมเดลซ้ำตามระยะเวลาที่ใช้ในการฝึกซ้ำ โดยเฉลี่ยแล้ว การฝึกซ้ำจะใช้เวลา 10 วินาทีถึง 20 นาทีต่อสถิติ ดูตัวอย่างที่ 5 สำหรับรายละเอียดเพิ่มเติม

    การจัดเก็บสถิติ:
    ไม่มีค่าใช้จ่ายในการจัดเก็บสถิติที่รวบรวมไว้ มีการจำกัดสถิติอยู่ที่ 100K ต่อบัญชีและจะถูกจัดเก็บไว้เป็นเวลา 2 ปี

    ค่าบริการเพิ่มเติม:
    AWS Glue จะประมวลผลข้อมูลโดยตรงจาก Amazon Simple Storage Service (Amazon S3) ไม่มีค่าบริการพื้นที่จัดเก็บเพิ่มเติมสำหรับการอ่านข้อมูลของคุณด้วย AWS Glue คุณจะเสียค่าบริการ Amazon S3 ในอัตรามาตรฐานสำหรับพื้นที่จัดเก็บ คำขอ และการโอนถ่ายข้อมูล ตามการกำหนดค่าของคุณ ไฟล์ชั่วคราว ผลลัพธ์ด้านคุณภาพข้อมูล และไฟล์สับเปลี่ยนจะถูกจัดเก็บเอาไว้ในบัคเก็ต S3 ที่คุณเลือก และจะเรียกเก็บค่าบริการตามอัตรา S3 มาตรฐานอีกด้วย


    หากคุณใช้แค็ตตาล็อกข้อมูล คุณจะถูกเรียกเก็บค่าบริการแค็ตตาล็อกข้อมูลตามอัตรามาตรฐาน สำหรับรายละเอียดเพิ่มเติม ให้เลือกแท็บพื้นที่จัดเก็บและคำขอแค็ตตาล็อกข้อมูล

    ตัวอย่างราคา

    ตัวอย่างที่ 1 – รับคำแนะนำสำหรับตารางในแค็ตตาล็อกข้อมูล

    ตัวอย่างเช่น ลองพิจารณางานคำแนะนำที่มี 5 DPU ที่มีการดำเนินการเสร็จสิ้นภายใน 10 นาที คุณจะจ่าย 5 DPU * 1/6 ชั่วโมง * 0.44 USD ซึ่งคิดเป็น 0.37 USD

    ตัวอย่างที่ 2 – ประเมินคุณภาพข้อมูลของตารางในแค็ตตาล็อกข้อมูล

    หลังจากที่คุณตรวจทานคำแนะนำแล้ว คุณจะสามารถแก้ไขคำแนะนำเหล่านั้นได้หากจำเป็น จากนั้นให้ตั้งกำหนดการของงานคุณภาพข้อมูลโดยการเตรียมใช้งาน DPU ตัวอย่างเช่น ลองพิจารณางานประเมินคุณภาพข้อมูลด้วย 5 DPU ที่มีการดำเนินการเสร็จสิ้นภายใน 20 นาที
    คุณจะจ่าย 5 DPU * 1/3 ชั่วโมง * 0.44 USD ซึ่งคิดเป็น 0.73 USD

    ตัวอย่างที่ 3 – ประเมินคุณภาพข้อมูลในงาน ETL ของ AWS Glue

    นอกจากนี้ คุณยังสามารถเพิ่มการตรวจสอบคุณภาพข้อมูลเหล่านี้ได้ในงาน ETL ของ AWS Glue เพื่อป้องกันไม่ให้ข้อมูลที่ไม่ดีเข้าสู่ Data Lake ของคุณ คุณสามารถทำเช่นนี้ได้โดยการเพิ่มการแปลงคุณภาพข้อมูลบน AWS Glue Studio หรือใช้ API ของ AWS Glue ภายในโค้ดที่คุณเขียนในโน๊ตบุ๊กของ AWS Glue Studio ลองพิจารณาถึงงานของ AWS Glue ที่ทำงานโดยมีการกำหนดค่ากฎคุณภาพข้อมูลภายในไปป์ไลน์ที่มีการดำเนินการ 20 นาที (1/3 ชั่วโมง) โดยใช้ 6 DPU คุณจะถูกเรียกเก็บค่าบริการ 6 DPU * 1/3 ชั่วโมง * 0.44 USD ซึ่งคิดเป็น 0.88 USD หรือคุณสามารถใช้ Flex ซึ่งคุณจะถูกเรียกเก็บค่าบริการ 6 DPU * 1/3 ชั่วโมง * 0.29 USD ซึ่งคิดเป็น 0.58 USD

    ตัวอย่างที่ 4 — ประเมินคุณภาพข้อมูลในงาน AWS Glue ETL ด้วยการตรวจจับความผิดปกติ

    พิจารณางาน AWS Glue ที่อ่านข้อมูลจาก Amazon S3 แปลงข้อมูล และรันการตรวจสอบคุณภาพข้อมูลก่อนที่จะโหลดไปยัง Amazon Redshift ถือว่าไปป์ไลน์นี้มีกฎ 10 ข้อและตัววิเคราะห์ 10 ตัวซึ่งส่งผลให้มีการรวบรวมสถิติ 20 รายการ นอกจากนี้ ให้ถือว่าการสกัด การแปลง การโหลด การรวบรวมสถิติ และการประเมินคุณภาพข้อมูลจะใช้เวลา 20 นาที หากไม่ได้เปิดใช้การตรวจจับความผิดปกติ ลูกค้าจะถูกเรียกเก็บเงิน 6 DPU * 1/3 ชั่วโมง (20 นาที) * 0.44 USD ซึ่งเท่ากับ 0.88 USD (A) หากเปิดการตรวจจับความผิดปกติ เราจะเพิ่ม 1 DPU ให้กับทุกสถิติ และจะใช้เวลาเฉลี่ย 15 วินาทีในการตรวจจับความผิดปกติ ในตัวอย่างนี้ ลูกค้าจะเสียค่าใช้จ่าย 20 สถิติ * 1 DPU * 15/3600 (0.0041 ชั่วโมง/สถิติ) * 0.44 USD (ต้นทุนต่อ DPU/ชั่วโมง) = 0.037 USD (B) ค่าใช้จ่ายทั้งหมดของงานจะอยู่ที่ 0.88 USD (A) + 0.037 USD (B) = 0.917 USD

    ตัวอย่างที่ 5 - การฝึกซ้ำ

    พิจารณาว่างาน Glue ของคุณตรวจพบความผิดปกติ คุณตัดสินใจที่จะแยกความผิดปกติออกจากโมเดลเพื่อให้อัลกอริธึมการตรวจจับความผิดปกติทำนายความผิดปกติในอนาคตได้อย่างแม่นยำ ในการดำเนินการนี้ คุณสามารถฝึกโมเดลซ้ำได้โดยการยกเว้นค่าสถิติที่ผิดปกตินี้ คุณจะต้องเสีย 1 DPU ต่อสถิติตลอดระยะเวลาที่ใช้ในการฝึกโมเดลซ้ำ โดยเฉลี่ยอาจใช้เวลา 15 วินาที ในตัวอย่างนี้ หากคุณถือว่าคุณยกเว้นจุดข้อมูล 1 จุด คุณจะเสีย 1 สถิติ * 1 DPU * 15/3600 (0.0041 ชั่วโมง / สถิติ) * 0.44 USD = 0.00185 USD

  • Zero-ETL
  • Zero-ETL เป็นชุดของการบูรณาการที่มีการจัดการเต็มรูปแบบโดย AWS ซึ่งจะช่วยลดความจำเป็นในการสร้างไปป์ไลน์ข้อมูลในกระบวนการ Extract, Transform and Load (ETL) สำหรับกรณีการใช้งานการนำเข้าข้อมูลและการจำลองทั่วไปในการวิเคราะห์และความคิดริเริ่มของ AI AWS ไม่เรียกเก็บค่าธรรมเนียมเพิ่มเติมสำหรับการบูรณาการ ETL แบบไร้รอยต่อ คุณจ่ายสำหรับแหล่งที่มาและทรัพยากรเป้าหมายที่ใช้ในการสร้างและประมวลผลข้อมูลที่เปลี่ยนแปลงและสร้างขึ้นเป็นส่วนหนึ่งของการบูรณาการ ETL แบบไร้รอยต่อ

    Amazon SageMaker Lakehouse และ Amazon Redshift รองรับการบูรณาการ ETL แบบไร้รอยต่อจากแอปพลิเคชัน

    Amazon SageMaker Lakehouse และ Amazon Redshift รองรับการบูรณาการ ETL แบบไร้รอยต่อจากแอปพลิเคชัน ซึ่งทำให้การแยกและโหลดข้อมูลจากแอปพลิเคชันลงใน Amazon SageMaker Lakehouse และ Amazon Redshift ทำงานโดยอัตโนมัติ ดูรายชื่อทั้งหมดของแหล่งที่มาการบูรณาการ ETL แบบไร้รอยต่อที่รองรับได้ที่เอกสารประกอบการบูรณาการ ETL แบบไร้รอยต่อของ AWS Glue

    AWS Glue เรียกเก็บค่าธรรมเนียมสำหรับการนำเข้าข้อมูลแหล่งที่มาของแอปพลิเคชันที่รองรับโดยการบูรณาการ ETL แบบไร้รอยต่อ โดยจะมีค่าใช้จ่ายสำหรับทรัพยากร AWS Glue ที่ใช้ในการดึงข้อมูลแทรก อัปเดต และการลบออกจากแอปพลิเคชันของคุณ จะมีการเรียกเก็บค่าบริการตามปริมาณข้อมูลที่ได้รับจากแอปพลิเคชัน และจะไม่มีการเรียกเก็บค่าบริการสำหรับการเริ่มต้นคำขอนำเข้าข้อมูล คำขอการนำเข้าข้อมูลแต่ละครั้งที่เกิดจาก AWS Glue จะมีปริมาณขั้นต่ำ 1 เมกะไบต์ (MB)

    เมื่อมีการเขียนข้อมูลที่นำเข้าลงใน Amazon Redshift แล้ว จะมีค่าใข้จ่ายสำหรับทรัพยากรที่ใช้ในการประมวลผลข้อมูลที่เปลี่ยนแปลงและสร้างขึ้นเป็นส่วนหนึ่งของการบูรณาการ ETL แบบไร้รอยต่อตามอัตราราคาของ Amazon Redshift

    เมื่อมีการเขียนข้อมูลที่นำเข้าลงใน SageMaker Lakehouse แล้ว จะมีค่าใข้จ่ายสำหรับทรัพยากรที่ใช้ในการประมวลผลข้อมูลที่เปลี่ยนแปลงและสร้างขึ้นเป็นส่วนหนึ่งของการบูรณาการ ETL แบบไร้รอยต่อ ทรัพยากรการประมวลผลที่ใช้จะอิงตามประเภทการจัดเก็บที่เลือกให้กับ SageMaker Lakehouse

    • สำหรับพื้นที่เก็บข้อมูลที่มีการจัดการของ Amazon Redshift จะมีการเรียกเก็บค่าบริการตามการประมวลผลของ Amazon Redshift แบบไม่ต้องใช้เซิร์ฟเวอร์ ดูข้อมูลเพิ่มเติมได้ที่ราคา Amazon Redshift
    • สำหรับ Amazon Simple Storage Service (S3) จะมีการเรียกเก็บค่าบริการตามการประมวลผล AWS Glue ต่อชั่วโมงหน่วยประมวลผลข้อมูล (ชั่วโมง DPU) ซึ่งเรียกเก็บค่าบริการต่อวินาทีโดยมีเวลาขั้นต่ำ 1 นาที

     

    การบูรณาการ ETL แบบไร้รอยต่อของ Amazon DynamoDB กับ Amazon SageMaker Lakehouse

    การบูรณาการ ETL แบบไร้รอยต่อของ Amazon DynamoDB กับ Amazon SageMaker Lakehouse ทำให้การดึงข้อมูลและโหลดข้อมูลทำงานโดยอัตโนมัติ ซึ่งจะเป็นการเปิดใช้งานการวิเคราะห์และ AI สำหรับข้อมูลจากตาราง DynamoDB ใน Data Lakehouse

    DynamoDB จะมีค่าบริการส่งออกข้อมูลจากการสำรองข้อมูล DynamoDB ต่อเนื่องของคุณ (การกู้คืน ณ จุดใดจุดหนึ่งของเวลา) ดูข้อมูลเพิ่มเติมได้ที่ราคา Amazon DynamoDB

    เมื่อมีการเขียนข้อมูลที่นำเข้าลงใน Amazon SageMaker Lakehouse แล้ว จะมีค่าใข้จ่ายสำหรับทรัพยากรที่ใช้ในการประมวลผลข้อมูลที่เปลี่ยนแปลงและสร้างขึ้นเป็นส่วนหนึ่งของการบูรณาการ ETL แบบไร้รอยต่อโดยอิงตามประเภทพื้นที่เก็บข้อมูลที่เลือกสำหรับ Amazon SageMaker Lakehouse

    • สำหรับพื้นที่เก็บข้อมูลที่มีการจัดการของ Amazon Redshift จะมีการเรียกเก็บค่าบริการตามการประมวลผลของ Amazon Redshift แบบไม่ต้องใช้เซิร์ฟเวอร์ ดูข้อมูลเพิ่มเติมได้ที่ราคา Amazon Redshift
    • สำหรับ Amazon Simple Storage Service (S3) จะมีการเรียกเก็บค่าบริการตามการประมวลผล AWS Glue ต่อชั่วโมงหน่วยประมวลผลข้อมูล (ชั่วโมง DPU) ซึ่งเรียกเก็บค่าบริการต่อวินาทีโดยมีเวลาขั้นต่ำ 1 นาที

หมายเหตุ: ราคาอาจแตกต่างกันออกไปในแต่ละรีเจี้ยน

ดูตาราง Region ทั่วโลกเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับความพร้อมใช้งานของ AWS Glue