Amazon DocumentDB (with MongoDB compatibility) 常見問答集

一般問題

Amazon DocumentDB (with MongoDB compatibility) 是一種快速、可擴展、高度可用且全受管的企業文件資料庫服務,可支援原生 JSON 工作負載。作為文件資料庫,Amazon DocumentDB 可讓您輕鬆儲存、查詢和索引 JSON 資料。開發人員可以像現在一樣,使用相同的 MongoDB 應用程式程式碼、驅動程式和工具在 Amazon DocumentDB 上執行、管理和擴展工作負載。享受提升的效能、可擴展性和可用性,無需擔心管理底層基礎設施。

客戶可以使用 AWS Database Migration Service (DMS),輕鬆地將其內部部署或 Amazon Elastic Compute Cloud (EC2) MongoDB 非關聯式資料庫遷移至 Amazon DocumentDB,而且幾乎沒有停機時間。使用 Amazon DocumentDB 無需前期投資,客戶只需根據使用的容量支付相關費用即可。

文件導向資料庫是增長最快的 noSQL 資料庫類別之一,主要原因是文件資料庫提供了靈活的結構模式和廣泛的查詢功能。針對需要臨時查詢、索引和彙總的動態資料集使用案例,文件模型是一個絕佳的選擇。憑藉 Amazon DocumentDB 提供的規模,它被廣泛的客戶用於內容管理、個人化、型錄、行動和 Web 應用程式、IoT 和設定檔管理等使用案例。

「與 MongoDB 相容」表示 Amazon DocumentDB 會與 Apache 2.0 開放原始碼 MongoDB 3.6、4.0 與 5.0 API 互動。因此,您可以搭配 Amazon DocumentDB 使用原本的 MongoDB 驅動程式、應用程式和工具,幾乎不會有任何變動。儘管 Amazon DocumentDB 支援絕大多數客戶實際使用的 MongoDB API,它並不支援每一種 MongoDB API。我們的焦點著重於交付客戶實際使用且需要的能力。

自正式推出以來,我們便持續與客戶密切合作,交付了額外 80 種以上的功能,其中包含 MongoDB 4.0 與 5.0 相容性、交易與分區。若要進一步了解支援的 MongoDB API,請參閱相容性文件。若要進一步了解近期推出的 Amazon DocumentDB,請參閱 Amazon DocumentDB 資源頁面上的「Amazon DocumentDB 公告」。

不會。Amazon DocumentDB 不會運用任何 MongoDB SSPL 程式碼,因此不受此授權的限制。反而,Amazon DocumentDB 會與 Apache 2.0 開放原始碼 MongoDB 3.6、4.0 與 5.0 API 互動。我們會持續聆聽客戶的意見並與客戶密切合作,交付他們所需的各項功能。若要進一步了解支援的 MongoDB API,請參閱相容性文件。若要進一步了解近期推出的 Amazon DocumentDB,請參閱 Amazon DocumentDB 資源頁面上的「Amazon DocumentDB 公告」。

客戶可以使用 AWS Database Migration Service (DMS) 輕鬆地將其內部部署或 Amazon Elastic Compute Cloud (EC2) MongoDB 資料庫遷移至 Amazon DocumentDB,而且幾乎沒有停機時間。使用 DMS,您可以從 MongoDB 複本集或碎片叢集遷移至 Amazon DocumentDB。此外,您可以使用大多數現有的工具,將資料從 MongoDB 資料庫遷移至 Amazon DocumentDB,包括 mongodump/mongorestore、mongoexport/mongoimport 以及透過 oplog 支援「變更資料擷取」的第三方工具。如需詳細資訊,請參閱遷移至 Amazon DocumentDB

否,Amazon DocumentDB 適用於與 MongoDB 3.4+ 相容的絕大多數 MongoDB 驅動程式。

是。啟動對 MongoDB 4.0 相容性的支援後,Amazon DocumentDB 支援在多個文件、語句、集合和資料庫之間執行不可部分完成性、一致性、隔離性、耐久性 (ACID) 交易的功能。

否,Amazon DocumentDB 的支援週期與 MongoDB 不同,MongoDB 的 EOL 排程不適用於 Amazon DocumentDB。

Amazon DocumentDB 叢集部署在客戶的 Amazon VPC (VPC) 中,而且可供部署在同一 VPC 中的 Amazon Elastic Compute Cloud (EC2) 執行個體或其他 AWS 服務直接存取。您也可以透過 VPC 對等,讓同一區域或其他區域中不同 VPC 的 Amazon EC2 執行個體或其他 AWS 服務存取 Amazon DocumentDB。必須透過 mongo shell 或 MongoDB 驅動程式存取 Amazon DocumentDB 叢集。Amazon DocumentDB 要求您在連接至叢集時進行身分驗證。如需其他選項,請參閱從 Amazon VPC 外部連線至 Amazon DocumentDB 叢集

對於某些管理功能,像是執行個體生命週期管理、Amazon Key Management Service (KMS) 金鑰的靜態加密,以及安全群組管理,Amazon DocumentDB 會利用與 Amazon Relational Database Service (RDS) 和 Amazon Neptune 共用的操作技術。使用 describe-db-instances 和 describe-db-clusters AWS CLI API 時,建議使用以下參數篩選 Amazon DocumentDB 資源:"--filter Name=engine,Values=docdb"。

如需各區域可用的執行個體類型最新資訊,請參閱 Amazon DocumentDB 定價頁面

要試用 Amazon DocumentDB,請參閱入門指南。

效能

寫入儲存體時,Amazon DocumentDB 只會保留預寫日誌,並且不需要寫入完整的緩衝區頁面同步。由於這種不會影響持續性的優化,Amazon DocumentDB 的寫入速度通常比傳統資料庫更快。Amazon DocumentDB 叢集可以橫向擴展到每秒數百萬次讀取,最多可讀取 15 個僅供讀取複本

定價

如需區域和定價的最新資訊,請參閱 Amazon DocumentDB 定價頁面

是,您可以使用 1 個月的免費試用版免費試用 Amazon DocumentDB。如果您之前尚未使用 Amazon DocumentDB,則有資格免費試用一個月。您的組織每月可免費獲得 750 小時的 t3.medium 執行個體用量、3,000 萬次 IO、5 GB 儲存和 5 GB 備份儲存,為期 30 天。一旦一個月免費試用期到期或用量超過免費限額,您可以關閉叢集以免被收取任何費用,或者按照我們的標準隨需費率付費以繼續執行叢集。若要進一步了解,請參閱 DocumentDB 免費試用頁面

當您需要可預測的成本或使用 I/O 密集型應用程式時,Amazon DocumentDB I/O 最佳化是理想的選擇。如果您預計 I/O 成本超過 Amazon DocumentDB 資料庫總成本的 25%,則此選項可提供增強的價格效能。請參閱我們的 Amazon DocumentDB I/O 優化文件,以了解更多資訊,包括如何開始使用。

可以每 30 天將現有的資料庫叢集切換至 Amazon DocumentDB I/O 最佳化一次。您可以隨時切換回 Amazon DocumentDB 標準儲存設定。

是,將繼續收取跨區域複寫資料所需的 I/O 操作費用。Amazon DocumentDB I/O 最佳化不會收取讀取和寫入 I/O 操作的費用,這與資料複寫不同。如需詳細資訊,請參閱我們的 Amazon DocumentDB I/O 優化文件

彈性叢集

Amazon DocumentDB 彈性叢集可讓您有彈性地擴展文件資料庫,以處理數百萬次寫入和讀取,並具有數 PB 的儲存容量。彈性叢集透過自動管理基礎架構,無需建立、移除、升級或擴展執行個體,簡化客戶與 Amazon DocumentDB 互動的方式。

您可以使用 Amazon DocumentDB API、開發套件、CLI、CloudFormation (CFN) 或 AWS Console 來建立彈性叢集。佈建叢集時,您可以指定工作負載所需的碎片數量和每碎片運算。建立叢集後,您就能開始利用彈性叢集具彈性的可擴展性了。現在,您可以連線到屬於彈性叢集的叢集,並從應用程式讀取或寫入資料。彈性叢集是有彈性的。根據工作負載的需求,您可以使用 AWS Console、API、CLI 或開發套件修改碎片計數和/或每碎片運算,以新增或移除運算。彈性叢集會自動佈建/取消佈建基礎架構,並重新平衡您的資料。

彈性叢集使用碎片在 Amazon DocumentDB 的分散式儲存系統中分割資料。碎片 (又稱為資料分割) 會將大型資料集分割成跨多個節點的小型資料集,讓客戶能在單一資料庫的垂直擴展限制之外橫向擴展資料庫。彈性叢集利用 Amazon DocumentDB 中的運算與儲存區隔。彈性叢集可以在分散式儲存系統中有效地複製資料,而不是透過在運算節點之間移動小塊資料來重新分割集合。

彈性叢集支援雜湊式分割。

使用彈性叢集,您可以輕鬆地在 Amazon DocumentDB 上橫向擴展或縮減工作負載,通常無論資料大小,對應用程式停機時間或效能的影響都很小,甚至沒有影響。MongoDB 上的類似操作會影響應用程式效能並需花費數小時,某些情況下甚至需要幾天時間。彈性叢集還提供差異化的管理功能,例如無影響備份和快速的時間點還原,能讓客戶將更多時間專注在應用程式上,而不是管理資料庫。

否。您不需要對應用程式進行任何變更即可使用彈性叢集。

否,短期內,您可以善用 AWS Database 遷移服務 (DMS) 將資料從現有 Amazon DocumentDB 叢集遷移至 Elastic Clusters 叢集。

為彈性叢集選擇最佳的碎片索引鍵與其他資料庫相同。良好的碎片索引鍵有兩大特點,高頻率和高基數。例如,如果應用程式在 DocumentDB 中儲存 user_orders,則您通常必須由使用者來擷取資料。因此,您會希望與指定使用者相關的所有訂單都位於同一個碎片中。在這種情況下,user_id 將是很好的碎片索引鍵。閱讀更多資訊。 

  • 彈性叢集:一種 Amazon DocumentDB 叢集,可讓您將工作負載的輸送量擴展到每秒數百萬次讀取/寫入,將儲存擴展至 PB 級。屬於彈性叢集的叢集包含一個或多個用於運算的碎片和一個儲存磁碟區,預設情況下在多個可用區域之間具有高可用性。
  • 碎片:碎片為屬於彈性叢集的叢集提供運算。預設情況下,碎片有三個節點,包括一個寫入器節點和兩個讀取器節點。您最多可以有 32 個碎片,且每個碎片最多可以有 64 個 vCPU。
  • 碎片索引鍵:碎片索引鍵是 JSON 文件中的可選欄位,供 Elastic Clusters 用於將讀取和寫入流量分配到相符的碎片。建議您選擇具有許多唯一值的索引鍵。好的碎片索引鍵會將資料平均分割到基礎碎片中,為工作負載提供最佳的輸送量和效能。 
  • 碎片集合:其資料分佈在屬於彈性叢集的叢集之間的集合。

彈性叢集與其他 AWS 服務整合的方式,與 DocumentDB 目前的方式相同。首先,您可以使用 AWS Database Migration Service (DMS) 從 MongoDB 和其他關聯式資料庫遷移到彈性叢集。其次,您可以使用 Amazon CloudWatch 監控彈性叢集的運作狀態和效能。第三,您可以透過 AWS IAM 使用者和角色設定身分驗證和授權,並使用 AWS VPC 進行僅限 VPC 的安全連線。最後,您可以使用 AWS Glue 將資料匯入和匯出到其他 AWS 服務,例如 S3、Redshift 和 OpenSearch。

是。您可以將現有的 MongoDB 碎片工作負載遷移至彈性叢集。您可以使用 AWS Database Migration Service 或原生 MongoDB 工具 (例如 mongodump 和 mongorestore),將 MongoDB 工作負載遷移到彈性叢集。彈性叢集也支援 MongoDB 常用的 API,例如 ShardCollection(),讓您能靈活地在 Amazon DocumentDB 中重複使用現有工具和指令碼。

硬體、擴展和儲存

最低儲存為 10 GB。根據您的叢集用量,您的 Amazon DocumentDB 儲存將以 10 GB 的增量自動成長至最高 128 TiB,對效能不會有任何影響。使用 Amazon DocumentDB 彈性叢集時,儲存將以 10 GB 的增量自動增加,最高可達 4 PiB。無論是哪種情況,都無需事先佈建儲存。

Amazon DocumentDB 在兩個方面進行擴展:儲存和運算。Amazon DocumentDB 的儲存在以執行個體為基礎的叢集當中會自動從 10 GB 擴展到 128 TiB,而 Amazon DocumentDB 彈性叢集則會自動擴展至最多 4 PiB。將其他複本執行個體新增至叢集,即可建立更大的執行個體並水平擴展 (以獲得更高的讀取輸送量),從而縱向擴展 Amazon DocumentDB 的運算容量。

您可以在 AWS 管理主控台選擇所需的執行個體並按一下 "modify" 按鈕,以擴展分配給執行個體的運算資源。記憶體和 CPU 資源可透過變更執行個體類別進行修改。

修改執行個體類別時,將會在指定的維護時段套用您請求的變更。或者,您可以使用 "Apply Immediately" 旗標立即套用擴展請求。在執行擴展操作期間,這兩個選項將會對可用性造成幾分鐘的影響。請注意,這也會同時套用任何其他擱置的系統變更。

備份與還原

Amazon DocumentDB 叢集的自動備份會一直處於啟用的狀態。Amazon DocumentDB 簡單的資料庫備份功能可用於對叢集進行時間點復原。您可以將時間點還原的備份時段增加到最多 35 天。備份不會影響資料庫效能。

是。手動快照可以保留超過備份時段,而且拍攝快照時不會對效能產生影響。請注意,從叢集快照還原資料需要建立新的叢集。

Amazon DocumentDB 會自動讓您的資料在一個區域內的三個可用區域 (AZ) 維持耐久,並自動嘗試在運作狀態良好的可用區域內恢復您的執行個體,不會遺失任何資料。在極少數無法在 Amazon DocumentDB 儲存內使用資料的情況下,您可以從叢集快照還原或對新叢集執行時間點還原操作。請注意,point-in-time 還原操作的最近可還原時間最多為 5 分鐘之前。

您可以選擇在刪除執行個體時建立最終的快照。如果進行此操作,之後便可以使用此快照還原已刪除的執行個體。刪除執行個體之後,Amazon DocumentDB 會將這個使用者建立的最終快照與所有其他手動建立的快照一起保留。刪除執行個體後只會保留快照 (即,不會保留為時間點還原建立的自動備份)。

刪除 AWS 帳戶時,帳戶中包含的所有自動備份和快照備份也會一併刪除。

是。Amazon DocumentDB 讓您能夠建立叢集的快照,稍後您可將其用於還原叢集。您可以與不同的 AWS 帳戶共用快照,收件人帳戶的擁有者可以使用您的快照來還原包含您資料的叢集。您甚至可以選擇讓快照成為公有,也就是說,任何人都可以還原包含您 (公有) 資料的叢集。您可以使用這個功能,在擁有不同 AWS 帳戶的各個環境 (生產、開發/測試、模擬等) 之間共享資料,還能在主要 AWS 帳戶受到危害的情況下,在個別帳戶保護所有資料備份的安全。

在帳戶間共享快照不需付費。不過,可能需要支付快照本身的費用,以及從共享快照還原任何叢集的費用。

我們不支援共享自動叢集快照。若要共享自動快照,您必須手動建立快照複本,然後共享複本。

否。只有與共享快照的帳戶位於同一個區域中的帳戶可以存取共享的 Amazon DocumentDB 快照。

是。您可以共用加密的 Amazon DocumentDB 快照。共享快照的收件人必須能夠存取用於加密該快照的 KMS 金鑰。

否,Amazon DocumentDB 快照只能在服務內部使用。

您可以選擇在刪除叢集時建立最終的快照。如果進行此操作,之後便可以使用此快照還原已刪除的叢集。刪除叢集之後,Amazon DocumentDB 會將這個使用者建立的最終快照與所有其他手動建立的快照一起保留。

高可用性和複寫

Amazon DocumentDB 會將您的儲存磁碟區自動分成 10 GB 的區段,並分散在多個磁碟上。儲存磁碟區的每個 10 GB 區塊都會在三個可用區域 (AZ) 間以六種方法進行複寫。Amazon DocumentDB 的設計可完全透明化地處理最多兩個資料副本的損失,而不會影響寫入可用性;以及最多三個資料副本的損失,而不會影響讀取可用性。Amazon DocumentDB 的儲存磁碟區也能自我修復。可持續掃描資料區塊和磁碟有無錯誤並自動修復。

與其他資料庫不同的是,Amazon DocumentDB 在資料庫損毀之後不需重新執行最後一個資料庫檢查點 (通常為五分鐘) 的重做日誌,且不需要在資料庫運作之前確認已套用所有變更。在大多數情況下,這可將資料庫的重新啟動時間降低到 60 秒以下。Amazon DocumentDB 將快取從資料庫處理程序中移出,以便在重新啟動時立即使用。如此一來,您就不需要在重新匯入快取時限制存取,以避免發生暫時低壓。

Amazon DocumentDB 支援僅供讀取複本,它們與主執行個體共享同一個基礎儲存磁碟區。所有 Amazon DocumentDB 複本都可看見主執行個體做出的更新。

  • 功能:Amazon DocumentDB 僅供讀取複本
  • 複本數量:高達 15 個
  • 複寫類型:非同步 (一般為數毫秒)
  • 對主執行個體的效能影響:低
  • 做為容錯移轉目標:是 (不會遺失資料)
  • 自動容錯移轉:是

是,您可以使用全域叢集功能跨區域複寫資料。全球叢集跨越多個 AWS 區域。全球叢集可將資料複寫到最多五個區域的叢集中,並且對效能幾乎沒有影響。全球叢集可以讓您更快地從區域範圍的中斷中復原,並實現低延遲的全球讀取。如需進一步了解,請參閱我們的部落格文章

是。您可以在叢集中對每個執行個體指派提升優先順序方案。如果主執行個體故障,Amazon DocumentDB 會將具有最高優先順序的複本提升成主要執行個體。如果相同優先順序方案中兩個或多個複本之間出現不一致情形,則 Amazon DocumentDB 會提升與主執行個體大小相同的複本。

您可以隨時修改執行個體的優先順序方案。只修改優先順序方案不會觸發容錯移轉

對於您不想提升成主執行個體的複本,可以為該複分指派較低優先順序等級。然而,如果叢集上較高優先順序的複本因某些原因運作狀態不佳或無法使用,則 Amazon DocumentDB 會提升較低優先順序的複本。

將多個 AWS 可用區域中的複本執行個體當作容錯轉移目標,即可將 Amazon DocumentDB 部署在高可用性組態中。如果主執行個體發生故障,複本執行個體就會自動升級為新的主執行個體,而且將服務中斷降至最低。

您可以新增其他 Amazon DocumentDB 複本。Amazon DocumentDB 複本與主執行個體共用同一個基礎儲存。任何 Amazon DocumentDB 複本都可在不損失任何資料的情況下提升為主執行個體,因此,它可用於在主執行個體發生故障時提高容錯能力。若要提高叢集可用性,只需在多個可用區域中建立 1 至 15 個複本,Amazon DocumentDB 將在發生執行個體中斷時,將其納入容錯遷移主選擇中。

Amazon DocumentDB 會自動處理容錯移轉,所以您的應用程式可以盡快恢復資料庫運作,而無須人為管理介入。

  • 如果您在相同或不同可用區域中有一個 Amazon DocumentDB 複本執行個體,進行容錯移轉時,Amazon DocumentDB 會翻轉您執行個體的正規名稱記錄 (CNAME) 以指向狀態良好的複本,該複本轉而提升成新的主複本。容錯移轉從開始到結束通常可在 30 秒內完成。 
  • 如果您沒有 Amazon DocumentDB 複本執行個體 (即單一執行個體),Amazon DocumentDB 會先嘗試在與原始執行個體相同的可用區域中建立新的執行個體。已盡力進行這種原始執行個體的取代操作,但可能不成功,例如,在出現會廣泛影響可用區域的問題時。 

您的應用程式應在連線中斷時重試資料庫連線。

Amazon DocumentDB 可自動偵測主執行個體的問題,然後開始將您的讀取/寫入流量路由到 Amazon DocumentDB 複本執行個體。平均來說,此容錯移轉會在 30 秒內完成。此外,Amazon DocumentDB 複本執行個體提供的讀取流量將短暫中斷。

由於 Amazon DocumentDB 複本與主執行個體共享同一個資料磁碟區,因此幾乎不會有複寫延遲的情況。據我們觀察,延遲時間一般在 10 毫秒內。

安全與合規

是。所有 Amazon DocumentDB 叢集都必須在 VPC 中建立。透過 Amazon VPC,您可以定義一個與自己資料中心內執行的傳統網路非常相似的虛擬網路拓撲。這樣一來,您可以完全控制存取您的 Amazon DocumentDB 叢集的人員。

Amazon DocumentDB 支援含有內建角色的 RBAC。RBAC 透過限制授權使用者執行的動作,讓您可以強制執行最低權限作為最佳實務。如需詳細資料,請參閱 Amazon DocumentDB 角色型存取控制

Amazon DocumentDB 利用 VPC 嚴格的網路和授權邊界範圍。IAM 使用者、角色和政策提供 Amazon DocumentDB 管理 API 適用的的身份驗證和授權。Amazon DocumentDB 資料庫的身份驗證是透過具備 Salted Challenge Response Authentication Mechanism (SCRAM) 的標準 MongoDB 工具和驅動程式完成,這是 MongoDB 的預設身份驗證機制。

是。Amazon DocumentDB 可讓您使用透過 AWS Key Management Service (KMS) 管理的金鑰來加密叢集。在以 Amazon DocumentDB 加密執行的叢集上,於基礎儲存體中存放的靜態資料,以及其在同一個叢集中的自動備份、快照和複本都會加密。加密和解密的處理完全無縫。如需使用 KMS 搭配 Amazon DocumentDB 的詳細資訊,請參閱加密 Amazon DocumentDB 靜態資料

目前不支援加密現有未加密的 Amazon DocumentDB 叢集。若要在現有未加密的叢集使用 Amazon DocumentDB 加密,請建立已啟用加密的新叢集,再將資料移轉至其中。

Amazon DocumentDB 的設計可以滿足最高的安全標準,能夠讓您輕鬆驗證我們的安全性並滿足自己的法規和合規義務。Amazon DocumentDB 除了符合 HIPAA 之外,已經過評定,獲得 PCI DSSISO 9001270012701727018SOC 1、2 和 3,以及健康資訊信任聯盟 (HITRUST) 常見安全框架 (CSF) 認證。您可以在 AWS Artifact 下載 AWS 合規報告。

主要版本升級

就地主要版本升級 (MVU) 可讓您使用 AWS 主控台、軟體開發套件 (SDK) 或命令列界面 (CLI),將 Amazon DocumentDB 3.6 或 4.0 叢集升級至 Amazon DocumentDB 5.0。使用就地 MVU,不需要建立新叢集或變更端點。所有提供 Amazon DocumentDB 5.0 的區域均提供就地 MVU。若要開始使用就地 MVU,請檢閱就地 MVU 文件

就地 MVU 可讓您順暢地將 Amazon DocumentDB 3.6 或 4.0 叢集升級到 5.0 版,無需執行備份和還原到另一個叢集,也無須使用其他資料遷移工具。這樣可以減少與一般升級程序相關的時間和工作量,這些程序需要設定來源和目標端點、遷移索引和資料、變更應用程式的程式碼等。

升級後,您不需要在應用程式中變更端點。由於資料保留在同一個叢集中,因此使用此功能升級無需額外費用。

停機時間可能因叢集、索引、資料庫和執行個體的數量而異。在您的生產叢集上執行就地主要版本升級之前,我們強烈建議您在較低的環境中執行,以測試停機時間和效能,並確認應用程式在升級後是否如預期般運作。

也可以使用 Amazon DocumentDB 的快速複製功能來複製叢集資料以進行測試。視 Amazon DocumentDB 實作的複雜性而定,您可以向我們的資料庫解決方案架構師尋求其他協助。

只有將 Amazon DocumentDB 3.6 或 4.0 做為來源,而將 5.0 版做為目標時,才支援就地 MVU。不支援 Amazon DocumentDB 全域叢集或彈性叢集,或以 DocumentDB 4.0 為目標。

機器學習

Amazon DocumentDB 與 Amazon SageMaker Canvas 整合,使您可以輕鬆建置機器學習 (ML) 模型和使用儲存在 Amazon DocumentDB 中的資料來自訂基礎模型,而無需撰寫任何一行程式碼。您不再需要在 Amazon DocumentDB 和 SageMaker Canvas 之間開發自訂資料和 ML 管道。您可以從 Amazon DocumentDB 主控台中啟動 SageMaker Canvas,並將現有的 Amazon DocumentDB 資料庫新增為資料來源,以開始建置機器學習模型。您可以使用 SageMaker Canvas 的 DocumentDB 中的資料來構建模型,以預測客戶流失、偵測詐騙、預測維護失敗、預測財務指標和銷售、最佳化庫存、摘要內容以及產生內容。

Amazon SageMaker Canvas 提供無程式碼介面,可使用來自各種資料來源 (包括 Amazon DocumentDB) 的資料來建置機器學習模型。當 SageMaker Canvas 讀取 Amazon DocumentDB 執行個體中的資料時,您需要為使用 SageMaker Canvas 和產生的 I/O 付費。在 Amazon SageMaker Canvas 中使用 DocumentDB 作為資料來源不需額外收費。請造訪 Amazon DocumentDB 定價頁面 SageMaker Canvas 定價頁面以了解更多資訊。

生成式 AI 和機器學習

Amazon DocumentDB 的向量搜尋結合了以 JSON 為基礎的文件資料庫的靈活性和豐富的查詢功能,以及向量搜尋的強大功能。您可以使用現有的 Amazon DocumentDB 資料,或靈活的文件資料結構來建置機器學習和生成式 AI 使用案例,例如語義搜尋體驗、產品建議、個人化、聊天機器人、詐騙偵測和異常偵測。如需進一步了解,請瀏覽 Amazon DocumentDB 文件的向量搜尋

Amazon DocumentDB 的向量搜尋支援使用語義搜尋,以便您擷取資料背後的含義、關聯內容和意圖。關鍵字搜尋會根據實際文字,或預先定義的同義詞映射來尋找文件。例如,在傳統的電子商務應用程式中,紅色連衣裙可能會傳回其描述中有詞語「紅色」和「連衣裙」的產品。語義搜尋會擷取不同紅色系連衣裙的結果,從而改善使用者體驗。 

使用 Amazon DocumentDB 向量搜尋無需額外費用。當您在 Amazon DocumentDB 中存放、索引和搜尋向量時,將會收取標準運算、I/O、儲存和備份費用。如需進一步了解,請瀏覽 Amazon DocumentDB 定價頁面

Amazon DocumentDB 與 Amazon SageMaker Canvas 整合,使用存放在 Amazon DocumentDB 中的資料輕鬆建置生成式人工智慧 (AI) 和機器學習 (ML) 應用程式。您不再需要在 Amazon DocumentDB 和 SageMaker Canvas 之間開發自訂資料和 ML 管道。主控台內整合可以消除連線和存取資料的無差異化的繁重工作,以便在低程式碼無程式碼 (LCNC) 體驗的情況下加速 ML 開發。您可以從 Amazon DocumentDB 主控台中啟動 SageMaker Canvas,並將現有的 Amazon DocumentDB 資料庫新增為資料來源。

零 ETL 整合

這種與 Amazon OpenSearch Service 的零 ETL 整合,讓從 Amazon DocumentDB 集合擷取和載入資料到 Amazon OpenSearch 受管叢集或無伺服器集合以及轉換不再複雜。藉助這種整合,您不再需要建立或管理資料管道,也不再需要轉換資料。

如果要使用 MongoDB API,則您應使用 Amazon DocumentDB 中的原生資料庫功能,在文件上執行向量搜尋。Amazon DocumentDB 與 Amazon OpenSearch Service 的零 ETL 整合非常適合跨集合搜尋,以及儲存具有超過 2,000 個維度的向量並對其編製索引。

Amazon DocumentDB 與 Amazon OpenSearch Service 的零 ETL 整合會使用 Amazon OpenSearch Ingestion,將操作資料從 Amazon DocumentDB 順暢地移至 Amazon OpenSearch Service。首先,在需要複寫的 Amazon DocumentDB 集合上啟用變更串流功能。零 ETL 整合功能會在您的帳戶中設定 Amazon OpenSearch Ingestion 管道,該管道會自動將資料複寫至 Amazon OpenSearch Service 受管叢集或無伺服器集合。

Amazon OpenSearch Ingestion 會自動了解 Amazon DocumentDB 集合中資料的格式,並將資料映射到 Amazon OpenSearch Service,以產生最佳搜尋結果。您可以透過多個管道將多個 Amazon DocumentDB 集合中的資料同步到一個 Amazon OpenSearch 受管叢集或無伺服器集合中,以提供跨多個應用程式的整體洞察。或者,您可以在定義 Amazon OpenSearch Service 的擷取組態時指定自訂資料處理器。DocumentDB 集合的後續更新也都會複寫至 Amazon OpenSearch Service,無需進行任何手動操作。

此零 ETL 利用 Amazon OpenSearch Ingestion 管道的原生資料轉換功能,對動態資料進行聚合和篩選。

如果需要自訂轉換功能,則您可以編寫自訂轉換邏輯,並由 Amazon OpenSearch Ingestion 管理轉換過程。或者,如果您想要將全部資料從來源移至目標位置而不進行自訂,則 Amazon OpenSearch Ingestion 提供開箱即用的藍圖,您只需按幾下按鈕即可執行整合。

為確保 Amazon OpenSearch Ingestion 擁有從 Amazon DocumentDB 複寫資料的必要許可,零 ETL 整合功能會建立一個 IAM 角色,該角色具有從 Amazon DocumentDB 集合中讀取資料並寫入 Amazon OpenSearch 網域或集合所需的許可。然後,Amazon OpenSearch Ingestion 管道將擔任此角色,以確保在將資料從來源移至目標時始終保持正確的安全狀態。

您可以在 Amazon DocumentDB 和 OpenSearch Ingestion 管道提供的主控台儀表板上檢視與 Amazon DocumentDB 的零 ETL 整合相關的所有指標。您也可以查詢 Amazon CloudWatch 中的即時日誌,並使用 Amazon CloudWatch 設定自訂提醒,以在超出使用者定義的閾值時觸發提醒。