一般問題

AWS DataSync 是一種線上資料移動和探索服務,可簡化並加速向 AWS 的資料移轉,以及在內部部署儲存、邊緣節點、其他雲端和 AWS 儲存服務移入和移出資料。

AWS DataSync Discovery 可讓您深入了解內部部署儲存效能和使用率,並提供將資料遷移至 AWS 儲存服務的建議,以協助您簡化遷移規劃並加速向 AWS 的資料遷移。AWS DataSync Discovery 讓您透過自動化資料收集和分析,更好地了解您的內部部署儲存效能和容量用量,進而能夠快速識別要遷移的資料,並使用產生的建議來選擇符合您的效能和容量需求的 AWS 儲存服務。

針對線上資料傳輸,AWS DataSync 可簡化、自動化並加速在內部部署儲存、邊緣節點、其他雲端供應商和 AWS 儲存服務中來回複製大量資料。DataSync 可在網路檔案系統 (NFS) 共享、伺服器訊息區塊 (SMB) 共享、Hadoop 分散式檔案系統 (HDFS)、自我管理物件儲存、其他雲端 (例如 Google Cloud Storage 和 Wasabi Cloud Storage,參見支援雲端的完整清單) 中的物件儲存、Azure Files、Azure Blob Storage (包括 Azure Data Lake Storage Gen2)、Snow 上的 Amazon S3 相容儲存、Amazon Simple Storage Service (Amazon S3)、Amazon Elastic File System (Amazon EFS) 檔案系統、Amazon FSx for Windows File Server 檔案系統、Amazon FSx for Lustre 檔案系統、Amazon FSx for OpenZFS 檔案系統和 Amazon FSx for NetApp ONTAP 檔案系統中來回複製資料。

AWS DataSync 讓您能夠安全、快速地探索和移動資料。使用 DataSync Discovery,您可以更好地了解內部部署使用率並接收建議,以告知您的成本估算和遷移至 AWS 的計畫。針對資料移動,您可以使用 AWS DataSync 複製含有數百萬個檔案的大型資料集,而無須使用開放原始碼工具建立自訂解決方案,也無須授權並管理昂貴的商業網路加速軟體。您可以使用 DataSync 將作用中資料遷移至 AWS,封存資料以釋放內部部署儲存容量,將資料複寫至 AWS 以備業務續航力之需,或者將資料傳輸至雲端進行分析和處理。

AWS DataSync 能降低線上資料傳輸的複雜度和成本,簡化在內部部署儲存、邊緣節點、其他雲端供應商和 AWS 儲存服務中傳入和傳出資料集。DataSync 透過標準儲存通訊協定 (NFS、SMB)、作為 HDFS 用戶端,使用 Amazon S3 API 或使用其他雲端儲存 API 連線至現有儲存系統和資料來源。它使用專用的網路通訊協定和擴展架構,以加速儲存系統和 AWS 服務之間的資料傳輸。DataSync 處理移動資料和物件、排程資料傳輸、監控傳輸進度、加密並驗證資料傳輸,以及通知您發生問題的任務。

AWS DataSync 能降低線上資料傳輸的複雜度和成本,簡化在內部部署儲存、邊緣節點、其他雲端供應商和 AWS 儲存服務中傳入和傳出資料集。DataSync 透過標準儲存通訊協定 (NFS、SMB)、作為 HDFS 用戶端,使用 Amazon S3 API 或使用其他雲端儲存 API 連線至現有儲存系統和資料來源。它使用專用的網路通訊協定和擴展架構,以加速儲存系統和 AWS 服務之間的資料傳輸。DataSync 處理移動資料和物件、排程資料傳輸、監控傳輸進度、加密並驗證資料傳輸,以及通知您發生問題的任務。

探索

AWS DataSync Discovery 目前支援執行 ONTAP 9.7 或更高版本的 NetApp FAS 和 AFF 系列陣列。隨著時間的推移,將增加對其他儲存系統的支援。

AWS DataSync Discovery 使用儲存管理 API 介面,來收集儲存系統的相關資訊,以及效能和使用率指標。系統資訊包括儲存總容量、磁碟區組態、匯出/共用名稱等屬性。儲存系統指標包括磁碟區輸送量和 IOPS 等效能,以及分配和使用容量等使用率指標。DataSync Discovery 使用收集的系統資訊和指標,來產生遷移至 AWS 儲存的建議。

AWS DataSync Discovery 分析從內部部署儲存系統收集的資料,並將其與 AWS 儲存服務的特性、容量和效能進行比對。在適用時,DataSync Discovery 將推薦一種或多種 AWS 儲存服務供您考量。

將 AWS DataSync Discovery 與內部部署儲存系統搭配使用時,不會對使用者和應用程式產生顯著影響。

收集的資料將由 DataSync 服務儲存和管理。可以在 AWS DataSync 主控台檢視資料,也可以使用 AWS CLI 或 AWS 軟體開發套件 (SDK) 來存取資料。

收集的資料和建議將在探索任務結束後保留 60 天。

資料移動

DataSync 支援下列儲存位置類型︰網路檔案系統 (NFS) 共享、伺服器訊息區塊 (SMB) 共享、Hadoop 分散式檔案系統 (HDFS)、自我管理物件儲存、其他雲端 (例如 Google Cloud Storage 和 Wasabi Cloud Storage,參見支援雲端的完整清單) 中的物件儲存、Azure Files、Azure Blob Storage (包括 Azure Data Lake Storage Gen2)、Snow 上的 Amazon S3 相容儲存、Amazon Simple Storage Service (Amazon S3)、Amazon Elastic File System (Amazon EFS) 檔案系統、Amazon FSx for Windows File Server 檔案系統、Amazon FSx for Lustre 檔案系統、Amazon FSx for OpenZFS 檔案系統和 Amazon FSx for NetApp ONTAP 檔案系統。

您可以使用 AWS DataSync,將位於內部部署、邊緣或其他雲端中的資料遷移至 Simple Storage Service (Amazon S3)、Amazon EFS、Amazon FSx for Windows File Server、Amazon FSx for Lustre、Amazon FSx for OpenZFS 和 Amazon FSx for NetApp ONTAP。設定 DataSync 初始複製您的整個資料集,並排定後續增量傳輸變更資料,直到內部部署最終轉換至 AWS。DataSync 包含加密和完整性驗證,有助於確保您的資料能安全到達、完整無缺,並可立即使用。若要儘量降低對依賴網路連線的工作負載的影響,您可以排定遷移在非高峰時段執行,或透過設定內建頻寬節流限制 DataSync 所用的網路頻寬量。 DataSync 會在具有類似中繼資料結構的儲存系統間保留中繼資料,從而讓最終使用者和應用程式平穩過渡到使用目標 AWS 儲存服務。

請參閱儲存部落格「使用 AWS DataSync 移轉儲存」,進一步了解移轉最佳實務和秘訣。

您可以使用 AWS DataSync 將不常用的資料從內部部署儲存系統直接移至耐用且安全的長期儲存空間,例如 Amazon S3 Glacier Flexible Retrieval (之前稱為 S3 Glacier) 或 Amazon S3 Glacier Deep Archive。使用 DataSync 的排除篩選條件,來排除複製的臨時檔案和資料夾,或使用包括篩選條件清單檔案,從來源位置複製檔案子集。您可以針對需要選取最具成本效益的儲存服務:將資料傳輸至任何 S3 儲存類別,或使用 DataSync 搭配 EFS 生命週期管理,將資料存放在 Amazon EFS 不常存取儲存類別 (EFS IA) 中。使用內建任務排程功能,定期封存出於合規或稽核用途應保留的資料,例如日誌、原始片段或電子病歷。 

藉由 AWS DataSync,您可以定期將檔案複寫至任何 Simple Storage Service (Amazon S3) 儲存類別,或將資料傳送至 Amazon EFS、Amazon FSx for Windows File Server、Amazon FSx for Lustre、Amazon FSx for OpenZFS 或 Amazon FSx for NetApp ONTAP 供待機檔案系統使用。使用內建任務排程功能,確保您的資料集變更會定期複製到目的地儲存。閱讀這篇 AWS 儲存部落格,進一步了解使用 AWS DataSync 保護資料

您可使用 AWS DataSync 從內部部署系統持續傳輸至 AWS 或移出 AWS 以進行處理。在需要將作用中檔案快速移至 AWS 的各行各業,DataSync 可協助您加速關鍵的混合雲端儲存工作流程。這包括生命科學中的機器學習、媒體與娛樂中的影片製作、金融服務中的大數據分析,以及石油和天然氣的地震研究。DataSync 提供及時遞送,確保相依程序未延誤。您可以指定包括和排除篩選條件清單檔案,以指定每次執行任務時應傳輸哪些檔案或物件。

是。使用 AWS DataSync,您可以使用 Amazon S3 API 從 Google Cloud Storage、使用 SMB 協定從 Azure Files,或者從 Azure Blob Storage (包括 Azure Data Lake Storage Gen 2) 複製資料。您還可以從 Wasabi Cloud Storage、Oracle Cloud Storage、Cloudflare R2 Storage、DigitalOcean Spaces 和 Backblaze B2 Cloud Storage 等其他雲端儲存移動資料 (參見支援雲端的完整清單)。 在您的雲端環境或 Amazon EC2 上部署 DataSync 代理程式,建立您的來源和目的地位置,然後啟動您的任務以開始複製資料。 進一步了解適用於混合雲端和多雲端環境的 AWS 解決方案。

是。藉助 AWS DataSync,您可以自動將內部部署資料集或其他雲端中的資料傳輸至 Amazon S3,輕鬆建立資料湖。DataSync 使用標準儲存通訊協定 (NFS、SMB)、作為 HDFS 用戶端,使用 Amazon S3 API 或使用其他雲端儲存 API 輕鬆快速地傳輸您的整個資料集。傳輸完初始資料集之後,您可以排程後續將新資料傳輸至 AWS。DataSync 包含加密和完整性驗證,有助於確保您的資料能安全到達、完整無缺,並可立即使用。若要儘量降低對依賴網路連線的工作負載的影響,您可以排定在非高峰時段執行傳輸任務,或透過設定內建頻寬節流,限制 DataSync 使用的網路頻寬量。資料放入 Amazon S3 之後,您可以使用原生 AWS 服務執行大數據分析、人工智慧 (AI)、機器學習 (ML)、高效能運算 (HPC) 和媒體資料處理應用程式,從非結構化資料集獲得洞見。 閱讀 AWS 資料湖儲存體網頁,以進一步了解有關建置和利用資料湖的資訊。

您可以使用 DataSync,在同一 AWS 帳戶內的 Simple Storage Service (Amazon S3)、Amazon EFS、Amazon FSx for Windows File Server、Amazon FSx for Lustre、Amazon FSx for OpenZFS 或 Amazon FSx for NetApp ONTAP 之間傳輸檔案或物件。您可以在同一 AWS 區域中的 AWS 服務之間,除中國以外的不同商業 AWS 區域中的服務之間,或在 AWS GovCloud (美國東部和美國西部) 區域之間傳輸資料。這不需要部署 DataSync 代理程式,並且可使用 AWS DataSync 主控台、AWS 命令列界面 (CLI) 或 AWS 軟體開發套件 (SDK) 進行端對端設定。

是。AWS DataSync 透過自動將檔案上傳至用於遷移的 Amazon S3 儲存貯體,來加速 Amazon WorkDocs 遷移服務的必要步驟。DataSync 讓主目錄和部門共享資源遷移到 WorkDocs 變得更加容易和快捷。 要進一步了解使用 DataSync 遷移到 WorkDocs,請參閱 'Migrating network file shares to Amazon WorkDocs using AWS DataSync' 部落格。

用量

首先將 AWS DataSync 代理程式部署至內部部署 VM 環境。 使用 DataSync 主控台、CLI 或 SDK 設定 AWS DataSync Discovery,連線至內部部署儲存並執行探索任務,以收集有關儲存系統的資料,以及效能、容量和使用率指標。當探索任務執行時,可從 DataSync 主控台的儀表板中檢視儲存系統的相關資訊。探索任務完成後,將會分析收集的資料以產生遷移至 AWS 儲存服務 (如 Amazon EFS、Amazon FSx 和 Amazon S3) 的建議。這些建議可用於指導您選擇 AWS Storage 服務,並且您可以使用 AWS DataSync 移動資料。

您可以在 AWS 管理主控台按幾下,或透過 AWS Command Line Interface (CLI) 來使用 AWS DataSync 傳輸資料。若要開始,請遵循以下 3 個步驟:

1.若要在內部部署、邊緣或其他雲端儲存系統與 AWS 儲存服務之間傳輸資料,請部署代理程式 - 部署 DataSync 代理程式,並透過管理主控台或 API 將其關聯至您的 AWS 帳戶。代理程式會用來存取 NFS 伺服器、SMB 檔案共享、Hadoop 叢集或自我管理或雲端物件儲存體,以從中讀寫資料或向其寫入資料。 無需部署代理程式,即可在同一 AWS 帳戶內的 AWS 儲存服務之間傳輸資料。

2.建立資料傳輸任務 – 指定資料來源和目的地位置,還有您想要用以設定傳輸的任何選項,例如排程任何和啟用任務報告。

3.開始傳輸 – 啟動任務、在主控台或使用 Amazon CloudWatch 監控資料移動,以及使用任務報告稽核傳輸任務。

您可以將 AWS DataSync 代理程式部署至內部部署虛擬化管理程序,公有雲端環境,或 Amazon EC2 中。若要將資料複製到內部部署檔案伺服器或 Snow 上的 Amazon S3 相容儲存,或從上述兩者複製資料,請從 AWS Console 下載代理程式虛擬機器映像並部署至內部部署 VMware ESXi、Linux 核心基礎虛擬機器 (KVM) 或 Microsoft Hyper-V 虛擬化管理程序。必須讓部署的代理程式可以使用 NFS、SMB 協定存取您的檔案伺服器,存取 Hadoop 叢集中的 NameNode 和 DataNode,或者使用 Amazon S3 API 存取您的物件儲存。 若要在 AWS Outposts 儲存貯體上的 S3 與 AWS 區域中的 S3 儲存貯體之間設定傳輸,請在 Outpost 上部署代理程式

在公有雲環境和 AWS 儲存之間複製資料時,您可以在雲端環境或 Amazon EC2 上部署 DataSync 代理程式。由於 AWS DataSync 會壓縮 AWS DataSync 代理程式和 AWS 儲存服務之間傳輸的資料,因此您可以在公有雲端環境中部署 AWS DataSync 代理程式來降低輸出費用。 

無需部署代理程式,即可在同一 AWS 帳戶內的 AWS 儲存服務之間傳輸資料。若要在自我管理雲端檔案伺服器中,或在不同 AWS 帳戶的 AWS 儲存服務之間來回複製資料,您可以使用 DataSync 代理程式 AMI 來啟動 Amazon EC2 執行個體。

您可以在此處找到執行代理程式的最低資源要求。

當您透過 AWS 管理主控台AWS Command Line Interface (CLI) 起始任務時,AWS DataSync 會複製資料。每次執行任務時,它會掃描來源和目的地找出變更,並且從來源位置將已變更的任何資料和中繼資料複製到目的地位置。您可以設定使用哪些來源特性來判斷資料變更、定義包括和排除篩選條件清單檔案,以傳輸特定檔案或物件資料,以及控制是否應在來源變更時覆寫目的地中的檔案或物件,或是在來源中沒有時將其刪除。

基本模式任務視乎資料集中檔案和物件數量的配額而定。基本模式會依序準備、傳輸和驗證資料集中的檔案和物件,使其大多數工作負載比增強型模式下緩慢。使用增強型模式,您可以採用比基本模式更高層級的效能傳輸帶有幾乎無限數量物件的資料集。增強型模式任務透過平行列出、準備、傳輸和驗證資料,來最佳化和簡化資料傳輸程序。您還可以取得增強的指標和報告功能,從而更輕鬆地追蹤和管理大量資料傳輸。增強型模式目前適用於 Amazon S3 位置之間的傳輸。基本模式支援目前可用的所有 DataSync 位置類型。如需任務模式之間差異的詳細清單,請參閱 DataSync 文件。如需任務模式之間的定價差異,請參閱 DataSync 定價頁面

AWS DataSync 在傳輸和存放資料時,會執行完整性檢查,以確保寫入目的地的資料與從來源讀取的資料相符。此外,可以執行選用的驗證檢查,在傳輸結束時比較來源和目的地。 DataSync 將計算並比較來源和目的地中所儲存資料的完整檔案檢查總和。您可以檢查整個資料集,或者僅檢查 DataSync 傳輸的檔案或物件。

您可以驗證所有任務執行的傳輸操作,藉此使用任務報告來稽核資料傳輸程序。使用任務報告時,您可以取得摘要報告,以及針對每項任務執行的所有已傳輸、略過、驗證和刪除檔案的詳細報告。任務報告會提供傳輸的檔案和位元組總數,並在適用情況下包含檔案屬性,例如大小、路徑、時間戳記、檔案檢查總和,以及物件版本 ID。此外,您還可以善用 AWS Glue、Amazon Athena 和 Amazon QuickSight 來自動編目、查詢和視覺化任務報告,以取得資料傳輸程序的關鍵洞察。

您可以使用 AWS 管理主控台或 CLI 監控傳輸的資料狀態和進度。您可以透過 Amazon CloudWatch 指標查看已複製的檔案數目和資料量。 您也可以啟用將個別檔案記錄到 CloudWatch Logs,以便找出在指定時間傳輸的內容,以及 DataSync 執行內容完整性驗證的結果。

這些解決方案結合在一起,簡化了監控、報告和故障診斷,並且讓您能夠及時向利益相關者提供更新。

是。您可以指定排除篩選條件、包含篩選條件或兩者,以限制每次執行任務時傳輸的檔案、資料夾或物件。或者,您可使用清單檔案來指定應從來源位置傳輸的檔案或物件子集。

包括篩選條件會指定在任務執行時應包括的檔案和資料夾路徑或物件索引鍵,並限制 DataSync 在來源和目標上掃描的範圍。排程篩選條件會指定應從複製中排除的檔案和資料夾路徑或物件索引鍵。  建立或更新任務時,您可以設定排除和包含篩選條件。啟動任務時,您可覆寫並更新在任務上設定的篩選條件。閱讀此 AWS 儲存部落格,進一步了解搭配一般篩選條件使用 DataSync。

清單檔案是 CSV 格式的檔案,列出了在任務執行時應包括的檔案路徑或物件索引鍵,並限制 DataSync 在來源和目標上掃描的範圍。建立或更新任務時,您可提供包含數百萬個來源檔案或物件的清單檔案,並且 DataSync 只會比較和傳輸清單檔案中列出的檔案。啟動任務時,您可覆寫和更新清單檔案。從 Amazon S3 複製資料時,您還可指定要傳輸的每個物件的選用 S3 版本 ID。如需詳細資訊,請閱讀這篇部落格

請注意,篩選條件和清單檔案無法一起使用。

清單檔案是要從來源位置傳輸的檔案或物件的明確清單,而包括過濾條件是指定要從來源傳輸的檔案和資料夾模式的字串。僅會複製與篩選條件中的模式相符的檔案和資料夾。模式可以是整個檔案或資料夾路徑,或是以萬用字元 (*) 結尾的前綴,指示應複製的與前綴相符的所有檔案或物件。客戶若只想複製少量檔案或物件集或幾個特定資料夾,則包括篩選條件是理想選擇。客戶若擁有眾所周知的資料集,例如做為自動工作流程一部分而移動的資料集,則可使用清單檔案,以避免掃描整個檔案或物件儲存系統來判斷變更。使用清單檔案,客戶可指定要傳輸的數百萬個來源檔案或物件,並且 DataSync 只會比較清單中列出的檔案。客戶還可使用清單檔案,從 Amazon S3 儲存貯體製特定版本的物件。

是。您可以使用 AWS DataSync Console 或 AWS Command Line Interface (CLI) 排定您的任務,而無需寫入和執行指令碼來管理重複的傳輸。任務排程會以主控台中直接提供的每小時、每日或每週選項,自動按您設定的排程執行任務。這可讓您確保自動偵測對資料集所做的變更,並複製到您的目的地儲存。

是。傳輸檔案時,AWS DataSync 會在目的地建立一個與來源位置結構相同的目錄結構。

如果任務中斷 (例如,網路連線中斷或 AWS DataSync 代理程式重新啟動),下次執行任務時會傳輸先前錯過的檔案,此次任務完成後的資料便會完整且一致。每次開始任務時,它會進行遞增複製,只從來源傳輸變更過的資料至目的地。

您可以將 AWS DataSync 與 Direct Connect 連結搭配使用,以存取公有服務端點或私有 VPC 端點。使用 VPC 端點時,在 DataSync 代理程式與 AWS 服務之間傳輸的資料不需要周遊公有網際網路或需要公有 IP 地址,由於它是透過網路複製,因此能提高安全性。 DataSync Discovery 目前僅支援公有服務端點。

是,資料移動使用案例支援 VPC 端點。您可以使用 VPC 端點來確保在 AWS DataSync 代理程式 (內部部署或部署在雲端中) 之間傳輸的資料不需要周遊公有網際網路或需要公有 IP 地址。使用 VPC 端點可提高資料的安全性,方式是保持 Amazon Virtual Private Cloud (Amazon VPC) 內的網路流量。 DataSync 的 VPC 端點採用 AWS PrivateLink 技術,這是高度可用且可擴展的技術,能夠讓您透過私有連線將 VPC 連接到支援的 AWS 服務。

若要將 VPC 端點與 AWS DataSync 搭配使用,請在所選的 VPC 中為 DataSync 服務建立 AWS PrivateLink 介面 VPC 端點,然後在建立 DataSync 代理程式時選擇此端點彈性網路介面 (ENI)。您的代理程式將連接到此 ENI 進行啟用,而之後由這個代理程式傳輸的所有資料都不會離開您設定的 VPC。您可以使用 AWS DataSync 主控台、AWS 命令列界面 (CLI) 或 AWS SDK 來設定 VPC 端點。若要進一步了解,請參閱 Using AWS DataSync in a Virtual Private Cloud

在 AWS Storage 來回移動資料

AWS DataSync 支援在 Amazon Simple Storage Service (Amazon S3)、Amazon Elastic File System (Amazon EFS)Amazon FSx for Windows File ServerAmazon FSx for LustreAmazon FSx for OpenZFSAmazon FSx for NetApp ONTAP 來回移動資料,以及在這些服務之間移動資料。

是。設定與 AWS DataSync 一起使用的 S3 儲存貯體時,可以選擇 DataSync 用於儲存物件的 S3 儲存類別。DataSync 支援將資料直接儲存為以下類別︰S3 Standard、S3 智慧型分層、S3 標準 – 不常存取 (S3 標準 – IA)、S3 單區域 – 不常存取 (S3 單區域 – IA)、Amazon S3 Glacier Instant Retrieval、Amazon S3 Glacier Flexible Retrieval 和 Amazon S3 Glacier Deep Archive (S3 Glacier Deep Archive)。有關 Amazon S3 儲存類別的更多資訊,請參閱 Amazon Simple Storage Service 開發人員指南

小於每個物件最小收費容量的物件將儲存在 S3 標準中。例如,大小為零位元組且僅包含中繼資料的資料夾物件將存儲在 S3 Standard 中。在我們的文件中,閱讀使用 Amazon S3 儲存類別時的考量事項,以及評估使用 DataSync 時的 S3 請求成本。如需最低費用容量的詳細資訊,請參閱 Amazon S3 定價

是。當使用 S3 作為 AWS DataSync 任務的來源位置時,該服務將從儲存貯體中擷取所有需要複製到目的地的物件。從 S3 Standard-IA 和 S3 One Zone-IA 儲存擷取物件將導致基於物件大小的擷取費用。在我們的文件中,閱讀有關使用 Amazon S3 儲存類別的注意事項

當使用 S3 作為 AWS DataSync 任務的來源位置時,該服務將嘗試從儲存貯體中擷取所有需要複製到目的地的物件。擷取在 S3 Glacier Instant Retrieval 儲存類別中封存的物件,根據物件的大小會產生較高的擷取費用。擷取儲存在 S3 Glacier Flexible Retrieval 或 S3 Glacier Deep Archive 儲存類別中的物件會導致錯誤。擷取已存檔物件時發生的任何錯誤將由 DataSync 記錄,並會導致失敗的任務完成狀態。在我們的文件中,閱讀使用 Amazon S3 儲存類別時的考量事項,以及評估使用 DataSync 時的 S3 請求成本

AWS DataSync 擔任您提供的 IAM 角色。您附加至角色的政策決定角色可執行的操作。DataSync 可代表您自動產生此角色,也可以手動設定角色

將檔案或資料夾複製到 Amazon S3 時,檔案或資料夾與物件之間是一對一的關係。檔案和資料夾時間戳記與 POSIX 許可 (包括使用者 ID、群組 ID 和許可) 存放在 S3 使用者中繼資料中。若是 NFS 共用,存放在 S3 使用者中繼資料的檔案中繼資料可與 File Gateway 完全互相操作,由 AWS DataSync 提供對存放在 Amazon S3 資料的內部部署檔案型存取權。

當 DataSync 將包含此使用者中繼資料的物件複製回 NFS 伺服器時,系統會恢復此檔案中繼資料。從 NFS 複製回 S3 時,符號連結和硬式連結也會還原。

從 SMB 檔案共享複製時,系統會將預設 POSIX 許可存放在 S3 使用者中繼資料中。複製回 SMB 檔案共享時,系統會根據 DataSync 中設定的使用者設定擁有權以存取該檔案共享,並指派預設許可。

從 HDFS 複製時,檔案和資料夾時間戳記、使用者和群組擁有權以及 POSIX 許可都儲存在 S3 使用者中繼資料中。從 Amazon S3 複製回 HDFS 時,檔案和資料夾中繼資料將還原。
 

若要進一步了解 DataSync 如何存放檔案和中繼資料,請參閱我們的文件。

在自我管理物件儲存或 Azure Blob Storage 和 Amazon S3 之間傳輸物件時,DataSync 會將物件及物件中繼資料和標籤一起複製。

在 Amazon S3 儲存貯體之間傳輸物件時,DataSync 會將物件及物件中繼資料和標籤一起複製。DataSync 不會複製其他物件資訊,例如物件 ACL 或先前的物件版本。

某些 S3 儲存類別的行為會影響您的成本,例如資料擷取、最小儲存容量和最小儲存持續時間。DataSync 自動執行資料管理以解決這些因素,並提供盡可能減少資料擷取的設定。

若要避免每個物件最低容量收費,AWS DataSync 會自動在 S3 Standard 中儲存小物件。為儘量降低資料擷取費,您可以設定 DataSync 僅驗證指定任務傳輸的檔案。為避免最低儲存持續時間費用,DataSync 具有覆寫和刪除物件控制。在我們的文件中,閱讀使用 Amazon S3 儲存類別時的成本考量事項,以及評估使用 DataSync 時的 S3 請求成本

是。您可以在 AWS Outposts 的 Amazon S3 和 AWS 區域的 Amazon S3 儲存貯體之間複製物件。AWS DataSync 會複製具有物件中繼資料與物件標籤的物件。為了讓 DataSync 得以存取您在 Outposts 儲存貯體上的 Amazon S3,請在 Outposts 上部署 DataSync EC2 代理程式

每當搭配 Outposts 的 Amazon S3 使用 DataSync 時,您僅能在 AWS 區域中的 Amazon S3 儲存貯體來回傳輸資料。您可以在我們的文件中進一步了解 DataSync 任務所支援的來源與目的地。

AWS DataSync 使用 NFS 協定存取 Amazon EFS 檔案系統。DataSync 服務是在 DataSync 服務管理的彈性網路界面 (ENI) 中,從 VPC 掛載您的檔案系統。DataSync 會代您全面管理這些 ENI 的建立、使用和刪除。 您可以選擇使用掛載目標或 EFS 存取點,來掛載 EFS 檔案系統。

是。您可以使用 AWS DataSync 將檔案複製到 Amazon EFS 並設定 EFS 生命週期管理,以將設定時段未存取的檔案移轉至「不常存取 (IA)」儲存類別。

您可以使用 IAM 身分政策和資源政策,來控制用戶端對 Amazon EFS 資源的存取,以針對雲端環境進行擴展和最佳化。您在建立 EFS 檔案系統的 DataSync 位置時,可以指定 DataSync 在存取 EFS 時將擔任的 IAM 角色。然後,您可以使用 EFS 檔案系統政策,來設定 IAM 角色的存取權。由於 DataSync 以根使用者身分掛載 EFS 檔案系統,因此,您的 IAM 政策必須允許下列操作:elasticfilesystem:ClientRootAccess。

是。除了 Amazon EFS 提供的內建複寫,您還可以使用 AWS DataSync 進行排程,將您的 Amazon EFS 檔案系統定期複製到同一 AWS 帳戶中的另一個 Amazon EFS 檔案系統。此功能可用於相同區域和跨區域部署,並且不需要使用 DataSync 代理程式。

AWS DataSync 複製檔案和資料夾時間戳記與 POSIX 許可,包括使用者 ID、群組 ID 和許可。您可以進一步了解,並在我們的文件中查看複製的中繼資料完整清單。

AWS DataSync 複製檔案和資料夾時間戳記以及 POSIX 許可,並為使用者 ID 和群組 ID 套用預設值。您可以進一步了解,並在我們的文件中查看複製的中繼資料完整清單。

AWS DataSync 使用 SMB 協定存取您的 Amazon FSx for Windows File Server 檔案系統,並使用您在 AWS Console 或 CLI 中設定的使用者名稱和密碼進行身分驗證。DataSync 服務是在 DataSync 服務管理的彈性網路界面 (ENI) 中,從 VPC 掛載您的檔案系統。DataSync 會代您全面管理這些 ENI 的建立、使用和刪除。

AWS DataSync 將複製 Windows 中繼資料,包括檔案時間戳記、檔案擁有者、標準檔案屬性、NTFS 選擇性存取清單 (DACL) 和 NTFS 系統存取控制清單 (SACL)。 您可以進一步了解,並在我們的文件中查看複製的中繼資料完整清單。

是。您可以使用 AWS DataSync 進行排程,將您的 Amazon FSx for Windows File Server 檔案系統定期複製到同一 AWS 帳戶中的另一個檔案系統。此功能可用於相同區域和跨區域部署,並且不需要使用 DataSync 代理程式。

在您建立 DataSync 任務以複製到 FSx for Lustre 檔案系統或從中複製時,DataSync 服務將在您的檔案系統所在的同一 VPC 和子網路中建立彈性網路介面 (ENI)。  DataSync 使用這些 ENI 以根使用者身分透過 Lustre 協定存取您的 FSx for Lustre 檔案系統。  為 FSx for Lustre 檔案系統建立 DataSync 位置資源時,您最多可以指定五個安全群組以套用於 ENI 並設定來自 DataSync 服務的對外存取。  必須將安全群組設定為允許 FSx for Lustre 所需的網路連接埠上的對外流量。  FSx for Lustre 檔案系統上的安全群組應設定為允許從您指派給 FSx for Lustre 檔案系統的 DataSync 位置資源的安全群組進行對內存取。

AWS DataSync 複製檔案和資料夾時間戳記與 POSIX 許可,包括使用者 ID、群組 ID 和許可。您可以進一步了解,並在我們的文件中查看複製的中繼資料完整清單。

是。您可以使用 AWS DataSync 從您的 FSx for Lustre 檔案系統複製到同一 AWS 帳戶中的另一個檔案系統。此功能可用於相同區域和跨區域部署,並且不需要使用 DataSync 代理程式。

是。您可以使用 AWS DataSync 進行排程,將您的 Amazon FSx for Lustre 檔案系統定期複製到同一 AWS 帳戶中的另一個檔案系統。此功能可用於相同區域和跨區域部署,並且不需要使用 DataSync 代理程式。

否。使用目的地檔案系統上的檔案版面配置和分割組態撰寫檔案。

在您建立 DataSync 任務以複製到 FSx for OpenZFS 檔案系統或從中複製時,DataSync 服務將在您的檔案系統所在的同一 VPC 和子網路中建立彈性網路介面 (ENI)。  DataSync 使用這些 ENI 以根使用者身分透過 OpenZFS 協定存取您的 FSx for OpenZFS 檔案系統。  為 FSx for OpenZFS 檔案系統建立 DataSync 位置資源時,您最多可以指定五個安全群組以套用於 ENI 並設定來自 DataSync 服務的對外存取。  必須將安全群組設定為允許 FSx for OpenZFS 所需的網路連接埠上的對外流量。 FSx for OpenZFS 檔案系統上的安全群組應設定為允許從您指派給 FSx for OpenZFS 檔案系統的 DataSync 位置資源的安全群組進行對內存取。

AWS DataSync 複製檔案和資料夾時間戳記與 POSIX 許可,包括使用者 ID、群組 ID 和許可。您可以進一步了解,並在我們的文件中查看複製的中繼資料完整清單。

是。您可以使用 AWS DataSync 從您的 FSx for OpenZFS 檔案系統複製到同一 AWS 帳戶中的另一個檔案系統。此功能可用於相同區域和跨區域部署,並且不需要使用 DataSync 代理程式。

是。您可以使用 AWS DataSync 進行排程,將您的 Amazon FSx for OpenZFS 檔案系統定期複寫到同一 AWS 帳戶中的另一個檔案系統。此功能可用於相同區域和跨區域部署,並且不需要使用 DataSync 代理程式。

在您建立任務時,DataSync 會在 Amazon FSx for NetApp ONTAP 檔案系統所在同一 VPC 的偏好子網中建立彈性網路介面 (ENI)。首選子網在您建立 FSx for ONTAP 檔案系統時設定,且 DataSync 使用其在該子網中建立的 ENI 來存取您的 FSx for ONTAP 檔案系統。為 FSx for ONTAP 檔案系統建立 DataSync 位置資源時,您最多可以指定 5 個安全群組,以套用至 ENI 並設定 DataSync 服務的對外存取。您應在 FSx for ONTAP 檔案系統上設定安全群組,以允許從您指派給 FSx for ONTAP 檔案系統 DataSync 位置資源的安全群組進行對內存取。

AWS DataSync 支援使用 NFSv3、SMB 2.1 和 SMB 3。DataSync 目前不支援將 NFSv4 或更高版本與 FSx for ONTAP 結合使用。

是,AWS DataSync 在使用 NFS 協定時複製檔案和資料夾時間戳記與 POSIX 許可,包括使用者 ID、群組 ID 和許可。在使用 SMB 協定時,DataSync 會複製檔案和資料夾時間戳記、擁有權和 ACL。您可以進一步了解,並在我們的文件中查看複製的中繼資料完整清單。

透過 SMB 協定從為使用者提供服務的 Windows 伺服器或 NAS 共用內容進行移轉時,請針對您的 FSx for ONTAP 位置使用 DataSync SMB 來源位置和 SMB 協定,確保針對 NTFS 設定 FSx for ONTAP 磁碟區的安全樣式。透過 SMB 協定從為使用者提供服務的 Unix 或 Linux 伺服器或 NAS 共用內容進行遷移時,請針對您的 FSx for ONTAP 位置使用 DataSync NFS 來源位置和 NFS 協定,確保針對 Unix 設定 FSx for ONTAP 磁碟區的安全樣式。針對多協定移轉,您應檢閱部落格使用 Amazon FSx for NetApp ONTAP 啟用多協定工作負載中介紹的最佳實務,並使用 SMB 協定以最高保真度保存檔案系統中繼資料。如需有關為 FSx for ONTAP 磁碟區設定安全樣式的詳細資訊,請參閱有關管理 FSx for ONTAP 磁碟區的文件。

是,但您需要針對每個協定 (NFS 或 SMB) 建立單獨的 DataSync 位置和任務資源。為避免覆寫資料和資料驗證的問題,不建議使用多項 DataSync 任務,同時複製到同一個磁碟區路徑 (無論使用相同協定還是不同協定)。

否,DataSync 僅支援使用 NFS 或 SMB 協定,在 FSx for ONTAP 磁碟區中來回複製檔案資料。

是。您可以使用 AWS DataSync 從您的 FSx for ONTAP 檔案系統複製到同一 AWS 帳戶中的另一個檔案系統。此功能可用於相同區域和跨區域部署,並且不需要使用 DataSync 代理程式。

雖然 DataSync 可用於在檔案系統之間複寫資料,但建議使用 NetApp SnapMirror 在 FSx for ONTAP 檔案系統之間複寫。SnapMirror 讓您能夠實現低 RPO,無論檔案系統中檔案的數量或大小如何。

DataSync 會自動排除名稱為 “.snapshot” 的資料夾。您還可以使用排除篩選條件,來避免複製與您指定的模式相符的檔案和資料夾。

移出與移入 AWS Snow 系列裝置

首先在您的內部部署環境中部署 DataSync 代理程式。使用 AWS 管理主控台或 CLI 啟動代理程式,並設定您的 DataSync 任務,以在 Amazon S3 相容儲存與 Amazon S3、Amazon EFS 或任何 Amazon FSx 檔案系統上的儲存貯體之間移動資料。

效能

AWS DataSync 複製特定資料集的速度與下列因素有關:資料量、來源和目的地儲存能夠滿足的 I/O 頻寬、可用的網路頻寬,及網路條件。為了在內部部署與 AWS 儲存服務之間進行資料傳輸,單一 DataSync 任務能夠完全利用 10 Gbps 網路連結。

是。您可以設定內建的頻寬調節,以控制 AWS DataSync 使用的網路頻寬量。 您可以在資料傳輸任務執行時增加或減少此限制。對於使用同一網路連線的使用者或應用程式,這樣做讓您能夠有效協助降低對其造成的影響。

AWS DataSync 產生 Amazon CloudWatch 指標,以便精細查看傳輸程序。使用這些指標,您可以查看複製的檔案數和資料量,以及資料探索和驗證進度。您可以查看 CloudWatch Graphs,這些指標直接位於 DataSync 主控台。

根據您內部部署檔案存放區的容量,以及要傳輸的檔案數量和大小而定,當存取相同來源資料存放區時,由於代理程式從該儲存系統讀取或寫入資料,因此 AWS DataSync 可能會影響其他用戶端的回應時間。您可以設定任務的頻寬限制,透過限制儲存系統的 I/O 來減少此影響。

安全與合規

AWS DataSync Discovery 使用 DataSync 代理程式,來存取儲存系統的管理/API 介面。所有存取均唯讀。如需有關用於存取儲存的 API 的詳細資訊,請參閱 DataSync 文件

當您設定 AWS DataSync Discovery 以探索儲存系統時,需要提供使用者名稱和密碼來存取儲存的 API 介面。隨後,AWS DataSync Discovery 會自動在 AWS Secrets Manager 中建立密碼以儲存憑證。當 DataSync Discovery 執行探索任務時,它會從機密中擷取密碼,對其進行重新加密,然後將加密的密碼傳送至用於您的任務的代理程式。密碼僅在任務期間保留在代理程式的記憶體中,並且任何時候都不會將密碼保留在記憶體之外。

是。在來源和目的地之間傳輸的所有資料都會透過 Transport Layer Security (TLS),已取代 Secure Sockets Layer (SSL) 進行加密。資料絕不會保留在 AWS DataSync 本身。本服務支援使用 S3 儲存貯體的預設加密Amazon EFS 檔案系統的靜態資料加密以及 Amazon FSx 靜態和傳輸中加密

AWS DataSync 使用您部署至 IT 環境或 Amazon EC2 的代理程式,透過 NFS 或 SMB 協定存取檔案。此代理程式會連接到 AWS 中的 DataSync 服務端點,且可以從 AWS 管理主控台或 CLI 安全地進行管理。

AWS DataSync 使用您部署至 IT 環境或 Amazon EC2 的代理程式,來存取您的 Hadoop 叢集。該 DataSync 代理程式作為 HDFS 用戶端與叢集中的 NameNode 和 DataNode 通訊。當您啟動任務時,DataSync 會查詢主要 NameNode 以確定檔案和資料夾在叢集中的位置。然後,DataSync 與叢集中的 DataNodes 通訊以將檔案和資料夾複製到 HDFS 或從中複製。

AWS DataSync 使用您部署至資料中心或公有雲端環境或 Amazon EC2 的代理程式,透過 Amazon S3 API 存取您的物件。此代理程式會連接到 AWS 中的 DataSync 服務端點,且可以從 AWS 管理主控台或 CLI 安全地進行管理。

AWS DataSync 會使用您部署到 Azure 環境或 Amazon EC2 中的代理程式來存取 Azure Blob Storage 容器中的物件。此代理程式會連接到 AWS 中的 DataSync 服務端點,且可以從 AWS 管理主控台或 CLI 安全地進行管理。此代理程式會使用您在建立 DataSync Azure Blob 位置時指定的 SAS 權杖,對 Azure 容器進行驗證。

否。複製資料至或從您的內部部署複製時,無需設定 VPN/通道或允許傳入連線。AWS DataSync 代理程式可設定為使用標準網路連接埠透過防火牆路由。您還可以使用 VPC 端點在 Amazon Virtual Private Cloud (Amazon VPC) 內部署 DataSync。使用 VPC 端點時,在 DataSync 代理程式與 AWS 服務之間傳輸的資料不需要周遊公有網際網路或需要公有 IP 地址。

AWS DataSync 代理程式會連線至您所選擇的 AWS 區域內的 DataSync 服務端點。您可以選擇讓代理程式連接至公有網際網路對應端點、美國聯邦資訊處理標準 (FIPS) 驗證的端點或您的一個 VPC 內的端點。啟用代理程式可將其安全地與您的 AWS 帳戶關聯。若要進一步了解,請參閱選擇服務端點啟用您的代理程式

啟動代理程式後,AWS 會自動套用對代理 VM 的更新,包括基礎作業系統和 AWS DataSync 軟體套件。當代理程式處於閑置狀態且不執行資料傳輸任務時,會不中斷地套用更新。

AWS 擁有雲端執行時間最長的合規計劃。AWS 致力於協助客戶瀏覽其需求。AWS DataSync 已經通過評估,符合全球和業界的安全標準。DataSync 符合以下認證:PCI DSS、ISO 9001270012701727018SOC 1、2 和 3,此外也符合 HIPAA 資格。 此外,DataSync 在 AWS 美國東部/西部區域獲得 FedRAMP 中等規格下核發的授權,以及在 AWS GovCloud (US) 區域獲得 FedRamp 高規格下核發的授權。這讓您能夠更輕易地驗證我們的安全性,並滿足自己的合規義務。如需詳細資訊和資源,請參閱我們的合規頁面。您也可以前往合規計畫範圍內的服務頁面查看完整的服務和認證清單。

是。AWS DataSync 符合 PCI-DSS 標準,因此您可以使用它來傳輸付款資訊。您可以在 AWS Artifact 下載 PCI 合規套件,進一步了解如何在 AWS 上達到 PCI 合規。

是。AWS DataSync 符合 HIPAA 資格,因此如果您有與 AWS 簽署的 HIPAA BAA,就可以使用 DataSync 傳輸受保護的醫療資訊 (PHI)。

是。AWS DataSync 在美國東部/西部區域已獲得聯合授權委員會 (JAB) 在聯邦風險與授權管理計劃 (FedRAMP) 中等規格基準下核發的臨時操作授權 (P-ATO)。若您是聯邦或商業客戶,則可以在 AWS 東部/西部區域的授權範圍內使用 AWS DataSync,並將資料的影響提高至中等級別。

是。AWS DataSync 在 US GovCloud 區域已獲得聯合授權委員會 (JAB) 在聯邦風險與授權管理計劃 (FedRAMP) 高規格基準下核發的臨時操作授權 (P-ATO)。若您是聯邦或商業客戶,則可以在 AWS GovCloud (US) 區域的授權範圍內使用 AWS DataSync,並將資料的影響提高至高級別。

選擇 AWS DataSync 的時機

AWS DataSync 完全自動化並加速將大型作用中資料集移轉至 AWS。其原生與 Amazon S3、Amazon EFS、Amazon FSx、Amazon CloudWatchAWS CloudTrail 整合,提供您儲存服務的無縫和安全存取,以及詳細監控傳輸。

DataSync 使用專用網路協定和擴展架構來傳輸資料。 為了在內部部署與 AWS 儲存服務之間進行資料傳輸,單一 DataSync 任務能夠完全利用 10 Gbps 網路連結。

具體來說,DataSync 完全自動化資料的傳輸。它有重試和網路彈性機制、網路最佳化、內建任務排程,透過任務報告進行稽核,透過 DataSync API 和主控台進行監控,另外還有 CloudWatch 指標、事件和日誌,可清楚看到傳輸過程。DataSync 在傳輸期間和傳輸結束時執行資料完整性驗證。

DataSync 提供端對端安全性,且直接與 AWS 儲存服務整合。來源和目的地之間所有傳輸的資料都會經過 TLS 加密,並透過內建的 AWS 安全機制 (如 IAM 角色) 啟用 AWS 儲存的存取。會啟用含 VPC 端點的 DataSync,確保組織與 AWS 之間傳輸的資料不需要周遊公有網際網路,由於它是透過網路複製,因此能提高資料安全性。

AWS 提供多種工具在儲存貯體之間複製物件。

使用 AWS DataSync 進行持續的資料分發、資料管道和資料湖擷取,以及在多個儲存貯體之間合併或拆分資料。

使用 S3 複寫將資料持續複製到特定的目的地儲存貯體。

使用 S3 批次操作,對 S3 物件進行大規模批次操作,例如複製物件,設定物件標籤或存取控制清單 (ACL),啟動 Amazon S3 Glacier Flexible Retrieval (之前稱為 S3 Glacier) 的物件還原,叫用 AWS Lambda 函數,以使用您的物件執行自訂操作,管理 S3 物件鎖合法保留,或管理 S3 物件鎖定保留日期。

AWS DataSync 最適合線上資料傳輸。您可以使用 DataSync 將作用中資料遷移至 AWS、將資料傳輸至雲端進行分析和處理、封存資料以釋放內部部署儲存容量,或者將資料複寫至 AWS 以備業務續航力之需。

AWS Snowball Edge 非常適合線上資料傳輸,適合頻寬有限,或者從遠端、中斷連線或嚴苛環境傳輸資料的客戶。 

使用 AWS DataSync 將現有資料移轉至 Amazon S3,隨後使用 AWS Storage Gateway 的 File Gateway 組態,保留對移轉資料的存取,以及您內部部署檔案型應用程式的持續更新。

您可以使用 DataSync 和檔案閘道的組合來儘量縮小內部部署基礎架構,同時將內部部署應用程式順暢連接至您的雲端儲存。AWS DataSync 可讓您自動化和加速線上資料傳輸至 AWS 儲存服務。 在使用 AWS DataSync 進行初始資料傳輸階段之後,檔案閘道將為您的內部部署應用程式提供已遷移資料的低延遲存取。將 DataSync 與 NFS 共用搭配使用時,將會保留來源內部部署儲存體中的 POSIX 中繼資料,並且在使用檔案閘道存取檔案時,將會套用來源儲存體中的許可。

如果您的應用程式已經與 Amazon S3 API 整合,而且您想要更高的輸送量來傳輸大型檔案至 S3,則可以使用 S3 Transfer Acceleration。如果您想要從現有儲存系統 (例如網路連接儲存裝置) 或無法變更的儀器 (例如 DNA 定序工具、錄影機) 傳出資料,或者您想要設定多個目的地,則應該使用 AWS DataSync。DataSync 也提供額外功能,例如內建重試和網路彈性機制、資料完整性驗證以及彈性組態以滿足您的特定需求,包括頻寬限流,以此自動化並簡化資料傳輸。

如果目前使用 SFTP 與第三方交換資料,則 AWS Transfer Family 提供全受管的 SFTP、FTPS、FTP 和 AS2 直接傳入和傳出 Amazon S3,同時減少營運負擔。

如果您希望加速並自動化 NFS 伺服器、SMB 檔案共享、Hadoop 叢集、自我管理或雲端物件儲存、Amazon S3、Amazon EFS 和 Amazon FSx 之間的資料傳輸,則可以使用 AWS DataSync。DataSync 適合需要線上遷移作用中資料集、及時傳輸持續產生的資料,或者複寫資料以維持業務續航力的客戶。