Evaluaciones de Amazon Bedrock
Evalúe modelos fundacionales, incluidos los modelos personalizados e importados, para encontrar modelos que se ajusten a sus necesidades. También puede evaluar su flujo de trabajo de RAG integral o de recuperación en las bases de conocimiento de Amazon Bedrock.
Información general
Amazon Bedrock proporciona herramientas de evaluación para acelerar la adopción de aplicaciones de IA generativa. Evalúe, compare y seleccione el modelo base para su caso de uso con la evaluación del modelo. Prepare sus aplicaciones RAG para la producción que estén creadas en las bases de conocimiento de Amazon Bedrock o sus propios sistemas RAG personalizados mediante la evaluación de las funciones de recuperación o recuperación y generación.

Tipos de evaluación
Cómo evaluar íntegramente el flujo de trabajo de RAG
Utilice las evaluaciones de recuperación y generación para evaluar la capacidad de recuperación y generación aumentada (RAG) de extremo a extremo de su aplicación. Asegúrese de que el contenido generado sea correcto, completo, limite las alucinaciones y respete los principios de la IA responsable. Evalúe el rendimiento de una base de conocimientos de Bedrock o use sus propias respuestas de inferencia de su sistema RAG personalizado. Seleccione un LLM para usarlo como evaluador de sus bases de conocimientos de Amazon Bedrock o sus salidas personalizadas de RAG, cargue su conjunto de datos y elija las métricas más relevantes para la evaluación.

Cómo asegurar la recuperación completa y pertinente de su sistema RAG
Utilice las evaluaciones de recuperación de RAG para evaluar la configuración de almacenamiento y recuperación de sus bases de conocimiento de Amazon Bedrock o su sistema RAG personalizado. Asegúrese de que el contenido recuperado sea relevante y cubra toda la consulta del usuario. Seleccione un LLM para usarlo como evaluador, elija una base de conocimientos de Bedrock para evaluar o incluya las recuperaciones del sistema RAG personalizado en su conjunto de datos de peticiones y seleccione las métricas.

Evalúe los FM para seleccionar el que mejor se adapte a su caso de uso
La evaluación del modelo de Amazon Bedrock permite utilizar evaluaciones automáticas y humanas para seleccionar los FM para un caso de uso específico. La evaluación automática del modelo utiliza conjuntos de datos seleccionados y proporciona métricas predefinidas que incluyen la precisión, la solidez y la toxicidad. En el caso de las métricas subjetivas, puede utilizar Amazon Bedrock para configurar un flujo de trabajo de evaluación humana en unos pocos pasos. Con las evaluaciones humanas, puede traer sus propios conjuntos de datos y definir métricas personalizadas, como la relevancia, el estilo y la alineación con la voz de la marca. Los flujos de trabajo de evaluación humana pueden aprovechar a sus propios empleados como revisores o puede contratar a un equipo administrado por AWS para que lleve a cabo la evaluación humana, donde AWS contrata a evaluadores cualificados y administra todo el flujo de trabajo en su nombre. También puede usar una LLM como juez para proporcionar evaluaciones de alta calidad sobre su conjunto de datos con métricas como la corrección, la integridad y la fidelidad (alucinaciones), así como métricas de IA responsable, como el rechazo a la respuesta y la nocividad. Puede evaluar los modelos de Bedrock y cualquier otro modelo en cualquier lugar con sus propias respuestas de inferencia en su conjunto de datos de peticiones de entrada.

Compare los resultados de varios trabajos de evaluación para tomar decisiones con mayor rapidez
Utilice la característica de comparación en las evaluaciones para ver los resultados de cualquier cambio que haya realizado en las peticiones, los modelos que se están evaluando, los sistemas RAG personalizados o las bases de conocimiento de Bedrock.
