本 prompt 测试使用的模型为 Gemini2.5-pro-preview 05-06
注意:该 模拟阶段依赖于 Gemini2.5-pro-preview 05-06 等稿高质量模型的能力,推荐open ai,claude,gemini等模型进行测试。开源模型的能力还有待提升
测试 task:
user task: 我需要一份四月份去日本三天游的行程单。我们喜欢历史遗迹、鲜为人知的景点和日本文化。我们想去奈良看鹿,并徒步探索这座城市。请提供一份详细的行程单,以及一份风格优美、布局舒适的HTML宣传册,其中包含地图、景点介绍、常用日语短语和旅行小贴士,方便我们一路参考。