谷歌推出Agentic Vision,赋予Gemini 3 Flash更强的图像理解能力

谷歌最近为其Gemini 3 Flash模型新增了一个名为Agentic Vision的功能,这一革命性技术的推出无疑标志着人工智能图像处理的重大进步
2026-01-29 17:10:41  |   作者:开源爱好者  |   来源:

谷歌推出Agentic Vision,赋予Gemini 3 Flash更强的图像理解能力

谷歌最近为其Gemini 3 Flash模型新增了一个名为Agentic Vision的功能,这一革命性技术的推出无疑标志着人工智能图像处理的重大进步
2026-01-29 17:10:41
作者:开源爱好者
来源:

谷歌最近为其Gemini 3 Flash模型新增了一个名为Agentic Vision的功能,这一革命性技术的推出无疑标志着人工智能图像处理的重大进步。谷歌表示,该功能将视觉推理与代码执行相结合,以视觉证据为基础来生成回答。这一功能从根本上改变了AI模型处理图像的方式。谷歌表示,Agentic Vision将视觉推理与代码执行相结合,以视觉证据为基础生成答案,在大多数视觉基准测试中提升了5%到10%的质量。

google.jpg

Agentic Vision功能于1月27日推出,目前可以通过Gemini API在Google AI Studio开发工具和Vertex AI平台中使用。

谷歌表示,Agentic Vision通过将图像理解从静态的行为转变为一个主动过程来实现这一目标。通过将视觉推理与代码执行相结合,模型能够制定计划,逐步放大、检查和操作图像。直到现在,多模态模型通常是通过一次性的静态“浏览”来处理世界。如果它们忽略了一个小细节——比如序列号或远处的标识——它们就不得不进行猜测。相对而言,Agentic Vision将图像理解转换为主动的调查过程,将“思考、行动、观察”的反馈循环引入到图像理解任务中。

Agentic Vision使得模型能够通过标注图像与环境进行交互。Gemini 3 Flash不仅仅是描述它看到的内容,它还能执行代码,直接在画布上绘制内容来支持推理过程。此外,Agentic Vision还可以解析高密度表格,并执行Python代码来可视化结果。未来,谷歌计划为Agentic Vision增加更多隐式的代码驱动行为,给Gemini模型配备更多的工具,并将这一能力扩展到更多模型尺寸,超越Flash版本。

Agentic Vision的推出,无疑为AI图像理解带来了全新的视角。通过让AI从被动的观察者变成主动的探索者,Google为AI模型开辟了更广阔的发展空间。这一技术不仅能提升图像处理的准确性,还能为各行业提供更加智能的解决方案,尤其是在需要高精度图像分析和交互操作的领域。随着技术的不断发展,Agentic Vision的未来前景值得期待。