谷歌推出Agentic Vision，赋予Gemini 3 Flash更强的图像理解能力_文章 - IT精选 - IT行业资讯与信息网

谷歌推出Agentic Vision，赋予Gemini 3 Flash更强的图像理解能力

谷歌最近为其Gemini 3 Flash模型新增了一个名为Agentic Vision的功能，这一革命性技术的推出无疑标志着人工智能图像处理的重大进步

2026-01-29 17:10:41 | 作者：开源爱好者 | 来源：

谷歌推出Agentic Vision，赋予Gemini 3 Flash更强的图像理解能力

谷歌最近为其Gemini 3 Flash模型新增了一个名为Agentic Vision的功能，这一革命性技术的推出无疑标志着人工智能图像处理的重大进步

2026-01-29 17:10:41
作者：开源爱好者
来源：

谷歌最近为其Gemini 3 Flash模型新增了一个名为Agentic Vision的功能，这一革命性技术的推出无疑标志着人工智能图像处理的重大进步。谷歌表示，该功能将视觉推理与代码执行相结合，以视觉证据为基础来生成回答。这一功能从根本上改变了AI模型处理图像的方式。谷歌表示，Agentic Vision将视觉推理与代码执行相结合，以视觉证据为基础生成答案，在大多数视觉基准测试中提升了5%到10%的质量。

Agentic Vision功能于1月27日推出，目前可以通过Gemini API在Google AI Studio开发工具和Vertex AI平台中使用。

谷歌表示，Agentic Vision通过将图像理解从静态的行为转变为一个主动过程来实现这一目标。通过将视觉推理与代码执行相结合，模型能够制定计划，逐步放大、检查和操作图像。直到现在，多模态模型通常是通过一次性的静态“浏览”来处理世界。如果它们忽略了一个小细节——比如序列号或远处的标识——它们就不得不进行猜测。相对而言，Agentic Vision将图像理解转换为主动的调查过程，将“思考、行动、观察”的反馈循环引入到图像理解任务中。

Agentic Vision使得模型能够通过标注图像与环境进行交互。Gemini 3 Flash不仅仅是描述它看到的内容，它还能执行代码，直接在画布上绘制内容来支持推理过程。此外，Agentic Vision还可以解析高密度表格，并执行Python代码来可视化结果。未来，谷歌计划为Agentic Vision增加更多隐式的代码驱动行为，给Gemini模型配备更多的工具，并将这一能力扩展到更多模型尺寸，超越Flash版本。

Agentic Vision的推出，无疑为AI图像理解带来了全新的视角。通过让AI从被动的观察者变成主动的探索者，Google为AI模型开辟了更广阔的发展空间。这一技术不仅能提升图像处理的准确性，还能为各行业提供更加智能的解决方案，尤其是在需要高精度图像分析和交互操作的领域。随着技术的不断发展，Agentic Vision的未来前景值得期待。

	联想提供一站式服务，宣布成立初创企业中心
	2022北京网络安全大会成功举办
	京东发布七大数智供应链应用场景
	到2026年盖茨基金会将提升年度赠款支出至90亿美元
	三星收缩采购，暂停订货至少8月底
	上海市人民政府办公厅印发数字经济发展规划
	推特测试自定义时间线新功能
	联想百应平台入选专精特新中小企业服务产品名录
	亚马逊云科技中国峰会即将召开
	希沃联合IIOE为尼泊尔、马来西亚高校捐赠智慧教室