2月17日,根据微软官网,微软近日发布了最新版本的视觉Agent分析框OmniParserV2,OpenAI(4o/o1/o3)-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic(Sonnet)等大模型,转化为“计算机使用智能体”(Computer Use Agent)。与前代版相比,OmniParser V2在检测较小的交互元素时具有更高的精度和更快的推理速度。具体来说,V2通过使用更大规模的交互元素检测数据集和图标功能描述数据进行训练,通过缩小图标描述模型的输入图像尺寸,推理延迟比上一代减少60%。(界面)