动态

谷歌Gemini解锁付费新技能，照片转功能全面开放

时间：2025-07-11 12:06 浏览：

　　谷歌母公司宣布，将面向付费用户开放照片转功能，这项年初仅限小范围测试的人工智能工具现正式登陆Gemini人工智能助手。

　　该公司

　　这项新功能允许用户基于单张照片及文本描述，生成带声音的8秒短。生成的MP4格式分辨率为720p，采用16:9横向画幅。

　　此次更新使该功能直接集成至Gemini聊天界面，标志着谷歌在AI领域与美国竞争对手OpenAI、Runway AI Inc.保持同步。全球市场竞争同样激烈：中国阿里巴巴集团、AI初创企业Manus和快手科技过去数月均发布了升级版工具。

　　该功能由谷歌五月在开发者大会发布的最新一代生成模型Veo 3驱动，此前仅限通过独立付费影视工具Flow使用。

　　谷歌强调已采取重要后台措施确保生成符合规范，例如禁止使用公众人物图像生成，其政策同时禁止煽动危险行为、暴力或群体攻击的内容。

　　但测试显示技术仍存缺陷。媒体在Gemini网页版实测中发现：上传个人照片要求生成人物讲话时，输出结果多次改变面部特征甚至人种；虽然能成功实现植物随风摆动或静态猫片说话等简单指令，但对照片人物跳霹雳舞等复杂要求，仅生成人物挥手画面。

　　谷歌发言人就测试结果回应称，AI模型并无修改人物外貌的设定指令，照片转及面部动画仍属新技术，可能基于单张图像生成与原始内容不符的结果。

　　该模型更擅长活化其他场景，如日常物品动画化、画作动态化及自然照片增运动效果，公司将在后续更新中持续改进包括面部动画在内的各项功能。