(相关资料图)
生成式人工智能程序可以根据文本提示生成图像。这些模型在生成单个对象的图像时效果最佳。但创建完整的场景仍然很困难。据外媒报道,荷兰特文特大学(University of Twente,UT)研究院、荷兰地理资讯科学与地球观察学院(Geo-Information Science and Earth Observation)场景理解小组(Scene Understanding Group)助理教授Michael Ying Yang近日开发出新方法,可以绘制图像中的场景,以生成逼真且连贯的图像。相关研究已发表于期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》。
图片来源:荷兰特文特大学
人类非常擅长定义对象之间的关系。Yang解释说:“我们可以看到一张椅子站在地板上,一只狗在街上行走。但人工智能模型却很难。”提高计算机检测和理解视觉关系的能力是图像生成所必需的,同时也可以帮助自动驾驶车辆和机器人更好地感知。
从两阶段到单阶段
目前已有用于绘制图像语义理解的方法,但其速度很慢。这些方法使用两阶段方法(two-stage approach):首先映射场景中的所有对象;然后特定的神经网络遍历所有可能的连接,并用正确的关系标记。
此方法必须经历的连接数量会随着对象数量呈指数增长。Yang表示:“我们的模型只需一步,即可同时自动预测主体、物体及其关系。”
检测关系
对于这种单阶段方法,模型会查看场景中对象的视觉特征,并重点关注最相关的细节来确定关系。它突出显示了对象相互作用或相互关联的重要领域。这些技术和相对较少的训练数据足以识别不同对象之间最重要的关系。最后,生成对连接的描述。
Yang表示:“该模型检测到,在示例图片中,该男子很可能与棒球棒互动。然后,它被训练来描述最可能的关系:‘人-挥杆-棒球棒’。”
关键词:-
1国家电投四川甘孜州兴川实证光伏电站 首批发电单元正式并网发电
-
2毕马威建议企业为ESG信息强制披露提前做好准备
-
3学区房“击鼓传花”的涨价游戏,真要宣告“Game over”吗?
-
4中山最发达的镇是什么 中山有钱的镇有哪些?
-
5俄罗斯首款国产自动海洋机器人研发情况如何 俄罗斯海洋机器人续航时间是多久?
-
6最大推力500吨 世界推力最大整体式固体火箭发动机现身中国航展
-
7楼市热度有所冷却,多个城市住宅成交量下跌
-
8能源和碳排放统计核算是什么 我国原料用能比例高吗?
-
9畜牧业生产蛋白质的效率是多少 我国食物蛋白质自给率是多少?
-
10创新科特派选认机制 福建漳州打造服务产业一线科技人才队伍