愈系机器人！看图说故事聊也略懂略懂打造 AI

看图说故事对人类来说，是轻松好玩的事，但对 AI 来说，却是渺小应战，由于这代表 AI 必定看出图中有哪些物件、了解图片意义、能够生成文句，还要看懂图片间的因果逻辑。在中研院新闻迷信研讨所古伦维副研讨员的致力下， AI 看图说故事的才干有了很大的停顿。她的模型有什么共同之处呢？跟着研之有物一同来瞧瞧！

俗话说得好：「发文不附图，此风无法长。」不论你发的是爆卦文、闲谈文还是业配文，有图更容易晋身流量热文。不过近年来，社群网站发文的风向慢慢有了扭转，从「发文附图」转变成「发图附文」，咱们总是先来一张照片，再配上相应的形容文字。接上去，咱们的发文习气还会怎样扭转？

或者，未来你拍下一张照片上行社群网站，电脑就会智能「看图说故事」，为你的照片脑补一段说明文字，节俭你的思索期间。

让电脑学会「看图说故事」的手段，正是中研院新闻迷信研讨所的古伦维副研讨员正在研讨的主题之一。她的关键研讨畛域是人工智慧（ AI ）的人造言语处置，在因缘际会下，接触到一个 AI 看图说故事的比赛： Visual Storytelling （ VIST ），开启了她对 AI 看图说故事的兴味。

中研院新闻迷信研讨所的古伦维副研讨员，关键研讨畛域是人工智慧（ AI ）的人造言语处置，现正开发如何让 AI 不仅会说故事，还会看图说故事。摄影│林洵安

电脑如何学会「看图说故事」？目前学界经常使用「机器学习」，便捷来说，就是让电脑从少量的图文搭配组合，从中学习看到怎样的图片，应该说出怎样的故事。中研院新闻所古伦维副研讨员说：「其实一开局咱们做得并不特意好。咱们跟其余参与比赛的人一样，用机器学 ... ... ，把图和对应的文字丢进电脑，让机器自己学习更佳的图文搭配。但是机器学习简直是军备比赛了！谁的电脑计算才干更强，获取的模型更复杂，生成的文字就会更好。」

先选角、打草稿，再写故事

在军备竞争无余的状况下，古伦维选择采取不同的战略：「既然齐全由 AI 看图说故事的效果不够好，能不能在故事生成的环节中，有一团体类可以参与改善的步骤。」所以她把原来的做法分红了两个阶段，先从图片抽取语意，接着再生成文字故事。

语意抽取，是指先从一般图片当选出用来说故事的概念（似乎电影选角），用常识库找出概念之间的相关，建设图片的关联，再为这些图片拟定更好的草稿（似乎电影故事纲要)。

重点来了！在「选角」阶段， AI 会先以机器学 ... 结果，找出最适宜说故事的「角色组合」，尤其是面对延续图片。这就好比张曼玉、梁朝伟、成龙三个演员，前两个关键演恋情片，第三个以武打戏为主，假设之一张照片选了张曼玉，第二张照片应该选梁朝伟，生成的故事会比拟难看。

但目前 AI 选角局部还不够灵光，有时仍会出现如「张曼玉配成龙」的选角名单。古伦维的两阶段设计让人类可在「选角」阶段参与修正。实践例子如：图片中有小男孩、天空、脚踏车三个概念。AI 从上图抽取出的概念或者是「小男孩」、「天空」，最后生成的故事或者是「一个小男孩在天空下」…… 满无聊的。但人类可以把「天空」改成「脚踏车」，机器最后就或者生成「一个小男孩骑着脚踏车。」嗯，是不是比拟有故事性了？

最后，人类再将修正后的选角和故事纲要，交给 AI 发生整个故事。这种「先选角、打草稿，再说故事」的模式，最后发生的故事比拟不会无聊或是不正当，更凑近人类说出的故事。

古伦维的故事生成模型将发生故事的环节分红「语意抽取」及「故事生成」两个阶段。图说重制│黄晓君、林洵安资料起源│古伦维

常识库，AI 想像力的补充包

为了参与 AI 的想像力，古伦维也在模型中归入「常识库」，帮 AI 参与故事的常识。例如图片中有人与马，假设没有常识库，AI 或者只能生成「有一团体与一匹马」这种清淡的句子。但常识库可以补充人与马关联的常识，包括人可以骑马、养马等等，让 AI 无时机说出「有一团体骑着自己养的马」比拟具故事性的句子。「当然 AI 也或者从少量的故事中以机器学习取得『很多人都会骑马、养马』的常识。但常识库的更大功用，就是间接提供这个常识给 AI ，缩短学习历程。」古伦维解释。

更关键的是，常识库让 AI 更容易解读出图片之间的关联。如 VIST 比赛的标题就是蕴含了五张图片的图组，在常识库的协助下， AI 比拟容易找出各别图片的概念之间的关联，说出的故事会比拟连接，具备因果相关。

AI 是齐全没有想像力的，但若透过常识库给它常识，这些常识在故事中出现进去的，就像是 AI 的想像力。

电脑看图说故事的范例。No KG 代表机器在不参与额外常识时所发生的故事，Visual Genome 与 Open IE 古伦维团队用两个不同的常识库区分发生的故事，GLAC 是除了古伦维的模型外目前成绩更好的模型。由上可知，常识库确实能协助故事的高低文连结。最后的 Human 是真人所写的故事，蕴含了许多图片中没有的常识，甚至精气性的内容。图说赞美│林洵安资料起源│古伦维

奇妙切开「语意抽取」与「生成文本」

两阶段生成故事的 ... 还有一个好处，就是可善用少量的「图片辨识」与「故事文本」资料库，避开「图文搭配」资料的缺乏。

现今的「图片辨识」技术和资料库十分红熟，可以精准的从图片中抽取出各式各样的概念。另一方面，说故事是人类从古至今始终从事的优惠，留下了少量的「故事文本」。相较之下，看图说故事的「图文搭配」资料量却相当少，须要有人刻意去蒐集图组、撰写文字，古伦维说：「这种图文搭配的资料必定人工建设，能有一万组就很凶猛了，但这个数量关于机器学习来说却是远远不够的。」

古伦维则把生成故事的环节拆成「语意抽取」与「生成文本」两个阶段，之一阶段可应用精熟的图片辨识技术和资料库，抽取故事概念；第二阶段再运用故事文本资料库，让机器学习如何将之一阶段抽取（并由人类修正过）的概念，组分解美丽的故事，奇妙避开了「图文搭配」资料无余的难题。

把「语意抽取」与「生成文本」切开的话，两个阶段都可以应用几千万笔的既有资料，供机器学习。

脑补，让机器更有温度

说了半天，但 AI 会看图说故事，究竟无能嘛？难道只是帮贴图写写图说？以研讨的层面来说，假设 AI 能看图说故事，代表 AI 无了解图片、文字剖析及因果逻辑等方面，都到达必定的水准，代表 AI 言语才干愈加凑近人类。在实践运行上，可认为图文创作者提供故事草稿，或是关于经常须要撰写广告文案、出差报告的人，能够很快从图像生成文本，人类只需略做修正修饰即可（小职员计画通！）。

但更关键的是，机器人也能因此更有温度！古伦维与台小孩儿工智慧与机器人研讨核心的傅立成传授协作，宿愿透过 AI 看图说故事的技术，让居家照护机器人更有「人味」，会主动关心人类。由于居家照护机器人在家中「看见」的所有，其实就是一张张的图， AI 可以透过这些「图」构成或者的故事，再转化为暖心的问句。

想像一下，未来居家照护机器人看见老人家在厨房，故事剧情或者是「他要煮饭」，于是问出：「今晚想吃什么？须要帮助吗？」当老人拿出相簿缅怀过去，AI 也能从旧照片解读或者故事，转化成聊天的问句：「照片中的这团体是谁啊？你们去哪里玩？」还能变身孩子更爱的说故事姊姊！AI 或者从贮存的绘本资料库中，随机抽出不同图画从新组合，说出全新的故事。

会看图说故事的 AI ，可以从眼前的情形连结到事情或情感，就像人类的脑补普通，而这些脑补就是故事。

AI 看图说故事的才干，可让关照居家照护机器人了解眼前的生存情境，具备找话题的才干，变得暖和许多。图片起源│iStock

如此一来，居家照护机器人不再只是主动的处置人类需求，同样的，「说故事的才干赋予了 AI 机器人找话题的配置。」古伦维笑着解释，机器人从此不再词穷，可以主动关心人类，与人类互动聊天，让机器人变得暖和许多。看来 AI 看图说故事，不仅是写写图说、帮助处置费事的出差报告，在不远的未来，更是拉近咱们与机器人距离的关键所在呢。

版权声明 1、本网站名称：咚波电子商务网
2、本站永久网址：http://www.seoggw.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#聊 #打造 #AI #愈系机器人！看图说故事 #也略懂略懂

愈系机器人！看图说故事 聊 也略懂略懂 打造 AI

先选角、打草稿，再写故事

常识库，AI 想像力的补充包

奇妙切开「语意抽取」与「生成文本」

脑补，让机器更有温度

愈系机器人！看图说故事聊也略懂略懂打造 AI