汉服tagkita是什么牌子(tagkita是什么牌子的鞋子)

人类天生地利𒐪用多模态信息(视觉、听觉、触觉、嗅觉等)来感知和理解世界。其中,视觉和语言的多模态感知对人类而言尤为重要,且它们二者之间能起到互补和增强的作用。

比如当你在路上远远地看到一位朋友和你打招呼,他嘴里同时在说着什么,虽然你听不清楚,但也能🦄从对方的笑脸和友好的招手姿势,大致推断出他说的是一句问候语(“嗨,Hello,好久不见……”),这就说明视觉信号可以很好地辅助语言理解。语言信号同样有助于视觉理解,比如糖和盐的外观非常相似,为了在做饭的时候快速在视觉上区分出它们,语言标签是个好帮手。

过往人们对于人工智能的技术研究大多集中于单模态领域,并在特定任务上取得了不错的性能,比如图像识别和语音识别。然而现实世界中的很多问题往往都是涉及多模态的,这就要求智能体具备和人类一样处理视觉和语言等多模态信息的能力。例如,自动驾驶汽车应该做到能够识别出交通信号和道路状况(视觉)、处理人类发出的命令(语言)。因此,多模态研究成为了近些年AI领域的研究重点,尤其是视觉-语言联合模态。

然而,当前研究人员所构建的大多数视觉-语言模型都只是在两个独立的信息流中分别处理视觉和语言信号,并仅在最后阶段把两种信号的结果进行融合,而实际上,人类对✨多模态信息的处理能力要机器高明很多。

例如,2020年的一项研究[1]表明,在只看得到口型而听不到声音的条件下进行唇读时,人类大脑的听觉区域可以通过接收来自视觉皮层的信号,帮助人类更好地理解唇读。还有一些行为调查、神经💃成像和神经解剖学等研ᩚᩚᩚᩚᩚᩚ⁤⁤⁤⁤ᩚ⁤⁤⁤⁤ᩚ⁤⁤⁤⁤ᩚ𒀱ᩚᩚᩚ究结果表明,在感知多模态信号时,人类的大脑中存在一个神秘的“共享世界”,充当着理解融合信息的中央处理器的角色。

在本文要介绍的这项工作中,研究人员受到人类大脑“共享世界”的启发,深入地研究了视觉-语言表示的“共享世界”,并提出了一个新的挑战——用无监督的视觉-语言语法归纳来同时提取视觉和语言的共享层次结构。本研究提出了一种名CLIORA的新模型,该模型基于两种模态的结构化输出,在很多任务上都取得ꦿ了很好的效果,并朝着对多模态信息的语义理解迈出了明确一步。

目前这篇工作的研究论文已被人工智能顶级学术会议ICLR 2022录取为Oral,论文一作是鲁汶大学在读博士生万博,通讯作者是北京通用人工智能研究院前沿研究中心研究员韩文娟

论文地址://openreview.net/pdf?id=N0n_QyQ5lBF

1 研究启发——借鉴“对比学习”的策略

这篇论文具体做了一项什么样的研究呢?我们可以从一个“猫抓老鼠”的例子入手。

如下图所示,是一个“猫抓老鼠”的场景,用英文句子来描述这张图片,可以是“A cat is catching a mouse on grass”,也可以仅仅是“Cat catches 📖mouse”,为了简化说明,我们忽略句子时态上的考虑,采用后面这个描述。

如下图所示,♏对人类而言,我们可以轻易地识别出红色描边区域对应着单词“Cat”,同时也对应着短语“Cat catches”,蓝色描边图像区域对应着单词“mouse”。

但是ꦗ人类的这种“轻易”对机器而言却是很难的,机器要想学会把图像中的特定区域与相应的文本语言进行匹配,则需要花费一番功夫。

如果让传统的AI模型来学习,则需要使用“有监督学习”的方式。首先要在输入环节人工对这张图片做尽可能“细粒度”的标注。所谓“细粒度”就是说要在图片中尽可能𒉰给句子“cat catches mouse”的每个成分都打上标签,即用若干个矩形的“边界框”把图片中的“cat”、“cat catches”和“mouse”分别框起🦩来,并加上注释。

这种“有监督学习”的方式𒊎确实可以让AI模型取得不错的学习效果,但是通过这种方式,AI只能学到比较死板的“标签对应”关系,而不能真正学到语义理解。另外这种“细粒度”的标注数据需要大量的人工和时间成🐼本,是一种“越人工越智能”的方法。

而本研究提出的AI模型并没有采用这种“有监督学习”方式,也不需要“细粒度”的标注数据,而是借鉴了一种无监督的“对比学习”的策略。

还是以这个“猫抓老鼠”的图片为例,如下图所示,当图片中的“老鼠”消失时,句子“Cat catches mouse”中的“mouse”也消失了,变为了“cat catches ”。这时AIꦯ就有可能会在“想”:“为什么图片中的老鼠和文𝓡本中的单词“mouse”一起消失了呢?这是不是意味着‘mouse’就对应图片中的老鼠?”。当然,目前的AI还远远不会思考,这里只是做一种拟人化假设。

同理,当图片中的“猫”消失时,句子“Cat catches mouse”中的“Cat catches”也消失了,只剩下了“mouse”,这时🃏AI或许至少学到 “Cat catches”对应的是猫。

𝓀可以看出,上述的学习过程通过“对比学习”的方式,将视觉和语言结合到了一起,同时也学到了一些语义理解。这种暗含“对比学习”的策略给本文的研究带来了一些启发。当然,由于现实图片和文本信息更加复杂,本研究中实际运用的算法要远远比上述学习过程更复杂,也面临着很大的挑战。

2 提出新任务——无监督视觉-语言语法归纳

类似上述用“对比学习”的方式学习“猫”和“老鼠”,本文提出了一种新的任务——无监督的视觉-语言语法归纳。在介绍这项新任务之前,我们首先提一下语法归纳的概念。

语法归纳是自然语言处理中的一项基本任务,旨在以短语结构树的形式捕获句子中的句法信息༒。如下图(a)所示,是英文句子“A man pushes a boy on a zip-line”的语法归纳图。可以看出,这个英文句子的主语(A man)、谓语(pushes)、宾语(a boy)、状语(on a zip-line)等不同的组成部分被短语结构树进行了归纳解析。

图(a):自然语言的常规语法归纳图示。

而本研究要挑战的这个新任务要做的就是——在仅ꦦ仅给定输入为句子“A man pushes a boy on a zip-line”(没有给定短语)和下图图像(没有细粒度标注)的情况下,利用无监督的视觉-语言语法归纳,提取视觉和语言的共享层次结构,并给“该句子的所有短语和该图像的对应解析”的输出。

也就是想要下图这样一个结果,图中📖男人🃏、推、男”等区域和“A man”,“pushes”,“a boy”等短语成分产生了很好的对应解析。这其实就把语言和视觉图像给跨模态地结合在了一起,并产生了一个“对齐”。

这个归纳对齐的过程叫做无监督的视觉-语言语法归纳,完整的过程如下图(b)所示。

图(b):视觉-语言语法归纳图示

这项无监督的视觉-语言语法归纳任务其实面临着两大挑战:1、上下文有关的语义表征学习;2、分层结构所有层级的细粒度视觉-语🙈言对齐。本研究提出的模型尝试解决这两大挑战。

3 CLIORA模型介绍

本研究提出的新模型就是Contr🐭astive Language-Image inside-Outside Recursive Autoencoder,简称CLIORA。它借鉴了DIORA模型[2]在上下文相关的语言语法归纳方面取得的成功,并在多模态场景中进行了扩展。

CLIORA模型整个工作流程如下图所示,一共包含视觉/文本特征提取、特征级融合、结构构建、置信层融合和损失函数🌊5个模块。整个融合过程可分为特征层(组合不同模式的特征向量)融合和🍎置信层(组合分数)融合两步。

CLIORA模型示意图

具体来说,CLIORA模型首先从视觉和语言两种模态中提取特征,然后结合inside-outside算法来计算句子成分(constituents)并构建短语句法树。在这个阶段,CLIORA模型通过递归地让语言跨度嵌入关注视觉特征,将视觉和语言这两种模态结合起来(如下图🎉所示),这种结合过程就是特征层融合。这种融合能让文本短语关联到视觉语境,接着高效地利用视觉语境以及文本语义作为整体的语境信息,从而解决了第一个挑战。

在此基础上,研究人员计算每个组成部分和图像区域之间的匹配分数。该分数可以用于促进跨模态细粒度对应,并通过对比学习策略利用图像字幕对的监控信号。在这里,CLIORA模型通过加权跨模式匹配分数和归纳语法给出的成分分数,进一步融合了语言视觉模态,这个过程称之为置信层(score-level)融合,它确保了树结构的每一层都有细粒度的ও对齐,从而解决了第二个挑战。

4 实验结果

经过大量研究实验表明,CLIORA模型取得了很好的成功:

  1. 在新定义的无监督视觉-语言语法归纳任务上取得了很好的效果;

  2. 在独立的语言(语法归纳)和视觉任务上也分别取得了当前最佳的效果。

什么意思呢?首先举例来说明第一点成功。下图是利用CLIORA模型𒆙对该图像和句子“A woman walk in the sand as ༺she carries her shoes.”的一个无监督归纳对齐,可以看到,效果很好。

下图同样也是利用CLIORA模型对该图像和句子“A boy in red sweatshirt pretends to drive a tractor.”的一个无监督归纳对齐,效果ඣ同样很好。

通过以上两个例子以及大量未展示的其他实验数据表明,CLIORA模型确实取得了第一点成ꦑ功,是在无监督的视觉-语言归纳任务取得的跨模态成功。而第二点的成功则是说,利用CLIORA模型也可以在独立的语言(语法归纳)和独立的视觉(图像-🐓短语匹配)任务上也分别取得成功,而且要比之前这两个任务上的其他模型性能都要好。

打个比方说,这就好像有个高中生提前学习了大学的“物理化学”课程,结果他不仅“物理化学”这门课学的很好,而且在高中单独的“物理”和“化学”两门课也很厉害,在考试中都取得了🦋两门课的学校꧋第一。

图:独立的语法归纳任务

图:独立的有监督的图像-短语视觉匹配任务

5 总结和展望

本研究提出了一项具有挑战性的“无监督的视觉-语言语法归纳”新任务,并提出了CLIORA模型,探索了语言和图像的“共享”结构性表示。在实现对语言有一个结构性表示的同时,对应图像也构建一个结构性表示,从而赋予语言和文本共享的一致性语义表示,实现统一的语言和视觉跨模态理解。

在未来,一个可能的研究方向是接着在视觉-语言“共享”结构性꧑表示之外,额外定义语言和视觉各自独立的结🌠构性表示,从而在整体上构建完整的视觉语言“联合”理解框架,这种视觉语言联合理解框架可以显著提升AI对图片的理解,增加了可解释性。

那么,为视觉-语言语法归纳建模共享结构的最佳方法是什么?

一个有希望的扩展可能是探索细粒度的视觉结构来规范共享的视觉-语言语法,本文提出的模型方法还需在视觉层面上进一步探索。但是值得注意的是,视觉图像本身还包含丰富的空间结构,利用这种结构也可能有利于产𝔉生更有意义的共享结构。

回到本文研究的动机,人类如何在这样的“共享语义空间”中꧙建模💫和处理多模态信息呢?本研究为语法归纳和短语落地提供了一个可能的答案。尽管如此,在人类认知计算模型中使用联结主义和符号主义表示之间的争论从未停止过。这个谜团也为人们提供了一个广阔的空间,来探索建模人类多模态“共享世界”的其他潜在解释。

参考文献

[1] Mathieu Bourguignon, Martijn Baart, Efthymia C Kapnoula, andNicola Molinaro. Lip-reading enables the brain to synthesize auditory featuresof unknown silent speech. Journalof Neuroscience, 40(5):1053–1065, 2020.

[2] Andrew Drozdov, Pat Verga, Mohit Yadav, Mohit Iyyer, and AndrewMcCallum. Unsupervised latent tree induction with deep inside-outside recursive autoencoders. In Proceedings of the An❀nual Conf🧸erence of the North American Chapterof the Association for Computational Linguistics(NAACL), 2019.

[3]Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, MarkJohnson, Stephen Gould, and Lei Zhang. Bottom-up and top-down attention for image captioning and visualquestion answering. In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6077–6086, 2018.

[4]James K Baker. Trainable grammars for speech recognition. The Journal of the Acoustical Society of America, 65(S1):S132–S132, 1979.

[5]Gemma A Calvert, Edward T Bullmore, Michael J Brammer, RuthCampbell, Steven CR Williams, Philip K McGuire, Peter WR Woodruff, Susan D Iversen, and Anthony S David.Activation of auditory cortex during silent lipreading. science,276(5312):593–596, 1997.

[6]Ruth Campbell. The processing of audio-visual speech: empirical and neuralbases. Philosophical Transactions of the Royal Society B: Biological Sciences, 363(1493):1001–1010, 2008.

[7]Kan Chen, Jiyang Gao, and Ram Nevatia. Knowledge aided consistency forweakly supervised phrase grounding. In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

[8]Noam Chomsky. On certain formal properties of grammars. Information and control, 2(2):137–167,1959.

[9]Andrew Drozdov, Subendhu Rongali, Yi-Pei Chen, Tim O’Gorman, Mohit Iyyer,and Andrew🥂 McCallum. Unsupe𝔍rvised parsing with s-diora: Single tree encodingfor deep inside-outside recursive autoencoders. In Proceedings of the Conference on Empirical Methods in NaturalLanguage

Processing (EMNLP), 2020.

[10]Tanmay Gupta, Arash Vahdat, Gal Chechik, Xiaodong Yang, JanKautz, and Derek Hoiem. Contrastive learning for weakly supervised phrasegrounding. In EuropeanConference on Computer Vision (ECCV), 2020.

[11]Wenjuan Han, Yong Jiang, and Kewei Tu. Dependency grammar induction withneural lexicalization and big training data. In Proceedings of the 2017 Conference on Empirical Methods in NaturalLanguage Processing, pp.1683–1688, 2017.

[12]Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick. Mask r-cnn.In ′ Proceedings of the IEEEInternational Conference on Computer Vision (ICCV), 2017.

[13]Yining Hong, Qing Li, Song-Chun Zhu, and Siyuan Huang. Vlgrammar: Groundedgrammar induction of vision and language. Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2021.

[14]John E Hopcroft, Rajeev Motwani, and Jeffrey D Ullman. Introduction toautomata theory, languages, and computation. Acm Sigact News,32(1):60–65, 2001.

[15]Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, DebapriyaBanerjee, and Fillia Makedon. A survey on contrastive self-supervised learning. Technologies, 9, 2021.

[16]Tadao Kasami. An efficient recognition and syntax-analysis algorithm forcontext-free languages. CoordinatedScience Laboratory Report no. R-257, 1966.

[17]Anne Keitel, Joachim Gross, and Christoph Kayser. Shared andmodality-specific brain regions that mediate auditory and visual wordcomprehension. ELife, 9:e56972, 2020.

[18]Yoon Kim, Chris Dyer, and Alexander Rush. Compound probabilisticcontext-free grammars for grammar induction. In Proceedingsof the Annual Meeting of the Association for Computational Linguistics (ACL), 2019a.

[19]Yoon Kim, Alexander M. Rush, Lei Yu, Adhiguna Kuncoro, Chris Dyer, andGabor Melis. Unsupervised recurrent neural network grammars. In Jill Burstein, Christy Doran,and Thamar Solorio (eds.), Proceedings of theAnnual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), pp. 1105–1117. Association for Com🅰putational Linguistics, 2019b.

[20]Nikita Kitaev and Dan Klein. Constituency parsing with aself-attentive encoder. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 2676–2686,

2018.

[21]Noriyuki Kojima, Hadar Averbuch-Elor, Alexander Rush, and Yoav Artzi. W✤hat is learned in visually grounded neural syntax acquisition. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 2615–2635, 2020.

[22]Adhiguna Kuncoro, Lingpeng Kong, Daniel Fried, Dani Yogatama, Laura Rimell, Chris Dyer, and Phil Blunsom. Syntactic structure distillation pretraining for bidirectional encoders. Transactions of the Association for Computationalꦉ Linguistics (TACL), 8:776–794, 2020.

[23]J🐷ohn D ♔Lafferty. A derivation of the inside-outside algorithm from the EM algorithm. IBM TJ Watson Research Center, 2000.

[24]Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Comm⛄on objects in context. In ′ European Conference on Computer Vision (ECCV)♊, pp. 740–755. Springer, 2014.

[25]Yongfei Liu, Bo Wan, Xiaodan Zhu, and Xuming He. Learning cross-ﷺmodal c🃏ontext graph for visual grounding. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020.

[26]Yong💟fei Liu, Bo Wan, Lin Ma, and Xuming He. Relation-aware instance refinement♍ for weakly supervised visual grounding. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

[27]Lin Ma, Zh♒engdong Lu, Lifeng Shang, and Hang Li. Multimodal convolutional neural networks for matching image and sentence. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2623–2631, 2015.

[28]Collins Michael. P👍robabilistic context-free grammars. In NLP course note, 2011.

[29]Jeffrey Pennington, Richard Socher, and Christopher D. Manning. Glove: Global vectors for word representation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532–1543, 2014. URL //www.aclweb.org/anth♎ology/D14-1162.

[30]Matthew E. Peters, Mark Neumann, Mohit Iyyer, Ma♏tt Gardner, Christopher Clark, Kenton Lee,and Luke Zettlemoyer. Deep contextualized word representations. In Marilyn A. Walker,Heng Ji, and Amanda Stent (eds.), Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), pp. 2227–2237. Association for Computational Linguistics, 2018. doi: 10.18653/v1/n18-1202. URL https:

//doi.org/10.18653/v1/n18-1202.

[31]A. Bryan Plummer, Liwei Wang, M. Chris🅘topher Cervantes, C. Juan Caicedo, Julia Hockenmaier, and Svetlana Lazebnik. Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models. IJCV, 123:74–93, 2017.

[32]Shaoqing Ren, Kaiming He, Ros💝s Girshickꩲ, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Workshop on Advances in Neural Information Processing Systems (NIPS), 2015.

Anna Rohrbach, Marcus Rohrbach, Ronghang Hu, Trevor Darrell, and Bernt Schiele. Grounding of textual phrases in images by r🌼econstruction. 🍬In European Conference on Computer Vision (ECCV), 2016.

[33]Yikang Shen, Zhouhan Lin, Chin-wei Huang, and Aaron Courville. Neural language modeling by jointly l🌌earning syntax and lexicon. In International Conference on Learning Representations (ICLR), 2018.

[34]Yikang Shen, Shawn Tan, Alessandro Sordoni, and Aaron Co𝕴urville. Ordered neurons: Integrating tree structures into recurrent neural networks. International Conference on Learning Representations (ICLR), 2019.

好了,这篇文章的内容发货联盟就和大家分享到这里,如果大家网络推广引流创业感兴趣,可以添加微信:80709525  备注:发货联盟引流学习; 我拉你进直播课程学习群,每周135晚上都是有实战干货的推广引流技术课程免费分享!


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 🐲请发送邮件至 sumchina520@foxmai🔥l.com 举报,一经查实,本站将立刻删除。

您可能还会喜欢:

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。