笔趣阁

手机浏览器扫描二维码访问

335 统一视觉与语言合(第5页)

谁都知道这个东西好,我一个结构就把所有模态全搞定了,岂不美哉?

问题在于,它怎么实现呢?

图像和语言,它就是长得不一样。

“实现办法也很简单,将图片先统一处理为同样的分辨率,然后分为十六宫格,每一个区块直接展平成为一维的向量,然后加个位置编码表明它们来自哪一个区块就好。”孟繁岐用最简洁的语言大概描述了视觉T方法的最基本做法。

T方法是针对语言设计的,那么视觉T方法要做的就是将【图】转换成【句子】。

图片分十六宫格,每一个格子就像是一个【词汇】。

先拆开进去,再通过位置编码重新处理整合成一维的形式,余下的部分就能够尽可能贴近原本的T方法了。

一张图片,就像是nxn的句子一样。

通过这样的转化,尽可能做到模型零修改,进而一个模型打通图像加自然语言。

“你这个方法虽然没有人做过完全一样的,但其实有人尝试过类似的实验,效果并不好,比传统的卷积神经网络差了很多。”韩辞别的不说,论文看得是真的多,学习态度非常认真。

对于孟繁岐说的这种方式,她持怀疑的态度。

“他是不是做的模型规模不够大,数据规模也不够大?”孟繁岐知道,许多人做新技术的尝试都会这样。

在小模型小数据上快迭代,直到有所起色,观察到很好的结果,才会继续放大模型和数据。

这种方法节省实验时间,可以大量试错,不能说是错误的思路,反而是非常正确的,孟繁岐也经常这么做。

但是T方法,尤其在视觉任务上,情况是非常特殊的。

如果没有足够大的数据量和模型规模,视觉T方法确实是做不好的。

前世虽然视觉T方法后面展得很好,在面对一些冷门领域和任务,对应数据量不多的时候还是会用传统卷积网络。

加上现在算力紧张得很,其他人哪里玩得起大规模大数据的T方法?

因而虽然有人曾经尝试过类似孟繁岐想法的技术,却并没有做出好结果。

“留了一年的空档期,还是没人做出来,看来还是得我来出手啊!”chatgpT第一版已经出来,孟繁岐是时候该忙一忙制图aI这方面了。

想要出图精确,先模型就得具备文字加图像的能力,否则让用户拿头去跟模型交流?

“你真要说起来,辛顿老师他们,以前反向传播技术都是他们做的。现在什么aI技术能离得了反向传播?但我看最近十几年的文章,都不再引用反向传播了,真要算起来,大家还欠辛顿老师几十万论文引用数呢。”

孟繁岐的这番话还是非常中肯。

技术的历史地位最终还是在人们心里会有一个公正的评价,学术圈内很多人盲目追求什么期刊等级、引用数量、影响因子之类的旁门左道,有些本末倒置了。

“对于最近大家热议图像方法技术路线,你怎么看?我记得你最初不是做图像技术起家的,怎么这一年多基本扎在自然语言里面,忘记老本行了?”聊完虚名,还是要谈些正事。

T方法在自然语言领域的成功,每一天都在加剧大家对图像领域落后情况的讨论。

【为什么自然领域内可以有一个T方法这样大一统的良策,图像领域就不行呢?】

这没道理,说不通啊!

“T方法既然在自然语言领域内这么好用,图像领域也直接用T方法不就好了。”孟繁岐的回答让所有人都感到非常意外。

“就这么简单?”

没什么虚头巴脑的东西,就是这一招直接捅穿。

“你这不是在开玩笑吧?”韩辞一时间分不清孟繁岐这话是真的还是假的。

T方法在自然语言领域卷起风暴已经不止一年了,其他研究人员又不是傻的。

如果直接把T方法搬到图像上就好用,那早不就做出来了?

把别的领域好用的东西拿来试试,很多研究者没有好主意的时候都会这么做。

“图像在现实世界是二维数据,在计算机内是三维矩阵。而自然语言则是一维的序列,这两种东西的形式根本就不一样,怎么可能直接适用于T方法呢?”

韩辞的疑问是非常合理的,由于两种东西的形式相差很大,处理的方法当然是不同的。

这也是为什么图像领域的学者都在尝试借用T方法的核心思想(注意力机制),把这东西往传统卷积里面加,而非是直接把T方法拿过来用。

一群人就像是调奶茶一样,你多加点奶,我多加点茶,来来回回论文狂。

但对领域真的有意义有贡献的,却很少。

“其实许多人对于注意力机制的理解已经非常到位了,做得性能也非常好。但他们的做法都存在一个巨大的问题,那就是图像和语言模型不统一。”孟繁岐的视角是非常宏观且大胆的。

他如果要回头去做图像,那就不仅仅是单纯的图像技术那么简单了。

孟繁岐想要做的,是让同一个模型同时理解图像和语言。

也就是所谓的【多模态技术】。

而想要实现多模态的模型,先就得统一语言和图像的模型结构,也就是孟繁岐所说的学界巨大问题所在。

你做语言要一个模型,做图像又要一个模型,做语音还要一个模型,没完没了了。

那未免太过繁琐了一些,不同模态之间,想对齐也会有很大的问题。

你怎么把文字【狗】和图像【狗】给对应起来呢?

热门小说推荐
灾后种田我靠异能成领主

灾后种田我靠异能成领主

作品简介免费提供作者月光下看美人的经典小说灾后种田我靠异能成领主最新章节全文阅读服务本站更新及时无弹窗广告欢迎光临观看小说天灾十年,柳苏顺利苟过去了。一朝听闻可以放出去了,柳苏恨不得仰天长啸三声。终于可以出去吃香的喝辣的了,这杂粮馍馍谁爱吃谁吃,她不伺候了!可是,救命啊,她农场的画风怎么这么奇怪啊?别人家的农场是大干三百天,克服一切困难,只为丰收那1ooo斤。风里雨里,我在这里等你。到柳苏这里是,这萝卜香啊,再来三百斤。柳苏再三强调,与我无关。肯定是风水不好,虎的虎彪的彪。连狗都逐渐变态了。天灾时期,唐睿心里一直有...

福女当道

福女当道

果子铺南家大姑娘南书燕居然是瓷商归家大房早年丢失的女儿?不行,飞上枝头变凤凰这样的好事怎么也不能便宜了她。南老夫人欲想来个偷梁换柱,只是,此南书燕早已不是彼南书燕。既然老天让她重活一世,她便要讨回前世的债,偿还今世的情归家二老爷让她交出归家的掌家之权。南书燕我誓,此生绝不外嫁,必将归家技艺扬光大。霍炎此女够狠,甚合我意!...

海贼王之天龙人公主翻身做海贼

海贼王之天龙人公主翻身做海贼

又名星野穿越到海贼王世界,穿越成功天龙人公主,伴随衍生系统。系统回家很简单,参与并冷眼旁观完这个世界的展,不改变世界展轨道,就算任务成功…哎,等会,你怎么在做海贼的路上一去不复返了?!星野干啥?做海贼也影响世界展轨道?系统你身边怎么这么多帅哥?不影响世界展轨道下不浪一下?星野哼着小曲,闻言你懂什么,乱花渐欲迷人眼,心中无男人,拔刀自然神。系统好好好,我说不过你。星野眉眼一转好的系统大人,那我可以把桃之助宰了吗?系统…那可能要时间倒退三秒了,大傻春你干了什么!嗷嗷嗷!后来,星野实力越来越强大,一不小心征服了世界,改变了无数她觉得遗憾的事情。系统内心无数小草飘过谁懂啊家人们,这家伙被电的次数太多对电流免疫了啊!她竟然什么惩罚都不怕了!!(前期小时候,不喜可从35章,跟船流,后期会逐渐搞事业。新人作者,之前作者以为无cp是无官配,所有前些章有一些雄竞,或者略过85章,女主和星衍只有短暂的名分,没有实质,不喜欢可以划走,谢谢合作。)...

四合院之何雨柱轮回从51年开始

四合院之何雨柱轮回从51年开始

简介关于四合院之何雨柱轮回从51年开始无尽的轮回,无尽的人生。且看何雨柱如何在四合院的世界里,越过越好。越活越滋润。上一世为了妹妹讨好白寡妇,这一世,都去见鬼吧!什么易不群什么秦白莲什么白眼狼通通让他们滚蛋!...

强行占有

强行占有

简介关于强行占有众所周知,沈家二爷沈时砚向来都是万花丛中过,片叶不沾身的主,直到,他遇上了沈鹿溪。第一次是沈时砚主动的,第二次还是。沈鹿溪于是将计就计,羊入虎口。沈时砚从来都只以为,自己不过就是玩玩而已,直到,沈鹿溪悄然离开,成为了别人的女朋友。沈时砚就变成了一个神经病,天天去找她的麻烦,还威胁她。沈鹿溪终于爆了,冲他吼,沈时砚,你有种弄死我!沈时砚风流一笑,直接将人扛上肩头,好,如你所愿。后来,沈鹿溪终于爱他爱进了骨髓里,他却转身娶了别人。再后来,黑暗的天空亮起无数颗星星,沈时砚用自主研的型号为V52o的1314o台无人机,在天空中写下沈鹿溪,此生唯一挚爱,嫁给我!...

我真不是全服第一

我真不是全服第一

我真不是全服第一恭喜玩家无敌捞金怪连赢999场竞技,现排名全服第一什么玩意我还没出手呢这就赢了...