笔趣阁

手机浏览器扫描二维码访问

335 统一视觉与语言合(第3页)

对于孟繁岐说的这种方式,她持怀疑的态度。

“他是不是做的模型规模不够大,数据规模也不够大?”孟繁岐知道,许多人做新技术的尝试都会这样。

在小模型小数据上快迭代,直到有所起色,观察到很好的结果,才会继续放大模型和数据。

这种方法节省实验时间,可以大量试错,不能说是错误的思路,反而是非常正确的,孟繁岐也经常这么做。

但是T方法,尤其在视觉任务上,情况是非常特殊的。

如果没有足够大的数据量和模型规模,视觉T方法确实是做不好的。

前世虽然视觉T方法后面展得很好,在面对一些冷门领域和任务,对应数据量不多的时候还是会用传统卷积网络。

加上现在算力紧张得很,其他人哪里玩得起大规模大数据的T方法?

因而虽然有人曾经尝试过类似孟繁岐想法的技术,却并没有做出好结果。

“留了一年的空档期,还是没人做出来,看来还是得我来出手啊!”chatgpT第一版已经出来,孟繁岐是时候该忙一忙制图aI这方面了。

想要出图精确,先模型就得具备文字加图像的能力,否则让用户拿头去跟模型交流?

“你真要说起来,辛顿老师他们,以前反向传播技术都是他们做的。现在什么aI技术能离得了反向传播?但我看最近十几年的文章,都不再引用反向传播了,真要算起来,大家还欠辛顿老师几十万论文引用数呢。”

孟繁岐的这番话还是非常中肯。

技术的历史地位最终还是在人们心里会有一个公正的评价,学术圈内很多人盲目追求什么期刊等级、引用数量、影响因子之类的旁门左道,有些本末倒置了。

“对于最近大家热议图像方法技术路线,你怎么看?我记得你最初不是做图像技术起家的,怎么这一年多基本扎在自然语言里面,忘记老本行了?”聊完虚名,还是要谈些正事。

T方法在自然语言领域的成功,每一天都在加剧大家对图像领域落后情况的讨论。

【为什么自然领域内可以有一个T方法这样大一统的良策,图像领域就不行呢?】

这没道理,说不通啊!

“T方法既然在自然语言领域内这么好用,图像领域也直接用T方法不就好了。”孟繁岐的回答让所有人都感到非常意外。

“就这么简单?”

没什么虚头巴脑的东西,就是这一招直接捅穿。

“你这不是在开玩笑吧?”韩辞一时间分不清孟繁岐这话是真的还是假的。

T方法在自然语言领域卷起风暴已经不止一年了,其他研究人员又不是傻的。

如果直接把T方法搬到图像上就好用,那早不就做出来了?

把别的领域好用的东西拿来试试,很多研究者没有好主意的时候都会这么做。

“图像在现实世界是二维数据,在计算机内是三维矩阵。而自然语言则是一维的序列,这两种东西的形式根本就不一样,怎么可能直接适用于T方法呢?”

韩辞的疑问是非常合理的,由于两种东西的形式相差很大,处理的方法当然是不同的。

这也是为什么图像领域的学者都在尝试借用T方法的核心思想(注意力机制),把这东西往传统卷积里面加,而非是直接把T方法拿过来用。

一群人就像是调奶茶一样,你多加点奶,我多加点茶,来来回回论文狂。

但对领域真的有意义有贡献的,却很少。

“其实许多人对于注意力机制的理解已经非常到位了,做得性能也非常好。但他们的做法都存在一个巨大的问题,那就是图像和语言模型不统一。”孟繁岐的视角是非常宏观且大胆的。

他如果要回头去做图像,那就不仅仅是单纯的图像技术那么简单了。

孟繁岐想要做的,是让同一个模型同时理解图像和语言。

也就是所谓的【多模态技术】。

而想要实现多模态的模型,先就得统一语言和图像的模型结构,也就是孟繁岐所说的学界巨大问题所在。

你做语言要一个模型,做图像又要一个模型,做语音还要一个模型,没完没了了。

那未免太过繁琐了一些,不同模态之间,想对齐也会有很大的问题。

你怎么把文字【狗】和图像【狗】给对应起来呢?

“人类接触一个事物的时候,往往是多模态的。比如看到一碗香喷喷的拉面,先图像映入眼帘,随后在脑中就产生了【面】这个概念,可能会有对话,出声音。味道这个咱们先不提,图像、语言和声音这三种模态,以后肯定是要一起结合的。”

“从人类对智能的追求上来说,如果一个模型它看到了面的图像,却不知道该用怎样的文本来形容,那它肯定还是有很大的提升空间的。而单纯从模型的性能角度,多种模态相辅相成,也会极大地增强模型的准确率。”

孟繁岐这里指的是,即便一个模态出错了,其他模态也可以进行纠正。

比如面的样子做得很丑,图像上无法识别。但通过文字描述和语音形容,这种多模态的智能会更加有可能现自己的错误。

“但这么做的话。。。模型结构肯定要对齐才行。。。现在不同模态之间结构差了这么多。”韩辞当然知道孟繁岐说得对。

谁都知道这个东西好,我一个结构就把所有模态全搞定了,岂不美哉?

问题在于,它怎么实现呢?

图像和语言,它就是长得不一样。

“实现办法也很简单,将图片先统一处理为同样的分辨率,然后分为十六宫格,每一个区块直接展平成为一维的向量,然后加个位置编码表明它们来自哪一个区块就好。”孟繁岐用最简洁的语言大概描述了视觉T方法的最基本做法。

T方法是针对语言设计的,那么视觉T方法要做的就是将【图】转换成【句子】。

热门小说推荐
GB欠揍小狼狗又被她吻到缺氧

GB欠揍小狼狗又被她吻到缺氧

穿成臭名昭着的过气女明星!顾森雨不得不开始攻略当年被自己甩了的爱豆前任!当初跟在身后叫着姐姐的小奶狗如今已是圈内顶流。可谓当年有多喜欢现在就有多讨厌她!顾森雨只能耐着性子一点点消除原宿主在对方心中的厌恶值!一回头,那个处处看不惯她的小恶霸已经变成了听话的小奶狗。不仅粘人爱撒娇,还经常躲开众人抱着她要亲亲!!!gB欠揍小狼狗又被她吻到缺氧...

开局被暴打,被封天才是我草率了

开局被暴打,被封天才是我草率了

日更,6点,偶尔其他时间更新,有事会请假本文被一众媒体奉上神坛的天才网球选手穿越网王世界,看到了一群初中生打网球,网球又是发光又是冒火,天才选手叶梧直呼内行!这就是强者的世界吗恐怖如斯!谁给我封的天才头衔,草率了!实力成谜吐槽役受受对自家网球社长的n多行为表面舔狗赞同(今天很好的活下来了!),背地疯狂吐槽温柔腹黑攻我村哥!地表最强!注释1主立海大,三连霸。2慢热,比赛和日常(作者新手不懂,如果觉得前面十章太啰嗦了,从国中篇看网王是可以正常阅读的)2,综漫题材,笔墨不多吧,有涉及小排球,咒术,齐木,名柯,月刊少女,日常大王,轻音等预收文网球切原部长不差钱不,是我老婆不差钱。网王人物太多写不过来。另开一本写切原的三年国中天然直球感情白痴热爱网球庶民切原攻,cp傲娇暴发户二代嘴贱钱多社团经费赞助商才虎受重点1主立海大,三连霸2受是齐神里面的才虎3延续我另一本开局被暴打,被封天才是我草率的世界观。4受网球实力一般,因此这本主写立海大日常恋爱比赛开局被暴打被封天才是我草率了...

人在综武,我攻略女侠就变强

人在综武,我攻略女侠就变强

简介关于人在综武,我攻略女侠就变强许沐枫穿越综武世界,开局就遇到传说中留着空气刘海,杀得只剩下剧名的狠人女帝,幸好觉醒了名为江湖美人录的系统,只要攻略江湖美女就能变强,许沐枫从此美人在怀,快意江湖。...

斗罗之魂力每年升两级

斗罗之魂力每年升两级

无良系统从天而降,可怜的韩枫被迫穿越,如此也就罢了,谁能想到,生米煮成熟饭之后,系统精灵突然告诉韩枫找错人了,直接卸载!?韩枫始乱终弃!忘恩负义!见异思迁!喜新厌旧!系统小精灵瞎说什么!金手指给你!给你就是了!书友群1o343o6262斗罗之魂力每年升两级...

离婚后我娇养了神秘前夫

离婚后我娇养了神秘前夫

被陌生灵魂抢走身体,舒婳在快穿世界历经1o8个女配逆袭任务,终于夺回原身!刚睁眼,就现她原本纤细的身材变成了土肥圆,还被安排了奇葩相亲,又突然记起自己消失之前曾被迫结婚,跟便宜老公只见过一次面。冒牌货霸占她身体后作天作地,众人都说她烂泥扶不上墙,彻底废了。呵,快穿大佬从不畏惧将一手烂牌重新打成王炸!谁知离婚后,原离婚后我娇养了神秘前夫...

四合院:拒绝道德绑架,我无敌了

四合院:拒绝道德绑架,我无敌了

简介关于四合院拒绝道德绑架,我无敌了刘成穿越到了情满四合院,是易中海的徒弟,贾东旭的师弟。被师父穿小鞋,被师兄抢了女朋友,好在激活了怼人就变强系统。一大爷刘成,你必须给我养老送终。刘成养老就免了,送终我可以的。叮咚!一大爷很愤怒,负面能量18oo!贾东旭师弟,给师兄倒茶去。刘成直接泼他一脸。叮咚!贾东旭憋屈,负面能量16oo!贾张氏我儿子是你师兄,你的工资必须孝敬我们家。刘成笑了,你自己多生几个儿子孝敬你可好?从此,拥有金手指的刘成,让四合院的人十分难受。...