笔趣阁

手机浏览器扫描二维码访问

335 统一视觉与语言合(第2页)

至于那些人人都用的概念,写论文的时候全都直接略过了,反而没有引用。

“这其实是好事,说明这些技术成果已经融入了aI的基本概念当中。”孟繁岐倒也不差那一点论文的引用。

这个数字在几百上千的时候,是人最在意的时候。

涉及到晋升和教职,涉及到一个青年研究者的去向和地位。

等到论文引用破万的级别,基本已经是领域内的翘楚了。具体是几万十几万,已经是无所谓的事情。

尤其不同的领域和方向,人数差异很大,这个数据也只能作为参考,无法成为什么硬指标。

“你真要说起来,辛顿老师他们,以前反向传播技术都是他们做的。现在什么aI技术能离得了反向传播?但我看最近十几年的文章,都不再引用反向传播了,真要算起来,大家还欠辛顿老师几十万论文引用数呢。”

孟繁岐的这番话还是非常中肯。

技术的历史地位最终还是在人们心里会有一个公正的评价,学术圈内很多人盲目追求什么期刊等级、引用数量、影响因子之类的旁门左道,有些本末倒置了。

“对于最近大家热议图像方法技术路线,你怎么看?我记得你最初不是做图像技术起家的,怎么这一年多基本扎在自然语言里面,忘记老本行了?”聊完虚名,还是要谈些正事。

T方法在自然语言领域的成功,每一天都在加剧大家对图像领域落后情况的讨论。

【为什么自然领域内可以有一个T方法这样大一统的良策,图像领域就不行呢?】

这没道理,说不通啊!

“T方法既然在自然语言领域内这么好用,图像领域也直接用T方法不就好了。”孟繁岐的回答让所有人都感到非常意外。

“就这么简单?”

没什么虚头巴脑的东西,就是这一招直接捅穿。

“你这不是在开玩笑吧?”韩辞一时间分不清孟繁岐这话是真的还是假的。

T方法在自然语言领域卷起风暴已经不止一年了,其他研究人员又不是傻的。

如果直接把T方法搬到图像上就好用,那早不就做出来了?

把别的领域好用的东西拿来试试,很多研究者没有好主意的时候都会这么做。

“图像在现实世界是二维数据,在计算机内是三维矩阵。而自然语言则是一维的序列,这两种东西的形式根本就不一样,怎么可能直接适用于T方法呢?”

韩辞的疑问是非常合理的,由于两种东西的形式相差很大,处理的方法当然是不同的。

这也是为什么图像领域的学者都在尝试借用T方法的核心思想(注意力机制),把这东西往传统卷积里面加,而非是直接把T方法拿过来用。

一群人就像是调奶茶一样,你多加点奶,我多加点茶,来来回回论文狂。

但对领域真的有意义有贡献的,却很少。

“其实许多人对于注意力机制的理解已经非常到位了,做得性能也非常好。但他们的做法都存在一个巨大的问题,那就是图像和语言模型不统一。”孟繁岐的视角是非常宏观且大胆的。

他如果要回头去做图像,那就不仅仅是单纯的图像技术那么简单了。

孟繁岐想要做的,是让同一个模型同时理解图像和语言。

也就是所谓的【多模态技术】。

而想要实现多模态的模型,先就得统一语言和图像的模型结构,也就是孟繁岐所说的学界巨大问题所在。

你做语言要一个模型,做图像又要一个模型,做语音还要一个模型,没完没了了。

那未免太过繁琐了一些,不同模态之间,想对齐也会有很大的问题。

你怎么把文字【狗】和图像【狗】给对应起来呢?

“人类接触一个事物的时候,往往是多模态的。比如看到一碗香喷喷的拉面,先图像映入眼帘,随后在脑中就产生了【面】这个概念,可能会有对话,出声音。味道这个咱们先不提,图像、语言和声音这三种模态,以后肯定是要一起结合的。”

“从人类对智能的追求上来说,如果一个模型它看到了面的图像,却不知道该用怎样的文本来形容,那它肯定还是有很大的提升空间的。而单纯从模型的性能角度,多种模态相辅相成,也会极大地增强模型的准确率。”

孟繁岐这里指的是,即便一个模态出错了,其他模态也可以进行纠正。

比如面的样子做得很丑,图像上无法识别。但通过文字描述和语音形容,这种多模态的智能会更加有可能现自己的错误。

“但这么做的话。。。模型结构肯定要对齐才行。。。现在不同模态之间结构差了这么多。”韩辞当然知道孟繁岐说得对。

谁都知道这个东西好,我一个结构就把所有模态全搞定了,岂不美哉?

问题在于,它怎么实现呢?

图像和语言,它就是长得不一样。

“实现办法也很简单,将图片先统一处理为同样的分辨率,然后分为十六宫格,每一个区块直接展平成为一维的向量,然后加个位置编码表明它们来自哪一个区块就好。”孟繁岐用最简洁的语言大概描述了视觉T方法的最基本做法。

T方法是针对语言设计的,那么视觉T方法要做的就是将【图】转换成【句子】。

图片分十六宫格,每一个格子就像是一个【词汇】。

先拆开进去,再通过位置编码重新处理整合成一维的形式,余下的部分就能够尽可能贴近原本的T方法了。

一张图片,就像是nxn的句子一样。

通过这样的转化,尽可能做到模型零修改,进而一个模型打通图像加自然语言。

“你这个方法虽然没有人做过完全一样的,但其实有人尝试过类似的实验,效果并不好,比传统的卷积神经网络差了很多。”韩辞别的不说,论文看得是真的多,学习态度非常认真。

热门小说推荐
人形武器在七零

人形武器在七零

简介关于人形武器在七零197o年,大坝村,冯家排行老二的姑娘去后山打猪草,结果滚下了山,脑子磕坏了,不过她本来就是个傻子,也没人关心她磕没磕坏脑子。老二,自古以来就是家里最容易被忽视的孩子,冯家更是如此,老大冯春是冯家第一个女儿,掐尖要强,老三冯秋和老四冯承宗是龙凤胎,只有老二,是一个意外,而且她又是个傻子。家里的衣服,冯夏洗家里的饭,冯夏做家里的碗,冯夏刷家里的鸡鸭,冯夏喂若不是她才十岁,冯家人定要拉着她去挣工分他们都说冯夏傻,其实冯夏不笨,她只是三魂七魄少了两魂,阴差阳错,天魂和人魂被卷入时空乱流,去未来3ooo年后过了四十年末日生活,然后被丧尸王爆炸扭曲时空又回到了这个十岁的身体里。三魂齐聚,冯夏看着乌鸡爪子一样的手,嘿嘿的笑,末日没吃没喝,这个地方虽然上头管的严,也不会比那个再差了。天魂和人魂还将冯夏的异能带回来了,巨力。在末世最不起眼的异能,有了食物就能修炼,修炼到巅峰,可有三十牛之力。但是模式里头,哪里有东西给她吃,除非吃人,这个世界就不一样了,冯夏看着院子里跑的两只老母鸡,眼中泛着绿光。7o年代,她来了!后来的冯夏,成了大坝村一霸,无人敢惹,恶名远扬。...

毒妻难逃:仙尊,太强势!

毒妻难逃:仙尊,太强势!

江水烟因七百年前的惊鸿一瞥,对倾漠尘情根深种。她步步为营,终与他成为道侣,但他为登通天之路,献祭神魂断情绝爱,令她赔上了亲人同袍和性命。重回千年前,她被伤至深,决心远离倾漠尘。谁曾想,这一世,他竟然步步紧逼,死不放手。被掳走后,她装傻仙尊,我与你素昧平生,毫无瓜葛。男人黑眸冰封万里,浩若烟海从今往后...

我不是天师

我不是天师

简介关于我不是天师原本以为最差也就是会被张好人卡,哪知好人卡也轮不到的姜涵,为了救班花,连舔狗都做不成,却穿越到了一个充满妖魔鬼怪的平行世界,在这里,他百花丛中过,片叶不沾身,在这里,他!终于不用再做好人,斩妖除魔,登顶术法巅峰才是毕生所向,女人,只会影响他修炼的度。。。。。。...

野性撩惹

野性撩惹

简介关于野性撩惹林染深夜跟朋友酒吧狂欢,醉酒间她靠在墙面,看到不远处有个穿着全套灰色运动服,面容清冷的男人。而他的脸像极了记忆里的那人。所有人都知道金融系高岭之花6启跟林染不合。两人堪称死敌...

警察叫我备案,苦练绝学的我曝光

警察叫我备案,苦练绝学的我曝光

起点VIP20230804完结18231万字393万总推荐文案苏云穿越成一名小主播,苦于没才艺便每天直播‘苦练各种绝学’,想混口饭吃。如飞牌切苍蝇木剑打乒乓球飞针射防弹玻璃跳远蜻蜓点水混日子第一天,苏云学会了飞牌,众人以为他是来搞笑的。第五天,苏云飞牌劈开了黄瓜,众人以为他到此为止。第三十天,苏云的卡牌在十米之外切开了木桩,斩死了苍蝇众人惊愕过后一致认为这是特效!一段时间后,当苏云意外被曝光,并收到传唤去备案时,他更多的技能一个个被曝光了出来一苇渡江的轻功!一剑劈开石头的剑术!堪比子弹穿透力的飞针警察你确定这只是个主播?立即备案为s级归档!本书没有武林修炼界,全书唯我独法,世间唯我一人领悟进化,全靠天赋异禀...

什么土味歌手?请叫我中老年偶像

什么土味歌手?请叫我中老年偶像

作品简介苦读书提供什么土味歌手?请叫我中老年偶像的最新章节和全文阅读更新及时欢迎光临本站阅读什么土味歌手?请叫我中老年偶像您也可以选择收藏什么土味歌手?请叫我中老年偶像...