手机浏览器扫描二维码访问
而现在,孟繁岐的意思很明确了,那就是图像上同样可以做类似的事情。
在任意图片上进行类似的挖孔遮挡操作,然后将重构出原本的图片作为模型的训练目标。
这么做的话,利用这些图片也就不需要进行任何操作了,不需要标签即可利用数据。
又或者说,这些图片本身就是它们的标签。
“我觉得这个思路不大对,图片相比文本本身信息密度就低很多了。如果模型要完全预测对原本的图像的话。。。那肯定就要浪费大量容量去模拟那些根本不重要的区域。这个学习的目标显然是有问题的。”c1oseaI内部的讨论风气还是非常优异的。
大家并没有因为孟繁岐老板加领域领军人物的身份就盲目地相信他。
即便孟繁岐已经多次证明了自己的预判总是那么准确,但面对反直觉的思路,大家基本上都会据理力争。
“你的说法有一定道理,如果我只遮挡非常少部分的图像,比如1成左右,那这个重构图像的过程就很容易陷入完美模拟原图的陷阱当中。实际上我们根本不需要模型有这么强大的能力,既然如此,为什么不干脆选择一个模型没法重构出原图的情景去训练呢?”
孟繁岐这里说的东西就涉及到制图aI的本质了。
假设现在有一张图片,它的内容是一瓶可乐。
人们需要的制图aI,是能够画出基本相似内容的,而非是要百分百复刻原图。
如果这个aI把可乐瓶身上,编号、生产日期等乱七八糟的东西全复原了,其实它就已经落入了孟繁岐所说的【完美模拟原图的陷阱】当中。
对于制图aI来说,有些东西是要学的,而有些东西是没用的。
这两者怎么区分,其实人类自己也很难说出个所以然出来。
孟繁岐给出的办法是:“给定一个模型一定没法重构出原图的场景去训练。”
说白了就是压根就没想让模型完全恢复原图。
还是那瓶可乐的例子,如果遮住了瓶盖,这个场景aI能够重构出原图。
举个极端的例子,若是桌上整个可乐都被遮掉了,aI又如何能从余下的像素当中,非要判断这里应该有一瓶可乐呢?
那就没道理了。
孟繁岐认为,在这样高难度的情况下,aI模型能学到的东西是比较重要的,学不到的东西不去勉强。
“这个思路。。。稍微有些东西。我们都知道,相比高频信号而言,神经网络更擅长抓住低频的信号。而高频的内容基本是局部细节,低频更多的是全局的轮廓等内容。”有人觉得虽然现在文本生成图像的效果不佳,但主要是细节上太异常了,让人看了觉得很离谱。
大致轮廓上还是比较合理的,或许按照孟繁岐的方式能够淡化这方面的问题。
“你们仔细想想,和T方法其实是一个道理。凭什么T方法在语言领域一统江湖了,视觉领域却还是大家自己玩自己的?一套视觉T方法不是照样能够统一视觉任务吗?”
“同理,为什么语言领域的无标签预训练已经可以使用相同的模型了,视觉领域却不能使用相同的方法来利用这些没有标注的图像呢?”
“我觉得无非是两个原因,一是以前各种网络结构不统一,传统的卷积神经网络太不灵活。这个问题已经被我们用视觉T方法解决了。”
“二,图像信息密度太低,挖孔少了模型就偷懒,很容易过分地拟合一些不必要的细节。这点我们刚刚讨论了,加大这个比例可以更好地学到高层级的抽象特征。”
孟繁岐侃侃而谈,这一套操作与残差思想相同,都是前世kaiming主导的研究。
kaiming出品,突出的就是一个大道至简,简介简单却又扎实好用。
“你们猜猜重构出一张照片需要原本百分之多少的像素?”孟繁岐提出了这样一个疑问。
在自然语言领域,这个比例大概是百分之9o左右。
必须要9成左右的文字,才能够比较合理地补全余下的部分。
“七成?”
“五成吧?”
大家都清楚图像的语义更加稀疏,因而大幅度地减少了这个比例。
“我的看法是,一成足够重建,三成可以重建得非常接近。”孟繁岐的这个说法是当时maskedautoencoders(mae)这篇论文的实验结果。
在图片被遮挡百分之七十五左右的情况下,经过重构训练的模型几乎能够完全复原原本的图片内容。
当然了,这里是指基本的图像内容和含义。
在具体的细节纹理上面,肯定还是有一些差异的。
而在图片被遮挡了百分之九十五的情况下,重构模型仍旧能够复原出含义基本相同,内容有一定相关性的内容。
这在当时给了孟繁岐非常大的震撼。
如此夸张的数字,几乎是违背所有领域内研究人员直觉的。
而违背直觉的结论,往往是领域重大进步的开始。
“你们先别急着惊讶,我们理性一点思考这个问题。”孟繁岐知道现在的视觉领域还没有什么特别成功的案例可以直接利用不加标注的图像。但在自然语言领域,是已经有了类似成果的,c1oseaI自己就做了很多研究:“你们想一下,gpT系列的时候,我们那么多无标签的文本是怎么利用的。”
“那就是重构任务呗,在数据上挖洞让模型尝试复原。但你自己也说了,文本的信息密度大,就算挖洞模型的噪声也很小。这一点图像方面肯定很不一样的。”c1oseaI在做gpT系列的时候经常给句子挖洞,通常是2o个词挖掉1到2个,让模型根据上下文去猜测缺失的词汇是什么。
通过这种方式提升模型的语言能力,不需要给文本本身进行任何的标注,是一种非常低成本的数据利用方式。
毕竟这个世界上没有标签的数据占了绝大多数。
而现在,孟繁岐的意思很明确了,那就是图像上同样可以做类似的事情。
望着眼前古香古色的房间?这是什么情况啊?现代最大的百货业龙头女王意外穿越至启国,成了一等靖安侯府唯一的千金和子嗣。其父亲一方的正二品封疆大吏,母亲为救全城百姓而牺牲,被封为正一品的贞烈夫人,正经的名门世家。以往的娇气任性识人不清?不怕,那个什么扮猪吃老虎这年代都弱爆了,姐姐最擅长的就是扮兔子吃大象,瞧瞧都是瑞兽哎,啧啧这比例多么的震撼!以往不擅经营,虽有万贯家财结果手头拮据都被人骗去?不怕,姐姐本就是百货女王,敛财敛物都是经营强项,商道才是唯一的正理!以往视金钱如粪土,不肯花一分的心思。这也不怕,这世界没有什么比银子更贴心安全实在的东西了,乃是姐姐最喜爱之物,费点心思怕什么?重要的是君子爱财取之以道,小赚宜室宜家,中赚家致富,大赚扬名立万,赚暴了利国利民,瞧瞧,商人多么的伟大!且看百货女王在这个朝代,如何将商人推到最高位,如何打造自己的商业帝国,如何振兴家业,振兴国业!...
这都什么世道啊,她就是吐槽都没打分这都不行?穿书就穿书怎么还能穿成自私恶毒的女配呢,她还想替天行道来着。上辈子单身狗,这次怎么也得找个男朋友!哎,那个谁你怎么老掐我桃花。连正在萌芽的都不放过。某大佬有我在,连只小动物都不能有!大佬爱吃鱼...
简介关于快穿美貌宿主令人神魂颠倒避雷女主属于成长型,后期从万人迷进化成万物迷,植物,动物,鬼怪,人类都无法抗拒她,因为能力出众,不局限于一种任务)女主天下无敌第一美,清纯与娇媚的顶级结合体,身娇体软。她什么都不用做,世人就会为她痴,为她狂,为她哐哐撞大墙!江晚棠是时空管理局的金牌任务者,在一次任务中,因为爱上一个人付出惨重代价,从此封心锁爱!当任务完成后,所有记忆回归。她才记起原来一直蠢萌垃圾的系统曾为她做了那么多,用所有功德点和时空币带着系统一起回到了留有诸多执念的现实世界。一扬州瘦马男二上位,强取豪夺)二自闭少年的救赎1v1有变猫情节三娱乐圈花瓶1v7四质子的曼珠沙华虐渣,后期才有真正的男主出现五7o年代娇妻对照组作精1v1六pk赛穿书后被病娇反派宠上天七国运国家爸爸别怕,脸在江山在ing在这个世界里,所有植物动物怪物都爱女主八全世界唯一一只纯种动物中期变人...
简介关于西游我阎王逆子,逼疯洪荒大佬洪荒西游系统穿越阎天衡被女友抛弃,雨中被车撞,现穿越成了阎王逆子,被羁押于三十三层地狱,他诛杀酆都大帝及地藏王,逃出轮回禁殿,被西游世界的洪荒大佬追杀,躲至花果山在灵石之内和东皇太一吃着火锅,却吃成了圣人,气的东皇吐血,逼迫魔祖罗睺祭出诛仙第五剑,气的差点自断一臂,气的鸿钧吐血,逼的三千混沌魔神跪地求饶如来求求你带着悟空西游吧玉帝求你做这天帝吧阎天衡我没时间,我要...
穿越妖神世界,修炼资质太差的冼河,意外获得了多子多福系统。每多一个后代,他的寿命就会得到延长,修为也能够得到增长,还能获得丹药战兵功法等奖励。为了长生不老,为了消灭圣帝,冼河毅然决定,要打造出一个多子多福的最强家族。当别人在猎杀妖兽的时候,冼河当别人在疯狂修炼的时候,冼河当别人在秘境冒险的时候,冼河妖神记娶妻成神,多子多福...
李正在长安因为太笨被赶出书舍,很多人都觉得他是一个不正常的人。当他解开了九章数术,破解了阴山战局,整个长安的人都在找他诗文,数术,医术李正在长安成名。五姓招揽,帝王邀约,皇子拉拢。风光正当此时,李正却在众目睽睽之下避世不出。房玄龄李正,朝中形势严峻请你出山吧。李淳风李正,我把推背图送你了,请你出山人在大唐已被退学...