笔趣阁

手机浏览器扫描二维码访问

336 集体后悔的学界合(第3页)

此前BeRT路线的技术就是这个路子,大家会采用不同的BeRT微调,去做不同的事情。

但是gpT系列技术展现出了非同凡响的地方,它不需要你做微调。

在训练的时候,它并未针对翻译、文本分类、情绪分析、文学创作等特定任务。

可在使用的时候,它却都行,并且性能强大。

即便它原本不懂的东西,也只需要你给出一个示例,它就能有模有样地进行回复。

这种看了一个示例的情况叫做oneshot预测,一个示例都不看,直接进行任务的叫做zeroshot预测。

而T方法融入视觉领域后,形成c1ip技术,同时对应文本和图像的关系,就能够做到zeroshot处理图像领域的任务。

16年春天,孟繁岐就正在c1oseaI内部展示这个神奇的功能。

“我们的训练数据是大量对应的文本和图像,所优化的也是它们之间的对应关系,希望做到文字和图像尽可能的匹配。也就是说,我们并没有针对图像分类的任务进行过专门的处理。”

“但现在,不需要任何其他的调整,c1ip模型就可以完成图像分类任务。”

孟繁岐输入了几个图像的类别,并用将对应的图片输入进去。c1ip的预测均是正确的,这从传统的视觉领域视角内来看是非常令人震撼的。

没有经过针对性学习的模型竟然能够高质量完成图像任务?

简直太离谱了!

之所以这么说,是因为传统的视觉分类是与文本无关的。

比如猫狗分类,实际上视觉模型对应的输出只是类别o和类别1。

换言之,模型只关心图像是否是最初约定的那些类其中的一个,而对这个类别本身是什么,有什么含义一无所知。

就更别提能懂得不同类之间的关系了。

之所以可以输出对应的结果,无非是因为人类会自己做一个表,专门去记录类别o和类别1对应的到底是什么类别。

属于是查表操作,和文本的智能理解无关。

可现在不一样了,新的c1ip模型则能够直接将图像对应到人类的语言当中。

同样是在做分类操作,其中的差别不可同日而语。

许多人心中都冒出了这样的想法,仿佛自己距离成功只差一线。

却没有想明白,这里面其实根本就是天壤之别。

外界议论纷纷,聊得火热,孟繁岐则完全没有在意视觉T方法这里的内容。

在他看来,视觉T方法做得再好,也就是图像领域内的突破,没有触及根本。

跟传统卷积网络差了一个点的性能,又如何呢?不解决本质问题。

他选择公布这篇论文,其实更像是一个烟雾弹。

在大家都在关注视觉领域的时候,悄悄将文本和图像串联起来。

“人工智能模型只单独处理图片或者文字,这种单模态的形式是非常吃亏的。因为互联网上已经有了大把现成的数据是图像与文本相对应,又或者有关联的。”

孟繁岐早早就已经收集了大量的文本和图像对应数据了,只是此前gpT系列技术不够成熟,这些文本加图像的数据暂时排不上用场。

比如电商网站数据,店家对于商品图片会有大量的文字介绍和描述。

比如摄影和插画网站,也会对影像作品有一些简洁的表达。

考虑到网站的开需要大量的图片素材,很多开者也会在后台为图片增加备注,以免搞错用途。

这些都是孟繁岐所需要的优质训练数据,目前除了他以外,还没有人能够非常有效的利用这些东西。

“收集这些数据,还有一点好,就是便宜,这些都是现成的。相比我们之前进行的那种详细标注模式,这样搞不仅便宜,还快。”唐璜还是那么在意成本问题。

传统的图像数据通常还是做分析用途,如此一来,就需要给它标注类别,物体的位置乃至轮廓。

标注一张图所需时间不少,成本也不低。

因为孟繁岐需要的数量太庞大了,动辄上亿张都嫌不够。

一张图虽然便宜,但标注多了仍旧不是一笔小数目。

“这种图像和文本的对应关系会不会太弱了?”韩辞查看了其中的一些数据后提出了这种担忧。

孟繁岐说得是没错,图片不用人工去详细标注,直接在网络上抓取很多关联的文本和图像,乃至于使用后台对图片的备注,成本很低,数据也来得很快。

但这也会导致一个问题,你没办法确定文本和图像的关联程度到底是多少。

有的文字描述可能是精确的形状、纹理的描述;有些则可能是功能,效果方面的描述。

更有甚者,文不对图,压根驴唇不对马嘴的情况,想必在当今互联网上也不是什么罕见的事情。

“我们先要做的是基于图像和文本对比的预训练方法,trastiveLanguageImagepretraining(c1ip)。这种方法的根本目的是在大量的文本和图像关系中学到它们匹配的关系。只要有关系即可,具体是什么关系,我们先不操心。”

“我们大量学习文本特征和图像特征的余弦相似性,学的是一种基础能力。后续如果要在特定领域上使用,可以再针对性做微调,并不是要一步到位。”

孟繁岐当然清楚这批数据文本和图像对应情况会有很大波动,但这不影响先出第一版。数据质量问题可以持续再优化。

热门小说推荐
GB欠揍小狼狗又被她吻到缺氧

GB欠揍小狼狗又被她吻到缺氧

穿成臭名昭着的过气女明星!顾森雨不得不开始攻略当年被自己甩了的爱豆前任!当初跟在身后叫着姐姐的小奶狗如今已是圈内顶流。可谓当年有多喜欢现在就有多讨厌她!顾森雨只能耐着性子一点点消除原宿主在对方心中的厌恶值!一回头,那个处处看不惯她的小恶霸已经变成了听话的小奶狗。不仅粘人爱撒娇,还经常躲开众人抱着她要亲亲!!!gB欠揍小狼狗又被她吻到缺氧...

开局被暴打,被封天才是我草率了

开局被暴打,被封天才是我草率了

日更,6点,偶尔其他时间更新,有事会请假本文被一众媒体奉上神坛的天才网球选手穿越网王世界,看到了一群初中生打网球,网球又是发光又是冒火,天才选手叶梧直呼内行!这就是强者的世界吗恐怖如斯!谁给我封的天才头衔,草率了!实力成谜吐槽役受受对自家网球社长的n多行为表面舔狗赞同(今天很好的活下来了!),背地疯狂吐槽温柔腹黑攻我村哥!地表最强!注释1主立海大,三连霸。2慢热,比赛和日常(作者新手不懂,如果觉得前面十章太啰嗦了,从国中篇看网王是可以正常阅读的)2,综漫题材,笔墨不多吧,有涉及小排球,咒术,齐木,名柯,月刊少女,日常大王,轻音等预收文网球切原部长不差钱不,是我老婆不差钱。网王人物太多写不过来。另开一本写切原的三年国中天然直球感情白痴热爱网球庶民切原攻,cp傲娇暴发户二代嘴贱钱多社团经费赞助商才虎受重点1主立海大,三连霸2受是齐神里面的才虎3延续我另一本开局被暴打,被封天才是我草率的世界观。4受网球实力一般,因此这本主写立海大日常恋爱比赛开局被暴打被封天才是我草率了...

人在综武,我攻略女侠就变强

人在综武,我攻略女侠就变强

简介关于人在综武,我攻略女侠就变强许沐枫穿越综武世界,开局就遇到传说中留着空气刘海,杀得只剩下剧名的狠人女帝,幸好觉醒了名为江湖美人录的系统,只要攻略江湖美女就能变强,许沐枫从此美人在怀,快意江湖。...

斗罗之魂力每年升两级

斗罗之魂力每年升两级

无良系统从天而降,可怜的韩枫被迫穿越,如此也就罢了,谁能想到,生米煮成熟饭之后,系统精灵突然告诉韩枫找错人了,直接卸载!?韩枫始乱终弃!忘恩负义!见异思迁!喜新厌旧!系统小精灵瞎说什么!金手指给你!给你就是了!书友群1o343o6262斗罗之魂力每年升两级...

离婚后我娇养了神秘前夫

离婚后我娇养了神秘前夫

被陌生灵魂抢走身体,舒婳在快穿世界历经1o8个女配逆袭任务,终于夺回原身!刚睁眼,就现她原本纤细的身材变成了土肥圆,还被安排了奇葩相亲,又突然记起自己消失之前曾被迫结婚,跟便宜老公只见过一次面。冒牌货霸占她身体后作天作地,众人都说她烂泥扶不上墙,彻底废了。呵,快穿大佬从不畏惧将一手烂牌重新打成王炸!谁知离婚后,原离婚后我娇养了神秘前夫...

四合院:拒绝道德绑架,我无敌了

四合院:拒绝道德绑架,我无敌了

简介关于四合院拒绝道德绑架,我无敌了刘成穿越到了情满四合院,是易中海的徒弟,贾东旭的师弟。被师父穿小鞋,被师兄抢了女朋友,好在激活了怼人就变强系统。一大爷刘成,你必须给我养老送终。刘成养老就免了,送终我可以的。叮咚!一大爷很愤怒,负面能量18oo!贾东旭师弟,给师兄倒茶去。刘成直接泼他一脸。叮咚!贾东旭憋屈,负面能量16oo!贾张氏我儿子是你师兄,你的工资必须孝敬我们家。刘成笑了,你自己多生几个儿子孝敬你可好?从此,拥有金手指的刘成,让四合院的人十分难受。...