首页 > 科技资讯 > 正文
华为的微型人工智能模型略优于谷歌,可以改进许多应用程序,比如手机上的小
2019-10-08 20:01:31
来源:文章来源于网络

研究人员成功地缩小了一个巨大的商业应用语言模型。

谁在乎呢?例如,去年10月,谷歌发布了一款名为bert的模型,该模型通过了该领域一个长期存在的阅读理解基准。该模型的更大版本有3.4亿个数据参数,一次培训课程可以为美国家庭消耗50天的电力。

四个月后,OpenAI迅速推出了gpt-2。这个模型展示了构建令人信服的散文的技巧;然而,它使用了15亿个参数。英伟达公司最新的、也是最大的型号-Megatronlm有83亿个参数。是的,事情已经失控了。

大、坏、丑:人工智能研究人员越来越担心这一趋势的后果。今年6月,马萨诸塞大学(UniversityOfMITAmherst)的一个团队展示了大规模开发和培训模式对气候的影响。他们计算出,培训伯特的碳排放量几乎与从纽约到旧金山的往返航班一样多;推测gpt-2和巨型卫星可能会排放更多二氧化碳。

这种趋势也可能加速人工智能研究集中在少数科技巨头手中。在学术界或资源较少的国家,资源不足的实验室无法使用或开发这样昂贵的模型。

减少人工智能:作为回应,许多研究人员致力于在不丧失能力的情况下缩小现有模型的大小。最近,两篇新的论文在一天内发表,他们成功地对拥有1亿个参数的较小版本的Bert进行了同样的研究。

第一篇由华为研究人员撰写的论文提出了一种名为tinybert的模型,它的大小不到原始模型的1/7,而且速度快了近10倍。在语言理解方面,它几乎和原始模型一样好。第二篇论文由谷歌研究人员发表,比华为的模型小60倍,但它的语言理解能力略差于华为。

他们是如何做到这一点的:这两篇论文都使用了一种常见的压缩技术,即知识蒸馏。它使用你想缩小的大型人工智能模型(教师)来训练一个更小的模型(学生)。要做到这一点,你需要在两个系统中输入相同的信息,然后调整学生,直到它的输出与老师的输出相匹配。

在实验室之外:微型模型不仅可以让更多的人使用最先进的人工智能,还将有助于将人工智能的最新进展带到消费者设备上。没有必要将消费者数据发送到云端,这既提高了速度,也提高了隐私。特别是对于自然语言模型,更强大的文本预测和语言生成可以改进无数的应用程序,比如手机上的自动拼写和语音助手,比如小艾和亚历克莎。