欢迎来到区块链早报官方网站!
首页>>资讯 > 正文

百度被网暴,AI大模型“套皮”海外知名项目,百度首次回复:假的!

区块链早报 发布时间:2023-03-23 14:37:34 AI百度文心一言
热度:159℃
图片来源:无界AI画绘画工作生成
图片来源:无界AI画绘画工作生成

3月16日,百度创始人李彦宏做了大语言模型“文心一言”的发布会。

结果,观众只记住了白衬衫和白腰带,并且纷纷表示好奇,李彦宏保养的不错。然后感慨,Robin Li与其分享百度雄心勃勃的语言大模型,不如讲一讲如何保养,搞不好还能带个货,股价也许就上去了。

虽然,网络上键盘侠吐槽很多,但还是有很多媒体写到:《中国百度硬刚chatGPT,国产之光》。没办法,AI这个领域,好像只有百度能打,起码,大部分公众的认知是这样。

如果说16日发布会后公众的态度是希望百度扛起对线chatGPT的大旗。这两天,画风变了,吐槽排山倒海而来,可以说是怒其不争了。

首先是一批图片,显示文心一言理解能力很差。

另外,还有一批图片,更是把文心一言给狠狠锤了一把。大意是说,文心一言更懂英文,不懂中文。直言百度作假,文心一言是套壳了chatGPT,水货。

那么,真的是这样子吗?


百度文心一言被爆锤,国产都不行?


微博账号“刘大可先生”锤百度的文字被传播得很广,光点赞就有2.2万。

他是这么说的:百度这个所谓的人工智能,其实就把中文句子机翻成英语单词,拿去用国外刚刚开源的人工智能“Stable Diffusion”生成了图画,再返回给你,说是自己画的。

他给出的理由有很多,这里仅举一个例子。

上图,“刘大可先生”的要求是画“云中的平面”,结果文心一言画了个飞机,“刘大可先生”说,这是因为“云中的平面”机翻之后是“plane in cloud”,所以文心一言背后的英语的人工智能当然会画个飞机。

下面这张图在社交网络传播非常广,揭示的“真相”与上文是一样的。

自从chatGPT诞生后,以及包括一系列AI画图软件,像Stable-Diffusion、Midjourney、DALLE等诞生以来,我们其实看到了很多的应用,底层都是这些开源的模型。但是通过“汉化”,可以给中国的用户带来很好的体验。

百度的文心一言是不是也这样?这个“判断”可能是武断的。

2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,但是很快就被吐槽,它的中文水平不如英文。

3月30日,阿里达摩院低调地在魔搭社区(ModelScope)放出了“文本生成视频大模型”。结果,这个大模型也是更懂英文,有体验者写到,他输入提示词:A panda eating bamboo on a rock。77秒后,大模型给出了一个2秒的熊猫吃竹子视频。如果换成中文:一只大熊猫坐在岩石上吃竹子。出来的结果就是一只类似于猫咪的小动物。离题万里。


中文数据天生缺陷?


为什么会这样呢?

在微博账号“刘大可先生”爆锤百度的微博文字下面,第一个留言的名叫“欧阳少悭",他说,文心一言出现这种情况的因为在于,目前开源的图文数据大部分是英文的,可以参考LAION这个开源数据库,所以目前的diffusion model基本都是英文驱动,这也导致了“刘大可先生”说的怪异现象。

“当然,我们期待同等规模的中文开源数据库的出现。stable diffusion是一种网络结构,开发者完全可以使用LAION数据集和sd结构训练一个自己的网络,不需要套皮。”他说。

23日中午,百度官方公众号发了一则声明,写到:“文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。在大模型训练中,我们使用的是全球互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。”

有从业者称,这基本等于承认使用了LAION。LAION,这是目前最为知名的大规模图文多模态数据集。作为一个非营利性组织,LAION提供数据集、工具和模型来解放机器学习研究。官网写到:我们通过这样做,鼓励开放的公共教育,并通过重用现有数据集和模型来更环保地使用资源。

从这个角度理解,说文心一言“套皮”或许还是比较武断的。到底是不是“套皮”,或者百度的语言大模型在技术上有没有参考海外项目?我们还要等待更多的来自行业的披露信息。

但是,这个事情从侧面肯定能说明一个问题,虽然,我们一直强调中国有海量的数据,但企业的实践却表明:不好用。

复旦MOSS大模型被质疑中文水平不如英文时,MOSS研究团队就坦承,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”

而澎湃新闻采访了粤港澳大湾区数字经济研究院(IDEA)认知计算与自然语言中心文本生成算法团队负责人王昊,他说:“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”

有一个数据很现实:虽然简体中文互联网用户和英文互联网用户规模相当,但在全球排名前1000万个网站中,英文内容占比60.4%,中文内容占比仅为1.4%。

这会是中国企业探索大语言模型的问题和瓶颈吗?可能也不是。或是观念,尤其是意识形态的阻碍更大。

中关村新场景MA Club发起人檀林在一次分享中质问:“做一个中国的大语言模型,自己给自己砌一道墙,和全球分开。就像做一个纯中文的操作系统一样,能有多大的意义?大家都知道,简体中文的数据质量很差,语料库的知识含量和价值已经比海外的几个大语言模型要低得多了,所以如果现在还非要给自己一个束缚的话,我觉得这种态度在开局就输了。”

中国企业要想在大语言模型的赛道分一杯羹,蹚出一条路,使用英文数据是不得已,没办法。当然,我们显然更期待中文数据领域能有更好的发展。


热门文章

  • 上车交易所平台币最后的机会!QKEx平台币将于UTC+8时间11月8日12:00开启平台币最后一轮IDO
    上车交易所平台币最后的机会!QKEx平台币将于UTC+8时间11月8日12:00开启平台币最后一轮IDO

    上车交易所平台币最后的机会!QKEx平台币将于UTC+8时间11月8日12:00开启平台币最后一轮IDO

    QKEx是QK集团于2020年开始自主研发的全球化加密资产综合服务平台,包含现货、合约、理财、算力挖矿等多板块业务;QKEX首创CommunalFI的行业全新概念,计划实现社区行为经济上链,打造去中心化社区经济及交易生态。 据官方消息,QKEx将于UTC+8时间11月8日12:00开启平台币最后一轮IDO,官方对外显示第三轮IDO价...

  • CyberCrowdChain(CCROWD)将于1月17日上线HTX
    CyberCrowdChain(CCROWD)将于1月17日上线HTX

    CyberCrowdChain(CCROWD)将于1月17日上线HTX

    据官方消息,CyberCrowdChain(CCROWD)将于1月17日上线HTX,存款将于1月13日13:00开放,在存款量满足市场需求时开放CCROWD/USDT现货交易对。据悉,CyberCrowdChain是一种基于以太坊的代币,它继承了传统加密货币的安全性和透明性,并融合了人工智能,为资产表示和交易过程带来更高的可信度和创新性。CCROWD目前已上线Polon...

  • 理财新选择,托菲斯打造 Bitcoin 价值增值共享平台
    理财新选择,托菲斯打造 Bitcoin 价值增值共享平台

    理财新选择,托菲斯打造 Bitcoin 价值增值共享平台

    据官方消息报道,托菲斯正式发布其全新挖矿理财服务,为广大用户提供Bitcoin价值增值的共享平台。作为业界领先的大型 Bitcoin 矿机企业,托菲斯以其雄厚的实力和卓越的技术,在挖矿领域独树一帜。凭借专业的技术团队和深厚的行业经验,托菲斯创新推出挖矿收益与存币生息双重收益模式,一方面,托菲斯支持三十余种主...

  • QKEx交易所已确定会在UTC+8时间11月11日16:00正式开启$QQT代币上线交易
    QKEx交易所已确定会在UTC+8时间11月11日16:00正式开启$QQT代币上线交易

    QKEx交易所已确定会在UTC+8时间11月11日16:00正式开启$QQT代币上线交易

    据官方消息,QKEx平台代币$QQT第三IDO发售已于UTC+8时间11月9日23:59:59准时结束,此后$QQT将不再对外发售! $QQT是QKEx平台所发行的唯一治理及流通使用代币,代币总量5亿枚,将于6年内释放完毕;在代币发行之初QKEx为$QQT持有者赋予了多项权益; 权益一,持有者可享受平台40%盈利分红,该分红范围...

  • 绝佳的投资机会,财富巅峰尽在Ulinx!
    绝佳的投资机会,财富巅峰尽在Ulinx!

    绝佳的投资机会,财富巅峰尽在Ulinx!

    高回报率Ulinx以超高收益和闪电般的成交速度著称。我们为您提供通往财富巅峰的捷径!资金安全保障您的安全是我们的首要任务。Ulinx采用世界一流的安全技术和协议,确保您的资金安全无忧。我们一直在为您的利益而努力,给您无与伦比的安心体验。百万活动奖励&n...

  • SOAI 完成 500 万美元天使轮融资,Archer Capital 和 XForce Capital 领投
    SOAI 完成 500 万美元天使轮融资,Archer Capital 和 XForce Capital 领投

    SOAI 完成 500 万美元天使轮融资,Archer Capital 和 XForce Capital 领投

    AI 社交平台 SOAI 完成了 500 万美元的机构天使轮融资,其中 Archer Capital投资 300 万美元,XForce Capital 投资 200 万美元。本轮融资将加速 SOAI 在AI 情感通讯领域的技术创新和市场扩张。新的计划包括深化 AI 情感理解和匹配技术,优化用户体验,扩大全球市场。SOAI 是一个起源于硅谷的创新型 AI 平台,...

  • 全球首个RWA赛道去中心化交易所FonsionDex全球宣发3.7号上线
    全球首个RWA赛道去中心化交易所FonsionDex全球宣发3.7号上线

    全球首个RWA赛道去中心化交易所FonsionDex全球宣发3.7号上线

    FonsionDex凤笙去中心化交易所由老挝MY BIOTECH集团开发,总部位于老挝国家,集团在老挝、中国政商界有着极为广阔深厚的资源与背景。此外,肩负着建设老挝文化经济特区使命、加速老挝数字经济发展,是老挝数字经济改革的首批试点单位。...

  • 区块链畅销书作者签售会
    区块链畅销书作者签售会

    区块链畅销书作者签售会

    12月6日,在马来西亚吉隆坡,金典议会《通证经济》一书举办签售会。该书由李嘉诚主席、赵梓雄博士、翁祖福博士合著。作为区块链畅销书,该书深入剖析通证经济。签售会上,作者们与读者亲切交流,分享创作心得,强调通证经济对经济结构的影响。此次活动不仅拉近了作者与读者的距离,更促进了区块链知识的普及。相信通证...

  • 奖池一千万美金,零成本参赛!Biking交易所开启年底交易狂欢赛
    奖池一千万美金,零成本参赛!Biking交易所开启年底交易狂欢赛

    奖池一千万美金,零成本参赛!Biking交易所开启年底交易狂欢赛

    2023年12月20日14:00(UTC+8),Biking交易所正式开启年度交易狂欢赛,本次大赛共分为模拟交易大赛、合约交易大赛、现货交易大赛三大赛区,大赛总奖池价值高达一千万美金!据悉,Biking年度交易大赛主赛区为模拟合约大赛,报名参赛即可获得价值十万美金的模拟合约专项金,并参与总奖池瓜分。大赛有效时间:202...

  • ​​新加坡交易所ULINK即将正式上线现货交易,并赠中秋礼盒套装
    ​​新加坡交易所ULINK即将正式上线现货交易,并赠中秋礼盒套装

    ​​新加坡交易所ULINK即将正式上线现货交易,并赠中秋礼盒套装

    2023年9月5日,新加坡交易所ULINK发布公告,ULINK现货交易板块即将迎来上线。 经过ULINK技术团队的全力研发,本次功能升级的最大亮点是一直以金融衍生品加密货币交易所为核心定位的ULINK上线了现货交易板块。 目前ULINK的金融衍生品矩阵经过不断沉淀,已涵盖永续合约,闪电合约,网格交易,期权等多...

观点

更多 >
  • 蚂蚁原副总裁漆远创业公司被曝all in大模型,原方向AI制药不做了
    蚂蚁原副总裁漆远创业公司被曝all in大模型,原方向AI制药不做了

    原文来源:量子位图片来源:由无界 AI‌ 生成从AI制药全面转向大模型领域!这是蚂蚁集团原副总裁,复旦大学AI创新与产业研究院院长漆远正在做的事。他创办的公司无限光年,现在从AI制药领域,转向专注于生成式AI和AGI研发。量子位获悉,这家公司规划自研百亿千亿大模型搭建底座,最终构建行业应用落地医疗、游戏和教育场景。...

  • 百度文心一言潜藏风险,AI视频素材来源不明,创作者或陷版权风暴
    百度文心一言潜藏风险,AI视频素材来源不明,创作者或陷版权风暴

    作者:IT时报记者:孙妍 编辑:钱立富 孙妍3月16日,李彦宏携百度文心一言亮相,并宣布开放邀请测试。虽然文心一言的能力受到了质疑,但毋庸置疑的是,百度是全球第一个挑战ChatGPT的大厂。李彦宏也已经预见,文心一言在与ChatGPT正面比较时会令大众失望,但百度认为,文心一言有两大优势:一是,画图、写长文、...

观点李彦宏:中国基本不会再出一个OpenAI,创业公司重做ChatGPT没多大意义
观点AI“春晚”英伟达又甩王炸!ChatGPT专用GPU来了 还要赋能芯片制造
观点GPT-4会让多少美国人失业?OpenAI:高收入工作会面临更大影响
观点AI企业如何发展,“中国版chat GPT”给出了答案
观点英伟达CEO:现在是AI行业的iPhone时刻