2017年,怀着“让实验室里的技术走向市场”、“把科研成果写在祖国的大地上”的初心,5位来自中科院自动化所的科研人员,联合创立了一家人工智能公司——中科闻歌,投身于人工智能前沿技术的研发和产业化实践。
七年磨一剑,中科闻歌凭借扎实的技术功底和不懈的场景创新站稳了脚跟,产品与技术广泛应用于媒体、金融、治理等领域。日前,中科闻歌宣布完成新一轮战略融资,由北京市人工智能产业投资基金投资,迄今为止已累计完成超十亿元融资。
本期《论道数智先锋》栏目,新华网对话中科院自动化所研究员、中科闻歌董事长王磊。这位前沿技术的探索者、商业落地的先行者表示,要在赋能千行百业的过程中磨练实力,才能在人工智能的技术浪潮中弯道超车。
人工智能发展一日千里
中科闻歌的“闻歌”二字,和“高山流水”出自同一典故,都源于《吕氏春秋》中伯牙子期的故事。子期能够根据伯牙的琴声,判断出他志在高山还是流水。所以后人用“闻弦歌而知雅意”比喻擅于推理,形容一个人很聪明,能听懂弦外之音。
王磊介绍:“中科闻歌瞄准的是人工智能下一代的新技术——认知和决策智能,认知和决策智能的核心,就是推理和规划能力。”
感知智能、认知智能、决策智能,是业界从技术角度给人工智能划分的三个层次或发展阶段。感知智能就是让人工智能学会“听”或“看”,即运用语音识别、图像处理、视频分析等技术处理信息;认知智能是让人工智能“听得懂”或“看得懂”,这包括对信息的整合、理解和解释;决策智能则是让人工智能在复杂的环境中知道该“怎么做”。
“人工智能无疑是当前最具革命性、颠覆性的技术之一,尤其是ChatGPT掀起新一轮技术革命以来,我们感受到了一日千里的发展速度。”王磊表示,“我们希望公司能引领人工智能的技术发展,从感知智能、认知智能向决策智能跨越,实现人工智能面向复杂场景的商业化落地。”
之所以立下这样的目标,因为中科闻歌的核心团队均来自中国科学院等知名科研院所及海内外顶尖高校。早在公司成立之前,团队在人工智能领域就有了十余年的理论研究、技术研发及应用实践积累,并一直致力于学术研究向产业赋能的探索。
“在人工智能这个赛道,我们既做硬核的底层技术,又做实际的行业应用。”据王磊介绍,中科闻歌以DIOS决策智能操作系统为技术底座,面向各行业数智化转型需求进行研发,通过自主可控的雅意(YaYi)多语言大模型、优雅(YoYa)多模态视频大模型、智川通用决策智能平台,将传统依赖常识及经验的人工决策提升为数据智能驱动的AI辅助决策,实现在具体场景的商业化落地,让人工智能技术赋能千行百业万企。
DIOS决策智能操作系统
“底层技术,是对技术积累的长期坚持;行业产品,是获得市场收入和形成正向现金流的重要来源。这两者形成飞轮、相互促进,在技术和市场两个方向上同时进步,才能支撑起一家公司的持续发展。”王磊表示。
他希望,中科闻歌作为中科院走出来的人工智能企业,一方面要在技术上领先,做到底层技术非常扎实、前沿研究持续推进,同时也要在商业变现和产业落地方面迈出有力的步伐,成为一家可以持续盈利、自我造血的人工智能企业。
大模型的“燃料”不够用了
尽管人工智能发展一日千里,国内外大模型百花齐放,但2024年以来似乎开始遇冷。卷参数、卷性能、卷规模的“百模大战”背后,需要巨量的数据支撑模型的学习、训练和优化,作为“燃料”的数据不够用了,大模型就开始“卷不动”了。
早在全球范围的大模型浪潮出现之前,第三方研究机构Epoch AI就曾发出预警,原始数据增长的速度难以支撑人工智能行业发展的速度。Epoch AI今年6月发布的最新研究称,在2026-2032年之间的某个时间点,科技公司就会用光公开可用的训练数据。
图源:Epoch AI
“想要明白为什么会出现这种情况以及如何解决,首先我们要搞清楚数据、语料和高质量语料的区别。”王磊解释道。
简单来说,数据是一切线上或线下行为留下的痕迹,不管是来自人类还是由计算机产生,包括文本、图像、音频、视频等多种形式。而语料是一个计算机术语,是用于训练算法、机器学习的“原材料”,是教会大模型理解和生成人类语言的“教材”。语料的质量直接关系着大模型的性能,经过筛选和处理的高质量语料,才能够达到举一反三的学习效果。
在王磊看来,高质量数据和语料短缺的问题确实存在,尤其是高质量中文语料更是非常稀缺。
“我们关注到,国外的一些大模型公开的数据训练集中,中文占比不到10%,甚至不到5%,而且其中有大量非主流价值观的语料或数据集合。”王磊说道,“这让我们开始意识到,中文语料是比较欠缺的。”
中文语料的稀缺,归根结底在于全球互联网中文信息的相对匮乏。阿里研究院2024年5月发布的《大模型训练数据白皮书》显示,全球网站英文内容占比高达59.8%,中文仅占1.3%,互联网上中、英文语料占比存在显著差异。
“还有很多中文语料在企业或政府内部,以及图书馆、出版社这些专业机构手里面,无法成为大模型学习和训练的语料。因为很多内部材料并不在互联网上公开,甚至有一些还没有数据化、电子化,这就更凸显出中文语料的不足。”王磊说。
他还指出,即便是互联网上现有的中文网页,要转化成训练大模型能用的语料数据,也需要经过筛选、清洗、优化等多道工序。“比如300TB的数据,可能要去掉90%甚至95%,最后只留下5%高质量和高价值的语料信息。”
所幸“语料荒”的问题并非无解,国家数据局等相关部门已经出台或者正在规划一系列政策,支持高质量中文语料库的建设。比如《“数据要素×”三年行动计划(2024-2026年)》明确提出:“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练。”
王磊呼吁:“高质量中文语料库建设是一个复合性工程,首先需要国家政策的相关支持,其次需要行业之间的市场化交流,最后也要鼓励企业级数据库开源,合力打造一个共同构建、共同运营、共同分享、共同交流的良性生态。”
国产大模型如何弯道超车
高质量语料数据的短缺,让业内不再迷信靠“刷题”来推动模型性能改善的技术路线。中国的大模型企业也不再执着于做“中国版ChatGPT”,以中科闻歌为代表的企业,已另外觅得弯道超车的机会。
虽然以OpenAI为代表的一些国外科技企业,占据了人工智能的先发阵地,但中国企业正在全力赶超。据中国信息通信研究院近日发布的《全球数字经济白皮书》,国产大模型数量占到全球的36%,仅次于美国的44%;人工智能企业数量上,中国也以15%的占比紧随美国之后,位列第二。
在王磊看来,无论哪个国家的企业,都在结合各自优势探索不同发展路径,为拓展人工智能的边界作出贡献,这些研究成果是全人类共有的。
“我们要看到差距、正视差距,同时也要满怀信心。”王磊指出,随着国家牵头,不断加大对人工智能的投入力度,不仅核心技术上的差距将逐步缩小,中国也将凭借其他国家无法匹敌的市场前景,在人工智能赋能千行百业的过程中彰显出强大实力。
今年3月,“人工智能+”首次被写入政府工作报告,为发展数字经济、推进数实融合指明了新路径。从“人工智能”到“人工智能+”,意味着国家层面将加强顶层设计,推动人工智能技术与各行各业紧密融合,加快形成以人工智能为引擎的新质生产力。
王磊也建议:“要把中国巨大的市场和生产力优势利用起来,让人工智能技术和各行各业深度融合,通过生产效率的大幅提升,促进人工智能价值变现;再通过技术的价值变现,让人工智能产业达到新的水平,进一步推动经济的高质量发展。”
依托场景落地驱动技术创新,也是中科闻歌一直以来的发展路线,其应用场景从媒体逐步拓展至金融、政务、能源等各行各业,因此积累了丰富的行业“know-how”。在此基础上,中科闻歌在高质量中文语料库的建设上开始了新的探索——和垂直领域的头部公司、领军机构合作,共建高质量行业语料集。
从熟悉的传媒领域出发,不久前新华网与中科闻歌联合推出了“多模态出版语料生产与智慧服务系统”。打造集多模态语料加工、知识抽取、内容编目与检索的一站式语料生产服务,助推媒体出版行业盘活多年积累的中文语料数据,通过开放共享、流通应用发挥更大的价值。
王磊表示,新华网作为中国最具影响力的网络媒体和具有全球影响力的中文网站,具备引领行业建设中文数据库或语料库的先天优势。中科闻歌则拥有自主研发的技术底座和大模型,又在长期合作中锻炼出将数据转化成高质量语料和对大模型进行优化训练的整套技术。二者联手,自然是强强联合。
“我们期待中科闻歌能够在和新华网的合作中,发挥各自的技术优势和资源积累,把出版行业语料做成一个标杆示范工程。然后把这种创新做法扩展到其他领域,带动各行各业形成共享共用的生态,为我们国家人工智能大模型的训练,提供充足的高质量语料支持、服务。”