大模型应用离我们越来越近了。

进入2024年下半年,生成式人工智能仍然是最引人注目的科技焦点。


从初期对人类指令懵懵懂懂的所谓「人工智能」,到今天听到一个口令就能老老实实地为我们绘画、写稿、生成视频……AI带来的生产力显著提升,很多人都希望用它辅助自己的工作学习,以此提高效率,甚至偷点小懒。


诺贝尔奖对大模型和神经网络的认可,进一步激励着国内外,科技龙头企业密集推出人工智能大模型,投入资源、潜心研究,业界呈现出百花齐放、迅猛发展的态势,这场环绕全球的大模型之战已然烧得如火如荼。


而在这之中,早早开启全民测试,并已经经历了数次迭代的讯飞星火,显然是个特殊的存在。


1000046407.jpg

(图源:雷科技)


10月24日,在这个无比熟悉的日子,第七届世界声博会暨2024科大讯飞全球1024开发者节正式在合肥奥林匹克体育中心举办,小雷也受邀参与了本次开发者节的开幕演讲。


在今天上午的大会上,讯飞重磅发布讯飞星火4.0Turbo,底座能力再次升级,特别是数学、代码和长文本能力显著提升,中英文综合能力保持业界领先水平,同时训练推理效率大幅提升,进一步满足日益增长的规模化落地需求。


不仅如此,今年流行的多模态交互及超拟人虚拟人交互能力也来了,诸如教育、医疗、科研、司法、政务等领域行业大模型及更多落地应用产品也得到了升级展示,不妨现在就跟着我的脚步,一起去看看吧。


讯飞星火升级“一箩筐”


自从去年五月份发布以来,讯飞星火大模型在短短一年半内经历了数次迭代,星火认知大模型V4.0的快速落地,更是推动着讯飞大模型能力迅速迫近行业前列。


那么这次讯飞,又能给我们带来什么惊喜呢?


首先来看看底座大模型讯飞星火4.0 Turbo的全新升级。


1000046428.jpg

(图源:雷科技)


目前星火在文本知识、语言理解等七大能力全面超过GPT-4 Turbo,在数学能力、代码能力更是超过GPT-4o,当前已完成超长思维链、树搜索和自我反思评价等算法验证,预计今年底可实现类o1的高难度数学能力显著提升。


1000046429.jpg

(图源:雷科技)


不过刘庆峰坦言,目前星火在逻辑推理和多模态能力较GPT-4o还有所差距,依然需要持续追赶。


具体功能上,这次讯飞重点介绍的是全新的多模态交互和超拟人虚拟人技术


今年上半年,OpenAI更新的GPT-4o震惊了不少业内人士,这种实时对音频、视觉和文本进行推理的效果,向更自然的人机交互(甚至是人-机器-机器交互)迈出了重要一步。


五个月后,科大讯飞也在本次大会上首度公开展示自家的星火极速多模态交互技术。


1000046434.jpg

(图源:雷科技)


简单来说,多模态交互就是通过结合多种感知形式(如视觉、听觉、触觉等)来实现更自然、更高效、更准确、更灵活的人机交互。


在我看来,这种技术的核心在于融合来自不同模态的数据,大模型需要准确判断出输入数据的类型,获得意图信息,这样才能在更广泛的上下文中理解和处理任务。


所以现场展示,也得从信息的输入开始。


负责现场演示的,依然是我们的老朋友讯飞研究院院长刘聪,带着大伙一起探索全新的实时语音对话。


1000046435.jpg

(图源:雷科技)


在对话过程中,星火会主动捕捉到用户当前所处的状态并积极发问。例如在刘聪表示最近航班延误太多,超拟人数字人就会主动嘘寒问暖,甚至还会对现场的大伙卖萌,挺有趣的。


再看看视觉交互,现在星火也可以根据摄像头感知周围世界的信息了。


拍摄桌上的手办,星火能够正确识别出孙悟空和奥特曼的角色信息,甚至还能根据刘聪摆出的姿势推断两名角色之间究竟发生了什么,还会对此添油加醋融入自己的理解。


这个功能,让你在海外出游时也能获得实时语音翻译和旅游助手,手机可以拿来当翻译机来回翻译中文和英语,甚至还能够帮你辨识出不同规格的海外产品,并给出合适的购买建议。


想更个性化一点?


搭配上既有的仿声功能,现在仅需一张照片就能生成数字人,实现更加立体的个性化多维表达,就现场刘聪和自己的分身刘小聪对话的画面,看起来非常有意思。


1000046436.jpg

(图源:雷科技)


不仅如此,今天还有惊喜。


讯飞还发布了星火多语音大模型,首批支持中英之外的八个语种,官方称多语言大模型效果整体达到了GPT-4o的96%,多行业任务场景效果甚至超过GPT-4o。


从官方的演示来看,星火多语音大模型主要是用于助力产业出海或是赋能外贸产业的,让使用其他语言的消费者,也能体验到星火大模型的会议记录摘要、知识检索推理、复杂场景意图理解等一系列功能,无需依赖海外大模型的加持。


1000046441.jpg

(图源:雷科技)


全国产算力加持的大模型,迈出了走向海外市场的第一步。


星火走向场景,落地千行百业


当然,和我们普通人不同,比起这些生活化的应用,很多业内人士更关心的是这样的大模型究竟会如何影响行业动向。


比如说,今天首发的汽车端侧星火大模型。


1000046445.jpg

(图源:雷科技)


刘庆峰介绍,很多车主应该都试过在开车经过山洞隧道,或在其他特殊场景下,遇到无网的情况;也有些用户出于保护个人隐私需求,不希望将个人数据同步至云端。


为了解决这个问题,就必须将大模型部署在汽车端本地,为此讯飞推出了参数量约1.3B的端侧大模型,相比云端效果损失≤1%,端侧首次响应40ms,实用效果几乎没有差异。


从今年第四季度开始,奇瑞、广汽、长城等多款车型将会陆续集成端侧星火大模型上线并开售,用户很快就能体验到。


在教育领域上,这次科大讯飞AI学习机发布了“AI作业过滤器”,用大模型帮学生科学减负。


1000046448.jpg

(图源:雷科技)


据官方介绍,AI学习机通过OCR能力识别出练习题目后,可根据学生历史学习情况和本地化考情,将题目分出“必做题”“选做题”“建议不做题”三个等级,学生可以快速排出学习优先级,避免重复无效刷题。


当年我要能有这么一台机子,浪费的无用功起码得少个50%吧。


当然,也有针对教师侧的赋能,除了常规升级的讯飞智能黑板2.0外,讯飞联合中国教科院首发“基于问题链的高中数学智能教师系统”也即将正式上线。


具体来说,这项技术就是把常规的问题拆解成多步骤的问题链,通过这种方式带领学生深入理解学科概念,提升学习效果。官方称试点应用显示,学生的参与感与兴趣明显增强,教师的教学效率也得到了提升,评估反馈均相当积极。


对了,这次星火医疗大模型也更新了,来到了2.0版本。


1000046455.jpg

(图源:雷科技)


这次更新中,最重量级的肯定是全新的讯飞星火医学影像大模型,讯飞通过大量医疗影像实例训练,可实现各类影像自动质控,支持同一影像多病种识别诊断。


此外,讯飞还展出了能够实时翻译汉语和德语等多种语言的多语种AI翻译透明屏;能协助政务机构办公的星火智办一体机,以及能够测试智能座舱人机交互效果的VIAS评测机器人。


1000046417.jpg

(图源:雷科技)


据科大讯飞董事长刘庆峰在演讲时透露,今年1月至9月,讯飞星火智能硬件GMV同比提升50%,截至10月23日,双十一大促全渠道GMV同比增长280%,讯飞的软硬协同之路已然走上正轨。


讯飞要让大模型更好用、更实用


整个发布会看下来,科大讯飞正在做的事情还挺好理解的:


“让大模型更好用、更实用。”


在我看来,大模型要想在行业规模化应用,像水电一样输送给千家万户,必然需要更多企业和开发者的共同参与,仅靠一家公司是难以完成的。而构建人工智能“星火”生态,正是讯飞持续努力的目标。


在讯飞介绍的落地实例中,我们不仅看到了政企逐渐实现智能化转型的画面,还有教育、医疗、科研等多个行业的稳步推进,越来越多的企业希望通过引入大模型技术来“解放生产力,释放想象力”。


1000046466.jpg

(图源:雷科技)


稳住消费者、教育、医疗、汽车等“根据地”,切入运营商、金融、能源、交通等“新领域”,还要在企业市场的规模化推广中扎根,这就是讯飞星火的商业化路径。


诚然,现阶段OpenAI的产品或许在多模态、推理能力上依然有优势,但是说断供就断供,说切断就雷厉风行地切断了国内厂商和开发者们绕开限制使用OpenAI的路径,这种做法使得国内企业根本不能放心使用。


相比国外科技企业,中国科技企业更善于做“接地气”的落地。更加丰富的硬件品类、更快落地的技术应用、更加蓬勃的产业生态还有优势明显的视频生成领域,都是科大讯飞们在持之以恒后取得的出色进展。


没错,讯飞星火的这次底座更新,正是对未来可能性的一次探索。


它展示了科大讯飞在人工智能领域的深厚积累,也展示了中国在人工智能领域的强大实力,证明在自主创新的算力底座上,通过领先的算法和数据构建世界一流的大模型并不是一场梦。


1000046468.jpg

(图源:雷科技)


不仅如此,在本次大会上,国产超大规模智算平台“飞星二号”正式启动,该国产算力平台将带来新模型新算法的持续适配和智算集群规模的再次跃迁,持续探索无人区,并给国内外产业提供第二种选择。


属于国产大模型的时代,或许已经不远了。