金融大模型:如何从能力涌现走向价值涌现?

当模型突破某个规模时,性能显著提升,表现出让人惊艳、意想不到的能力。比如语言理解能力、生成能力、逻辑推理能力等,这就是“涌现”。

2022年11月以来,随着OpenAI发布ChatGPT,全球迎来AI大模型热潮。到今年3月BloombergGPT的推出,在国内引起对金融垂直领域大模型应用的关注。

“传统的AI模型,参数量少,通过大量的数据标注、大规模的模板配置来实现。换一个场景就要再重新来过一遍,泛化性不足,被诟病为有多少人工,才有多少智能。而大模型基于GPT——生成式预训练tranformer技术路线,通过预训练、微调、奖励模型、强化学习四个主要步骤和千亿级别参数规模,做到了令人惊艳的效果,也就是我们所说的能力涌现。 另外与以往AI技术和应用两条腿走路不同,这一轮是技术与应用并驾齐趋而来:ChatGPT、office全家桶、Midjourney等现象级应用的出现,告诉我们AI现在正迎来iPhone时刻。”在近日恒生聚源主办的“大模型在金融行业的应用与展望”研讨会上,恒生电子高级副总裁、恒生聚源董事长王锋提到,“当技术、模型、数据、应用快速形成闭环,将产生真正的业务价值,AI进入了从能力涌现走向价值涌现的新阶段。”

据恒生研究院院长、首席科学家白硕介绍,基于Transformer架构,大模型目前分为两条技术路线,其中GPT的单向预测模型可以理解为“接龙”,而另一条路线类似于“填空”,前者通过一条示意可以容纳包括知识、推理、引导、详细说明,甚至代码的预测,后者需要两边文本的信息指示。

“GPT对AI行业的冲击非常大。”白硕表示,在此之前机构部署的AI系统都是“烟囱式”的单个系统,“诸多小模型的训练使堂堂分析师沦为数据标注员,而模型的可用性也难以得到保障。”

富国基金信息技术部总经理李强提到,在基金行业的AI应用中,自然语言处理、文档解析、智能客服、发票识别、表单提取等小模型应用都已相对成熟,但“烟囱式”发展问题非常严重。

“小模型和大模型也存在经济学中的‘不可能三角’。”申万宏源证券研究所所长助理刘洋提到,小模型强调了精准度、利润率,但弱化了智能化程度,大模型恰恰相反,通过成本的堆叠,实现了模型的智能化与高效能。

“当高质量语料库训练到百亿级参数时,大模型的语言能力就会涌现,在意图理解、文本语言生成等方面的能力将随着参数的增加达到顶峰。”白硕指出,尽管大模型的语言能力已经很强,但是在垂直专业能力方面还有所欠缺,当前普遍适用的解法是,以大模型中控为核心,结合应用、插件等共同构建成AI能力中心,将大模型中控成为链接大模型与应用的“桥梁”。

“大模型的涌现能力,让基于大量计算的‘暴力求解’成为现实。”刘洋表示,在算力、算法、数据“三驾马车”的推动下,工程化能力变得尤为重要,特别是在券商、基金这样的垂类大模型应用场景下,率先为客户提供服务的厂商将抢占先机。从应用端,李强同样提到,目前各类大模型“百花齐放”,但应用落地还需要真正的工程化能力。

“我们要解决的一个核心问题是,让大模型有效应用于投资业务服务之中,对于机构客户能带来投资收益,对于我们内部的中台与后台,可以带来有效工作效率提升。”中信证券首席数据科技分析师张若海指出,在投研领域,大模型可以助力人均价值的提升,例如在量化领域,对政策文本数据的情绪提炼、中观景气研究的指标投资有效性识别,在投资覆盖宽度与数据处理精度大幅提升同时,人力规模并没有显著等比例增加。在高频场景下,可以实现大规模的定量数据跟踪与观点提炼,解构成交易信号,从而帮助到机构投资者更加便利地获得大模型的赋能。

李强指出,未来三年内代码生成的效率提升将在30%-50%之间。白硕则提到,从技术发展的角度,三年内大模型的语言能力将全部上一个台阶,而在金融领域的提质增效目前主要集中于IT研发与数据分析方面。通过AI可以实现低代码甚至“零代码”,可以提升2-3倍工效,满足七成以上的数据偶发性即时需求,提升8-10倍的建模功效。

“在ChatGPT3.5横空出世时,很多金融从业者不对其进行训练与微调,可以达到很好的效果,但是随着在业务场景的落地,会发现这一模型难以满足各业务的精度要求。”据恒生聚源副总经理白雪介绍,为了实现“语控万数”,恒生电子与恒生聚源共同推出的智能投研平台WarrenQ-Chat利用大模型叠加搜索和聚源金融数据库,通过对话指令,轻松获得金融行情、资讯和数据,且每一句生成的对话均支持原文溯源,确保消息出处可追溯。

相关推荐

展开阅读全文

猜你喜欢

微信扫一扫

微信扫一扫