大模型试水投研场景,如何防止“一本正经地胡说八道” 每日看点
时间:2023-07-04 11:06:05来源:21世纪经济报道

AI大模型技术正应用在越来越多金融场景。

仅仅在投研提效领域,多个大模型产品悄然面世。

近日,恒生聚源推出基于大模型技术的投研工具平台WarrenQ,致力于重新赋能“搜、读、算、写”的投研全流程场景,进一步提升投研效率。


【资料图】

与此同时,多家金融科技平台也推出基于大模型的投研提效工具,即在通用大模型基础上引入指令微调或提示工程,自动生成各类报告与图表摘要,提升投研人员的信息获取效率。

一位券商投研人员向记者透露,目前他们正在测试多款大模型投研工具的性能。

“整体而言,这类产品若要显著提升投研效率,还需解决诸多实际操作瓶颈,比如大模型技术自动生成的信息是否具有即时性、能否做到信息溯源、是否支持二次编辑与多人协同工作,能否一键快速分享等。”他告诉记者。尽管当前大模型投研工具的技术路径不一,但他们通过测试发现,具备自主庞大数据库与良好大模型训练成效的相关工具更受欢迎,因为它不但精准快速解决投研人员的个性化信息收集检索要求,还能方便投研人员轻松进行内容加工,进而大幅提升投研效率。

恒生电子(600570)董事长刘曙峰向记者表示,尽管大模型技术带来“语控万物”、“大才能强”等变化,但在金融垂直领域,其应用仍面临知识信息时效性、数据安全与隐私保护、具体应用支持等方面的局限。因此,金融行业需建设行业大模型以承接垂直领域的特定需求。

“未来,金融行业大模型能落地的场景非常多,除了投研,还有投顾、客服、运营、合规、交易等。但它的应用难点在于协同,特别是数据协同,各种数据如何打通,将是非常具体且困难的问题。”他指出。因此,金融机构要部署应用大模型,需从选模型、估规模、建场景三大步骤入手,构建金融行业大模型与基于大模型的全新数智产品,为金融行业应用大模型提供新范式。

防止大模型“一本正经地胡说八道”

AI大模型技术正悄然“改变”投研生态。

有机构调研显示,在投研领域,众多金融机构面临诸多痛点瓶颈——60%分析师遇到数据碎片、数据孤岛、投研工具繁杂等困扰;50%基金经理遇到信息爆炸、重点信息不突出等挑战;80% 金融机构管理层感到研究团队不透明,知识沉淀难等问题。

于是,越来越多金融科技平台寄希望大模型技术破解这些投研痛点瓶颈。

当前,大模型投研工具主要分成两类,一是在现有通用大模型GPT4.0基础上直接引入“提示工程”与“指令微调”,以此自动生成上市公司公告财报要点信息与行业报告核心内容,提升投研人员信息获取效率;二是“从头做起”——将自身数据库通过大模型技术进行大量预训练,再引入指令精调与提示工程技术,让自动生成的内容能进一步满足投研人员的个性化信息检索收集需求。

记者多方了解到,投研人员最担忧大模型投研工具会产生两大问题,一是一本正经地“胡说八道”,二是自动生成的相关内容明显“过时”,无法满足投研建模要求。

要解决上述两大问题,绝非易事。

恒生聚源副总经理白雪告诉记者,为了满足数据即时性要求,WarrenQ在数据层与模型层的基础上,加入涵盖NL2SQL、搜索接口、指标计算、向量数据库等插件层,确保大模型产品能即时调用最新的数据以反映最新的金融市场动态与行业变化趋势等。

记者获悉,要防止大模型“一本正经地胡说八道”,金融科技机构还需开展大量预训练与指令微调。比如在预训练环节,大模型时常会“自由发挥”,自动生成很多“天马行空式”的内容信息,于是开发人员通过不断调整指令与反复预训练,教会大模型如何正确识别提问语义与自动生成相应的专业精确回答,确保大模型能不再“答非所问”。

此外,大模型投研工具能否具备“实用性”,还在于它是否具备支持查看原文、研报图表抽取、OCR识别、支持二次编辑、文档信息挖掘等功能。

白雪告诉记者,针对投研环节的数据分析与智能处理实际需求,WarrenQ推出了两款AI工具,分别是WarrenQ-Chat和ChatMiner。前者主要借助大模型叠加搜索与恒生聚源金融数据库,通过对话指令,帮助投研人员高效获取金融行情、资讯和数据,且每一句自动生成的对话都支持原文溯源,还可以生成金融专业报表,从而将传统投研的“搜读算写”流程转变成“Chat读算写”,提升投研人员的信息获取效率;后者则主要发挥金融文档挖掘器功能——即大模型和向量数据库会根据投研人员个性化需求,对相关文档进行快速解读与精准检索定位,自动生成提取关键信息,提升投研人员对海量文本数据的整合归纳提炼效率。

一位正研发大模型投研工具的金融科技平台人士向记者直言,其研发难度远远超过预期。仅在数据库建设、大模型技术选用、大模型预训练等方面,企业都走过不少弯路,

“这背后,是金融科技平台需全方位比拼数据、算力与算法。只有数据库越全越庞大、算力更强、算法模型更高效的大模型投研工具才有望脱颖而出。”他直言。

在白雪看来,大模型时代的产品化服务与落地,可以持续做好三件事:一是加强数据获取的精准性、数据更新的即时性;二是提升大模型及其精准的意图识别能力,做到自然语言到数据、自然语言到指令的精确映射,即“语控万数”、“语控万物”;三是用好向量数据库,将私域知识库与大模型结合起来做好产品与服务。

金融行业大模型的征途

在多位业内人士看来,AI大模型技术能否成功应用在投研、投顾、客服、运营、合规、交易等金融场景,另一个关键成败因素是金融科技平台能否构建专业的金融行业大模型。

一位奇富科技人士指出,金融行业因其行业特殊性,对训练数据质量、模型生成效果、数据安全合规等方面有着更高要求。首先,金融行业大模型需全面掌握金融专业术语,理解客户意图,在与客户对话过程能精确提取线索(即客户想了解的信息),并给出兼顾专业性与合规性的应答;其次,金融行业大模型必须在准确性和适用性两个方面做到极致,因为在金融领域,大模型自动生成的内容是不能出现“任何错误”的。

在他看来,要实现上述要求,金融科技平台需向金融行业大模型注入足够全面庞大的数据进行反复预训练,才能实现“回答精确”与“话术合规”。

“公司在信贷领域所积累的逾5000万份征信报告及解读、月均逾350万的用户深度对话,以及涵盖900多个行业、逾3000个标签属性的逾1600万家企业金融行为数据,加之所衍生的知识图谱与专业知识,都被纳入金融行业大模型的数据基础。”这位奇富科技人士向记者直言。

恒生电子首席科学家白硕告诉记者,金融行业大模型的研发,的确离不开庞大的金融数据支撑。恒生电子所打造的金融行业大模型LightGPT已使用逾4000亿tokens的金融领域数据(包括资讯、公告、研报、结构化数据等)、以及逾400亿tokens的语种强化数据(包括金融教材、金融百科、政府报告、法规条例等),并以此作为大模型二次预训练的“语料”,支持逾80项金融专属任务指令微调,进一步提升金融行业大模型的准确理解能力。

白雪告诉记者,大模型投研工具的研发成败,很大程度取决于“语料”的丰富度与专业性。因为投研人员都希望自动生成的内容信息能尽可能多地涵盖当前市场各种动态与观点,这都需要金融科技平台不断向大模型注入最新的各类精准的金融语料,并实时链接映射到数据库,令大模型投研工具自动生成的内容能最大限度“与时俱进”。

值得注意的是,一个行之有效的金融行业大模型光有庞大专业的数据库是不够的——除了与之配套的算力算法等金融基础设施,它还需解决诸多挑战,包括能否做到轻量化部署、能否在金融专业问答、逻辑推理、超长文本处理能力、多模态交互能力、代码能力等金融大模型能力评测领域取得不俗表现,并保证内容和指令的合规安全等。

上述金融科技平台人士向记者透露,这令众多金融机构倍感压力——若在传统AI模型基础上研发金融行业大模型,几乎是很难完成的任务。因为传统AI模型与大模型技术在数据、模型、模型开发方式、业务应用、适用场景及成本等方面完全“不同”——相比传统AI模型的作坊式操作、研发周期长、通用性低等特点,大模型技术开创性地提出预训练模式,以流水线的模型开发方式可泛化多应用场景,实现高通用性。

“两者截然不同的特点,预示着金融机构需要持续投入大量资金资源,持续强化金融行业大模型的预训练成效,才能令它更精准高效地匹配投研、投顾、客服、运营、合规、交易等金融场景各类业务需求。”他直言。

白硕告诉记者,目前LightGPT计划在9月底完成新一轮的金融能力升级,并支持金融机构通过私域任务数据定制化“精调”大模型,从而打造机构专属的大模型,满足个性化需求。

在刘曙峰看来,在大模型时代,“数据+算法+算力”正构成新范式的基本要素。金融行业更需促进大模型产业上下游合作,为金融数智化提供更强有力的技术支撑。

标签:

生活指南
  • 江西省第297例!为给孩子做榜样,今天他捐献造血干细胞

    来源|都市现场原创未经允许请勿转载捐献造血干细胞为生命续航今天(7月

  • 【天天播资讯】适用于生成式AI的戴尔PowerEdge XE9680

    在企业人工智能的高风险领域,科技巨头们正在进行一场不懈的竞赛,以推

  • 当前简讯:《消失的她》票房破23亿!豆瓣6.5分暴跌不止

    最近火爆影院的电影无疑是国产悬疑片《消失的她》了,据灯塔专业版数据

  • 当前消息!混沌理论经典案例分析是如何的呢? 混沌理论的特有哪些?

    混沌理论经典案例分析是如何的呢?著名导演杰夫·戈德布来姆在他执导

  • 老公拿着车子的户本能抵押贷款吗?抵押车贷款需要夫妻双方签字吗? 焦点日报

    老公拿着车子的户本能抵押贷款吗这要看抵押机构严谨不严谨了,理论

  • 祝贺王楚钦!恭喜孙颖莎!3-1勇夺冠军,国乒混双外战全胜不败 全球速讯

    国乒两对组合王楚钦 孙颖莎、林诗栋 蒯曼在混双决赛中狭路相逢,展开巅

  • 五子棋比赛规则及方案_五子棋比赛规则-环球通讯

    1、五子棋有两种玩法:玩法一:双方分别使用黑白两色的棋子,下在棋盘

  • 天天热讯:桃源交警:“藏蓝巾帼”服务队,暖心服务献礼“七一”

    红网时刻新闻通讯员宋丹桃源报道“这些女交警不就是上次高考服务点的那

  • 中大彩!某玩家开出《万智牌》价值百万美元的“至尊一戒”神卡 热门看点

    援引《华尔街日报》报道,全球限发一张《万智牌》魔戒神卡“至尊一戒”

  • 骁龙768G怎么样 骁龙768g相当于天玑多少? 热闻

    骁龙768G怎么样?型号:SoC芯片骁龙768G(SM7250-AC)。骁龙768G手机:

  • LG Innotek推出新型汽车照明

    首尔:韩国LGInnotek开发了一种汽车照明产品,据称该产品亮度更高,照

  • 当前热点-欧洲杯几年一次?欧洲杯的含金量怎么样?欧洲杯有哪些奖项?

    欧洲杯几年一次?欧洲杯每四年一次。欧洲杯是每4年举行一次的欧洲最

  • 天天微速讯:大荔中学(关于大荔中学的基本详情介绍)

    大荔中学,荔中学的基本详情介绍很多人还不知道,那么现在让我们一起来

  • 天天热头条丨美国6月消费者信心指数上升 黄金短线方向不明

    周三(6月28日)亚市盘中,现货黄金窄幅震荡,现交投于1915美元 盎司附近

  • 花枝鼠可以吃榴莲吗?

    不可以根据我查阅的资料,花枝鼠是食肉类动物,它们主要以昆虫、小型哺

  • 讯息:什么是分散持股?分散持股的优点体现在什么方面?

    什么是分散持股?所谓股权分散,就是持股人数多,且每人所持股份少

  • 民生
    • 天天播报:甄嬛传华妃结局是好的吗?甄嬛为什么要复位华妃?

    • 每日快报!优先股的优先权利体现在什么地方

    • 确认离队!再见国米!自愿走人,张康阳沉默,省1040万,降价成全-环球今日报

    • 环球动态:独家资金:早盘主力买入前10股