分类:默认分类

拓尔思副董事长兼总经理施水才:为“漂亮的皮囊”注入有趣的NLP灵魂

2023-04-13 01:19

    漂亮的皮囊千篇一律,有趣的灵魂万里挑一。我们的任务就是要做有趣的灵魂,做美丽皮囊背后的大脑。

    本报记者 赵学毅 李乔宇

    ChatGPT站上风口,人工智能迈向新纪元。在名单越写越长的ChatGPT概念股中,拓尔思信息技术股份有限公司(以下简称“拓尔思”)是少有的在早期就从事相关业务,并有项目落地的企业之一。在这场风起云涌的技术追逐战中,拓尔思站到了风口之前,且其股价在月初创下新高。

    面对我国类ChatGPT产品与ChatGPT的差距,国内企业该如何在算力、算法和数据层面突围、赶超?国内最早从事自然语言处理(NLP)技术研发的拓尔思正在做什么?

    迎着春日和煦的暖阳,《证券日报》记者来到位于北京市海淀区中关村西三旗金隅科技园,走进这家既年轻又“老练”的公司,对拓尔思副董事长兼总经理施水才进行专访。

    今年以来,ChatGPT成为资本市场上最受关注的话题之一,引资金竞相追逐。拓尔思所擅长的NLP技术,则是ChatGPT背后的主要技术基础。作为中文全文检索技术的始创者,领先的大数据、人工智能和数据安全产品及服务提供商,拓尔思有着得天独厚的创新优势,同时也肩负着快速缩小与ChatGPT差距的重任。

   紧跟时代浪潮

    “209工程”火速启动

    在拓尔思的办公楼内,记者看到多个会议室均以知名科学家命名,爱因斯坦、玛丽·居里、巴贝奇、伽利略、达尔文、达·芬奇……

    “所有研发人员的会议室都以科学家的名字命名,作为踩在巨人肩膀上的他们,希望通过这种方式表示敬意。”施水才解释说。此时,这些会议室大多处于忙碌状态。

    听着会议室里不时传出热烈的讨论声,记者仿佛穿行在时空隧道里,那是一代一代科学探索者们的真切对话。

    每个会议室的门上都贴着不同项目的研发时间表,覆盖来自拓尔思的中国版ChatGPT产品在内的“209工程”赫然在列。显然,ChatGPT正在激起我国技术创新的千层浪,包括拓尔思在内的科技企业正在积极探索类ChatGPT产品赛道。

    早在2015年,拓尔思就参与了一项“高考机器人”的项目,通过对十亿量级数据库的搭建,帮助该项目实现对于试题答案进行分析和科学评价。除了机器人自动撰稿,在北京冬奥会和卡塔尔世界杯期间,拓尔思的NLP技术也承担了虚拟人播报脚本生成的重任;在直播电商领域,拓尔思正在为新农人电商提供直播文案辅助生成技术……

    “从分词、句法、语义等信息的信息抽取、自动聚类、自动分类,到自然语言的理解和生成,我们做了全方位的研究,但这仍然不够。”谈及ChatGPT,施水才表示,“我们虽然有一些相关的技术和应用案例,但对比ChatGPT,明显感觉到我们的产品还有不小差距,这种差距既有算力上的,也有算法和数据层面的。”因其海量数据以及大模型工程化的特征,施水才将ChatGPT的成功形容为“大力出奇迹”。“接下来,拓尔思面临的挑战就是如何缩小这些差距,做出与国际水平比肩的产品出来。”

    为了紧跟时代变化的浪潮,同时也为了使自己的技术不落后于人,拓尔思开启了“209工程”。

    “209工程”的名字来自项目正式启动的日期(2023年2月9日),其计划用3个月至6个月的时间,基于通用AIGC大模型,以“专业大模型+领域知识数据”为核心,以NLP技术突破来推动更多AIGC商业落地。“顺利的话,年内大家就能够看到来自拓尔思的专注于垂直行业的类ChatGPT产品。”施水才表示,为了支持新技术的研发,拓尔思单独成立了数字经济研究院,设立了多个新部门,全力推动垂直行业的专业大模型的研发。

    施水才透露,未来要进一步支持“209工程”,拓尔思有意加大研发投入,尤其会加大在AI技术领域的研发投入,研发费用占比会提升至20%左右。据拓尔思披露的财报数据显示,2022年前三季度,公司研发费用为9592.28万元,占总营业收入15.06%。

    锚定B端场景

    “大力出奇迹”有望复制

    志存高远,拓尔思要做的“专业大模型+领域知识数据”,希望能在ChatGPT的基础上更进一步。

    ChatGPT看上去效果惊人,但在准确度上有待商榷。施水才告诉记者,这是因为目前GPT大模型本质作为概率模型以及提示训练的机制所导致的。在很多ToC场景中,人们能够接受这种误差。但在ToB场景中,信息的提取和检索要求准确全面,任何分析和预测都需要有理有据和正确的分析框架。

    AIToB的关键在于领域知识的建立和领域模型的再训练。在部分ToB场景中,可用的数据集是有限的,需要更多工程化和特定方法的干预;部分ToB场景中,用户对安全性、一致性、规范性、意识形态敏感性的要求更高,需要更多的定制和额外的相关工作等等。而这些都是拓尔思不断在思考、研究、开发和应用实践去解决的问题。

    帮助ChatGPT“大力出奇迹”的海量数据和大模型技术未必遥远。在NLP技术和算法层面,拓尔思有着长期的技术投入和不断推陈出新的产品;在数据层面,作为A股第一家上市的大数据技术企业,拓尔思从2010年起就投资建设自有的大数据中心,常年持续采集的海量网络数据资源;拓尔思还拥有海量大数据的规模化治理加工能力优势,包括NLP自动化技术平台、组织流程、质量控制等,具有支撑AI技术开发和赋能的完备的数据能力。

    未来,拓尔思预计新业务会成为其增量收入的主要来源。施水才告诉记者,拓尔思打造的垂直行业的专业版ChatGPT产品有望能够满足B端用户对于内容生成的需求,亦有望打开其背后SaaS产业的市场空间。“SaaS服务平台所带来的收入有望在三年内收入占比超过50%,这意味着这项业务还有5亿元至10亿元的增量空间。”

    赋能数字化转型

    勇做有趣的灵魂

    类ChatGPT产品可能会带来生产工具的革新,有望加速各行业的数字化转型。比如在电商客服领域,人工智能可以利用多人对话的能力达到提质增效的效果;同时能够通过交流和沟通提供情感呵护的陪伴机器人也有望实现。虚实结合的应用场景亦有望在类ChatGPT产品的推动下加速落地。

    无论是元宇宙还是虚拟数字人,都曾经获得市场关注。在类ChatGPT产品落地的过程中,拓尔思等NLP领域的从业者的任务就是“为漂亮的皮囊注入有趣的灵魂”。施水才表示:“漂亮的皮囊千篇一律,有趣的灵魂万里挑一。我们的任务就是要做有趣的灵魂,做美丽皮囊背后的大脑。”

    作为最早涉足NLP技术的从业者之一,新技术引发了施水才对行业格局的思考。ChatGPT的出现意味着不限制场景的通用人工智能发展到了一个新阶段,可能引发互联网产业的变革。在这个过程中,自然语言处理技术也取得了颠覆性的突破,为拓尔思带来了新启示。

    NLP技术在人工智能领域具有较高的地位,有人将之形容为“人工智能皇冠上的一颗明珠”。在深度学习算法被发明后,图像的识别已经能够实现较高的准确率,但自然语言处理的难度远高于图像处理。

    新技术的出现拉近了人们与NLP之间的距离,同时也对传统NLP业务造成冲击。因此,在AIGC领域的赶超成为当下我国科技企业的重要任务。拓尔思责无旁贷,成为这场赶超赛的领队人。

    在结束了近两个小时的专访后,施水才面对镜头微笑着表示:我们都赶上了大有可为的好时代,应该怀揣梦想,拥抱变化,构筑新愿景,并矢志不渝,追光而行,为中国式现代化做出新的贡献。

    (证券日报官网及两微一端已同步推出视频报道《拓尔思施水才:ChatGPT兴起预示着自然语言处理时代到来》,敬请关注)

上一篇:锂价下跌对新能源车的三大影响

转载 阅读(0) | 评论(0) 关键字:

免责声明:证券日报网博客互动平台所有信息(包括但不限于文字、视频、音频、图片、数据及图表)均为网友自发上传,如发生图片等侵权行为与证券日报网无关。若发现疑似图片侵权行为可发送举报邮件至3164116989@qq.com。博主所发内容仅代表博主个人观点,不构成买卖股票依据,股市有风险,入市需谨慎。证券日报网提供博客互动平台不代表认可其观点。证券日报网博客互动平台所有博主不提供代客理财等非法业务。有私下进行收费咨询或推销其他产品服务,属于非法个人行为,与证券日报网无关,请各位网友不要上当受骗!

昵称:  登录 | 注册

减少编辑区域 增加编辑区域

验证码:  看不清,换一张  (2000字以内)