拓尔思,深度解析这家NLP老将如何在AIGC浪潮中突围

二八财经
广告

在这个被ChatGPT、Sora和各种大模型轰炸得眼花缭乱的年代,投资者和观察者们往往容易把目光全部聚焦在那些最耀眼的明星公司身上,我们习惯了谈论美股的“七巨头”,或者国内那些自带流量的互联网大厂,如果你真的想在科技投资的深水区里找到一些“被低估的实干家”,你需要把目光稍微往下移一点,去看看那些在底层默默耕耘了二十多年的“基础设施”提供商。

拓尔思,深度解析这家NLP老将如何在AIGC浪潮中突围

我想和大家聊聊这样一家公司——拓尔思

提到拓尔思,很多非专业投资者的第一反应可能是:“没听过,这是干嘛的?”但如果你是一位资深的媒体人、网信办的工作人员,或者金融行业的风控专家,你大概率每天都在使用着他们的技术,只是你不知道而已。

作为一家在A股上市多年,专注于自然语言处理(NLP)和大数据技术的老兵,拓尔思在最近这波AI浪潮中,表现得很是耐人寻味,它没有像某些公司那样天天喊口号,也没有股价那种过山车式的疯狂,但它的每一步动作,似乎都踩在了“数据要素”和“语义智能”的痛点上。

这篇文章,我想剥开那些晦涩难懂的技术术语,用最通俗的语言,结合我们身边的生活实例,来聊聊我对拓尔思的深度观察,以及它在AI新时代到底还有没有战斗力。

被忽视的“中文信息处理鼻祖”

要理解拓尔思的未来,我们得先看看它的过去,这家公司可不是那种趁着AI风口临时拼凑出来的“PPT公司”,它的前身实际上是北京信息工程学院的一家学术机构,早在90年代,中文信息处理还处于蛮荒时代时,拓尔思的核心团队就已经在搞中文分词和全文检索技术了。

这里我必须插入一个生活实例,让大家明白这有多重要。

大家回想一下,在Google或者百度诞生之前,我们要在电脑里找一篇文档有多难?你得记住文件名,或者一个个文件夹点开,而全文检索技术的出现,就像是给电脑装上了“眼睛”,你只需要记得文档里的一句半截的话,哪怕错别字连篇,它也能帮你找出来。

拓尔思最早期起家的家底,就是在这个领域,后来,互联网兴起了,海量的非结构化数据(也就是文字、图片、网页,而不是Excel表格里的数字)呈指数级爆炸,这时候,怎么让机器读懂这些文字?这就是NLP(自然语言处理)。

我的个人观点是: 在中文语义分析这个细分领域,拓尔思是当之无愧的“隐形冠军”,虽然现在大家都在谈大模型,但大模型底层的很多基础能力,比如对中文语境的理解、对实体名词的识别,拓尔思积累了二十多年的Know-how(行业诀窍),这是一道极宽的护城河,这种技术积淀,不是你招几个博士、买几张显卡就能在一两年内赶超的。

数据要素时代的“卖水人”

现在国家层面大力推行“数据要素”改革,要把数据当成一种资产来交易和变现,在这个宏大叙事下,很多公司都在说自己有数据,但大家要搞清楚一个概念:拥有数据,和拥有“可被机器训练的高质量数据”,是两码事。

互联网上充斥着垃圾信息、广告、重复内容,直接拿去喂给AI模型,模型会“学坏”的,而拓尔思最核心的价值之一,就是它手里握着海量的、经过清洗的、结构化的专业数据。

举个具体的例子:

想象一下,你是一家大型金融机构的风控总监,你需要监控全网关于某家上市公司的负面新闻,如果只是简单地用关键词搜索“某某公司 坏”,你会搜出一堆无关紧要的八卦,甚至有人开玩笑说“这公司坏得可爱”也会被收录。

这时候,拓尔思的技术就派上用场了,它的系统能通过语义分析,识别出这句话的情感色彩是负面、正面还是中性,能识别出这是谣言还是事实,能自动提取出事件的核心要素(谁、什么事、哪里、什么时候)。

拓尔思,深度解析这家NLP老将如何在AIGC浪潮中突围

拓尔思在媒体资讯、政务公开、法律诉讼等领域,积累了数千亿条的海量数据,这些数据,就是训练垂直行业大模型最好的“教材”。

对此,我的看法非常鲜明: 在AI的下半场竞争里,算力是门槛,算法是引擎,但数据是燃料,拓尔思手里握着的,是经过精炼的“高纯度航空燃油”,随着数据资产入表政策的落地,拓尔思这部分沉睡的资产,很有可能在财务报表上爆发出惊人的价值,它不仅仅是一个软件服务商,它正在变成一个“数据资产运营商”。

AIGC浪潮中的务实派:不做全能王,只做行业专家

面对大模型的冲击,很多传统软件厂商是慌张的,但拓尔思给我的感觉是“稳”,为什么?因为他们没有去盲目地卷通用大模型(那个领域是OpenAI、百度、阿里们的战场),而是选择了“垂直大模型”这条路。

这非常符合拓尔思一贯的作风:务实。

我们再来看一个生活化的场景:

假设你是某市政府办公厅的秘书处工作人员,每天要处理海量的群众来信、政策文件、会议纪要,现在市里想搞“智慧政务”,引入AI助手。

如果你用通用的ChatGPT,它可能会写出一篇文采飞扬的文章,但格式完全不符合公文规范,引用的法律法规可能是过时的美国法律,甚至一本正经地胡说八道(幻觉问题)。

这时候,拓尔思推出的“拓天”行业大模型就显现出威力了,它专门针对政务、金融、安全领域进行了微调,它懂什么是“红头文件”的格式,它懂最新的《民法典》条款,它懂在处理敏感舆情时什么该说、什么不该说。

拓尔思的逻辑是:通用大模型负责“通识”,拓尔思负责“专业”,这种“通用+垂直”的组合,才是B端和G端(政府端)客户真正愿意买单的模式。

我个人的观点是: 这种策略非常聪明,也是最有可能落地的,B端客户不需要一个能写诗画画的AI,他们需要一个能7x24小时干活、不出错、懂行规的“数字员工”,拓尔思这种深耕行业多年的公司,最懂这些客户的“坑”在哪里,所以他们的AI产品,往往比大厂们的通用产品更好用,这就是所谓的“场景为王”。

财务视角下的隐忧与期待

作为一个财经写作者,我不能只唱赞歌,我们也必须从财务和业务的角度,客观地审视拓尔思面临的挑战。

看拓尔思的财报,你会发现一个特点:它的业务结构非常稳健,但也因此显得缺乏爆发力。 它的主要收入来源依然是政府(G端)和企业(B端)的软件项目开发和运维服务。

这里有一个现实的痛点:

政府项目的回款周期通常比较长,虽然拓尔思的客户质量普遍很高(部委、央企、主流媒体),但在当前宏观经济环境下,地方财政吃紧,IT预算的审批和款项的下拨可能会受到影响,这直接会反映在公司的经营性现金流上。

拓尔思,深度解析这家NLP老将如何在AIGC浪潮中突围

如果你是那种追求短期爆发、喜欢那种“一季度业绩增长500%”的激进型投资者,拓尔思可能会让你觉得“太慢了”,它的增长是线性的,是随着数字化渗透率的提升而稳步爬坡的。

我们需要看到硬币的另一面,拓尔思在研发上的投入是非常坚决的,即便在盈利压力下,他们依然保持着高强度的研发投入,特别是在语义智能和知识图谱领域。

我的观点是: 对于拓尔思这类公司,我们不能简单地用市盈率(PE)去套用,它更像是一个“科技股里的价值股”,投资它,赚的不是它明天涨停板的钱,而是它在数字经济基础设施中不可替代性的钱,只要“数字化转型”和“网络安全”这两个大方向不变,拓尔思的底盘就是稳的。

网络安全与内容风控:看不见的守门人

除了NLP和大数据,拓尔思还有一个非常重要的业务板块,那就是网络安全和内容安全,这在当下混乱的互联网环境中,显得尤为重要。

举个大家都经历过的例子:

你在微博或者短视频平台上评论一条新闻,可能发出去几秒钟就被系统删了,或者提示你“包含违规信息”,很多人第一反应是“平台在限流”,背后往往是有一套复杂的文本审核系统在工作。

这套系统需要实时识别色情、暴力、恐怖主义、以及各种隐晦的政治敏感词,更难的是,现在的违规内容会变体,用谐音字、用拼音、用图片里的文字来规避审核。

拓尔思就是给很多互联网平台、政府部门提供这套“守门人”系统的厂商,他们的技术能识别文字的变体,能通过多模态技术识别图片里的文字。

我个人非常看好这块业务的持续性。 为什么?因为内容监管只会越来越严,不会放松,无论是AIGC生成内容的泛滥,还是网络谣言的传播,都倒逼平台方和监管部门升级审核系统,拓尔思作为这个领域的“老炮儿”,拥有极高的市场占有率,这是一门“闷声发大财”的生意,虽然不像游戏那么性感,但胜在细水长流,客户粘性极高。

在喧嚣中寻找确定性

写到这里,我想大家对拓尔思应该有了一个更立体的认识。

它不是那种在聚光灯下高谈阔论“改变世界”的公司,它是那个在后台默默编写代码、清洗数据、审核内容的“苦力”,但恰恰是这种苦力,构成了我们数字世界的底座。

拓尔思给我的整体感觉是“靠谱”但也“焦虑”。

靠谱在于,它的技术底子厚,客户资源硬,手里握着数据要素时代的金矿;焦虑在于,面对AI大模型的颠覆性变革,它必须尽快完成从“项目制交付”向“产品化、服务化运营”的转型,它需要把手里那些沉睡的数据,真正变成流淌的现金流。

对于投资者而言,拓尔思可能不是那个能让你一年翻倍的妖股,但它是一个值得放入自选池,长期观察的优质标的,特别是当你看到市场对“数据要素”概念进行炒作,或者对“政务AI”进行重估的时候,你会发现,拓尔思总是那个绕不开的核心标的。

在这个充满不确定性的股市里,寻找一家有实实在在技术壁垒、有稳定现金流、且踩在时代风口上的公司,并不容易,拓尔思,或许就是这样一块被沙砾稍微掩盖了的璞玉。

我想用一句话总结我对拓尔思的判断: 它是AI时代的“卖铲人”,也是数据海洋的“淘金客”,只要它能把“数据”这篇文章做透,它的未来,值得我们给一份高看一眼的预期。