AI(人工智能)聊天机器人ChatGPT近期爆火,不仅掀起了概念股的狂欢,也打开了业内对NLP(自然语言处理技术)发展及应用的想象空间。
ChatGPT是一款人工智能技术驱动的自然语言处理工具,由人工智能研究实验室OpenAI于2022年11月底发布。与市面上其他聊天机器人相比,ChatGPT的突破性在于其良好的使用体验,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。
ChatGPT一经推出就受到市场和业界的广泛关注。日前,微软宣布将向OpenAI进行一项为期多年、价值数十亿美元的投资,以加速其在人工智能领域的技术突破。据悉,微软希望向OpenAI追加投资100亿美元,如谈判达成,微软将持有后者49%的股权。
百度、谷歌等搜索引擎巨头也都在行动。近日有消息称,百度计划在2023年3月推出与OpenAI的ChatGPT类似的人工智能聊天机器人服务,最初版本将嵌入其搜索服务中;谷歌也正在其名为“Atlas”的云计算部门下开展一个项目,这是对ChatGPT的“红色代码”回应。此外,谷歌还在测试一款暂定名为“学徒巴德”(ApprenticeBard)的AI聊天机器人。
体验上,ChatGPT仍有不足
ChatGPT的优势在于不需要任何额外的训练就能在多种不同的领域中应用,并快速输出高质量的文本,相较于以前的模型具备较强的自然语言处理能力。
从使用体验来看,根据某券商机构的使用体验纪要,首先,ChatGPT类人对话体验较为真实,无论是问题的回复和答案的梳理均和真人保持类似,即使在追问阶段也可以直接用代词去指代上一个问题中的主语,无需二次输入;
第二,对干归纳总结类的问题已经展现独特的能力,本质上是在汇总多个搜索结果的内容,大大减少搜索时间;
第三,对于不熟悉的领域可以迅速给出简明的梳理,帮助快速熟悉;
第四,持续的追问可以实现类人的互动,沉浸感大大增强;
第五,在结合上下文语境中,可以进一步给出更为准确的回答,比如一词多义,结合上下文,可以分行业解读。
不过,目前ChatGPT在精准性、真实性、重复率和依赖性等问题上尚待改善。
第一,ChatGPT数据库内容只到2021年,对于涉及到2022年,或者在2022年有变动的问题无能为力;
第二,ChatGPT在专业较强的领域无法保证正确率,即使在鸡兔同笼此类初级问题中仍然存在错误,并且英文回答和中文回答存在明显差异化;
第三,核心问题在于对于自己不熟悉的问题中会强行给出一定的答案,即使答案明显错误,依然会坚持下去,直到明确戳破其掩饰的内容,会立马道歉,但本质上会在不熟悉的领域造成误导。
功能虽有待完善,但不可否认,ChatGPT在聊天机器人领域已经实现了较大突破,能力上超出业内专业人士预期,一经推出用户规模短期内就突破百万。2022年,OpenAI的营业收入约8000万美元,据OpenAI预测,2023、2024年营业收入将分别达到2亿美元和10亿美元。
技术上,NLP持续优化
ChatGPT的上线意味着语言类AI底层技术NLP显著进步,同时启示AI其他领域应用更高效率的Transformer和产出更类人的RLHF算法。
在技术上,ChatGPT建立在GPT-3的后续改进版本——大模型语言模型GPT-3.5基础上,通过引入强化学习模型(RLHF),大幅提高了AI在人机对话时的准确度和可控性。
GPT,即生成型预训练变换模型(GenerativePre-trainedTransformer),是解决NLP任务的训练模型之一。该预训练模型基于Transformer架构(具有自注意力机制,可以捕捉句子中的上下文关系),可以根据给定文本预测下一个单词的概率分布,从而生成人类可以理解的自然语言。
NLP技术在快速迭代,业内普遍预计OpenAI在接下来几个月内推出GPT-4的概率很大。
GPT-4相比于当前的文本模型将有大幅改进:首先是训练数据量、token数、模型参数量或均有所提升,从而优化模型性能;其次,GPT-4有望完全通过图灵测试,而目前AI模型仅部分有能力通过图灵测试;此外,GPT-4的成本也将显著下降。
另一边,RLHF解决了生成模型的一个核心问题——alignment(对齐),即如何让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。可以说RLHF技术为会话而生,可以进行连续对话。该技术突破使得ChatGPT对话更加贴近人类,语段间逻辑关联度显著提升。
不过,百度技术委员会主席吴华此前公开表示,ChatGPT不是一种技术的颠覆式创新,而是一种交互方式的革新。他称,在百度文心大模型中,涉及各种理解和生成的能力都有,但ChatGPT是在展现方式上使用户能更加容易、以自然语言的方式去实现交互,是一个革新性的认识,对自己有很大启发。
应用上,ChatGPT引爆AIGC
过去数年,内容生产模式从PGC(Professionally-generatedContent,专业生产内容)为主导逐渐走向UGC(User-generatedContent,用户生产内容)为主流,前者如优酷、土豆、爱奇艺等,后者如B站、微博、小红书等平台。UGC平台依靠其精准的算法,建立了与用户、内容之间的精准、高效关联。
如今,AIGC(AIGeneratedContent,AI生产内容)时代渐进。
ChatGPT的问世打开了AIGC的想象空间,GPT不断升级推动着AIGC的发展,增强了AIGC在编程语言(代码生成、软件行为生成)、自然语言(新闻撰写、文案创作、对话机器人、创作性文本)等方面的表现。
相比PGC、UGC,AIGC具有效率和成本上的优势。
截至2021年3月,推出9个月后的GPT-3日均文本生成量45亿,而2021年阅文集团新增文字量仅360亿,仅相当于GPT-3 8天的文字内容生成量;
另一方面,AIGC成本更低:目前OpenAI定价最高的文字模型达芬奇(基于GPT-3)为每750词约0.02美元,2021年阅文集团内容成本为17.74亿元(每750词约37元),是调用OpenAI的API完成相同文字量生产所需的成本(约672万元)的264倍。
东吴证券推测,理想状况下,如果阅文集团将2021年全年文字内容生产量(360亿)交给GPT-3,耗时8天即可完成,节约成本99%+,毛利率空间几乎100%释放。
根据Gartner《2021年预测:人工智能对人类和社会的影响》,到2025年AIGC产生的数据将占所有数据的10%,而该比例在2021年不足1%。量子位智库根据现有技术及需求成熟度预测,2030年AIGC市场规模将超过万亿元人民币。
产业链上,关注AI三要素
ChatGPT的推出使得AI成为2023年的一大看点。微软首席技术官KevinScott在近期的分享中表示,“我认为,2023年将会是人工智能界有史以来最激动人心的一年。”
A股ChatGPT概念股、AIGC板块已经在二级市场开启表演。2月1日,ChatGPT指数大涨8.42%,AIGC概念指数收涨4.70%,慧博云通(301316.SZ)、初灵信息(300250.SZ)、奥雅股份(300949.SZ)等多股涨停。
从投资角度看,数据、算力和算法作为AI三要素,是决定AI发展的重要基础,可从这三个方面寻找投资脉络。
数据的累积下沉和打通是一切人工智能模型运行和应用的基础,AI模型训练需要大量高质量数据作支撑,具有庞大数据训练量也是ChatGPT得以出圈的原因之一。根据Cognilytica数据,2021年全球AI训练数据市场需求约为42亿美元,预计到2027年这一需求将增长到220亿美元,2021-2027年复合增长率(CAGR)达32%。
而提高数据质量需要将数据清洗和标注。《中国数据标注行业发展趋势与投资前景研究报告(2022-2029年)》显示,2021年我国数据标注行业市场规模达到43.3亿元,同比增长约19.2%,预计到2029年市场规模将达到204.3亿元,CAGR约为21.4%。
AI训练数据专业提供商海天瑞声(688787.SH)能够提供AI算法模型开发所需的专业数据集,业务覆盖智能语音、计算机视觉、自然语言等场景。此外,近年来有大量初创公司涌入数据标注赛道。
算法类似于AI模型的大脑,当前国内领先的对话交互类AI算法企业主要包括两类:一是以语音识别为核心业务的企业,延生到NLP领域;二是以NLP为核心业务,专注语义识别的企业。前者如科大讯飞(002230.SZ),从语音识别延生到语音合成、机器翻译、图文识别、图像理解、阅读理解、机器推理等算法,并在消费者、智慧教育、智慧城市、智慧司法、智能服务、智能汽车、智慧医疗、运营商等领域实现深度应用;后者如拓尔思(300229.SZ),国内最早从事NLP研发的企业之一,在语义智能领域具备自主可控的底层技术,可以提供预训练模型和阅读理解等技术成果。
算力则为AI模型提供运行动力,在算法场景众多、迭代速度较快的AI领域,同时具备高算力和通用性的AI芯片炙手可热。目前国内AI芯片公司主要包括寒武纪(688256.SH)、地平线、华为海思、平头哥等,国内企业在推理芯片领域开始崭露头角,训练芯片领域有待突破,整体仍处在追赶海外巨头阶段。