《仕说新语》x WAIC 2023|蜜度CTO刘益东:推进垂直领域大模型的真正落地,需要行业各方共建高质量数据

《仕说新语》x WAIC 2023|蜜度CTO刘益东:推进垂直领域大模型的真正落地,需要行业各方共建高质量数据

在当前数字世界和物理世界加速融合的大背景下,人工智能生成内容(简称AIGC)正在悄然引导着一场深刻的变革,重塑甚至颠覆数字内容的生产方式和消费方式,将极大地丰富人们的数字生活,是未来全面迈向数字文明新时代不可或缺的支撑力量。

眼下,AIGC已经让千行百业捕捉到新的技术与产业机会,关于应用革命的大幕就此拉开。当然,AIGC要真正发挥对不同行业的驱动作用,需要与各行各业的特异性场合深度融合,我们也必须认识到AIGC产业所遇到的挑战和问题。

那么AIGC的过去、现在和未来究竟展现出怎样的形态?纵观整个产业链路,还有多少的想象空间和机遇机会?AIGC产业又应如何实现健康、良性的发展?

凤凰网华东记者站《仕说新语》栏目深度关注2023世界人工智能大会,推出《智创•未来》专题系列报道,深度采访4家人工智能领域的前行者,共探AI赋能时代的机遇和挑战,辨析AIGC的未来。

《仕说新语》x WAIC 2023|蜜度CTO刘益东:推进垂直领域大模型的真正落地,需要行业各方共建高质量数据


《仕说新语》 :近期OpenAI迎重磅更新,AIGC高地的争夺日趋白热化。蜜度进入AIGC这个领域的初衷是什么?

刘益东:蜜度是一家以人工智能技术为核心的语言智能科技企业,过去十余年一直服务于政务和媒体类客户,这些客户在内容生产方面有着巨大需求。我们一直对人工智能前沿技术保持着高度关注,随着AIGC技术的不断发展,我们希望能够通过AIGC的方式来辅助政务及媒体行业客户,提升他们的内容生产效率,这正是我们进入AIGC领域的背景。

《仕说新语》 :当时是否预测到这个领域会变得如此火爆?

刘益东:实际上,我们没有预测到现在的状况。去年8月底,OpenAI发布了DALL-E 2,在绘画领域取得了重大突破。接着,在九月份,Stable Diffusion推出了一套扩散模型,再到去年11月底的ChatGPT,这些都极大地推动了AIGC行业的发展。在去年的WAIC(World AI Conference)上,包括百度在内的许多公司都提出了AIGC的概念。接下来几个月的发展其实是日新月异,几乎每天都会有新的突破和进展。对于我们来说,我们仍然专注于服务政务和媒体等B端和G端客户,聚焦于满足他们场景需求、解决实际业务痛点的AIGC应用,这是我们始终坚持的方向。

目前,我们的应用场景已经遍布全国各地。在全国范围内,我们设有三十多个办公室,几乎覆盖了各个省级单位。已有超过三万个客户在全国范围内使用我们的产品。

《仕说新语》 :在研发过程中,攻克了哪些关键的技术问题

刘益东:首先,随着AIGC的火爆,涌现了许多通用大模型。起初,这些模型是封闭的生态系统,我们只能从外部去感受和体验它们。后来,整个开源生态逐渐形成。在这个过程中,我们面临一个挑战,即如何在我们的训练场景中高效地运行底层基础模型,这些模型往往拥有数百亿的参数。最初,这是一个具有挑战性的问题。幸运的是,大型模型的开源生态发展迅速,现在对于拥有数百亿参数的模型,其产出的效果可能已经与最初的千亿级模型相媲美。

在整个过程中,我们不断探索,进行各种实验,并面临各种挑战。在过去的半年时间里,我们主要致力于解决模型训练、构建高质量行业数据体系以及验证模型在垂直行业中的效果等问题。最终,我们将这些成果产品化,这四个环节是我们过去半年来花费大量精力解决的问题。

今天在这个展台上所展出的AI明信片、AI游中国、为你作诗三个应用,背后正是我们最核心的大模型的能力。

《仕说新语》 :蜜度最突出的优势或特点在哪里?

刘益东:我认为最突出的优势在于专注于特定行业,即政务和媒体领域。我们以当前一定规模的用户需求为指导,进行模型研发和产品应用,这是我们的特点。

我们的优势在于,首先,我们对行业有着十多年的理解优势;其次,在数据积累和构建方面,我们拥有庞大的专业团队;第三,在生成式AI研发人才方面,我们拥有专业的研究院,并自2019年开始正式进行AI研究。我们对前沿技术的追踪也非常及时,并与业内领先的高校保持良好的合作关系。

《仕说新语》 :我们的产品在实际落地行业地过程中,是否有一些数据可以让我们直观地感受到AI是如何帮助企业降本增效地?

刘益东:以蜜度的智能舆情分析大语言模型为例,以往通常在分析行业做一份分析报告,所需要的平均成本是1个小时左右,现在通过使用蜜巢智能舆情分析大模型,只要两分钟,就可以自动生成一份高质量的报告,是可以跟人工匹敌的。从一个小时到两分钟,我认为这就是极大的效率提升。

《仕说新语》 :大家对ChatGPT的期望非常高,导致容错率降低,实际上在大模型真正应用于行业的过程中,需要一个不断试错的过程,对此,您有何看法?

刘益东:这也是我们在垂直行业大模型开发过程中努力克服的问题。如果您体验过通用的大模型,例如ChatGPT,您会发现它存在一些缺点。首先是所谓的"模型幻觉",即对于它不熟悉的领域知识,它有可能胡乱回答。通用的大型模型在垂直行业知识方面存在缺失。另外,由于训练数据的限制和时效性的问题,我们知道ChatGPT的训练数据只到2021年,因此它没有包含后续的数据和知识。这对于行业应用来说意味着,通用的大型模型是缺乏最新发展和知识点的。此外,垂直行业的大型模型在应用中还需要解决行业数据的安全性问题。通用的大型模型是在公开网络上训练的,因此在将其应用于行业中会面临较高的成本,这也是一个问题。

因此,我们的工作包括:一是结合语义检索和知识图谱,二是在通用大型模型的基础上,利用行业数据进行增强训练,使其具备行业通用知识,并结合语义检索引擎和知识图谱来增强其对行业理解和知识认知的能力。此外,我们还在国产化体系中进行工作,例如在华为的AI生态下,通过使用国产设备,以较低的成本为客户提供一套可持续迭代且具备生成式AI能力的解决方案。而且是相对安全的,它是部署在内网,不需要连接外网。

《仕说新语》 :作为一家专注于人工智能的公司,您认为人工智能在未来的发展中将扮演怎样的角色?

刘益东:各行各业都对人工智能抱有期待,希望它能够帮助解决问题。然而,也存在一些对人工智能的抵触情绪,这可能是对其存在误解的结果。有些人认为人工智能是用来取代人类的,但我们并不赞同这种观点。我们认为人工智能是来辅助和协助人类的。因此,在人工智能行业中,我们致力于提供友好且易于使用的产品,以提高客户的工作效率,降低成本,使工作和生活更轻松。这是我们认为这个行业应该追求的方向。

《仕说新语》 :在人工智能技术的快速发展和应用推广中,您认为目前存在的最大挑战是什么?

刘益东:挑战在于不同行业或垂直领域都有其特定的业务场景,用一套通用的解决方案很难满足个性化需求,这是一个现实难题。因此,每个垂直领域都需要有企业或研究机构专注于该领域,并共同构建适用于该行业的人工智能模型和能力,为行业发展提供支持。在人工智能能力构建的过程中,计算能力、算法、数据和工程等方面在不同阶段都会面临不同的挑战。目前我观察到的一个关键挑战是垂直领域所需的高质量数据,这是一个较大的挑战,需要与行业专家共同努力解决。经过大量实验我们发现,如果垂直模型缺乏高质量的行业数据作为训练样本,它对该行业的理解将不够深刻。

这个问题一方面是由于数据稀缺,另一方面也因为许多行业的数据是无法公开的,这限制了数据构建的进程。因此,我们只能通过隐私计算或其他技术手段来克服这个问题。另外,我们可以将解决方案引入客户的专业场景中,共同构建适合他们行业的人工智能模型训练工具链,使其在该工具链上满足当前需求并训练行业特定的模型。在不同行业中,这套工具链可能需要进行调整和适应。我们可以提供基础能力,教授他们方法。之后,他们就可以在内部构建适合自己行业需求的模型。我们不仅要输出模型,还要教他们如何更好地构建、应用这些模型。

《仕说新语》 :目前很多企业可能仍处于数字化转型的阶段,从数字化到智能化还有一段路要走。您认为未来数字化转型有哪些趋势?

刘益东:从数字化到智能化,我认为更多的是对智能化的认知。一开始,国外的GPT等大型模型问世,包括国内也涌现出许多大模型,对我们来说既是惊喜又带来了压力。惊喜之处在于整个行业的发展帮助我们完成了对政府和企业客户的AI教育,大众普遍有了对AI的认知。然而,压力可能源自于行业对我们的期望过高,我们在模型能力和服务方面需要逐步发展。因此,在数字化转型的过程中,客户的认知提升了,他们会向我们表达特定场景的问题,我们需要用智能化的解决方案说服他们,帮助他们提升工作效率,降低成本。一旦这个认知鸿沟弥合,我们的实际应用工作会变得更轻松。

《仕说新语》 :那么接下来AIGC蜜度在内容生成方面还会有哪些惊喜呢?

刘益东:从最开始AIGC技术问世以来,我们对其充满了无限想象,例如在游戏和视频制作领域。除了传统领域,我认为新一代AI在教育领域可能有更好的应用。未来我们的学习是否有可能基于大模型对于内容的理解跟认知能力,进行交互式的学习,从而对于教育方式带来一些突破。因此内容生成方面,知识问答将是一个方向。当然,AI生成的内容质量良莠不齐,我们需要控制质量,这也会引出一些新的技术方向或服务方向。

普通用户对于AI的信任度仍有提升空间。我们现在需要可信的技术、可信的AI。要使AI变得可信,需要进行大量研究来挖掘和论证AI的整体机制,包括价值观,以确保其符合我们的要求。因此,我们仍有一段路要走。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载