— 乐鱼全站网站登录首页 —

海天瑞声获26家机构调研:公司专注于为包括AI技术公司在内的AI产业链各类机构提供算法模型开发训练所需的专业数据集业务与从事AI算法及应用开发的企业有比较大的区别(附调研问答)

时间: 2024-11-05 00:42:31 |   作者: 乐鱼全站网站登录首页

  

海天瑞声获26家机构调研:公司专注于为包括AI技术公司在内的AI产业链各类机构提供算法模型开发训练所需的专业数据集业务与从事AI算法及应用开发的企业有比较大的区别(附调研问答)

  海天瑞声2月17日发布投资者关系活动记录表,公司于2023年2月10日接受26家机构单位调研,机构类型为保险公司、其他、基金公司、证券公司、阳光私募机构。

  问:公司是否从事与算法相关的业务?OpenAI是否是公司的客户?ChatGPT将会给海天业务带来怎样的影响?

  答:公司专注于为包括AI技术公司在内的AI产业链各类机构提供算法模型开发训练所需的专业数据集,业务与从事人工智能算法及应用开发的企业有比较大的区别。截止目前,公司未与OpenAI开展合作,其ChatGPT的产品和服务未给公司带来业务收入,该领域对数据需求的发展的新趋势有待观察。请广大投资者务必注意投资风险,理性决策、审慎投资。

  问:ChatGPT代表的大模型或AIGC的加快速度进行发展会对公司产生什么影响? AIGC相关业务是否会起量?

  答:公司也注意到ChatGPT等AIGC类话题近期在国内、国外产业界引发了大量关注和讨论,公司自身始终秉承冷静、理性、专业的态度看待包括ChatGPT等在内的各类产业界新现象对公司业务所能产生的实质影响,公司认为整个AIGC领域未来将保持长期向上发展的新趋势,但其发展速度、阶段性效果等需要冷静分析、避免短期盲目过热,公司始终坚信需要回归到行业及公司业务基本面看待各类新现象所能产生的价值,无论行业发展浪潮处于何种阶段,公司应本着实事就是的态度,专注业务本身,真正提高自身的核心竞争力。从目前公司真实的情况来看,短期内暂未看到由AIGC带来的大幅订单增长,公司会持续关注该领域最新发展,抢抓 相关领域的新发展机遇。请广大投资者务必注意投资风险,理性决策、 审慎投资。

  问:决定智能驾驶数据业务市场需求空间的因素有哪些?未来智能驾驶的数据需求如何?

  答:智能驾驶数据业务的市场需求主要与三个要素相关:1)车厂的车型及传感器丰富度。通常来说,不同车型、不同传感器会有不同的硬件配置方案,继而需要不同的数据解决方案,因此车型/传感器等硬件配置的多样性程度将会直接影响所需数据解决方案的数量;2)量产车数量。量产车的数量决定了整个的训练数据需求基数的大小;3)智能驾驶级别的逐渐提升。智能驾驶级别和渗透率的提升决定了数据处理场景的种类和体量。 这三个要素对训练数据需求的影响是相互叠加的。公司预测,随着智能驾驶相关政策的推出以及单车成本的不断下降,智能驾驶的商业化进程将加速,在上述三个因素的共同作用下,数据处理需求将呈现指数级增长趋势。

  答:智能驾驶数据领域的核心竞争力主要体现在三个方面,分别是平台能力、算法能力以及数据安全能力。 平台能力是数据标注能力的基石。平台功能点覆盖的丰富度是评价平台水平的核心要素,目前同时具备2D标注、3D点云标注、2D-3D联合标注以及3D语义分割标注的供应商比较有限,能以最快速度覆盖更多功能需求的数据服务商将能更好掌握智能驾驶数据市场的主动权以及议价能力。 第二个核心要素是算法能力。平台的智能化程度越高,对人的依赖程度越低,在提高平台的生产效率的同时可以大幅降低生产成本。 第三个要素是数据安全能力。智能驾驶数据不同于传统的语音类数据,由于其采集图像涉及大量的地理及个人隐私信息,为更好防范数据安全风险,国家相关法律法规要求数据流转链条上各类企业必须做好充分的数据安全保障。因此,未来不具备相关数据安全能力的供应商将逐渐被市场淘汰。

  答:公司自身的观察来看,目前智能驾驶市场的数据需求仍主要集中在L2或 L2+级别,这与其对应的装车量规模成正相关关系,即:量产规模越大、传感器类型越多、对应的驾驶场景越丰富,则产生的数据需求的类型和规模也就越多、越大。L3级别的智能驾驶受相关政策推动,也已经开始在加速落地进程中,但目前L3级别的大部分车型仍处于研发和试验阶段,量产规模较小,相对来讲仅需一定量的数据进行模型初训即可,市场整体释放出的L3级需求较小,但随着其量产规模逐渐增大,相信会成为新的数据需求释放源、将市场规模继续向上抬升。

  答:在智能驾驶领域,公司同时覆盖了舱内、舱外多类数据业务,舱内主要为智能语音、计算机视觉业务(DMS、OMS);舱外主要为计算机视觉类业务,数据应用场景包括道路识别、行车决策、泊车决策等。

  答:算法主要应用于智能驾驶数据的标注环节,标注环节是整个数据处理过程中对人依赖最强的环节。算法的介入,可以显著降低人工标注时长,提升人工标注效率。例如在车道线标注任务中,可在人工标注前,先利用算法对车道线进行预先识别和标注,这样标注人员操作时,仅需检查和校正部分未被算法识别或准确标注的图片,大大提升了标注效率。因此,算法的介入可以大幅缩减人工标注时长,降低标注成本,整体提升标注环节毛利水平。

  答:公司主要客户有传统车企、造车新势力、以及一些头部自动驾驶技术公司。 目前来看,受智能驾驶技术级别的提升以及车企的规模化量产等因素驱动,智能驾驶产业链上各类客户对于数据的需求都在急速增长,包括一些头部智能驾驶算法公司受下游主机厂的需求驱动,亦开始大幅增加其在数据方面的投入。同时,多家传统主机厂也在逐步增加数据预算,以求快速迭代优化车辆感知算法,获得精准感知及更多长尾场景的覆盖能力。 从目前公司摸排到的市场需求情况去看,单家智能驾驶客户(主机厂或头部智能驾驶算法公司)每年的数据预算从百万-上亿元不等,数据需求整体呈现加速上升的趋势。

  答:客户自建团队在整个AI训练数据市场并非新现象,而是伴随着整个AI行业的发展一直存在的。但客户自建团队主要解决其自身的部分数据需求,如敏感数据等,对于那些需要投入较高研发力量以及数据安全要求较高的复杂数据,客户出于成本以及规模化效益考虑,仍会大量购买数据服务提供商的数据及服务。 相较于客户自建团队,海天历来都是对接众多大型科技公司、头部人工智能企业、科研院所等,项目经验丰富,积累了大量的know-how,对数据处理的理解更广、更深刻,同时我们搭建了成熟的数据处理算法平台,通过更高效的人机交互实现降本增效,保证数据质量的同时能有效降低成本,为客户提供更高性价比的训练数据产品/服务。 因此,公司判断,智能驾驶数据业务市场空间足够大,即便部分客户未来会长期维持自建团队,但出于成本以及规模化效益考虑,仍会持续大量购买第三方数据服务,不会影响海天在智能驾驶领域的整体收入体量和增长趋势。

  答:目前公司已在进行供应链扩张和数据基地的布局以支撑智能驾驶快速增长的产能需求。2022年,公司已在安徽省建立并投入运营一体化基础数据创新服务基地,可为智能驾驶数据生产提供充分的产能支撑。长期来看,训练数据行业的发展将由资源主导转变为技术主导,单纯依靠人力增长来应对指数级增长的数据需求是不现实的,因此持续提升数据处理的自动化程度将成为解决产能问题的核心要素。目前,公司正在持续强力布局算法中台,使标注过程向更加智能化的方向演进,同时辅以自主建设的数据基地及不断优化的供应链在资源、数安合规等方面助力公司产能不断提升,以满足不同客户群体的需求。

  问:智能驾驶业务当中,目前需求来自哪些传感器?从智能驾驶客户端来看,其对数据的需求的趋势是否是逐渐增多?

  答:公司依托过往在智能语音、计算机视觉领域服务客户过程中所沉淀的经验和资源,不仅能够为智能驾驶客户提供包括车载语音数据、DMS以及OMS数据等在内的舱内数据服务及产品,支持客户在座舱人机交互、安全驾驶监控等方面的应用需求,并已将服务领域拓展至舱外,支撑客户在道路识别、行车决策、泊车决策等场景下的应用需求。在海天目前已开展的智能驾驶数据服务业务中,舱内数据所对应的传感器则包括车内语音交互硬件、车内摄像头这两大类,具体涵盖语音交互数据、人脸数据等;舱外数据所对应的传感器包括车身摄像头、车身雷达(激光雷达、毫米波雷达等等)这两大类,具体涵盖2D数据、3D数据、2D-3D联合数据等。 公司认为,对海量、广域的数据进行高效采集、处理、管理、利用是智能驾驶技术升级与迭代的关键因素之一。同时,公司在提供数据服务过程中,紧密关注客户侧在车型、传感器配置类型及数量(摄像头、激光雷达、毫米波雷达等)、行车场景(高速道路、城市道路、非城市道路、泊车)、拥堵情况、天气(雨、雪、大风等)等舱外数据丰富度,以及舱内人机交互功能(语种、虚拟人、情感、娱乐等)的提升、DMS/OMS安全监控功能的迭代等方面的变化,这些要素的演变趋势综合在一起将决定客户对于训练数据需求的增长趋势,换言之,这些要素的变化不停止,则客户对于训练数据的需求就不会停止。

  答:基于目前智能驾驶的技术发展态势,各个客户的技术方案多有不同,例如技术路线、车型、传感器选型、部署位置、数据处理的需求等等都有各自的要求,因此现阶段智能驾驶训练数据需求仍以定制化需求为主。 随着去年测绘资质的获得,公司拥有了上路采集数据的准入资格,也使得生产自有产权舱外数据集产品成为可能,具备了产品化开发的基础条件。未来,公司将持续洞察市场共性需求,择机进行智能驾驶相关产品的开发。

  问:在向智能驾驶客户提供数据服务时,是否也存在模拟数据的形态?模拟数据对客户们来说有什么用?

  答:目前,智能驾驶的模拟数据集主要集中在智能座舱领域。模拟数据集指的是在客户的智能座舱算法上线之前及初期,因为其自身尚未产生实网数据,通常需要采购由海天搭建模拟座舱环境所采集、处理完成的模拟型数据集进行算法模型的训练,在客户侧的产品上线并运行一段时间、产生大量实网数据之后,客户则可以提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,当客户进行产品功能或语种的拓展时,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,周而复始。公司积累了一定规模的智能座舱领域的产品化模拟数据集资源,并已经提供给不同类型的智能驾驶客户、支持其智能座舱内人机交互应用的快速落地。

  答:算法主要应用于智能驾驶数据的标注环节,标注环节是整个数据处理过程中对人依赖最强的环节。算法的介入,可以显著降低人工标注时长,提升人工标注效率。例如在车道线标注任务中,可在人工标注前,先利用算法对车道线进行预先识别和标注,这样标注人员操作时,仅需检查和校正部分未被算法识别或准确标注的图片,大大提升了标注效率。因此,算法的介入可以大幅缩减人工标注时长,降低标注成本,整体提升标注环节毛利水平。

  答:境外收入的主要驱动因素来自于多语种相关的智能语音以及计算机视觉类业务。 随着AI在全球的快速发展,海外越来越多的科技企业以及互联网企业正在加速进行全球化扩张,为更好实施其发展战略,已释放出快速增长的多语种数据需求,例如将全球化扩张作为其收入增长核心动力的海外科技互联网企业、将AI及元宇宙作为其重点发展方向的大型科技企业等,都已释放出大量的多语种语音需求以及多语种OCR需求。 海天也已在多语种方面加快布局,通过规模化的多语种产品研发投入,精准对接海外客户需求。此外,为进一步撬动更大的境外市场需求,公司将增设海外本土销售团队,并通过多维营销方式增强海外客户触达,提升客户服务体验,力争实现海外市场收入在未来保持良好增长态势。

  答:随着AI在越来越多的垂直场景应用落地,全球AI进入高速发展期,海外已呈现出快速增长的数据需求,尤其是将全球化扩张作为其收入增长核心动力的海外科技互联网企业、将AI及元宇宙作为重点发展方向的大型科技企业等,为更好实施其发展战略,已释放出快速增长的多语种数据需求,包括多语种语音需求以及多语种OCR需求等。海天已加快布局,通过规模化的多语种产品研发投入,精准对接海外客户需求。此外,为进一步撬动更大的境外市场需求,公司将增设海外本土销售团队,并通过多维营销方式增强海外客户触达,提升客户服务体验,力争实现海外市场收入在未来保持良好增长态势。

  答:智能驾驶市场主要参与者有品牌数据服务商,客户自建团队以及一些中小服务商。从目前行业格局来看,品牌服务商占据较大比例的市场份额。根据海天观察,在品牌数据服务商里,Appen和百度智能云数据众包在该领域实现较早布局、处于领先;海天从去年开始发力该领域,并已经实现了第四代智能驾驶标注平台的上线,未来将会通过持续提升平台和算法的能力、拓展客户资源,加速培育能力,力争未来在该领域实现高速增长。

  答:首先,境外市场空间更为广阔。随着全球AI进入高速发展期,海外已呈现出快速增长的数据需求,尤其是将全球化扩张作为其收入增长核心动力的海外科技互联网企业、以及将AI及元宇宙作为重点发展方向的大型科技企业等,为更好实施其发展战略,已释放出快速增长的多语种数据需求。此外,境外毛利受标准化数据集产品占比较高且定制服务毛利也较高等因素驱动,其综合毛利水平高于境内,因此发展境外业务还可一定程度带动公司整体毛利提升。

  答:除了长期合作的良好口碑,公司在语音方面积累深厚,尤其是多语种方面的积累和能力,可以更好服务境外公司全球化布局。截至目前,公司已覆盖超过190种语种/方言,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见多语种,尤其在亚洲多语种的服务上具备竞争优势。除核心业务能力外,公司也从去年开始制定了更为全面的全球化发展战略,从品牌升级、体系搭建、团队建设、营销推广等多维度升级海外市场布局,大大提升海外客户触达和服务能力。

  答:首先,公司境外业务当中标准化数据集产品的销售占比相对更高一些,而标准化产品的销售毛利率为100%,远大于定制服务毛利水平。此外,相比于境内客户,境外客户更认同数据服务商的综合能力及品牌价值、价格敏感度相对较低。以上两个因素综合导致境外业务较高的毛利水平。

  答:未来,智能驾驶以及多语种多模态业务将成为境内市场增长的核心驱动力。 随只能驾驶车型和量产车数量的增加,以及智能驾驶级别的进一步提升,智能驾驶相关的业务需求会呈现出多元化以及指数级增长的态势。海天从去年开始发力该领域,建立并持续优化智能驾驶的平台和算法能力,实现更多功能点覆盖以及更强的算法预标注能力,全力支撑智能驾驶数据业务实现高速增长。 此外,伴随中国企业出海以及国际化战略的实施,客户对语音类数据需求将进一步拓展至更多语种,而公司在语音语言学研究方面积累深厚,截至目前,公司已拥有190个语种/方言的覆盖能力,语种覆盖度处于行业领先水平,强大的多语种能力将更好助力公司智能语音订单获取,成为支撑公司收入的增长的重要动力。同时,一些前沿性的多模态、虚拟人需求也在快速增长,公司在该领域的布局也将进一步助力公司境内业务保持良好的增长态势。 此外,随着AI渗透入更多行业,在国家大力发展数据要素、数字化经济的趋势下,相信境内市场将呈现更多场景机会,高质量训练数据都将成为AI落地场景不可或缺的驱动要素,并为公司持续带来业务扩展及增量机会。

  答:公司语音业务领域的训练数据业务类型包括语音识别采集、语音识别转写、语音合成、发音词典等方向。客户在语音数据业务领域的需求是多种多样的,伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透,以及中国企业出海、国际化战略的实施,客户对语音类数据的需求将拓展至更多语种、更多垂直应用场景、更多设备、更多音色类型等,这些都将成为公司语音数据业务新的增长点。 具体来说,境内语音业务将通过提供更多外语种训练数据产品及服务,主要服务于境内各大客户的出海拓展需求。此外,公司也将重点关注境外客户在多语种拓展、虚拟人/多模态、新型硬件研发领域的新型语音业务需求;相比于境内语音业务,得益于境外主要客户更认同数据服务商的综合能力及品牌价值、价格敏感度相对较低,境外语音业务毛利率更高,对公司整体毛利水平的稳定将起到积极作用;同时,公司还将通过扩建全球化销售团队,进一步扩展境外语音业务市场,尽力提升语音业务对公司整体收入的贡献。

  答:目前来看,市场上数据服务市场主要由品牌数据服务商、客户自建团队以及一些中小数据服务商构成。 未来,公司预判整个数据服务市场将进行重新洗牌,集中度将进一步提升。市场各类主体将会通过在技术研发投入、资源能力建设等主要方面的竞争,逐步淘汰掉那些研发能力弱、资源势力差的品牌服务商和中小玩家。此外,国家对于数据安全及合规要求的进一步趋严,会将那些不具备数据安全合规能力或尚未进行此方面布局的企业逐渐淘汰出局。 在客户自建团队部分,出于其自身对数据和业务的敏感性、保密性需求,可能会与品牌服务商长期共存。

  答:经过多年发展与积累,公司逐步构建起了在行业内的竞争壁垒,核心竞争力大多数表现在: (1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强判断力和较强的资金实力。截至目前,公司已积累超过1,050个自有知识产权的训练数据标准化产品,数据库存量稳居全球企业前列。 (2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。 (3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。 (4)数据安全及合规能力: 数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识别和管理实践中,已形成了较为成熟的安全、合规管理体系。公司全方位做好数据风险管控工作,通过了业内重要的 ISO/IEC 27001 体系认证、ISO27701 个人隐私信息安全管理体系认证,形成了具有自身特色的数据安全与隐私保护整体解决方案。目前,公司符合 GDPR、《数据安全法》、《个人信息保护法》等一系列国际通用与国内法律法规的管理规范要求,获得了业务领域合作客户的高度认可。

  答:从短期来看,公司竞对仍是传统模式下的数据服务公司,国内的主要竞争对手是一些品牌数据提供商,如慧听、标贝以及一些新兴公司;国外的主要竞争对手是Appen。 与竞争对手相比,海天瑞声自身还是存在显著的竞争优势的,如丰富的产品积累、成熟的数据处理技术和平台、全球化的供应链管理能力等等。另外,从公司创业历程看,由于长期与国际性科技企业合作,对数据安全和合规的重视是深入到公司运作的方方面面的。而数据安全和合规是需要投入较高的成本建设的,在日益完善的法律环境下,这方面的投入为公司带来了新的竞争壁垒,也将会为公司未来在垂直行业和政企业务拓展形成有利优势。 但从长期来看,随着训练数据需求逐渐向高品质、规模化、行业化方向转变,基于自身持续研发能力建设的数据生产智能化程度将成为数据服务商的核心竞争力,因此,未来诸如Scale AI这类具有更强技术属性的同业公司将成为海天的主要竞争对手,为此海天自身已经开始在研发、人才等方面大规模持续投入,为未来竞争提前布局。

  答:AI训练数据行业整体处在快速增长期,根据IDC研究报告,预计中国AI基础数据服务市场近5年复合年增长率将达到47%,预期2025年将突破 120亿元。此外,随着AI+垂直场景相结合的趋势、以及这些垂直行业自身的蓬勃发展,训练数据行业将迎来更大的增量市场空间。目前,智能驾驶的高速发展已带来爆发式的训练数据需求,未来随着机器人、数字人等在各领域的商业化落地,训练数据需求将会加速释放,市场容量增长非常可观。

  问:标品化的产品数据集业务与定制化服务业务的区别是什么?客户会如何选择?未来的发展趋势如何?

  答:区别:产品数据集是先于客户需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判断和通用化需求的提取能力,其属于是一次性投入、未来重复授权销售,对于公司的营收、毛利有着重要作用;而定制业务的需求来源是客户的定向化需求,有些定制业务的原始数据来源是客户提供的实网数据,公司提供纯加工的服务。 客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。 产品+服务的组合一直是公司向市场提供的综合解决方案,是一个整体,服务于不同客户的不同研发阶段需求,其收入贡献比例在各年间也呈现较为一致的趋势。而产品+服务带来的数据积累,也哺育了公司的数据处理平台和相关算法不断提升,努力达到数据处理场景下的行业最优。 未来,如果把垂直行业数据这个大领域放进来考虑,那么先期,更高要求的定制化服务业务的占比可能会逐渐上升,以智能驾驶为例,客户对于数据服务商的主流需求其实是一体化、闭环式的数据解决方案,这就需要类似于海天瑞声这样的数据服务商有能力为客户提供从数据采集、处理到训练、仿真、测试、验证的完整闭环服务,以满足客户的数据处理量更大、数据处理的迭代频次更高等需求特点。但在定制化服务提供过程中,公司将发挥在语音领域一样的特点,提取标准化需求,在垂直行业领域也构建建设自身产品体系的能力,形成有价值的行业数据集。

  答:公司标准数据集产品的积累方式主要为基于公司对市场需求趋势的判断和共性需求的提炼能力,先于客户需求开发数据集。数据集产品的这种商业模式在行业内往往具有较高壁垒,一方面需要公司对未来需求趋势有精准把握,另一方面由于产品开发属于先投入后产出,因此需要公司具备充足的资金保障,只有具有大量行业经验+know-how积累以及资金充足的企业,才能具备产品开发能力。因此,产品模式也成为公司区别于其他竞争对手的一大特色,目前公司产品数据集储备已处于行业头部水平,产品的积累对公司未来的收入扩张和毛利提升都将起到重要作用。

  答:就目前训练数据产品的销售情况看,平均生命周期大概在5年左右,有部分产品生命周期可达8-10年之久,比如公司早年建成的一个中文语音识别数据集,目前仍在销售,而且售卖范围很广,基本覆盖了目前市场上绝大多数主流的语音识别引擎。

  答:一般来讲,数据集产品在生产出来后,为了保证数据集自身的平衡程度,通常不会做大规模的更新、拓展,而是在标注类型方面做一些完善或者进行小规模的扩建调整。如果判断有新的市场趋势,公司会研发新的数据集去覆盖。因此,每个数据集都是有生命周期的。在这个周期之内,价格通常会随时间推移而呈现下降的趋势,而在这个过程中,那些竞争力较强的数据集会在相当长的时间保持价格的竞争力,其价格下降趋势会较为缓慢、甚至在一定时间内几乎不下降。因此,价格的调整是根据数据集的前瞻性、稀缺性、市场供需关系等各方面因素决定的。

  答:公司对于产品数据集知识产权的保护主要通过以下几方面来实现:(1)在与客户前期商务谈判中,严格约定知识产权保护相关条款,明确双方权利义务,确定违约责任,形成有效的法律制约;(2)在数据交付过程,采用加密方式传输,防止数据的泄露和传播。此外,公司的客户通常为大型科技企业、科研院所等,其自身对知识产权保护的意识和措施也是很强的。

  问:定制服务大概包含什么样的工序?如果是垂直场景的,要对该场景的know-how有积累?

  答:具体要看客户的需求,有些是从文本设计开始,包括后续数据采集、标注等,面对这类客户需求,需要对应用场景有一定的know-how积累。公司以AI训练数据行业唯一一家获得最终优胜单位的身份参与了第一期工信部新一代人工智能产业创新重点任务,期间经过攻关,我们的应用场景已经积累到了数十种。 例如智能家居的语音助手场景,公司在文本设计和采集方案部署的时候,需要理解语音助手在应用时对场景环境、近场远场、说话人的指令习惯、房屋的布局对声音收集的影响等各方面要素有充分的理解,并通过实验的方式确定最佳方案。

  答:公司主要从事训练数据的研发设计、生产及销售业务,为人工智能产业链上的各类机构提供训练数据定制服务、训练数据产品和训练数据相关的应用服务。公司研发、生产的训练数据除覆盖了智能语音、计算机视觉及自然语言处理三大AI传统领域外,还可广泛服务于智能驾驶为代表的新兴垂直应用场景。 公司有着近20年AI训练数据行业经验,积累了有一定竞争力的算法能力,但公司并不将算法能力作为直接盈利模式,我们的算法主要服务于我们内部的数据生产,旨在提升数据生产的整体智能化水平、降本增效。

  问:公司不是仅仅提供数据标注服务,而是提供整体训练数据解决方案,那么在解决方案中的各个环节的技术难度如何?

  答:首先训练数据集的设计和原料数据采集环节是存在相当的技术难度的,比如语音类采集,文本设计是否贴合实际场景、如何实现最小采集量且确保场景覆盖丰富度等因素均是设计和采集环节需要考虑和解决的;在视觉类采集方面,复杂的人像采集、物体影像采集,同样具有如何设计合理的数据浓度达到最小成本最高训练效果,如果是垂直行业数据集的采集,例如交通行业内的自动驾驶领域,则存在准入资质、技术难度(包括但不限于对于交通场景、车辆传感器等要素的综合理解和实施能力)等方面的门槛。 数据标注环节的难度在于面对大量的数据标注需求,如何快速的找到充足的资源,而且通过算法平台实现机器的辅助标注,并在人机协作过程中,寻找效率与质量的最佳平衡,在提升数据标注效率、保证数据质量的同时降低成本。 公司在今年已经开始了大规模的研发投入、且该战略将会长期持续,以全面提升公司的算法能力、工程化能力、资源管理能力,坚持技术+资源的双轮驱动方针,保持和提升公司的竞争力。

  答:其实,数据辅助标注技术、数据生成技术一直都是存在的。 实现最佳的人机协作模式下的辅助标注,是海天瑞声一直在探索和努力的方向,通过持续算法投入,逐步提升数据的自动化处理程度,在保证数据质量的前提下,提高数据处理效率,减少人力参与程度、进而降低成本。 数据生成技术可以作为数据采集的有效辅助,但也存在较强的局限性,降低真实世界各类特征的训练效果,因此目前仅可作为数据采集的一种辅助方式。 公司在本行业深耕多年,一直在持续紧密关注各类技术的变化、演进,我们会选择最适用的技术来助力业务目标的实现,并将通过不断的研发投入,确保自身在技术领域的持续领先性。

  答:数据处理平台是否具备较强竞争力,首先要看其功能点的覆盖程度,覆盖的功能类型越丰富,其可处理的数据场景、以及可满足的客户需求就会越多。以智能驾驶为例,目前同时具备2D标注、3D点云标注、2D-3D联合标注以及3D语义分割标注的供应商比较有限,能以最快速度覆盖更多功能需求的数据服务商将能更好掌握智能驾驶数据市场的主动权以及议价能力。 第二个评价要素是平台的产出效率。平台的智能化程度越高,对人的依赖程度越低,在提高平台的生产效率的同时可以大幅度降低生产所带来的成本。 第三是平台友好度,即平台操作的便捷性。便捷性越强,标注员上手越快,标注效率则越高。

  问:从长期来看,数据标注需求会持续上升,数据标注的单价是否会呈现下降趋势?

  答:单价是否呈现下降趋势主要取决于该领域是否较为存在较高壁垒。在较为成熟的细分方向,比如中文智能语音数据领域,确实存在进入者增多、价格竞争的情况;但对于外语种领域,数据服务商则会有更高的议价空间。所以,未来公司将主攻有较高技术壁垒,存在较大毛利空间的细分场景,尽力避免价格竞争带来的过度消耗。 此外,公司也将通过短期内大规模专项研发投入及持续的研发升级,进一步提高自研平台能力,通过智能化促进产能提升、效率提升、成本降低实现规模效应和盈利能力的提升。

  答:有一些客户是会有自建团队的,客户自建团队主要解决其自身的部分数据需求,如敏感数据等,但受专业化分工的影响,客户仍然会大量购买数据服务提供商的数据,尤其是那些需要投入较高研发力量的复杂数据,以充实其算法模型训练的规模性需求。

  答:相较于客户自建团队,海天瑞声历来都是对接众多大型科技公司、头部AI企业、科研院所等,获得的信息是广泛的,项目经验比较丰富,同时积累了大量的know-how,对数据的理解更广、更深刻,同时我们搭建了成熟的数据处理算法平台,通过更高效的人机交互实现降本增效,保证数据质量的同时能大大降低成本,为客户提供更超高的性价比的训练数据产品/服务。

  答:未来1-2年,境外业务和智能驾驶业务将成为公司营收的核心增长点: (1)境外业务:随着AI在越来越多的垂直场景应用落地,全球AI进入高速发展期,海外已呈现出迅速增加的数据需求,尤其是将全球化扩张作为其收入增长核心动力的海外科技互联网企业、以及将AI及元宇宙作为重点发展方向的大型科技企业等,为更好实施其发展战略,已释放出快速增长的多语种数据需求,包括多语种语音需求以及多语种OCR需求等。海天已加快布局,通过规模化的多语种产品研发投入,精准对接海外客户需求。此外,为进一步撬动更大的境外市场需求,公司将增设海外本土销售团队,并通过多维营销方式增强海外客户触达,提升客户服务体验,力争实现海外市场收入在未来保持良好增长态势。 (2)智能驾驶业务:受智能驾驶技术级别的提升以及车企的规模化量产等因素驱动,智能驾驶领域的数据需求正在急速增长。为更好承接迅速增加的数据需求,公司正在通过专业的销售团队建设以及领先的平台算法能力,加紧构建行业一流业务能力,快速拓展智能驾驶市场,2022年1-9月智能驾驶新增客户数量14个,前三季度验收订单额及截至三季度末在手订单额总计约5,000万元,同比增长超过200%。我们认为,随着年底公司第四代智能驾驶标注平台的落地,公司平台能力将达到行业头部水平,将进一步助力公司智能驾驶业务的快速拓展。 更为长远的看,公司的业务增速将与AI结合各行业的渗透率呈一致关系,当AI深入到更多垂直行业场景中去时,高质量训练数据都将成为不可或缺的驱动要素,并为公司持续带来业务扩展及增量机会;

  北京海天瑞声科技股份有限公司的主营业务从事AI训练数据的研发设计、生产及销售业务。公司的主要产品有数据资源定制服务、数据库产品、数据资源相关的应用服务;公司自2007年至今连续荣获“国家高新技术企业”及“中关村高新技术企业”称号,2018年被评为国家规划布局内重点软件企业。公司是“中国AI产业发展联盟”、“中国语音产业联盟”的理事单位,参与了行业标准的起草工作,在人工智能数据库架构设计、开发标准、质检评测等领域,以专业性和创新性获得了行业的普遍认可。公司近年来获得了2017年中国信息协会、信息化观察网评选的“年度人工智能数据服务领域领军企业”;2018年中国语言产业联盟颁发的“智能语音创新大赛行业先锋奖”;2018年中国信息协会、信息化和软件服务网颁发的“2018年AI行业最佳产品”等多项国内外AI领域奖项。

Tel
Mail
Map
Share
Contact