纠音级语音评测、NLP助力打造的知识图谱，详解作业帮AI如何落地 - 快讯 - 快讯

纠音级语音评测、NLP助力打造的知识图谱，详解作业帮AI如何落地

2024-10-27 16:04 浏览:113

　　AI悄然改变着生活方式，如何将通用的AI能力有效供给特定领域下的不同业务？如何看待国内外AI领域开源现状？大模型、多模态这些研究热点，是昙花一现，还是百炼成钢？本文访谈了作业帮首席算法专家宋旸，看看这些技术在作业帮是如何落地的。

　　记者：首先请宋老师介绍一下自己，目前在做哪些方面的工作，关注的领域有哪些？

　　宋旸：我最早从事算法研发工作是从搜索开始的，从Spider到互联网的数据挖掘，到站点的价值分析，再到推荐算法，这部分经历主要是在百度期间进行的。到作业帮之后，主要开展的业务首先是题库建设相关。

　　2019年，直播课兴起之后，又参与到直播课做一些为业务赋能的算法工作，包含NLP、语音等。目前NLP这块支持的业务场景会较广一些，包括翻译、作文批改、文本分类、题库里面题目的智能打标，还有知识图谱的建设等等。语音方面，主要是识别、评测、合成三大技术方向支撑现有业务。包括质检，语音检索，语音翻译，直播课场景里面的语音弹幕，评测，以及语音合成读题与AI交互发音等。

　　AI赋能业务场景

　　记者：语音弹幕，听起来是一个有意思的应用，能讲一下是怎样的业务场景吗？

　　宋旸：语音弹幕本质上就是语音识别技术的一个具体场景的落地。在作业帮直播课的场景中，直播间的受众大多是偏低龄的学员，一般还不会打字输入，有的字甚至还不太认识。如何在这个场景下进行互动、满足他们爱回答问题的欲望，是一个有挑战的事情。如果只是做单纯的比如“A/B/C/D”、“?/×”的选择类的问题的话，形式过于单一。我们希望能为他们提供一些自由充分的表达，所以我们专门研发了仅通过一个点击就可以直接语音输入的功能。

　　这个功能的主要难点在于，低龄儿童有时吐字不太清晰标准，同时缺少上下文的语境，可能还是跟领域相关的。所以针对这些问题，研发团队做出了一些改进和优化工作，比如短文本的语音识别技术的改进，以及针对特定场景的语言模型的引入等等。

　　再比如，针对上课的场景，语文阅读课，老师需要搜集跟这个课程相关的阅读材料，来整理与该堂课相关的问题，这就可能会涉及一些精准的关键字等，这个场景一方面需要单独的语音模型，另外也要通过热词的方式叠加到该语音模型上。

　　记者：NLP方面，在作业帮有哪些赋能的落地场景呢？

　　宋旸：NLP方面，作业帮也做了一些重点的工作。一个是机器翻译，我们新上了一个拍照翻译的功能，学生在阅读大篇幅的英文段落时，需要有辅助翻译的工具。通过拍照翻译的功能，省去了手动输入、语音输入的麻烦。具体到K12的场景，例如拍照内容是一道题目，比如完形填空题，含有一些空格或者下划线上有特定的序号，如果使用通用的翻译软件得到的结果就会很差，序号、下划线的部分就会被翻译得有些糟糕。这时，就需要把这类难题单独抠出来，同时确保题面和一些特定的结构信息不丢失而不至于翻译错误。

　　当然，针对语料场景上面的优化研究也是必不可少的步骤。所以说，研发团队考虑的是如何去做特定的优化和适配。再一个，机器翻译跟语音结合的场景，作业帮近期推出的一个学习硬件，亮点就是短句翻译的功能，其中也会引入语音的能力，实现中英文之间ASR和翻译的结合。这其中，把实现这些功能的算法去做到硬件本地化，解除云端的依赖，这是下一步的事，因为这个硬件本身的算力没有那么强，要把效果做好，还是有一些挑战的。

　　另外，在题库辅助建设方面，其实也应用了很多NLP的能力，比如知识图谱。知识图谱其实就是把我们的整个知识点去做一个有机的组织，一是树状结构，二是知识节点之间也会有联系，比如谁是谁的前驱，谁是谁的后继。此外，这些知识点与题目的挂钩，因涉及到不同的知识体系，需要有教研的投入和参与。但对于作业帮5.8亿体量的题库更新而言，需要精加工的题目量级基本也是在千万的规模，这千万道题如果都单靠人手动打知识点标签，基本是不现实的。

　　所以我们通过人做一些少量的标注，NLP模型训练的方式，能够实现模型辅助自动打标签。目前是多标签的任务，已经在多学科、多学龄段达到80%以上，甚至90%以上的适用率，可以基本替代教研来自动完成任务。当然，针对重点的场景，依旧需要老师做审核工作。

　　记者：语音技术和NLP技术二者之间的融合，有哪些比较成熟的探索？

　　宋旸：如果说语音和NLP的结合，质检是一个特别典型的场景。在直播课业务中，有大量涉及到语音沟通的内容都需要去做质检。而质检的话，技术上看就是去做一个语音的文本转写，转写完之后，通过NLP的方式，在里面找到疑似有问题的部分，结合自身的业务规则。比如通过关键词预发现的方式来做业务粗筛，为质检系统提供判断依据。

　　再之后，根据质检业务同事的实际反馈信息，我们会把一些典型的质检，像数据比较丰富的、标准比较一致的，把它训练成模型，落地为机器质检。目前，已经形成了一套较完善的自动质检的流程。通过这个自助平台，业务侧的老师完全可以在平台上进行自主配置。精确率方面，不会要求特别高，因为我们还是更多想发现问题，只要在人力可控范围内，比如精确率10%、20%。假如系统发现了100个点，这里面有10个点确实有问题，就已经能很大程度辅助解决每天的质检问题了。因为纯人工的话，可能是从上万、几十万的点里面挑了这10个。所以它不会对精确率有很高的要求，更多的可能是希望有问题的尽量去召回。

　　AI预期：有差距不代表不可用

　　记者：将AI能力融入实际场景的过程中，目前有哪些挑战？

　　宋旸：挑战来源于业务侧的需求本身对AI的预期。AI领域一个最大的问题就在于，它不太可能有一个算法能做到100%，有的时候并不能达到需求侧的预期。比如，作文批改这个场景就比较典型，虽然说在学术界、工业界，都做了很多探索，但实际上AI最终的效果离老师的预期还是有很大的差距的。当然，有差距不代表不可用，某些场景下可能就是适用的。

　　比如，我们的产品里的作文批改的功能，对于家长来说，就非常实用，能够帮助家长来判断孩子作文的质量情况。因为这些作文的批改评价，虽说不如老师更准确，但还是能够提出一些初步的评定：好、特别好、特别不好，这都是较客观的分析结果。对于低年级的学生，这个功能也会帮助他们减少乱写、瞎写的情况。这都在一定程度上能够解决家长的诉求。

　　对老师来讲，能够帮老师去做哪些事呢？比如说错别字、病句，AI能够帮老师筛选出来，但老师自己来挑的话，时间上来不及，还不一定能够挑得全。老师使用这个功能时，基本上扫一眼就能确认这些。这样老师可以节省出时间去做更高级别的事情，比如评价作文的立意，哪部分文字还有待优化等等。

　　记者：这是一个改作文的场景，还有一些别的场景吗？这个场景辅助的作用更大一些，哪些可以基本上替代老师的呢？有哪些案例吗？

　　宋旸：在批改作业的场景中，客观题和填空题，基本上已经可以用AI来做了。主观题的话是智能做到部分替代，这方面AI的能力和作文批改差不多，都在逐渐迭代中，不能完全解决，但是部分已经实现一定程度的自动化。

　　其实我们还有一个场景就是语音里面的TTS，就是语音合成，语音合成这个场景其实在有些地方已经用上了，直播课里面有很多读题的场景，也还是面向小学低年级的孩子，出一个作业题的时候，还是要给他念一念，有一些孩子的字还不是认得全的，每一道题都念一遍的话，要找人配音的，成本非常高，所以目前的语音合成已经完全能够解决，因为小学低年级的课程设有卡通人物题，我们的思路是直接用合成卡通角色的声音，将每道题念出来，实际效果上非常自然，基本上和配音演员的不会差得特别多，已经完全能够很好的覆盖解决这样一个场景了。还有许多场景，我们也都在不断地迭代优化。

　　记者：目前语音合成方面，如何才能做到非常自然的输出？

　　宋旸：现在优秀的语音合成框架非常多，算法模型角度上看已经比较成熟了。语音合成的原理可以看成是一个ASR语音识别的逆向过程，关键还是需要训练数据得足够好。因为合成任务的输出非常依赖它的输入，所以对输入的要求是噪音干扰要尽可能的小。

　　早期的时候，我们合成的结果经常伴有一些杂音、机器声等等，最后发现就是我们的训练语料存在局部的数据质量问题，噪音稍微多一些。当输入的质量提升后，这块问题很大程度上就能得到缓解。除了训练数据的质量，再一块就是训练数据本身的丰富程度，我们需要把要合成的内容相关的因素做到尽量全面覆盖。

　　在语音领域，发音的最小的单元就是音素，有点类似于拼音中的音节。我们对收集的语料的要求都会细分到到每一个音素的覆盖，某个音素不能出现太多，也不能出现某个音素太少。这就要求我们选语料的时候，保证音素以及两个音素之间的连接，都能尽量达到均衡的覆盖。这样，效果会好一些。

　　同时，语音情感方面，合成的输出下一步要实现“情感可选择”，就是用户可以选择需要什么样的情感，模型就去合成这样的情感。当前的研究还是针对不同的场景来做，比如阅读题目，训练数据里面就不要包含感情特别丰富的语料，然而在讲故事的场景下，就不能将“干巴巴”像读新闻内容那样放进来。语音合成对于不同领域还是要相应的适配，因为情感、语调、语气目前阶段对它的依赖会比较强的。这块研究在游戏领域里应用得更多一些，国外公司投入的较多。

　　具体来讲，游戏领域，尤其3A大作，都需要优质的配音，这种配音很多是通过合成来解决的，但是对于语句情感有相应的要求，可以预制不同的情感来合成相应的脚本，然后软件里做一些简单的微调即可。

　　记者：那如何评判这个语音合成的效果呢？有专门的指标吗？

　　宋旸：合成整体其实还都是通过人主观的评分来解决的，主观评分一般都会定一个标准，让评估人员先确认一下多档的标准，明确档级的要求，通常需要找多个评分人员分别判断，然后将他们的平均分来作为这个指标评分。

　　记者：在语音评测这方面，作业帮积累了哪些经验？

　　宋旸：语音评测这个领域相对比较成熟，但现在也有一些很难解决的问题，比如一些极相似的音素，单靠技术手段不太能区分。比如说英文里“th”和“s”的发音，很多时候在AI模型里面很难能区分出这两种发音的差异。再有单词末尾的“s”，读轻音还是浊音也非常难判断。这个时候除非你刻意去读它，否则在正常读句子的时候，这个“s”到底发哪个音，有时我们人都不能听清，所以机器识别的话，效果就没有那么好。

　　除了这些很难区分的读音之外，其他很多中国学生易犯的错误都已经可以比较好的区分识别。现在有一些纠音识别的方案，比如，你读一个音之后，不是仅仅给你做一个评分，而是告诉你这一个单词里面每一个音素的发音，标注哪个对，哪个不对。不对的话，你是错误的把它发成了什么音，会明确的给出提示并针对这个错误再去预制一些训练的方法。现在市面上更多的就是单独打分，作业帮目前能够做到纠音级别。目前我们在纠音这块已经有了不错的demo，这个demo后面会找到相应的场景来应用落地，可能更多会在B端的业务场景里进行。

　　未来：AI能以较低调的姿态发展

　　记者：您认为未来智能语音技术会出现哪些新场景？

　　宋旸：智能语音场景，很难有一个特别大的突破，更多还是在现有的基础上再去做一些迭代。它体验上面，包括之前的同声传译，听起来比较“性感”，但是真正能落地的场景却比较少，很难用在日常生活中。可能对于出国群体，更有用武之地。

　　所以，本人可能对于智能语音并没有特别高的预期，它可能不会特别火爆。随着技术的发展，很多事物都会以一种“低调”的姿态走进并影响我们的生活。比如TDS语音合成技术，可能某一天你就会发现很多场景下的声音都是技术合成出来的，但你并没有违和感。我相信，在未来的几年里,这都能够实现。

　　记者：您是如何看待数字人的发展？

　　宋旸：数字人是一个更大的挑战。在娱乐领域比较火爆，但还是偏小众一些，没法在大众场景里面普及。洛天依那么火，但其实影响的是个小众圈。当然，不少企业都在开发数字人，但不得不说现在依旧还不够成熟，更多还是做demo的阶段。有点像“拿着锤子去找钉子”的感觉，技术虽然有，但需要找场景去落地。

　　大模型：语音领域值得一试

　　记者：智能语音这块，您觉得未来您关注的哪些发展趋势觉得还值得研究一下的？

　　宋旸：智能语音这块，现在整个AI界，预训练大模型是非常火的，预训练大模型基本上是新的摩尔定律，基本上每一年这个模型的参数规模翻一个数量级，至少已经连续几年是满足这个趋势的。这个还是很了不起的。预训练大模型最早是在NLP里面应用，图像里面现在逐渐有了这样的趋势，语音的话也是最近这一两年开始有一些好的实验结果出来，同时也有一些相应的预训练模型出来。

　　我们其实下半年也会更重点在这个方向上发力，将尝试预训练大模型这块的一些探索与积累，至少相比于传统的训练方式会有所提升，原因上一个是它的基础的模型效果就好，第二是在领域适配训练的时候，需要的数据量和时间相对是更少的。当你有一定的算力规模的时候，这块还是有它的优势。

　　记者：现在大模型的能力如何下沉到业务里边去，调用起来比较方便，这块咱们有什么初步的设想吗？

　　宋旸：主要问题是训练的成本比较高，如果要做到和OpenAI一样，去刷新业界内知名的大模型的参数量，需要特别大的投入。相较而言，更可行的是，针对自身业务相对的去做一些较大的模型的训练。作业帮的有一定的算力优势，GPU的机器集群规模很大，但这些集群在夜间凌晨时段一定程度上是闲置的，所以我们可以做一个分布式训练的平台，去自由调度这些算力，以便于利用闲置的时段来服务于模型训练。所以现在来看，如果能把闲置资源利用好，由自己来实现一个大模型的预训练的工作，还是可以做到的。

　　端到端、多模态：有热度不代表易突破

　　记者：在一些基础的深度学习模型上改进，端到端、多模态也比较热，您是如何看待的？

　　宋旸：端到端已经不是一个新概念了，但效果上一直没有特别突出。最近随着端到端模型本身的迭代，以及数据量的一些提升，端到端整体上是在更多的地方，比如说和目前流行的Kaldi的框架相比，很多的任务上能够做得更好些。所以作业帮现在大部分模型都已经切换到端到端的工具上了。

　　语音评测上，下半年我们也将在端到端模型上去做一些探索和优化工作，并把整个语音评测的框架切换到端到端的模型上。另一个是多模态方面。多模态比较火，但在语音方面个人判断短期不会有大的突破性进展。

　　多模态目前是文本与图像的结合最多，比如基于文本描述生成一张图，或者根据图像生出成文本描述，它的背后可以去实现文本和图像在同一个模型空间里面，用同一个向量同时表征它的文本和图像信息，融合在一起。

　　但语音不一样，因为语音本身其实和文字是有映射关系的，它是文字的声音信号的表示。它可能产生增量收益的地方，就是语音所包含的语气、语调，会有额外的信息增加到里面来。所以说现在研究的三模态融合的模型，整体上看，语音在这里面表现偏弱些。因此从语音方面上看，多模态虽说是一个研究上的趋势，但不一定能真正有特别好的、突破性的进展项目。

　　从JAX看框架流行的因素

　　记者：您是如何看待谷歌最近推出的新一款JAX框架？

　　宋旸：JAX这个框架，Tensorflow易用性这些方面还是差一些的，JAX从易用性角度会比Tensorflow稍微好一些，Deep mind在去年年底宣布全公司都切到这个框架了，谷歌系的很多公司都已经切到这个框架了。我感觉它现在的流行性在稳步发展，但还没有特别爆火，不像PyTorch推出之后的火爆，但是有明显优势。

　　从作业帮的技术栈来讲，更多在用PyTorch。不管是学术界还是工业界，PyTorch都具备公认的易用性。再比如之前的Keras，非常方便接入到原有技术栈之中，而不需要对底层做太多改动、不需要设计一些很新的网络结构算子，所以Keras是一个非常棒的框架。这也是为什么Tensorflow2.0把Keras直接封装进去的原因。

　　然而Tensorflow在编程、模型方面会相对难一些。PyTorch基本就是很Python化，跟Python编程非常相似。一个框架能流行有两方面因素，首先是看背后公司的推广的力度，社区的运营和丰富的程度，其次是领先的巨头公司是不是在用它做研究、出Paper、研发项目。有没有基于某个框架非常出名的项目，将对框架的推广产生非常大的助力。综合看这三种，未来AI开发栈的易用性会越来越好、越来越简化，这是一个趋势。

　　如何看待AI开源

　　记者：有一种声音认为现在AI在开源方面有些问题，认为巨头只是开放了他们觉得适合开放的。您认为应该如何对待开源的模型或框架？

　　宋旸：选择把技术开源本身就是件值得点赞的事情，已有的一些开源其实已经很大程度上帮助了整个AI产业界和学术界的发展。如果没有开源的这些框架或相应的项目，很多事情我们都需要重新开始做，那将花费大量的成本。

　　比如我们最早做机器翻译的时候，其实公司就是两个研发花了两个月的时间，一套东西基本就成型了，而且效果基本和我们对标的竞品是不差的。又经过两个月时间，基本上项目就已经完全超越了。能够实现这样一个效果，还是得益于现在的技术、框架的开源。否则，重新把训练和推理的架构写出来，不仅效果未必能保证，而且时间和人力的成本都将是巨大的负担。开源能让更多的人参与到AI领域，让大家更多的精力集中在赋能业务上。

　　记者：有人认为国内开源的代码存在注释少，可解释性比较差的问题。国外的话就比较标准一些。您是如何看待这个事的？

　　宋旸：开源是从国外流行起来的，社区的开源文化氛围也更浓厚些。目前国内的开源还没有那么的原生化，大家可能更关注是开源的东西能不能解决实际的业务问题。国内部分工程师并不是全职写开源项目，如果精力集中的话，会把代码、文档写得完善一些。可能即便写业务代码的时，除非外界有特别的要求，否则注释也比较少。这可能还是一个文化或者规范的问题。

　　记者：有关将模型、能力本地化，您觉得需要注意哪些？

　　宋旸：关于AI能力本地化这块，作业帮目前还在起步阶段，之前更多的用的还是云端的服务。

　　本地化的好处，第一，能够解决云端计算资源的成本压力的问题，因为作业帮业务有大量的用户调用，云端资源难免出现吃紧的情况，尤其是像最典型的直播课的业务，不管是语音弹幕，还是语音评测，孩子都是同一时间上课，大部分时间是不调用那些服务的，可能就只有10秒钟会开启一次，瞬间流量就会涌来。它是一个大部分时间闲置，但是瞬时的并发又非常大的一个场景，云端其实特别不划算。所以第一是解决云端资源压力的问题。

　　第二就是体验问题，当本地化模型和效果做得足够好的时候，它的延迟就能做得比云端要好很多。本地如果你做到位的话，它体验基本上是零延迟的，不管是评分还是ASR还是云合成，它的实时性上都会有更好的体验。

　　记者：本地化可以理解成把训练好的模型封装到硬件里面去吗？

　　宋旸：这需要针对业务侧的硬件平台去做一些定制化的工作。一些通用的模型，比如TensorLite，只要能够基于自身的平台的计算架构，进行交叉编译，你的模型基本都可以成功运行。但是有一些硬件平台比较特殊，比如它仅支持自身的TPU或者深度学习处理单元，就要针对它再去做一些定制的开发。

　　概括来说，第一，本地化时的算力，其实是不像云端这么充沛的。第二，并不是所有算力都是全场景通用的，你还需要结合自身业务和平台去做一些改造或适配。

　　记者：有关注到作业帮提出“订正推荐优先级”的作业方案，能详细介绍下吗？

　　宋旸：这块属于自适应学习领域，就是根据学生做题的来源和历史数据，作业帮推出的作业方案。数据来源有多种，首先，我们把学生的日常作业电子化进行收集，得到作业的情况。第二，需要拿到考试的结果数据，比如具体答题的对错情况。第三，自主学习的平台上会产生自主学习的行为，也能够成为输入。

　　不同来源的数据输入之后，我们就能够对学生的学习状况做一个预判，比如各个知识点的掌握程度、能力水平达到了一个什么级别，能完成多大难度的题目等等。有了这些东西之后，我们就可以去对学生做一个整体的知识图谱的描绘，优先推荐欠缺的知识点相关的题目，去着重巩固和提升。

　　简单来讲，就是基于学生作题的数据，对学生做一个能力刻画，基于刻画以及所在群体进行比较来进行知识推荐。

　　记者：AI能力方面，您认为作业帮有哪些优势？

　　宋旸：AI能力的话，基于作业帮的场景，一是有很丰富的数据，二是有在场景下多年迭代的经验，能够把体验做到极致。我们不大可能像谷歌、Facebook那样去做非常Journal的研究，我们更务实一些，针对我们服务的业务、场景，真正把它能够打透。这些点其实都是在这些场景下做了很多的针对性优化，像OCR相关的拍照批改、NLP方面的质检、语音识别等等，都是针对我们的场景数据集的一些特定的问题和翻译，做了很多优化。

　　虽说市面上通用的一些服务能力不少，比如质检和翻译，为什么还要自己做呢？还是在一种不同的领域场景下，通用的虽然它能做，但是你只要是有一个场景细分，你只要做一些针对性的优化和改进，就能够做到比通用的要好。并且这样的一个体验还是能够让用户有一些明确的感知的，对用户来讲是有必要的。

　　记者：您觉得对于一家成熟的互联网公司而言，如何采用有效的组织和协调技术能力，才能去到驱动业务?

　　宋旸：整体来讲，技术还是要服务于业务。尤其于AI技术而言，绝对不能脱离场景，而去单纯追求特别Journal的优化和迭代。解决业务问题，就需要技术贴合业务来展开，组织结构也要做出一些相应的调整和变化。原则上看，优先业务，其次再追求沉淀和效率。

　　没必要刻意追求中台

　　记者：现在AI中台非常流行，您是怎么理解中台的？跟我们平时说的数据中台、其他的技术平台有哪些显著不同？

　　宋旸：中台本质上是把通用的东西剥离、抽象出来，将统一的团队去维护。做中台出于两个目的，一个是成本上，如果每人都独立干的话，成本会成倍的增加。第二，将不同业务下的同样的问题进行归类，交给更专业的人来解决，会做得更好。是否上中台，个人觉得还是取决于公司的发展阶段和公司的整体目标。比如公司规模非常小的时候，一个公司可能也就干一件事，三五个人、十来个人，谈不上中台化。

　　但实际上，它也是用中台的，因为业务/能力都需要外部采购，可以将外部公司理解成“中台”的角色，为它提供了这些服务，小公司本身则专注在做业务。当公司发展到一定程度，业务扩张了多条线，但人力并没有那么充裕，这时，上中台是比较合适的。因为，不太可能把在每条业务线都分别都把所有的工种都配全，这里面的确有一些通用的东西值得抽象出来。尤其孵化新业务的时候，有很多跟之前业务共通的部分，这些部分可以抽象出来，形成一个“中台”的部门，来支持多个业务的发展。这其实是一个自然的过程。

　　成长为一家大型公司之后，中台其实不是特别适用，为什么呢？因为大公司的资源其实相对是比较充足的，更多追求的是业务本身的效果。虽说有通用的技术可以抽象，大家可以共用。但不同业务部门，对业务的优先级判断和指标效果要求是不一样的，对于中台部门，并不是一件容易取舍的事情。例如，业务方ABC，提出了三个要求，同时满足这三方的要求的可能性并不大。即便中台部门能满足这三方要求，但交付时间的进度上或者其他一些细节上又不达不成一致。这时候中台又不得不为这几个部门分别拆分出一部分人力，去单独适配各自的诉求。这样虽说是中台，但实际上也在为不同的业务单独匹配部分人力来完成，离中台真正的目标就会存在一些差距。

　　“去中台”：没必要纠结名词

　　记者：目前存在这样一种做法，比如字节、阿里，他们会把一些技术部门的成员拆分到业务里边去，这种做法算是中台做法吗？

　　宋旸：这种做法其实有点“去中台化”的感觉，我虽然想做一个中台，这几个人用同样的一套模式去同时支持所有业务，但是发现业务需求都不同，业务优先级也不同，很难将每个业务都支持得很好。那中台只能又把人力分出来。所以中台就变成了这个部门储备了一些模块、代码的基础能力，你可以去用，但实际上，人力的分配还是分散在各个地方。

　　中台最看得见的好处，就是为大家提供可复用的能力，比如经过验证的代码、沉淀的经验等。在这种同样的技术领域下，大家交流更充分一些，有些时候是会有一定的专业度的，在这里面的这些人的专业度会比业务部门的人要好一些。所以说，中台如果做得不好，可能还不如业务部门。记者：我们注意到字节近期提出了一个“数据BP”的概念，把数据部门拆分到不同的业务组，做法类似于HRBP。宋旸：很多公司都采取这样的做法，作业帮现在基本上也在往这条路上走，因为不同的业务部门往往存在不同的数据诉求，不太可能统一来做，统一能做的只是基础架构的事。

　　目前中台化更多的是提供统一的数据的底层的服务，并协助建立一些标准，而这些标准可以把数据管理变得更规范。但如果真正做数据分析和决策，必然要分到各个业务部门去做。记者：您觉得人工智能中台相比于数据中台，有哪些不一样的地方？宋旸：其实本质是相同的，只是提供的能力是数据还是AI的差别。于AI领域而言，外界可能会觉得它的门槛相对高一些。

　　但实际从从业者角度来看，这个门槛一定程度上也是有下降的。一方面本身AI的研究非常热，另一方面开源的技术也越来越多，相信也会有更多的从业者加入进来。所以我们没必要将AI看得非常特殊。但是，门槛降低不意味着通过简单的培训就可以，还是需要一定的专业度，在真实的场景里一步步做到实处。

　　记者：智能中台方面，未来会出现哪些发展趋势？

　　宋旸：中台化后续会越来越务实，各家公司会基于自身的发展阶段来考虑。当然也有一些大厂也在慢慢放弃，并不是所谓的去中台，因为中台有自己适用的场景。企业处于不同的阶段，每个阶段的目标决定了到底该选择什么样的组织方式。所以说不必对“名词”过于纠结。我一直觉得自然就好，适合的就是最好的。

　　嘉宾介绍

以上就是本篇文章【纠音级语音评测、NLP助力打造的知识图谱，详解作业帮AI如何落地】的全部内容了，欢迎阅览！文章地址：http://www.xhstdz.com/xwnews/383.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页物流园移动站 http://www.xhstdz.com/mobile/ , 查看更多