当前位置:首页>生活 >内容

帮百度AI干脏活累活的公司,都死了 龙猫众包骗局

2023-03-31 18:52:50生活漂亮的斑马

有关帮百度AI干脏活累活的公司,都死了和龙猫众包骗局的知识相信很多人都不甚了解,今天六月小编为大家整理了关于这方面的知识,让我们一起

帮百度AI干脏活累活的公司,都死了 龙猫众包骗局

有关帮百度AI干脏活累活的公司,都死了和龙猫众包骗局的知识相信很多人都不甚了解,今天六月小编为大家整理了关于这方面的知识,让我们一起来看下吧!

内容导航:

一、帮百度AI干脏活累活的公司,都死了

一、帮百度AI干脏活累活的公司,都死了

文|叶莉在接触数据采样行业的过程中,黑芝听到了一个关于和河南贴标厂的故事。

据悉,河南贴标厂大多使用百度的贴标工具,做百度的工作。当齐鲁接过百度的大旗时,他释放了大量的竞价需求。当时活下来并不难(准确率只有90%),标注的利润率能达到60%-70%。有的企业盲目扩张,一下子招几百人;齐鲁离开后,百度的需求就减少了。2018年下半年,准确率普遍提高到95%-96%,很难做到。这些工厂只知道百度的贴标工具,很难接手其他业务,所以死了一批。

没有死的工厂不得不裁员,目前正处于艰难的转型期。

在河南贴标厂艰难转型的时候,张三的贴标公司正式开业。公司刚成立,一切都很复杂。前几天,黑芝中午联系了他。他告诉黑芝,两年前的单子需要返工,一直在忙。对于一个创业公司来说,忙总比闲着好。如果哪天有空,张三说晚上睡不着。“一天没活干,几千块钱就浪费了。一个月15万(注:目前公司有65名员工)。”

在他看来,贴标行业是个苦行业。“上半年,你肯定会亏钱。你要做好一个人损失一万块钱的准备。”他笑着对黑芝说:“你要是跟谁有仇,劝他去做贴标签。”这是标签圈很有名的一段话。标签圈不大不小,分为四个梯队。张三说,他的公司属于第三梯队。第一梯队,如百度中策、JD.COM中智。第二梯队,如龙猫数据、Testin云测、双赛BasicFinder、数据堂等。

他把第二梯队和第三梯队的关系比作小地产商和搬砖工。第三梯队以下是大量的小作坊,团队规模在3-5人。

标签行业是一个很有前途的新兴行业。新鲜感意味着不确定性和无限可能。“干贴标签就像往桶里倒水。每拉一个箱子,就加一碗水。目前谁也不知道能持续多久,只知道水溢出的时候。”这并不妨碍张三设计未来。“第一步,现阶段先服务第二梯队,然后搭建平台,让公司成为第二梯队。”300亿市场和拐点数据采集和标注市场有多大?300亿元。

这个市场出现在1984年左右。新博友的公司是众多公司中的一家。当时,这些公司更像是一个“入门公司”——,将论文内容数字化,而不是给公司贴标签。“入职”是一个劳动密集型的工作,一个公司需要雇佣很多人来做。智联招聘显示,新博友在公司人数中勾选了“1000-9999”。

与新博友不同,海天盛瑞成立于1998年,做语音标注,建了很多语音库。业内人士告诉I黑马黑智,之前反复销售做的语音库是海天盛瑞比较大的一块业务。数据堂成立于2011年。通常外界印象最深的就是“它是中国最大的数据交易平台”。这和它的创业有关。

2015年前后,随着榜单中人工智能公司TOP50的强势崛起,数据标注和采集的需求逐渐增加。这个市场真正形成的,就是上面说的四个梯队。作为乙方,他们进入了这个不断扩大的市场,服务于估值超过10亿美元的AI独角兽,教授可以改变世界的人工智能产品。1.得数据者得AI。

数据是AI公司的必需品。就像人需要一日三餐一样,AI模型也需要每天的数据喂养。Besay BasicFinder创始人兼CEO杜林深刻理解数据与AI模型的关系。高中期间开始研究计算机视觉,高三发表论文。大学期间,他也一直在做相关的研究。他深知数据对AI模型的重要性,并得出“AI建模没有门槛,但数据就是门槛”的结论。

在他看来,现阶段的人工智能是简单的认知智能。“认知智能是帮助你对世界进行识别和分类。分类器的构建是一个数学问题,是由数据堆积而成的。”“深度学习本质上是一个数学问题,是从大量样本空间数据中逆向构建分类器系数空间的过程。你必须有很多样品。你说的样品是什么意思?样本是知道正确答案的人。这和我们小时候要求多种样式和系数公式是一样的。

我们需要空间中的许多已知点来拟合多模式。同理,深度学习也是这个模型,同样需要大量的样本,也就是校准过的数据。"

因此,杜林认识到,“在工业AI应用研发的这个阶段,标准数据肯定是不会跳过去的,10年内可能就要依赖标准数据了。”数据对AI如此重要,但标注和收集数据的公司却得不到学术界、产业界、资本甚至媒体的认可。光环属于那些一开始就做模型研发的AI公司,比如商汤科技,旷视科技。

“一家公司做了一个很好的人工智能产品。大家都会说人工智能算法牛或者科学家牛,但是从来没有人说过数据收集好。”Testin云测VP贾宇航说。贾宇航告诉I黑马黑知,不仅聚光灯照不到,数据采样还是一项“苦差事”。苦到没人愿意做。和移动互联网很像,产品不错。谁也没想到,军功章居然有APP测试员。一旦出了问题,第一个被指责的肯定是检测部门。2.3亿元数据竞价市场

数据对于AI公司的重要性不言而喻。据悉,AI公司投入10%-15%的资金用于数据采用。也有人提到,这个比例是20%-30%。2018年中国AI公司总融资规模达到1000亿元以上,数据竞价市场规模约为100亿-300亿元。其中三分之一被AI公司内部的标签部门消化,一部分会被业务流程外包公司瓜分,剩下的25%-33%会流向专门做数据采用的第三方公司。

目前AI融资规模正以每年25%左右的速度增长。

随着AI技术门槛的降低,越来越多的公司开放了自己的框架,一个模型可以通过喂数据产生。越来越多的垂直公司开始设立AI部门。在此之前,他们会把业务交给制作AI模型的公司。这两年龙猫数据、Testin云测、Besay BasicFinder的很多客户都不是来自AI行业,而是传统公司的AI业务部门。

龙猫数据创始人兼CEO昝智认为从这个角度来看,市场规模并不好算,BAT、小米、京东、TMD等互联网公司和传统行业里的传统企业,它们会拿出多少预算做AI,不得而知。唯一可以肯定的是,这两三年,数据采标的市场规模越来越大。

这两三年,AI模型对数据采标的复杂度和精细度要求也越来越高了。比如说,现在,做一个人脸拉框,人脸的拉框精度要求在五像素以内或者三像素以内;又或是,整批数据精确度需在97%或者99%以上。贾宇航认为,精度的提高是AI行业发展的必然结果。对于AI行业,有一句话叫Garbage in, Garbage out,低精度的标注数据对于算法没有任何意义。

只有能持续输出高精度采标数据,才是一个能持续保持竞争优势的服务商。

第二,更庞大、更多样的数据规模。庞大在于数据量会更大,以传感器为例,随着传感器成本下降,并被大量应用,将有更多大量的数据需要被标记;更多样指的是更丰富的数据维度,在今年的CES展上,松下推出的智能家居解决方案,不仅仅通过电视上的摄像头观测人脸的疲劳度,还通过椅子上的电容传感器,去检测人的心跳。而之前,疲劳检测只是通过摄像头捕捉人脸。

将来,更多维度的数据将被收集,不单单是2D的图象、声音,3D的激光雷达以及心跳数据等也将被纳入到采标的范围内。

3.转折点

需求侧的变化,不可避免地在供给侧引起不小的地震。供给侧开始从密集劳动型行业向新产业、新模式——工具+众包转型。洗牌开始了,数据采标迎来了下半场。

受负面影响最大的第四梯队。无论是采标的复杂还是要求愈高的精度,对于它们来说都不是好消息。去年中旬以来,每天十几、二十几家小作坊要求挂靠在倍赛BasicFinder旗下,这说明小作坊已经失去业务的来源。“他们靠低质量数据和低价抢市场的模式,已经不能持续了。因为AI工程师不能接受低质量的数据,也不能接受不靠谱的交期。”杜霖说。

张三认为,第四梯队坏了规矩。他们先靠低价四处抢单子,而后内测什么样的项目能够在单位时间内产出最多,再去做这个项目。其它项目,则被分包给更小的团队去做。质量难以保证。“他们不算房租、管理等,只核算人工费用。他们的逻辑是一个人一天50块钱,高于这个价就是赚的。于是他们就报100元的单价。

而第三梯队需要承担房租,税收、管理费用以及每天的喝水吃饭等乱七八糟的消耗,至少报200元的单价,才可以做。”

早期,第四梯队靠着这种方式,赚了一些钱,回收了硬件成本,并有结余。但2018年初,第二梯队开始做店测,“看看你有多少人,看看你的场地。你不专业,行业正在慢慢把你淘汰掉。”淘汰,意味着没有业务来源,那么多人需要吃饭、拿工资,不专业的第四梯队危机便出现了。

即便能够找到项目,采标项目的要求提高,比如准确度要达到95%甚至是99%以上,小作坊必须从团队中抽出一部分人脱产质检和最后的抽检,成本也会上升。

压力,对于行业中的每一个参与者都是同样的。对于龙猫数据、Testin云测、倍赛BasicFinder等第二梯队公司来说,他们需要创业迭代,他们需要想清楚在这个过程中如何突破自我,不断创新,走出自己的舒适区。他们找到了一个抓手起步,需要思考的是未来怎么才能取得全胜。

业界认为,第四梯队危机的出现,有利于实力强大的第二梯队靠着服务质量与效率抢占退出的小作坊留下的市场空白。

新阶段与新竞争

数据标注和采集是一个技术活。

需求来到,采标公司做两个方面的工作,一,调配和研发模块,二,进行试标,并尝试总结规则,并培训。做完了这两方面的工作,公司会向需求方报价,报价过程中,采标公司回去准备相关应标材料或者应答材料。

中标之后,采标公司开始传输数据,上传到平台上,并开始配置生产和标注业务。据悉,数据标注业务的配置是一个复杂的数学模型。比如,有些任务需要串并联的工作流,并联的工作流是多人协同的工作。串联的工作流是后一个结果是基于前一个结果进行处理的,串并联的工作流需要平台来实现业务工作流的配置。

比如一些NLP型的文本标注作业,需要多个人来标,最后N选一或者投票。串并联配置涉及到底层数据流的分发等。

标注过程中,质量的协同管理和绩效的统计非常关键。平台需及时统计到每个人的准确率、稳定性以及效率。标注完了之后,客户验收前,采标公司还需要抽检。最后,公司按照与客户约定的格式进行交付,这又涉及到格式转化的问题。

以上过程包含了整个标注系统所有的技术核心点。标注和采集服务并不是堆人就能够干出来的。对于依靠人力的第三、第四梯队来说,贾宇航认为,如果它们想转型众包+工具的新生产方式,“局限性比较大”。理由有二:

一,数据行业的领头者会通过这3年的持续服务,在客户圈赢得口碑,品牌效应会给其带来一定的商业积累。一些更在意质量、更在意投入产出比的公司会逐渐向领头者们倾斜。二,技术优势。头部标记公司有资金去优化自己的工具和应对客户的定制化需求,并通过管理经验优化对应的服务体系和流程。

而对于小团队想要快速建立已有工具和流程化体系去覆盖一个或多个行业是有局限性的。有两条路可供它们选择,第一,精简团队,专营一个或几个AI公司的业务,做一个小而美的生意;第二,与精英合作,使用精英提供的工具,做平台分配过来的任务。

对于尚未入场的后来者来说,如果后来者一开始便立志做一个众包+工具的平台,除了克服商务壁垒外,在众包方面,众包平台需要强运营能力,需要足够多的人在平台上。平台方需要考虑如何拉新,如何保留日活、月活等。在工具方面,只有一个可采标的APP也是不够的,没有便捷的沟通方式减少误差的传递,也是很难做成的。这就像木桶理论一样,缺一块板都装不了水。

换言之,留给新进入者的窗口期逐渐关闭。

业内人士认为,采标市场将进入战国争霸期。实力强大的第二梯队之间不可避免地面临着一场混战。数据采标市场开始趋于统一。第一梯队注定不会成为争霸期的主角。因为行业竞争等方面的考量,采标需求方不会将数据交给百度、京东的众包平台来做。做人力资源外包的上市公司会在下半场拿到一定比例的市场份额,会对五家标采公司造成一定的威胁,但该威胁不大。

下半场,第二梯队将如何竞争?通过与第二梯队中的三家公司深入交流,黑智发现它们对未来和竞争理解各异,布局也不尽相同。这些差异在它们诞生的那一刻起,便被注定。

1.做轻还是做重?

在回答“做轻还是做重”这个问题上,龙猫数据、Testin云测、倍赛BasicFinder给出了不同的答案。Testin云测、倍赛BasicFinder都建有自己的标注团队,而龙猫数据则坚持用众包的形式来做标注。

不同选择的背后,是各家不同的基因。Testin云测成立于2011年,以App兼容性测试作为切入点,进入企业服务,后衍生出功能测试、自动化测试、安全测试、性能测试等服务,成为一站式测试平台。2017年,Testin云测积累了大量客户。一些AI公司找到云测,希望通过云测的众测平台做数据采集。这是Testin云测采标业务的起点。

Testin云测的采标业务做得很重,比如除了众包采集外,它还会做定制化场景采集,甚至和横店影视基地合作,利用横店群演资源,搭建专属场景,完成客户的定制化场景采集。在标注方面,Testin云测又自建标注基地,与房山市政府合作用于数据标注。贾宇航表示,Testin云测所做的一切都是为了客户需求,“通过工具研发驱动保障标注的效率、精度,以及安全性。

并通过项目管理、风控管理等方式,确保标注精度达到客户标准,以满足客户对于准确度的要求。”

从倍赛BasicFinder的产品基因上来看,倍赛的工具偏向于团队模式的管理工具,而不是众包模式。2018年12月,倍赛并购了欣博友,前面提到欣博友是一家运营了30年的北京数据处理公司。该公司提需求,倍赛做技术支持。“我们迭代了很多次,每个工具、快捷键、每个设置的优化,都是我们在数据生产中磨合起来的。

倍赛接业务比别的公司都晚,2016年基本没接业务,2017年才开始接。我们的工具做得很扎实。”

除了欣博友,倍赛BasicFinder一直在积极拓展产能,杜霖说,目前,倍赛BasicFinder又拓展了将近3000多个人的子工厂。“通过拓展自有产能,实现最专业的服务。”2018年9月,倍赛BasicFinder收购丁火智能100%股权。丁火智能旗下“荟萃APP”已积累数十万活跃众包用户。“我们搭建了一套自主采集系统,再搭配荟萃APP实现数据采集,完成更多样性的任务。”

和Testin云测、倍赛BasicFinder不同,龙猫数据没有自己的标注团队,工具偏向众包模式。昝智和联创,出身于互联网公司,他们更希望用互联网平台化的方式去做采标,而不是“做一个纯的数据工厂”。昝智既往经验告诉他,应该让系统做这些复杂的数据处理,而不是靠人对人的管理。因为人对人的管理非常低效。

据昝智介绍,龙猫数据是较早使用众包模式做数据采标的,“我们用众包把事情做成了,很多跟进者也开始用众包去做。”昝智认为,龙猫数据打造出了“倚天剑”。他不觉得学龙猫数据的人能够做好众包,“早进入这个行业的玩家,有一把宝刀,他们用这把宝刀获得了利益,然后看到别人拿了倚天剑获得了更大利益,为了造倚天剑,他不可能把宝刀丢了。

刀丢了,他们可能啥都没了。但不丢刀,他们又很难造出倚天剑。因为人的精力是有限的,思维是局限的,他们不可能一边把精力放在宝刀上,又一边造倚天剑,而且造倚天剑还比我们造得好,这不科学。”

昝智认为,龙猫数据没有宝刀,“接到客户需求,我们只能优化系统,才能保证准确产出数据。对于他们来说,接到客户需求,他们还有退一步的路可以走,那就当场监督大家认真去干。他们是有退路的,我们也没有退路,我们必须把它搞定。有退路的时候,人一急了,就容易选退路了。”据了解,目前,龙猫众包平台有400多万用户,其中只有一千多是做标注的。

龙猫数据的标注业务主要由一千多个渠道商团队承担。

2.建模还是不建模?

贾宇航提到数据标注的产业链可分为三个部分:人员、工具以及算法。而Testin云测坚持做好人员+工具,不做算法。“数据具有可复制性这一特点,如果采集标注公司会算法,这有点像一个算法公司找另一个算法公司做标注,这一份数据到底是否用于乙方的提升,这中间存在一定的争议。”“我们是在数据领域服务的企业,而不是卖算法的公司。

我们只负责完成企业的数据采标需求就可以了,完成了交付,我们将彻底清除客户数据。”

杜霖或许不会同意贾宇航的观点,因为倍赛BasicFinder正在打造一款傻瓜式建模系统——用户只需要输入数据,便可以得到一个AI模型。“如果客户想成立AI部门,只需要部署上倍赛的系统上,然后再找两三个AI工程师调参,就可以自己出模型了。如此,标注、采集、建模就会变成一个大闭环了,因为客户懂业务,他知道业务数据应该是什么样子。”杜霖说。

现在,倍赛BasicFinder避免直接建模,杜霖强调,“我们将我们自主研发的私有化标注系统及主流的深度学习框架,统一封装进倍赛的AI基础系统BasicAI,实现AI数据及模型的整个生命周期管理。倍赛不建模,我们只给客户提供一套底层工具,让客户自己去建模。”杜霖解释说,“Tensorflow、Keras及Pytorch这些深度学习库的出现,让建模没有门槛,未来甚至高中生都能够建模。”

如果一个汽车公司让倍赛BasicFinder帮忙做一个自动驾驶系统,杜霖表示做不了。但他也说,“我们的BasicAI实现从标注到建模的高效流程管理。客户在倍赛标数据,数据流到建模平台,客户在Tensorflow里调点参数,模型就出来了。” 今年,倍赛将推出3.0新版本,同时提供SaaS化标注工具服务,帮助客户实现数据标注管理。

杜霖提到,为团队打造的采标及建模流程化工具,可以提高倍赛的业务延展性,提高竞争中的优势。

选择无优劣,但市场会给所有选择一个清晰的答案。而战国混战,或在接下来的几年见分晓。不过,客户并不希望一家独大,大树之下,寸草不生的局面。未来,数强并立的局面或将长期存在。

走向终局

一个场景,一个市场,一个产业,一个江湖。

熙熙攘攘被裹挟着进场的人,有的主动选择,有的则是被动,但一旦进入,市场和资本的逻辑发挥作用,他们你我都变成生产链上的生产要素,被挑选,被进步,亦或被淘汰。

各个产业参与者的位置,从诞生起或已被注定。从产生的那一刻起,它按着既有逻辑在走,从不以个人意志转移。上半场,草根英雄辈出,拼价格,下半场拼品牌、服务与效率。精英开始清场,草根离场或者重新站队。而资本,加速整个产业迭代。

现在,下半场刚开启,谈终局似乎有些为时过早。有太多的不确定将在接下来几年的竞争中,变得确定。但更多的不确定性,可能又会出现。城头变幻大王旗,只在一瞬之间。

黑智认为接下来几年,不确定性虽是主流,但仍有几件事是确定的:

1.下半场仍将是性价比之争。客户永远希望用最小的成本获得更高质量的数据。为了生存和在竞争中脱颖而出,供给侧不得不迎合性价比需求,他们不得不通过技术来获得降价空间和利润空间。贾宇航觉得,技术永远是最重要的。“通过技术的方式倒逼自己不要赚太多钱。如此,价格才能降下来,竞争力则提了上去。”

2.不要忽视传统公司的AI需求。毫无疑问,接下来几年,传统企业的AI需求将会出现井喷,如何抓住他们,并服务好他们,这是所有采标公司亟需思考的。当然,也不能忽视AI行业的新数据,比如3D的激光雷达以及心跳数据等。

3.不能忽视商务能力。不强的商务能力,或将成为采标公司的新短板。现阶段,它们的产品和商业模式已基本经过市场的验证。他们需要通过放大商务杠杆扩大产品的覆盖范围。

4.建立第二条增长曲线。接下来几年,有人离开,有人留下。每个人都有所归属,在产业链上,支配或者被支配。所有留下的公司都应该寻找第二条增长曲线,如此才能突破现有成本收益的限制。另外,张三的梦仍需要做,仍需要努力实现。梦想总是要有的,万一实现了呢。(注:张三为化名)

以上就是关于帮百度AI干脏活累活的公司,都死了的知识,后面我们会继续为大家整理关于龙猫众包骗局的知识,希望能够帮助到大家!

声明本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们

Top