克而瑞数据库_克尔瑞数据入口
克而瑞CTO:陈红飞
详细解读让你更懂克而瑞数据中台
随着6月30日“2020易居数据资产大会”克而瑞数据库的召开克而瑞数据库,有更多克而瑞数据库的人认识到克而瑞数据库了克而瑞CTO陈红飞先生。而在熟悉克而瑞数据库他的人和克而瑞内部,大家都会称呼他为P总~
当日,“AI驱动的克而瑞数据中台发布”的主题演讲发布后,更多新老朋友开始关注起了克而瑞数据中台。但在短短的30几分钟内要把克而瑞数据中台讲明白、讲透彻、讲的大家能够去理解,我们的P总可谓是绞尽脑汁。即便是富有“语速小王子”美名的他,在多方权衡后,依旧被迫的在演讲中割舍掉了一部分内容。会后,每每偷视他的眼睛,我们总能读出那一丝丝的不甘。所以我们决定!圆一个P总完整讲完的梦,将这部分删减版放出,也让大家更加深入的去了解克而瑞数据中台。(本篇,我们将优先释放三个片段来为大家解读:《克而瑞数据中台战略解读》、《一切业务数据化,一切数据业务化》、《克而瑞数据中台的架构图》)
克而瑞数据中台战略解读
克而瑞数据中台应用方向
我(以下皆为P总的讲解)先给克而瑞的数据中台做一个战略解读,克而瑞的数据中台是加速数据到价值的服务工厂,数据中台为业务而生,推动行业、数据、运营从管控式到服务式的转变,让数据从T+N到T+0在业务中应用。
克而瑞的数据中台依托于先进的技术,什么技术呢?大数据+AI,还有第二个多年沉淀的海量的数据资产,第三个不动产多年的行业咨询,最后一个是我们的核心优势,因为克而瑞在整个不动产领域里面有将近20年咨询的经验,我们沉淀了大量的业务专家,随着我们有这些业务专家以后,我们可以为我们的数据中台发挥巨大的价值。通过数据中台输出能力,让数据创造价值,给业务和生态进行赋能。
视频:《克而瑞数据中台战略解读》
克而瑞数据中台四部曲
一切业务数据化,一切数据业务化
克而瑞数据中台四部曲,这四部曲其实在我们整个克而瑞实际的生产中都有应用到。第一块是数据库,数据比较简单,结构简单,业务简单,来源单一,我们把这种数据往往通过数据库的方式来解决。第二块是数据仓库阶段,第一点是随着我们的数据库内容越来越多,然后我们进入的行业越来越多,我们数据的丰富度也会丰富多样;第二点是产品要数据化,要数据产品化;第三点是数据收集也慢慢产品化了,数据分析的场景也非常丰富多样,所以说我们在这块用数据仓库的方式去解决它。
第三块是数据平台一阶段,第一点是BI报表,因为我们是要通过商业智能的方式去驱动整个公司的数据化运营。第二点是数据决策,我们希望数据能帮我们在企业经营中做一些辅助决策的动作。第三点是商业洞察,我们希望通过数据来洞察未来、能预测未来。第四点是数据资产的管理,因为我们有了数据以后我们需要把这些数据当成资产的方式去运营、去管理。
最后一块是数据中台阶段,数据中台在我们内部的体系当中我们更多认为它是一个能力,它并不是一个具像的产品,所以这个理解可能是我们对它的一个重新的定义。
数据中台在克而瑞内部我们更多是去把能力进行统一,比如说我们统一数据、统一标准、统一服务,然后我们最终输出能力、输出价值。在体系里面我们叫OneID、OneData、OneSource、OneMeta、OneService。OneID什么意思呢?我们把我们的用户体系、客户体系全部ID化,统一ID化,然后让它去在数据中台里面流通。OneSource,我们希望我们所有的数据来源都是统一数据来源。OneData,通过我们业务中台的加工,我们希望所有的数据全部OneData化。
总结下来,我们希望一切业务数据化,然后一切数据业务化。因为只有业务数据化以后,我们才有可能让数据业务化。
视频:《一切业务数据化,一切数据业务化》
克而瑞数据中台的架构图
克而瑞数据中台全剖析
整个克而瑞数据中台的架构图,我简单给大家介绍一下。
630未公开视频:《克而瑞数据中台架构图》
最底下的是计算引擎,对于我们大数据来说,我们其实有三个核心的计算引擎,第一个叫流数据计算引擎,第二块叫离线计算引擎,第三块叫实时计算引擎。往上面走的话,我们有一块技术中台去支撑,在技术中台我们分了三个大的主要方向,一个是计算,在计算里面我们用了目前来说比较先进的技术,接下来对于克而瑞来说,我们可能也会考虑在后面做一些应用,还有深度学习框架。在分析领域我们用了ES,用ES来做大量的数据分析,以及大量的数据透视,它会带来极大的性能提升。然后存储这块,因为我们做大数据,我们会有大量的数据的存储,所以我们会支持各种数据的存储方式,比如说我们常用的这些。
然后往上面走的话就是数据中心,数据中心我们叫垂直数据中心,垂直数据中心里面有什么东西呢?第一个,我们需要把我们所有的数据的入口全部OneSource掉,因为这个是做大数据或者做数据中台核心的一步,因为在我们的企业应用过程中我们发现我们的数据其实会在很多地方都出现,比如说在我们的业务系统里面,比如说在我们的客户系统里面,或者说在我们C端的应用产品里面。所有的数据如果它不打通,那么它就没有办法进行连接,它就没有办法为上面的业务进行嫁接。所以我们这边做了所有的数据的统一。
再往上面走的话,里面有一个公共的数据中心,公共数据中心里面分两块,一块是结构化数据,一块是非结构化数据。非结构化数据也是我们近两年一个重点开拓的数据领域,因为克而瑞他有非常的不动产的场景,我们慢慢的从住宅走向非住宅,所以说在结构化数据里面大家可以看到,基本上不动产领域里面大部分的细分行业,其实我们都有覆盖。在我们在推动业务发展过程当中,我们积累了大量的结构化的数据,其实我们一直是业务在发展,也就是说我们希望业务数据化、数据业务化,这是我们核心的一个理念。在结构化里面我们存储了海量的数据。
我们基于结构化与非结构化的数据,我们希望做一个统一的输出,所以我们把它叫做OneData,我们希望利用后面我们数据的融合引擎,我们希望让它OneData。OneData什么概念呢?第一个,我们希望所有的业务板块之间是有连接。第二块,我们所有的数据是跟着应用场景走的,而不是说我们为了收集数据而去做数据,我们是有场景才会去做数据,有业务才会去做数据。所有的数据是有分析过程的,同时所有的数据它都需要产生业务价值,因为它不产生业务价值,我们就很难称为说叫数据资产。
然后我们把所有的数据OneData以后,我们需要OneService,我们需要一个输出,所以说我们需要通过数据中心的能力进行向外的一个输出。
下一步,在最左边我们可以看到叫数据资产平台,数据资产平台里面我们做什么呢?第一个,我们需要把我们沉淀的海量的数据,以及我们在数据中形成的OneData,我们需要把它资产化,资产化会碰到几个核心的应用,第一个我们想知道所有的数据资产调用的情况、消费的情况以及消费的频次,然后它所有数据每天的一个增量的情况,比如说它每天新进多少数据过来了,然后多少数据被处理了,多少数据被融合了,多少数据在业务价值里面是怎么做流通的,我们希望用数据方的方式去驱动我们的数据资产,让它变得更有价值。
在数据资产的质量指标里面,我们也需要在数据资产管理平台里面进行管控,我们想知道所有的数据资产的生产过程,它是怎么来做生产的,它的治理过程怎么来治理的,它是如何标准化,它所有标准化的过程我们也需要用量化的方式放在我们的平台里面来管理。
在右边我们有一个叫数据研发平台,这个其实是比较偏技术底层多一些,然后其中我们通过数据研发平台实现数据在业务中的流通与共享,因为数据不流通、不共享的话,它其实很难发挥它的核心的业务价值。
数据平台的话,它实现业务中台,因为我们最终希望把我们的数据流通共享到我们的业务那边去。我在前面其实已经对克而瑞数据中台做了一个核心的战略解读,就是说我们中台的能力其实是为了业务而生的。我们数据要从业务中来了,我们也要通过数据中台让它回到业务中去,我们要通过这个数据平台,我们目前基本上80%核心的组件,我们可以通过业务中台去做一个配置输出。
再往上面走的话,我们基于这个数据中心就会产生三块核心的一个应用场景,第一块我们叫AI,为什么我这块会详细讲AI呢?因为所有的AI其实是构建在大数据的基础上,如果没有大数据这个基础,所谓AI产生的价值,它其实是会比较空。所以我们在AI领域,我们是基于自然语义处理的NLP的一个技术,我们在构建我们整个AI平台。在我们的AI平台里面可以分为三层,最底层叫语料层,因为在不动产领域我们目前构建了,第一个构建了不动产领域里面全行业的一个语料库,什么意思?我们会把不动产行业里面所有专业的词汇,以及关键词、经常出现的一些高频词等等,我们会把它放到我们这个语料库里面。并且我们会收集行业的一些分类词,以及行业公司的公司库,还有一些社交舆情一些语料等等,我们会形成我们最大的一个不动产行业的语料库。我们有了这个语料库以后,我们往上走就变成组件层,我们组件层,我们需要通过我们的语料库,最终通过我们NLP语料库,最终通过我们NLP的一些算法,我们希望把我们的这个语料库通过NLP算法让它业务化,所以我们这边提炼到很多业务的一些组件。
克而瑞数据中台架构图
在应用层,我们可以利用我们的业务组件进行组件的一个拼装,会形成我们的很多应用层,比如说我们可以做智能检索,我们可以基于微信的一些文章或者自媒体,我们可以做深入的洞察,以及品牌特征的一些提取等等,还有舆情监控、政策分析等等,这个都是在我们不动产领域里面真实产生的一些业务场景。
最左边我们叫BI,BI我们目前有一套企业内部的BI,我们叫智云,这个是指导我们企业高层去做智能决策或者做精益决策的一个BI的商业智能产品。再往下面我们有驾驶舱跟仪表盘,最终我们还会有一个一键报告。我们通过这四个产品会形成我们的整个BI体系。
在最右边我们有一个产品中台,产品中台什么意思呢?我们把产品 *** 用的一些场景,我们把它抽离成产品组件,即插即用,这样的话可以极大的提升数据、产品在应用场景中体现的业务价值。再往上面走的话,我们会场景的应用,我们场景应用目前覆盖了不动产领域里面四个核心的环节,第一个是城市的投资,所以说我们会基于城市投资,我们会开发非常多的产品矩阵。第二个是开发阶段,我们在开发阶段也会提供很多产品矩阵,第三个是营销阶段,第四个是运营阶段。
最后两个是什么呢?第一个,我们基于我们AI的一些产品或者我们AI的一些技术、应用组件,核心我们会把我们AI的能力输出到我们的知识图谱里面,利用我们的知识图谱里面,我们可以做非常多智能的产品,我们这边有一个产品的矩阵,叫智能化的应用产品矩阵。最后一块是第三方的产品应用矩阵,因为我们希望我们有了这个数据中台的能力,我们有了我们的AI能力、产品组件的产品,我们有没有可能把我们这些能力跟第三方有能力的一些开发者,我们来共享,让他们跟我们一起来开发更多不动产领域里面场景化应用的产品,这样的话整个生态能不能成长起来,这也是我们接下来要考虑的一个核心的问题。
明天,我们会继续为大家解读克而瑞数据中台的数据预警能力,AI引擎介绍,大数据算力与AI智能的应用方向等精彩内容,敬请期待。