编者按:3月3日,由MobTech袤博科技主办的【CoderPark】第二季数智有为——以“数据科学赋能商业场景应用与决策”为主题在云端举行。MobTech袤博科技资深数据挖掘工程师叶秋在直播中详细分享了多维规则及前沿算法分析处理,助力商业地产决策进阶。以下为详细内容:

本次分享的主题聚焦商业地产垂直行业的数据应用,在商业地产这一垂直领域当中,数字化的进程相对金融科技等行业较慢,甚至慢于传统制造业,归根结底最大的原因是相关数据的匮乏和分析方法论的缺失。
一直以来,商业地产的运营主要依靠大量的线下调研和运营人员的过往经验,在数字化的今天,很多方法已经赶不上数据智能时代的步伐,越来越多的商场因为运营不善而歇业倒闭。如何快速准确的把握市场走势和消费情况,越发成为盘活商场的重大法宝。

▌商场客流的数据应用
商场客流作为商业地产数据应用的重要参数,在数据应用有至关重要的作用。商场需要关注周边竞对的客流趋势,客流的多少极大地反映了此地商业氛围是否浓厚,大家的消费欲望是否强烈。

1、算法详情:
A、参数的选择及其局限性
根据行业人员的相关经验,一个商场主要受到以下几个方面影响:首先是需求,包括周边人口、交通的覆盖等,其次是供给,包括商业规模,周边的竞对商圈情况等。据此筛选出一些参数来辅助判断客流的日波动趋势,还增加了一些时间属性,如节假日、周末和工作日,从而丰富参数的可选性。例如:1公里内公交站个数、1公里内地铁站个数、周边3公里的居住人口等。而统计值和真实情况之间则会丢失大量信息,如公交站在1公里内的分布、步行的距离、人口的分布等都会影响参数自身的可用性。如果将底层改成使用像素和位置的场景来丰富信息,那简单的机器学习算法则无法适用。因此,需要考虑将模型改为深度神经网络模型,这对工程化的使用和数据的样本有一定的要求。

B、模型的选择及其局限性

在模型选择上,为了便于工程化的部署,并满足传统行业对可解释性的需求,本文在几个基本的回归机器学习算法中,选择了适用cart分类回归树作为决策树的随机森林模型,有以下几点好处:
通过调用sklearn中的importance函数,能够比较直观地看出各个参数对结果的影响大小(对后续特征工程优化,以及前端销售十分重要);
随机森林整体模型方差小,泛化性较强;
随机森林模型相比传统决策树,虽然可解释性差一些,但是鉴于原始数据异常值和噪声的情况较多,更看重其鲁棒性,且不需要剪枝,不需要关注超参,方便训练;随机森林模型工程化简单,不需要太多的工程化代码和硬件支持,模型文件不大,压缩后一般在几兆到几十兆之间,单个服务器可以轻松加载。

同时,随机森林也有其局限性,模型采用的是cart决策树作为单个学习器,预测的结果永远在样本的最大值和最小值之间。此外,值划分较多特征容易对RF的决策产生更大的影响,从而影响拟合的模型效果,而在商业地产场景中,无法生成大量丰富的样本来均衡这种样本特征分布不均的情况。同时,随机森林作为有监督模型,需加入Y值,而这在商业地产场景中是悖论,样本Y越多,模型的价值越低。

2、模型效果和产品展示

模型的整体效果较好,MAPE(就是平均百分比误差)为9%,当前误差≥20%的占比为9%。以MobTech袤博科技的智图产品为例,当前某商场客流已展示其中,并用作分析,例如疫情对客流的影响,圣诞活动效果的评估等。以下是具体案例:某商场1月受疫情影响,整体客流下降一半,圣诞节活动期间带动客流,圣诞日当日客流环比上周提升了15%。

            某商场2021年月客流

            某商场2021年12月客流

▌职住地分析的数据应用
除了客流以外,访客的居住地和工作地对商场的运营也有很大的辅助作用,商场可以以此估算自己的主力客群,并根据客群的属性制定自己的推广和运营策略。该算法主要由两部分组成:地块分类算法、dbscan聚类。

1、 地块分类算法
相关概念解释:
A 用户分布函数
用户当日日活累计百分比随着时间从0点0分0秒到23时59分59秒,从0增长至1。例如我们可以把以下序列准变为样本分布函数:
[1,3,4,6,9,10,15,18],在此案例中,每个跃度为1/n即1/8,可得样本分布图像为:

B wasserstein距离
用来计算两个分布的差异,又叫推土机距离,这是因为该距离定义中由一个分布转变为另一个分布所需要的代价和挖土填土的过程十分相似。
考虑两个离散的分布P和Q


为了让两个分布相同,我们一个个变量观察:
为了让P1和Q1相同,我们需要P1把手头上的3分2到P2去,这样P1和Q1都等于1,此时P2=4,其他数保持不变,这个过程是不是十分像挖掉P1的土填到P2上;
为了让P2和Q2相同,我们也要做类似的挖土填土工作,但注意,此时P2手头上由P1填的2,因此现在P2是4,但是Q2依然是2,因而P2也要挖2分土给P3,保持和Q2一样;
P3和Q3也是一样,但此时P3为3,Q3为4,因为我们只能先挖土再填土,因此要Q3挖1分土给Q4,这样P4和Q4也能够一样。
每一步的代价计算公式为:

第0步我们规定为0,故有



所以最终的总代价,也即Wasserstein距离则为:

该挖土填土的过程可以由下图表示

可以类似的将P、Q转化成样本分布:
P[1(3),2(2),3(1),4(4)],Q[1(1),2(2),3(4),4(3)]。与上面样本分布的例子不同的是,样本并非均等分为1/n,而是括号中的权重,同理,可以画出对应的图像:

蓝色分布和橙色分布所围成的“面积”即是所求的wasserstein距离

算法应用:根据以上原理,我们可以得出两个地块中不同时间下活跃人群的分布差异:
A地块和B地块原始活跃人群时间分布分别为以下:

转化为样本分布则为如下:


则这两个地块的不同时间下活跃人群的wasserstein距离为:5460

地块分类算法的整体效果和升级方向:当前基于地块人群时间分布函数的地块分类算法的准确度为70%~80%。采用卫星影像做实体分割是更准确、更有效的方法,可以参考达摩院的aiearth平台,但是此方法对于工程化以及卫星图像数据源有一定的要求。

        上海部分区域的小区地块分布

2、DBSCAN聚类算法

dbscan聚类就是比较基础的一个聚类算法,只是在原有的算法基础上进行了加权。在计算核心对象时,时间正确且位置正确的点会得到更高的得分,更容易被计算为核心对象。其余和正常的dbscan聚类算法一致,最后会聚类出来一个簇,簇的中心点即为可能的经纬度,最后从多个簇中选择点位或停留天数最多的那个簇的中心点作为最后的结果。

如这里的示例,有两个簇,左边这个簇明显点位数更多

模型效果和产品展示

通过右图,可以很明显的看到居住地分布的密度大小,对于商场运营人员可以提供不小的帮助。

总结:
随着疫情逐渐消退和经济增长驱动转向国内消费,线下消费迎来了新一轮的增长风潮。商场商圈作为线下消费的重要组成部分引起了广泛关注,商场的开发和运营成为了地产开发商关注的核心议题。在这其中,客流决定着商场的基本盘,而职住地的分布情况又能说明客群的基础情况。以上分享核心聚焦商业地产垂直行业的数据应用,帮助读者了解更多数据智能在商业地产行业的应用赋能价值。

极客星球 | 机器学习赋能商业地产决策进阶相关推荐

  1. 极客星球 | Flink在数据智能公司的探索实践与优化

    ▌Flink探索 1.1:Why Flink Apache Flink 是一个分布式处理引擎,用于离线和实时的计算.Flink凭借其极致的流式处理性能和优秀的框架设计吸引了众多开发者加入,各大厂也都纷 ...

  2. 极客星球 | 图像技术在上亿规模实拍图片中的应用

    ​ 编者按: 闲鱼高级算法专家远悠近日出席了由MobTech袤博科技主办的[CoderPark]直播活动,与MobTech专家以及行业知名算法KOL齐聚云端,并分享了图像技术在上亿规模实拍图片中的应用 ...

  3. 极客星球 | FATE联邦学习框架理论与应用初探

    一.背景 随着大数据.云计算等技术的发展,数据隐私安全问题受到越来越多的重视,各国都在加强数据安全和隐私保护.中国在2017年实施的<中华人民共和国网络安全法>要求网络运营者不得泄露.篡改 ...

  4. 极客星球|原来技术管理可以更美的

    互联网技术日新月异,更新替代速度非常之快,要保证技术能够适应公司业务迅速发展的需要,技术管理是不可或缺的一环,同时也是引领公司团队稳步向前发展的重要因素.本文将主要从两个部分阐述技术管理,第一部分什么 ...

  5. 极客星球 | 前端工程化之路的探索与实践

    前言 随着业务越来越重,越来越复杂,双倍工作量,团队规模肯定不会扩大双倍,蛮力已经无法持续高效的支持业务,如何因地制宜地打造出适合自己的前端工程化,成了每个到了一定规模的前端团队都在思考和探索的问题. ...

  6. 极客星球 | Android原生SDK无缝嵌入鸿蒙开发“黑科技”

    一.背景 鸿蒙的原生开发是无法支持到安卓原生配置的,导致鸿蒙直接嵌入安卓库需要做相应的改造.MobTech作为第三方SDK提供方,有必要为开发者提供更方便的接入解决方案.我们的目标是鸿蒙开发者和安卓开 ...

  7. 极客星球 | 阿里:云原生数据湖构建与分析实践

    编者按:6月24日[Coder Park]第一季架构篇之大数据平台架构分享线上直播活动圆满结束.本期特邀MobTech袤博科技合伙人.首席数据官杨冠军担当出品人,阿里巴巴计算平台事业部大数据平台技术专 ...

  8. 9月21日云栖精选夜读:专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费...

    社交媒体都在致力于通过大数据.人工智能来更全面地了解用户画像.更深刻地理解内容.更细致地结合业务场景,从而提高信息分发效率,为用户提供更好的内容消费体验.10月11-14日,为期四天的2017杭州云栖 ...

  9. 如何用 Python 和机器学习帮你决策?

    还是不贷:如何用 Python 和机器学习帮你决策? 本文作者:AI研习社 2017-07-04 11:19 导语:用机器学习帮你决策贷款. 雷锋网按:本文作者王树义,原载于微信公众号玉树芝兰(nkw ...

最新文章

  1. 堆密度测定的意义_堆密度的测量
  2. python哪本好-Python入门看哪本书好? 这里有答案
  3. 今晚直播丨有备无患 - 达梦8的备份恢复
  4. VCIX-NV学习指南
  5. spring4笔记----spring4构造注入
  6. eclipse创建maven
  7. hadoop的shuffle过程
  8. C# 海康DVR客户端开发系列(3)—— 连接DVR和图像预览
  9. 【转】掌握java枚举类型(enum type)
  10. Facebook高管:文字分享将枯竭 5年后或许全是视频
  11. 世界主要国家地区英文名称,缩写代码
  12. 低速硬件接口之RS485接口自收发隔离多节点分享
  13. 使用Rufus制作系统启动盘
  14. Chaos 发布流体模拟王者 Phoenix 的5.0版本!
  15. 【到底什么才是电角度呢?如何使用示波器精准的测量电角度呢?】
  16. 网页截图怎么截一整张_如何网页截图?(截长图)
  17. android studio logcat 字体,android studio - 修改logcat颜色字体
  18. android 绘画笔迹回放_android画板笔锋实现
  19. m3u8.sqlite文件转视频工具(开源免费)
  20. 基于 vue.js + elementUI 后台管理系统 (html)模板

热门文章

  1. 夏季 畅快淋漓_输入以赢得我们2016年夏季阅读清单中的书
  2. linux stty设置串口,Linux使用stty显示修改终端行设置方法
  3. 三步教你Excel如何分别设置中英文字体
  4. 如何永久更改VS编译器字体以及背景色
  5. C++模拟疫情在校园的传播
  6. 2022-2028年中国二手奢侈品行业市场研究及前瞻分析报告
  7. Win10太高端,如何连接XP / Win7 共享出来的打印机?
  8. Matlab使用imread出错原因 错误使用 fopen 文件名包含未包括在文件系统编码中的字符。某些操作可能无法按预期运行。出错 imread>get_full_filename (line
  9. STC8H8K系列汇编和C51实战——秒倒计时器(可自行设定初值)(51版)
  10. 利用OpenXml SDK添加样式以填充Excel前景色