在处理数据时,根据用户的收货地址和我们家供应商的名称尝试提取地址。
先说一下CPCA这个包,下面这一段是官方给出的解释:

[“徐汇区虹漕路461号58号楼5楼”, “泉州市洛江区万安塘西工业区”]
↓ 转换
|省 |市 |区 |地址 |
|上海市|上海市|徐汇区|虹漕路461号58号楼5楼 |
|福建省|泉州市|洛江区|万安塘西工业区 |
优点:
1.能够匹配到省或者市的缩写,比如将"北京市"缩写为"北京",“江苏省"缩写为"江苏”
2.还处理了诸如"新疆维吾尔族自治区"缩写为"新疆","西藏藏族自治区"缩写为"西藏"等情况

特别说明下:代码目前仅仅支持python3
pip install cpca
注:cpca是chinese province city area的缩写

原来的数据是这样的

最后,提取完地址是这样的

(为了方便各位看官老爷,我做了合并)

下面说一下具体步骤

import cpca # 用来提取地址的包# 提取语法如下:
# 通过这两个字段中的地址信息,提取出来省份
# 可以提取【省、市、区、地址、adcode】
df_add1 = cpca.transform(df_main['CustomerAddress'])[['省','市','区']]
df_add2 = cpca.transform(df_main['DistributionName'])[['省','市','区']]
# 因为从两个列提出来的,让数据更全面些,所以做了更新组合
df_add = df_add1.combine_first(df_add2)

下面就是输出了,可以跟期望的表进行拼接等操作。看自己需要使用

[out:]

这里放一段拼接的代码,两种方法,做之前记得索引重置哦

# 索引重置参考下面这行:
df_main.reset_index(drop=True)
# 拼接合并参考下面两行(二选一)
df_main = pd.merge(df_main,df_add,left_index=True,right_index=True,how='left')
df_main = pd.concat([df_main,df_add],axis=1)

最后就得到了拼接后的完整图片

使用 cpca 提取地址所在省份,通过多信息提取地址包含区号并进行表表组合更新相关推荐

  1. 35 - 用正则表达式分别提取电话号的区号、电话号和分机号

    如何搜索字符串中包含区号和分机号的第一个出现的电话号,并提取电话号中的区号.电话号和分机号.要求如下: 区号固定是3位数字 电话号至少是7位数字 分机号至少是3位数字 区号.电话号和分机号之间用连字符 ...

  2. 用python提取文字中省份与城市

    由于我在做项目时发现有很多可以利用的三方库比如:cpca(安装比较麻烦),geopy(网络不稳定时容易出错,会显示超时不能分割地理信息),无奈之下只能自己手敲了一份临时可用的小程序. def get_ ...

  3. java获取用户的所在省份、城市的接口

    java获取用户的所在省份.城市的接口代码分享 解决方法: 1.以下是调用第三方接口获取用户地理位置信息的代码: private static void getlocation() { URL url ...

  4. PHP获取IP地址所在的地理位置

    PHP获取IP地址所在的地理位置 时间:2011-04-02 16:19来源:三知开发网 作者:许亮 点击: 787 次 http://www.sunchis.com/html/php/phpsour ...

  5. easy excel根据行列excel_Excel函数如何根据地级市匹配所在省份计算快递费用

    前些日子一个学员问的关于excel计算快递费的问题,office小超老师觉得很有代表性.在这里和大家分享一下具体处理快递费的处理流程. 在她的这个案例中,订单信息地区仅为各个地级市,现在的问题就是要根 ...

  6. java 正则提取邮箱_如何用正则表达式提取一个网站里面的所有邮箱地址?

    展开全部 用正则表达式提取一个网站里面的所有邮箱地址e68a8462616964757a686964616f31333337616565 import java.io.BufferedReader; ...

  7. 用spark分析北京积分落户数据,按用户身份证所在省份城市分析

    加载刚才解析json格式存储而成的csv文件. 按用户身份证所在省份城市分析 #导入积分落户人员名单数据 sqlContext = SQLContext(sc) df = sqlContext.rea ...

  8. python正则表达式提取电话号码区号_Python学习笔模式匹配与正则表达式之电话号码和Email地址提取程序...

    随笔记录方便自己和同路人查阅. #------------------------------------------------我是可耻的分割线--------------------------- ...

  9. “十三五”地表水水质国控断面坐标位置数据(共1854个点位,含断面名称、断面编码、所在省份、所在地区、断面类型、所在河流经度、纬度)

    "十三五"地表水水质国控断面坐标数据,含断面名称.所在流域.所在水体.水体类型.经度.纬度.断面属性.所在省份.所在地市,共1854条,可分流域和省市),配合早期(2016年1月- ...

最新文章

  1. 【C++】【十二】排序实现及思路
  2. 独家|OpenCV 1.6 改变图像的对比度和亮度!
  3. php redis 管道技术,Redis管道技术这么厉害,你都用对了吗
  4. Spring的生命周期
  5. 滚动到底部或顶部响应的ScrollView使用
  6. RabbitMq 安装
  7. C语言试题六十之请编写函数fun,计算并输出下列级数和:s=1/1*2+1/2*3+…+1/n(n+1)
  8. html中可以有两个h1,在一个HTML中h1标签能出现几次?h1标签和标题标签
  9. 企业网站6个常见的优化漏洞
  10. table合并单元格_element ui el-table 合并单元格
  11. 用ANSYS画矩形_用SolidWorks画一个带波浪纹路的瓶子
  12. PASCAL VOC2012数据集介绍
  13. 【SENCHA TOUCH】datepickerfield将日期改为中文日期或自定义的日期
  14. 基于JavaSwing开发医院信息管理系统 毕业设计 课程设计 大作业
  15. 微信小程序中使用Echarts 折线图、柱形图、饼状图
  16. MSDC 4.3 接口规范(9)
  17. OCR手写数字识别什么软件好用?介绍一种
  18. 浅析BootStrap
  19. 技术大佬们都是怎么学习的?
  20. Qt/C++ 加载数据库出现qt_sql_default_connection提醒

热门文章

  1. 【人工智能AI代码:AIXCodeCompletionHelper】一个集成了 Open AI 人工智能写代码的 Jetbrains IDE 插件(支持 Golang,IDEA等)
  2. c# 操作Lrc歌词文件 的类
  3. 职场新人要对自己说的
  4. 软件测试方法中的黑盒测试用例设计方法有哪些?
  5. JavaScript 使用newArray()替换Uint8Array(),Uint16Array(),Uint64Array(),Float64Array()等方法
  6. 【大模型多肽发现、学习笔记】针对病毒感染的肽药物发现
  7. Linux环境编程(4)文件操作相关内容补充
  8. 【STM32单片机+DHT11温度传感器】快速上手,适用于多种型号芯片
  9. 微信公众号投票活动开发
  10. [转载]由兔子的笑话联想到的哲理