一个可以提取汉字的函数

此函数引自itpub,原文http://www.itpub.net/847680.html

该函数只适用于 数据库字符集是 ZHS16GBK的,且只提取 6763个简体汉字,也就是一二级汉字
但是实际上编码的判断适用于 GB18030, ZHS16GBK, ZHS16CGB231280, GB 13000.1/ISO 10646.1
等标准,这些标准对于简体汉字的编码都是一样的

写一函数,准确地判断字段是否含有汉字或者提取汉字等
从表里提取汉字, 需要考虑字符集, 不同的字符集汉字的编码有所不同
这里以GB2312为例, 写一函数准确地从表里提取简体汉字.

假设数据库字符集编码是GB2312, 环境变量(注册表或其它)的字符集也是GB2312编码
并且保存到表里的汉字也都是GB2312编码的

那么也就是汉字是双字节的,且简体汉字的编码范围是
B0A1 - F7FE
换算成10进制就是
B0 A1 F7 FE
176,161 - 247,254

我们先看一下asciistr函数的定义
Non-ASCII characters are converted to the form xxxx, where xxxx represents a UTF-16 code unit.
但是这并不表示以 "" 开始的字符就是汉字了

举例如下
SQL> select * from test;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC

这里第5条记录有一个实心的五角星
然后用asciistr函数转换一下试试
SQL> select name,asciistr(name) from test;

NAME ASCIISTR(NAME)
-------------------- ----------------------
,啊OO10哈 ,554AOO1054C8
你好aa 4F60597Daa
大家好aa/ 59275BB6597Daa/
☆大海123 260659276D77123
★ABC 2605ABC

我们看到最后一条记录的实心五角星也是 ""开头的
此时我们就不能用asciistr(字段)是否存在 "" 来判断是否含有汉字了.

我的函数如下,基本思路是判断字符的编码是否在GB2312规定的汉字编码范围之内

代码:--------------------------------------------------------------------------------
create or replace function get_chinese(p_name in varchar2) return varchar2
as
v_code varchar2(30000) := '';
v_chinese varchar2(4000) := '';
v_comma pls_integer;
v_code_q pls_integer;
v_code_w pls_integer;
begin
if p_name is not null then
select replace(substrb(dump(p_name,1010),instrb(dump(p_name,1010),'ZHS16GBK:')),'ZHS16GBK: ','') into v_code from dual where rownum=1;
for i in 1..length(p_name) loop
if lengthb(substr(p_name,i,1))=2 then
v_comma := instrb(v_code,',');
v_code_q := to_number(substrb(v_code,1,v_comma-1));
v_code_w := to_number(substrb(v_code,v_comma+1,abs(instrb(v_code,',',1,2)-v_comma-1)));
if v_code_q>=176 and v_code_q<=247 and v_code_w>=161 and v_code_w<=254 then
v_chinese := v_chinese||substr(p_name,i,1);
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
end loop;
return v_chinese;
else
return '';
end if;
end;
/
.--------------------------------------------------------------------------------

好,现在来执行一些语句
SQL> select * from test;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC

5 rows selected.

1. 列出有汉字的记录
SQL> select name from test where length(get_chinese(name))>0;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123

4 rows selected.

2. 列出有汉字的记录,并且只列出汉字

SQL> select get_chinese(name) from test where length(get_chinese(name))>0;

GET_CHINESE(NAME)
---------------------------------------------------------------------------
啊哈
你好
大家好
大海

4 rows selected.

需要说明的是GB2312共有6763个汉字,即72*94-5=6763
我这里是计算72*94,没有减去那5个,那五个是空的。等查到了再减去
============

改写这个函数,可以提取非汉字或者汉字
该函数有两个参数,第一个表示要提取的字符串,第二个是1,表示提取汉字,是非1,表示提取非汉字

代码:--------------------------------------------------------------------------------
create or replace function get_chinese
(
p_name in varchar2,
p_chinese in varchar2
) return varchar2
as
v_code varchar2(30000) := '';
v_chinese varchar2(4000) := '';
v_non_chinese varchar2(4000) := '';
v_comma pls_integer;
v_code_q pls_integer;
v_code_w pls_integer;
begin
if p_name is not null then
select replace(substrb(dump(p_name,1010),instrb(dump(p_name,1010),'ZHS16GBK:')),'ZHS16GBK: ','') into v_code from dual where rownum=1;
for i in 1..length(p_name) loop
if lengthb(substr(p_name,i,1))=2 then
v_comma := instrb(v_code,',');
v_code_q := to_number(substrb(v_code,1,v_comma-1));
v_code_w := to_number(substrb(v_code,v_comma+1,abs(instrb(v_code,',',1,2)-v_comma-1)));
if v_code_q>=176 and v_code_q<=247 and v_code_w>=161 and v_code_w<=254 then
v_chinese := v_chinese||substr(p_name,i,1);
else
v_non_chinese := v_non_chinese||substr(p_name,i,1);
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
else
v_non_chinese := v_non_chinese||substr(p_name,i,1);
end if;
v_code := ltrim(v_code,'1234567890');
v_code := ltrim(v_code,',');
end loop;
if p_chinese = '1' then
return v_chinese;
else
return v_non_chinese;
end if;
else
return '';
end if;
end;
/

.--------------------------------------------------------------------------------

SQL> select * from a;

NAME
--------------------
我们啊、
他(艾呀)是★们
他的啊@

SQL> select get_chinese(name,1) from a;

GET_CHINESE(NAME,1)
-----------------------------------------
我们啊
他艾呀是们
他的啊

SQL> select get_chinese(name,0) from a;

GET_CHINESE(NAME,0)
-----------------------------------------

()★
@

SQL>

简体汉字的编码范围是
B0A1 - F7FE
参考这个连接
http://www.knowsky.com/resource/gb2312tbl.htm
http://219.136.187.225/SchoolWeb/hz.../HAIZI/GBK2.htm
如果想研究unicode,可以去官方网站
www.unicode.org
另外,windows自带的造字程序里面就有一个编码表。

不过好像也可以处理UTF8的,通过上个帖子可以看出来(返回汉字拼音首字母的问题)。

一个可以提取汉字的函数相关推荐

  1. oracle直截取汉字,ORACLE_从字符串中提取汉字(不包括全角符及日文韩文等字符) | 学步园...

    转载自:http://blog.csdn.net/atgc/article/details/2036799 感谢网友ATGC ,这个问题研究了一天,终于搞定!! 从表里提取汉字, 需要考虑字符集, 不 ...

  2. 一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块...

    简介 一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块. 举个例子: ["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘 ...

  3. C# 使用微软的Visual Studio International Pack 类库提取汉字拼音首字母

    昨天经过网友提醒,提取汉字拼音的方法可以使用微软的一个类库 Visual Studio International Pack ,今天试了一试,确实好用!下面分享下使用方法: 首先下载Visual St ...

  4. Python之网络爬虫(验证码、代理IP、防反爬策略、封装一个抓取页面的函数)

    文章目录 一.使用tesseract做OCR验证码识别 二.代理服务器设置 三.反爬与防反爬 四.封装一个抓取页面的函数 一.使用tesseract做OCR验证码识别 1.cookie, sessio ...

  5. (转载)C#提取汉字拼音首字母的方法

    今天突然要用到提取汉字拼音首字母的功能,去网上找了找,发现没有几个好用的,决定自己写一个,效果还不错,发出来大家一起研究下,分享给大家!直接入主题: 1.首先对编码进行定义 #region 编码定义 ...

  6. 干货 | 如何写一个更好的Python函数?

    乾明 编译整理自 Medium  量子位 报道 | 公众号 QbitAI Python虽然好用,但用好真的很难. 尤其是函数部分,只要写不好,后面的一连串人都会遭殃. 看又看不懂,测试起来也麻烦,维护 ...

  7. 基于GDAL的一个通用的3×3模板函数

    在进行遥感图像处理时,经常会用到很多的模板算子,比如平滑锐化等,拉普拉斯算子,索伯尔算子等等.其实这些算法都一样,用一个模板窗口在图像上移动,然后把计算的结果写入图像中. 在查看GDAL源代码的时候, ...

  8. [C#][转载]C# 使用微软的Visual Studio International Pack 类库提取汉字拼音首字母

    昨天经过网友提醒,提取汉字拼音的方法可以使用微软的一个类库 Visual Studio International Pack ,今天试了一试,确实好用!下面分享下使用方法: 首先下载Visual St ...

  9. Excel如何从复杂文本中提取汉字

    前几天有位漂亮的小姐姐问我,有没有从文本中提取汉字的方法而且不要使用函数,函数记不住.为此我绞尽脑汁终于想出两种方法,今天给大家分享一下. 1.方法一 1.如下图,是我随便填写的一些文本,其中包含汉字 ...

最新文章

  1. mac远程redis_MAC安装redis
  2. ant vue 树形菜单横向显示_Vue--组件Ant- 树形结构菜单
  3. 前端之JQuery(二)
  4. 今年跳槽可以再等等。
  5. 证明:对于一棵二叉树,若度为2的结点有n2个,叶子结点有n0个,则n0=n2+1
  6. 【开源项目】基于FFmpeg的RGB格式封装MOV文件
  7. poj2393 其它贪心 挑战程序设计竞赛
  8. 是什么 通信中unit_Ubuntu Linux中的特权提升漏洞Dirty Sock分析(含PoC)
  9. Android中WebView和JavaScript进行简单通信
  10. 华为交换机vlan配置教程
  11. Axure元件库web组件库典藏版 (含五大类159小类组件 )
  12. 2022年1~10月语音合成(TTS)和语音识别(ASR)论文月报
  13. 【智能制造】一份不错的工厂自动化解决方案PPT!
  14. 【数字图像处理】模拟Matlab的imresize()写一个你自己的imresize()函数,至少应实现‘nearest’和‘bilinear’两种方法
  15. 力扣 378. 有序矩阵中第 K 小的元素
  16. 分享2019年陆陆续续读过的书-附书单
  17. 2021天梯赛L1-074 两小时学完C语言 题解
  18. 日本社交游戏郭锋:CA子公司Cygames在美国AppStore的Rage of Bahamut进入TopSells钱10位,该游戏在play上也排在前面。其日文版“神击Bahamut”在日本Moba
  19. 蛋糕店会员卡充值方案有哪些?
  20. 基于C++实现的经典坦克大战游戏

热门文章

  1. python回测平台接口_Acqusta TQuant
  2. Android 4.4 Kitkat Phone工作流程浅析(三)__MO(去电)流程分析
  3. [USACO17DEC]Standing Out from the Herd
  4. 正则表达式 1-100的整数
  5. 中国SaaS服务TOP30出炉
  6. 2022年最新Android大厂面试题来袭,被面试官问的Android-Framework难倒了
  7. 电影购票系统(小小影院),SpringBoot+vue 结构启动项目(带源码,不收费)
  8. linux调节字体大小加粗,Linux下修改终端字体颜色和大小
  9. VMWare16 Pro 用linux镜像iso安装新的虚拟机设置引导模式(Legacy引导(传统BIOS)/ UEFI引导)
  10. Updating...门店零售业数据分析实战