利用tensorflow的VocabularyProcessor增量更新词汇表
1、背景
在初版模型,基于训练数据集,利用VocabularyProcessor构建了词汇表,存储文件为old_vocab.pickle。在以后的增量更新中
如何把已经保存的上版词汇加载上,同时加入增量中的新词汇,最终形成一版新的词汇。而tf中的VocabularyProcessor没有提供
增量更新的api。
2、解决办法
利用VocabularyProcessor已经提供的接口,vocabulary_._reverse_mapping将老的词汇抽取出来,按照分词的格式重新规范化之后
与增量的词,合并成一个语料,送入新的VocabularyProcessor的训练,最后将其保存为一个新文件,新文件就包括了老版词汇和增量词汇,具体实现方法如下:
#基于老的词汇表,增量更新词汇
#old_input_text = ['a b','c d']
vocab_processor = tf.contrib.learn.preprocessing.VocabularyProcessor.restore('old_vocab.pickle')
new_input_text = ['e f','p q']
new_vocab = [" ".join(vocab_processor.vocabulary_._reverse_mapping)] + new_input_text
new_vocab_processor = tf.contrib.learn.preprocessing.VocabularyProcessor(50,0,\
tokenizer_fn=text_tokenizer)
new_vocab_processor.fit(new_vocab)
print(new_vocab_processor.vocabulary_._mapping)
print(new_vocab_processor.vocabulary_._reverse_mapping)
print(list(new_vocab_processor.transform(new_input_text)))
new_vocab_processor.save('new_vocab.pickle')
利用tensorflow的VocabularyProcessor增量更新词汇表相关推荐
- 4 步搞定 Hive 增量更新
Hive 的更新很有趣. Hive 的表有两种,一种是 managed table, 一种是 external table. managed table 是 Hive 自动帮我们维护的表,自动分割底层 ...
- 2019FME博客大赛——【零编码】利用FME实现城市高德路况抓取及增量更新——以深圳为例
参赛单元:互联网.大数据及云计算 作者:杨忠智 单位:平安国际智慧城市科技股份有限公司 前言 继续我的[零编码]系列. 简单是美.虽为"码农",但本身还是个GISer,所以在进行数 ...
- NLP自然语言处理实战(一):利用分词器构建词汇表
在NLP中,分词(tokenization,也称分词)是一种特殊的文档切分(segmentation)过程.而文档切分能够将文本拆分成更小的文本块或片段,其中含有更集中的信息内容.文档切分可以是将文档 ...
- clickhouse初学以及利用ck实现BI系统的增量更新
文章目录 概述 适用场景 库引擎(部分) 1.Atomic 2.Lazy 3.Mysql.SQLite.PostergreSQL等一系列 数据类型(部分) 表引擎-合并树系列 ReplacingMer ...
- tflearn的VocabularyProcessor用法:建立中文词汇表和把文本转为词ID序列
# -*- coding: utf-8 -*-from hanziconv import HanziConv from jieba import cut from tflearn.data_utils ...
- hive增量表和全量表_hive 拉链表 实现全量数据 增量更新
背景: 数据表字段有IP,IP省份,IP城市,最新访问时间,假如目前一共有100W的IP我第一次初始化的时候完成初始化表插入,然后每天都有5W左右的IP活跃,然后我要更新这5W个IP的记录到初始化的表 ...
- 机器学习常用术语词汇表
EOF是一个计算机术语,为End Of File的缩写 ,在操作系统中表示资料源无更多的资料可读取. 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表 ...
- 超全汇总!机器学习常用术语词汇表
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Goo ...
- 【机器学习基础】超全汇总!机器学习常用术语词汇表(建议收藏)
刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表,一定是你必不可少的入门资料!本术语表列出了基本的机器学习术语和 TensorFlow 专用术语的定义 ...
最新文章
- codeforces392B
- 知识体系地图模型:你是如何有效地学习?
- Mac系统安装Aircrack-ng破解wifi密码(2)
- Loadrunner-web资源相关图表
- 2013江苏计算机二级vfp试题,2013年计算机二级VFP上机试题及答案解析51
- [书摘]架构真经--可扩展性规则的利益与优先级排行榜
- 百度在美国遭集体起诉;iPhone 11 成苹果最畅销机型;OpenSSL 曝高危漏洞 | 极客头条...
- 用request.getParameterMap()获得jsp页面元素的集合出现[Ljava.lang.String;@的问题解决
- 【CNN回归预测】基于matlab鲸鱼算法优化CNN回归预测【含Matlab源码 1453期】
- 如何提高matlab的运算速度慢,如何提高 matlab 计算速度 运算效率
- C语言期末考试知识点总结
- prop()方法的应用
- 《通天秘笈》学习笔记
- Halo2 学习笔记——设计之Proving system之Vanishing argument(4)
- at89c2051 定时器用法 c语言编程资料,用AT89C2051单片机制作的数字电容表.doc
- Zeev Suraski、Andi Gutmans、Rasmus Lerdorf
- app爬虫之航班数据获取
- 数据挖掘常用算法总结
- Python类与对象最全总结大全(类、实例、属性方法、继承、派生、多态、内建函数)
- serving inference