1、背景

在初版模型,基于训练数据集,利用VocabularyProcessor构建了词汇表,存储文件为old_vocab.pickle。在以后的增量更新中

如何把已经保存的上版词汇加载上,同时加入增量中的新词汇,最终形成一版新的词汇。而tf中的VocabularyProcessor没有提供

增量更新的api。

2、解决办法

利用VocabularyProcessor已经提供的接口,vocabulary_._reverse_mapping将老的词汇抽取出来,按照分词的格式重新规范化之后

与增量的词,合并成一个语料,送入新的VocabularyProcessor的训练,最后将其保存为一个新文件,新文件就包括了老版词汇和增量词汇,具体实现方法如下:

#基于老的词汇表,增量更新词汇
#old_input_text = ['a b','c d']
vocab_processor = tf.contrib.learn.preprocessing.VocabularyProcessor.restore('old_vocab.pickle')
new_input_text = ['e f','p q']
new_vocab = [" ".join(vocab_processor.vocabulary_._reverse_mapping)] + new_input_text
new_vocab_processor = tf.contrib.learn.preprocessing.VocabularyProcessor(50,0,\
tokenizer_fn=text_tokenizer)
new_vocab_processor.fit(new_vocab)
print(new_vocab_processor.vocabulary_._mapping)
print(new_vocab_processor.vocabulary_._reverse_mapping)
print(list(new_vocab_processor.transform(new_input_text)))
new_vocab_processor.save('new_vocab.pickle')

利用tensorflow的VocabularyProcessor增量更新词汇表相关推荐

  1. 4 步搞定 Hive 增量更新

    Hive 的更新很有趣. Hive 的表有两种,一种是 managed table, 一种是 external table. managed table 是 Hive 自动帮我们维护的表,自动分割底层 ...

  2. 2019FME博客大赛——【零编码】利用FME实现城市高德路况抓取及增量更新——以深圳为例

    参赛单元:互联网.大数据及云计算 作者:杨忠智 单位:平安国际智慧城市科技股份有限公司 前言 继续我的[零编码]系列. 简单是美.虽为"码农",但本身还是个GISer,所以在进行数 ...

  3. NLP自然语言处理实战(一):利用分词器构建词汇表

    在NLP中,分词(tokenization,也称分词)是一种特殊的文档切分(segmentation)过程.而文档切分能够将文本拆分成更小的文本块或片段,其中含有更集中的信息内容.文档切分可以是将文档 ...

  4. clickhouse初学以及利用ck实现BI系统的增量更新

    文章目录 概述 适用场景 库引擎(部分) 1.Atomic 2.Lazy 3.Mysql.SQLite.PostergreSQL等一系列 数据类型(部分) 表引擎-合并树系列 ReplacingMer ...

  5. tflearn的VocabularyProcessor用法:建立中文词汇表和把文本转为词ID序列

    # -*- coding: utf-8 -*-from hanziconv import HanziConv from jieba import cut from tflearn.data_utils ...

  6. hive增量表和全量表_hive 拉链表 实现全量数据 增量更新

    背景: 数据表字段有IP,IP省份,IP城市,最新访问时间,假如目前一共有100W的IP我第一次初始化的时候完成初始化表插入,然后每天都有5W左右的IP活跃,然后我要更新这5W个IP的记录到初始化的表 ...

  7. 机器学习常用术语词汇表

    EOF是一个计算机术语,为End Of File的缩写 ,在操作系统中表示资料源无更多的资料可读取. 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表 ...

  8. 超全汇总!机器学习常用术语词汇表

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Goo ...

  9. 【机器学习基础】超全汇总!机器学习常用术语词汇表(建议收藏)

    刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表,一定是你必不可少的入门资料!本术语表列出了基本的机器学习术语和 TensorFlow 专用术语的定义 ...

最新文章

  1. codeforces392B
  2. 知识体系地图模型:你是如何有效地学习?
  3. Mac系统安装Aircrack-ng破解wifi密码(2)
  4. Loadrunner-web资源相关图表
  5. 2013江苏计算机二级vfp试题,2013年计算机二级VFP上机试题及答案解析51
  6. [书摘]架构真经--可扩展性规则的利益与优先级排行榜
  7. 百度在美国遭集体起诉;iPhone 11 成苹果最畅销机型;OpenSSL 曝高危漏洞 | 极客头条...
  8. 用request.getParameterMap()获得jsp页面元素的集合出现[Ljava.lang.String;@的问题解决
  9. 【CNN回归预测】基于matlab鲸鱼算法优化CNN回归预测【含Matlab源码 1453期】
  10. 如何提高matlab的运算速度慢,如何提高 matlab 计算速度 运算效率
  11. C语言期末考试知识点总结
  12. prop()方法的应用
  13. 《通天秘笈》学习笔记
  14. Halo2 学习笔记——设计之Proving system之Vanishing argument(4)
  15. at89c2051 定时器用法 c语言编程资料,用AT89C2051单片机制作的数字电容表.doc
  16. Zeev Suraski、Andi Gutmans、Rasmus Lerdorf
  17. app爬虫之航班数据获取
  18. 数据挖掘常用算法总结
  19. Python类与对象最全总结大全(类、实例、属性方法、继承、派生、多态、内建函数)
  20. serving inference

热门文章

  1. 【汇正财经】股本组织经营管理
  2. React--高阶组件(HOC)
  3. 胖瘦如何衡量?由BMI指数来判断
  4. c语言库的学习——windows.h
  5. 基于STM32 ARM+FPGA的电能质量分析仪方案(二)软件设计
  6. #五、先热热身--江恩那个看不见的正方在哪?
  7. Unity中将SampleScenes/AircraftJet2Axis飞行棋替换自己模型
  8. Oracle EBS R12统计在线用户SQL
  9. 系统架构-企业服务总线(ESB)
  10. HealthKit 从健康app中获取步数信息