• 项目地址:https://github.com/BeJane/word2vec
  • 数据集链接: https://pan.baidu.com/s/1mnJedKLKZLqjH7940rz5iQ 提取码: 8phf

数据集

人民日报:2020年10月04日-2021年10月04日

  • 概况

    • 25590 articles
    • 742362 sentences
    • 0.021 billion words
    • 294730 tokens
    • 182004942 pairs (window size: 5)

训练参数

vector dimension: 100

window size: 5

K: 5

batch size: 50

epoch: 10

learning rate: 0.025

训练结果

  • loss下降曲线

  • 词向量保存

  • 词向量可视化

  • 相似性测试
words: 新冠
similar words:
[('肺炎', 0.8603816032409668),('抗击', 0.7354764342308044),('病毒', 0.7166163921356201),('延宕', 0.6780088543891907),('疫情', 0.6722403764724731),('内新冠', 0.6578879356384277),('疫苗', 0.6544620990753174),('接种', 0.6023126244544983),('同新冠', 0.5994764566421509),('冠状病毒', 0.5871719121932983)]
words: 发展
similar words:
[('旅游业', 0.6072622537612915),('创新性', 0.5869481563568115),('经济社会', 0.5864200592041016),('跨越式', 0.5672993659973145),('体育事业', 0.5610668063163757),('文旅', 0.5601040720939636),('高质量', 0.554404616355896),('黄河流域', 0.5506658554077148),('繁荣', 0.5431921482086182),('进步', 0.5419984459877014)]
words: 绿色
similar words:
[('低碳', 0.7634264230728149),('环保', 0.6420109272003174),('转型', 0.6213286519050598),('环境友好', 0.6132680773735046),('讲究卫生', 0.6122341156005859),('都市型', 0.6091085076332092),('绿色革命', 0.5904538035392761),('能源', 0.5856208205223083),('碳循环', 0.5794229507446289),('清洁', 0.5748923420906067)]
words: 北京
similar words:
[('未完待续', 0.6831703186035156),('专栏(', 0.673279345035553),('发本报', 0.6611239910125732),('汝新华社', 0.6597181558609009),('汪哲平本报', 0.6554037928581238),('张丹峰新华社', 0.6540434956550598),('杨文斌', 0.6522436141967773),('第比利斯', 0.652116596698761),('张芳曼本报', 0.6461266279220581),('沈亦伶本报', 0.6431300044059753)]
words: 数字
similar words:
[('数字化', 0.6296783685684204),('人工智能', 0.6016441583633423),('虚拟现实', 0.5961554646492004),('飞桨', 0.591392457485199),('开发者', 0.5806708335876465),('交互式', 0.5730010271072388),('裸眼', 0.5715974569320679),('及物', 0.5713117122650146),('全息', 0.5710457563400269),('信息技术', 0.5665836930274963)]
words: 产业
similar words:
[('生态旅游', 0.6470369696617126),('新兴产业', 0.6328831911087036),('优势产业', 0.6275804042816162),('委员会洛川县', 0.6137779355049133),('特色产业', 0.6064068675041199),('传统产业', 0.6043283939361572),('转型', 0.603561520576477),('一二三', 0.601521372795105),('产业化', 0.6010552048683167),('信创', 0.5984545946121216)]
words: 经济
similar words:
[('复苏', 0.5899767279624939),('贸易', 0.5835217237472534),('拉动', 0.5685859322547913),('疫后', 0.5623974800109863),('主动力', 0.5564263463020325),('主任医师孙', 0.5527517795562744),('主任吉林省田秋', 0.5423448085784912),('中巴', 0.5394772291183472),('服务业', 0.5384839177131653),('腾格里', 0.5380746126174927)]
  • 类比测试
男--博士,
女--?
[('硕士', 0.6023393869400024),('香港科技大学', 0.5548747181892395),('计算机系', 0.5405473709106445),('剑桥大学', 0.534896969795227),('李传锋', 0.5326829552650452),('南京农业大学', 0.5315748453140259),('旁听生', 0.5241110920906067),('郭光灿', 0.5227930545806885),('海归', 0.522708535194397),('药学院', 0.5192795395851135)]
女--女士,
男--?
[('刘先生', 0.5702798366546631),('李先生', 0.5457801818847656),('某某', 0.540930986404419),('感谢信', 0.5367707014083862),('陈女士', 0.521395742893219),('胡锡恩', 0.5200252532958984),('领养', 0.5141705870628357),('奶奶', 0.5098757147789001),('夏行', 0.5089772939682007),('一位', 0.5088501572608948)]
城市--建设,
农村--?
[('文化公园', 0.5251893997192383),('拔地而起', 0.5027098655700684),('廊道', 0.49922025203704834),('外环', 0.49078091979026794),('这座', 0.4868094027042389),('园林景观', 0.47893524169921875),('世界级', 0.4766378700733185),('长隆', 0.47415652871131897),('城市公园', 0.4703103303909302),('大运河', 0.4702015519142151)]
经济--发展,
生态环境--?
[('业态', 0.5431914329528809),('注入', 0.5175008177757263),('旅游业', 0.5149070024490356),('拉动', 0.507580041885376),('引擎', 0.503610372543335),('崛起', 0.5028665661811829),('文旅', 0.5023772716522217),('增长极', 0.5019749402999878),('重振', 0.49992120265960693),('增长点', 0.49920737743377686)]

人民日报训练word2vec实验相关推荐

  1. 【用户行为分析】 用wiki百科中文语料训练word2vec模型

    本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845  前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...

  2. 中英文维基百科语料上的Word2Vec实验

    本文网址为:http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E ...

  3. 使用中文维基百科进行Word2Vec实验

    1. 环境及语料 1.1 环境 Homebrew Python jieba分词库 gensim库 1.2 下载维基百科语料 从这个链接下载http://download.wikipedia.com/z ...

  4. 中文维基百科语料上的Word2Vec实验

    说明:此文主要参考52nlp-中英文维基百科语料上的Word2Vec实验,按照上面的步骤来做的,略有改动,因此不完全是转载的.这里,为了方便大家可以更快地运行gensim中的word2vec模型,我提 ...

  5. 预训练word2vec,代码

    高频词在训练中可能不是那么有用.我们可以对他们进行下采样,以便在训练中加快速度. 为了提高计算效率,我们以小批量方式加载样本.我们可以定义其他变量来区分填充标记和非填充标记,以及正例和负例. 我们可以 ...

  6. 是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)?

    是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)? http://www.voidcn.com/artic ...

  7. 在物体检测任务上进行预训练的实验分析

    ©PaperWeekly 原创 · 作者|费玥姣 学校|西湖大学博士生 研究方向|视频预测 论文标题:An Analysis of Pre-Training on Object Detection 论 ...

  8. gensim流式训练word2vec模型,不需要一次性加载完整数据集

    首先训练文本train_text.txt文件内容如下: 优惠的政策和政府对产业发展的重视也吸引了更多医美企业来成都寻觅机遇.2018年成都医美机构的数量一度飙升至407家,较之前一年激增131家 中国 ...

  9. 多进程使用wikimedia数据训练word2vec模型

    语料库下载: 请参考:https://blog.csdn.net/weixin_35757704/article/details/115614112 1.训练Word2vec模型代码 单单使用gens ...

最新文章

  1. 读8篇论文,梳理BERT相关模型进展与反思
  2. mysql 客户无感知迁移_亿级账户数据迁移,不用数据库工具还能怎么搞?
  3. 2008 r2 sn sqlserver_sqlserver 下载地址(SQL Server 2008 R2 中英文 开发版/企业版/标准版 下载)...
  4. 用户分析-RFM模型生命周期
  5. 腾讯Tiny OS 组合 NB-IoT,值得程序员一试吗?
  6. 全球软件巨头 Software AG 遭勒索攻击
  7. vue 组件创建与销毁
  8. 【雕爷学编程】Arduino动手做(84)---DS1307时钟模块
  9. 通过V90PN通讯故障实例来看线路干扰与线路错误的区别
  10. mysql cleaned up_关于mysqld自动停止的问题
  11. python arp断网攻击_arp断网攻击,小编教你arp断网攻击怎么解决
  12. 利用电脑玩android版天天连萌刷高分 二,利用计算机玩Android版“天天连萌”刷高分(二)——图像识别...
  13. Nature:分离到一种位于原核生物-真核生物“交界”的古菌
  14. 案例分享:Qt+Arm+Fpga医疗肾镜(又名内窥镜)(实时影像、冻结、拍照、白平衡、九宫格、录像、背光调整、硬件光源调整、光源手动自动调整、物理按键)
  15. 20200714学习笔记
  16. Google的地球日图标08版
  17. 两款Windows系统优化工具
  18. TCP/IP 事件选择模型
  19. 语法分析实验ll算法c语言,实验5-LL语法分析程序的设计与实现(C语言)
  20. 图片查看插件-magnify

热门文章

  1. Java--SpringBoot使用@Transactional注解添加事务
  2. 什么是支付网关 支付网关全面解答
  3. 无刷直流电机矢量控制(三):坐标变换
  4. 虚拟串口与串口服务器,串口服务器USR-DR302与虚拟串口进行一对一通信
  5. dubbo的group分组
  6. Verilog中使用连续@posedge会是什么现象,是否可综合
  7. html代码老是记不住怎么办,几个老爱忘记的html标签
  8. KMP算法-超级无敌详细(嚼碎了喂你)
  9. 打印日期(华中科技大学考研机试)
  10. 操作系统有哪些结构?