工具篇Flair之文档嵌入教程
Flair文档嵌入教程
文档嵌入与单词嵌入不同之处在于它们为您提供了一个嵌入整个文本的内容,而文字嵌入则为您提供了嵌入单个单词的内容。
所有文档嵌入类都继承自DocumentEmbeddings类,并实现embed()方法,您需要调用该方法来嵌入文本。
生成的所有嵌入都是Pytorch向量,因此它们可以立即用于训练和微调。
教程地址:https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_5_DOCUMENT_EMBEDDINGS.md
文档嵌入
文档嵌入是通过嵌入文档中的所有单词创建的。 目前,我们有两种不同的方法来从字嵌入列表中获取文档嵌入。
- Pooling
- 第一种方法计算文档中所有字嵌入的池化操作。 默认操作是’mean’,它给出了句子中所有单词的平均值。 将得到的嵌入作为文档嵌入。
- 要创建平均文档嵌入,只需先创建任意数量的TokenEmbeddings并将它们放入列表中。 然后,使用此TokenEmbeddings列表启动DocumentMeanEmbeddings。 因此,如果要使用GloVe嵌入与CharLMEmbeddings一起创建文档嵌入,请使用以下代码:
from flair.embeddings import WordEmbeddings, CharLMEmbeddings, DocumentPoolEmbeddings# initialize the word embeddings
glove_embedding = WordEmbeddings('glove')
charlm_embedding_forward = CharLMEmbeddings('news-forward')
charlm_embedding_backward = CharLMEmbeddings('news-backward')# initialize the document embeddings
document_embeddings = DocumentPoolEmbeddings([glove_embedding,charlm_embedding_backward,charlm_embedding_forward])# create an example sentence
sentence = Sentence('The grass is green .')# embed the sentence with our document embedding
document_embeddings.embed(sentence)# now check out the embedded sentence.
print(sentence.get_embedding())
这将打印出文档的嵌入。 由于文档嵌入源自单词嵌入,因此其维度取决于您正在使用的单词嵌入的维度。
- LSTM
第二种方法使用LSTM创建DocumentEmbeddings。 LSTM将文档中每个标记的单词嵌入作为输入,并将其最后输出状态作为文档嵌入提供。
通过传递单词嵌入列表来启动DocumentLSTMEmbeddings。
嵌入维度取决于您使用的隐藏状态的数量以及LSTM是否是双向的。
from flair.embeddings import WordEmbeddings, DocumentLSTMEmbeddingsglove_embedding = WordEmbeddings('glove')document_embeddings = DocumentLSTMEmbeddings([glove_embedding])# create an example sentence
sentence = Sentence('The grass is green .')# embed the sentence with our document embedding
document_embeddings.embed(sentence)# now check out the embedded sentence.
print(sentence.get_embedding())
欢迎关注【AI小白入门】,这里分享Python、机器学习、深度学习、自然语言处理、人工智能等技术,关注前沿技术,求职经验等,陪有梦想的你一起成长。
工具篇Flair之文档嵌入教程相关推荐
- 工具篇—《MD文档辅助工具,PicGo使用》
MD文档辅助工具,PicGo使用 一.概念 二.配置教程 1. 安装PicGo 2.Typora配置 3.常见错误 1.failed to fetch 2.上传失败 三.设置GitHub图床 四.设置 ...
- 工具篇Flair之使用预训练模型教程
更多实时更新的个人学习笔记分享,请关注: 知乎:https://www.zhihu.com/people/yuquanle/columns 微信订阅号:AI小白入门 ID: StudyForAI Fl ...
- 传智播客C/C++各种开发环境搭建视频工具文档免费教程
传智播客作为中国IT培训的领军品牌,一直把握技术趋势,给大家带来最新的技术分享!传智播客C/C++主流开发环境免费分享视频文档中,就有写一个helloworld程序的示范.火速前来下载吧 所谓&quo ...
- 使用中文分词工具切分ArcGIS在线文档
下面使用中文分词工具切分ArcGIS在线帮助文档:以减轻阅读难度:看下有无效果:此为我发明的阅读方法: ArcGIS是个非常庞大的系统,希望可以减轻阅读强度: 下面是6篇文档的切分结果截图:原文链接和 ...
- 开发技术指南 | 最全 Substrate 与 Polkadot 技术文档、教程、课程
Substrate 让您可以通过制作及整合不同的模块来创建定制化的区块链.它附带了构建区块链所需的一切.使用Substrate 模块能轻松创建所需的内容,或制作自己的自定义逻辑,让构建区块链比以往更快 ...
- python新建word文档_使用Python 自动生成 Word 文档的教程
当然要用第三方库啦 :) 使用以下命令安装: pip install python-docx 使用该库的基本步骤为: 1.建立一个文档对象(可自动使用默认模板建立,也可以使用已有文件). 2.设置文档 ...
- python自动生成和读取word_使用Python自动生成Word文档的教程
当然要用第三方库啦 :) 使用以下命令安装: pip install python-docx 使用该库的基本步骤为: 1.建立一个文档对象(可自动使用默认模板建立,也可以使用已有文件). 2.设置文档 ...
- python docx 合并文档 图片_MBT文档模型化生成工具——30倍效率文档撰写工程化方法...
MBT(A model based document builder)文档模型化生成工具用户手册--30倍效率文档撰写工程化方法 1 简介 在软件工程领域,工程文档通常主要包括实施方案.需求分析.软件 ...
- 石墨文档详细教程(云端office支持阿里巴巴钉钉,微信)-Array老师-专题视频课程...
石墨文档详细教程(云端office支持阿里巴巴钉钉,微信)-232人已学习 课程介绍 石墨文档已服务近千万个人用户.12 万企业用户,覆盖互联网.教育.新媒体.金融.服务外包等行业,本 ...
最新文章
- 深度玩转神经网络——基于Keras
- 文件数据分析制作过程【1】
- JQeury form插件的ajaxForm方法和ajaxSubmit方法的区别
- 【实战】用机器学习来提升你的用户增长
- 【.NET 遇上 GraphQL】 ChilliCream 平台介绍
- ASP.NET Core Razor 视图组件
- [shell] while read line 与for循环的区别
- 妙用遨游抓包找fckeditor上传木马路径
- 【codevs2421】【BZOJ1858】序列操作,线段树
- TakeColor 屏幕取色器 8.0 中文绿色版
- erc20钱包下载_【重要公告】VNT Chain主网钱包使用指南
- 用python找千字文的重复字
- linux中iso文件怎么安装,linux系统安装iso文件方法
- Mapped Statements collection already contains value for com.bai.dao.Userdao.UserByID
- 【SEO网络推广】会被百度K站的原因
- 苹果支付在哪里设置_你会用苹果手机吗?这些快捷指令快速设置一下,好用度提升10倍...
- 【2011NOIP普及组】T3. 瑞士轮 试题解析
- HTML5/Node.js/JS 经验谈 (会员专属)【讲师辅导】-曾亮-专题视频课程
- 数据泄露防护- BadUSB 制作 模拟
- Error:.系统错误,错误码:80058,desc of scope.userLocation is empty[20210513 20:05:21][wxd0659441b63ab707]