用Python 处理文本数据
用Python 处理文本数据
前言
HI,好久不见,今天是关闭朋友圈的第60天,我是野蛮成长的AC-Asteroid。
人生苦短,我用Python,通过短短两周时间自学,从基础知识到项目实践,在这个过程中深刻体会到这款语言的魅力,今天带来一个有趣的项目,用Python处理文本数据,一起来看看今天的问题吧。
题目一 用python处理文本数据
实验目的:
熟悉python的基本数据结构,以及文件的输入与输出。
实验数据:
利用xxxx年xx机器学习会议的评测数据和评测任务,数据包括训练集和测试集,评测任务为通过给定的训练数据,预测测试集中的关系是正例还是负例,在每个样本最后给出1或者0。
数据描述如下,第一列为关系类型,第二列和第三列为人名,第四列是标题,第五列是关系为正例还是负例,1为正例,0为负例;第六列表示训练集。
事件 | 人物1 | 人物2 | 标题 | 关系(0 or 1) | 训练集 |
---|
测试集描述如下图,格式基本与训练集类似,唯一不同的是第五列没有关系是正例还是负例的标记。
关系 | 人物1 | 人物2 | 事件 |
---|
实验内容:
- 对训练集数据进行处理,只留下前面五列,输出文本命名为exp1_1.txt。
- 在第一步得到的数据的基础上对19类关系进行分类,生成的文本存放在exp1_train文件夹下,按照关系类别出现的顺序,第一个关系类别的数据存放在1.txt中,第二个关系类别存放在2.txt中,直到19.txt。
- 测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类,即相同关系类型的数据放到一个文本文件中,同样生成19个类别的测试文件,格式仍旧和测试文件保持一致。存放在exp1_test文件夹下,每个类别的文件仍旧命名为1_test.txt,2_test.txt…
同时对每个样本在原测试集中出现的位置进行记录,和19个测试文件一一对应起来。比如第一类“传闻不和”的每个样本在原文中处于第几行,在索引文件中进行记录,保存在文件index1.txt,index2.txt….
解题思路:
- 第一题是考察我们文件操作与列表的知识,主要考察的难点是对new文件的读取,根据要求处理后在生成一个txt文件,让我们看一下具体的代码实现:
import os
# 创建一个列表用来存储新的内容
list = []
with open("task1.trainSentence.new", "r",encoding='xxx') as file_input: # 打开.new文件,xxx根据自己的编码格式填写with open("exp1_1.txt", "w", encoding='xxx') as file_output: # 打开exp1_1.txt,xxx根据自己的编码格式填写文件如果没有就创建一个for Line in file_input: # 遍历每一行的文件arr = Line.split('\t') # 以\t为分隔符读取if arr[0] not in list: # if the word is not in the listlist.append(arr[0]) # add the word to the listfile_output.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\n") # write the line to the file
file_input.close() #关闭.new文件
file_output.close() #关闭创建的txt文件
- 第二题依旧考察了文件操作,在题目一生成的文件基础上,按照同一类型的事件对事件进行分类,是否能高效的分组需要利用循环条件来解决,我们来看看具体的代码实现
import os
file_1 = open("exp1_1.txt", encoding='xxx') # 打开文件,xxx根据自己的编码格式填写
os.mkdir("exp1_train") # 创建目录
os.chdir("exp1_train") # 修改进程的工作目录(使用该目录)
a = file.readline() # 按行读取exp1_1.txt文件
arr = a.split("\t") # 按\t间隔符作为分割
b = 1 #设置分组文件的序列
file_2 = open("{}.txt".format(b), "w", encoding="xxx") # 打开文件,xxx根据自己的编码格式填写
for line in file_1: # 按行读取文件arr_1 = line.split("\t") # 按\t间隔符作为分割if arr[0] != arr_1[0]: # 如果读取文件的第一列内容与存入新文件的第一列类型不同file_2.close() # 关掉该文件b += 1 # 文件序列加一f_2 = open("{}.txt".format(b), "w", encoding="xxx") # 创建新文件,以另一种类型分类,xxx根据自己的编码格式填写arr = line.split("\t") # 按\t间隔符作为分割f_2.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"t"+arr[4]+"\t""\n") # 将相同类型的文件写入
f_1.close() # 关闭题目一创建的exp1_1.txt文件
f_2.close() # 关闭创建的最后一个类型的文件
- 将训练集的19个类别按照人物的关系进行进一步的分类,我们可以通过字典对数据进行遍历,查找关系,把关系相同的内容放到一个文件夹中,不同则新建一个。
import oswith open("exp1_1.txt", encoding='xxx') as file_in1: # 打开文件,xxx根据自己的编码格式填写i = 1 # 类型序列arr2 = {} # 创建字典for line in file_in1: # 按行遍历arr3 = line[0:2] # 读取关系if arr3 not in arr2.keys():arr2[arr3] = i i += 1 # 类型+1file_in = open("task1.test.new") # 打开文件task1.test.newos.mkdir("exp1_test") # 创建目录os.chdir("exp1_test") # 修改进程的工作目录(使用该目录)for line in file_in:arr = line[0:2]with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:arr = line.split('\t')file_out.write(line)i = 1file_in.seek(0)os.mkdir("exp1_index")os.chdir("exp1_index")for line in file_in:arr = line[0:2]with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:arr = line.split('\t')line = line[0:-1]file_out.write(line + '\t' + "{}".format(i) + "\n")i += 1
题目二 用python处理数值型数据
实验目的:
熟悉python的基本数据结构,以及文件的输入与输出。
实验数据:
xxxx年xx天池大赛,也是中国高校第x届大数据挑战赛的数据。数据包括两个表,分别是用户行为表mars_tianchi_user_actions.csv和歌曲艺人表mars_tianchi_songs.csv。大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150831)的用户行为历史记录。选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。
实验内容:
- 对歌曲艺人数据mars_tianchi_songs进行处理,统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv,第一列为艺人的ID,第二列为该艺人的歌曲数目。最后一行输出艺人的个数。
- 将用户行为表和歌曲艺人表以歌曲song_id作为关联,合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致,第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。
- 按照艺人统计每个艺人每天所有歌曲的播放量,输出文件为exp2_3.csv,各个列名为艺人id,日期Ds,歌曲播放总量。注意:这里只统计歌曲的播放量,不包括下载和收藏的数量。
解题思路:(利用pandas库)
1.
(1)利用.drop_duplicates() 删除重复值
(2)利用.loc[:,‘artist_id’].value_counts() 求出歌手重复次数,即每个歌手的歌曲数目
(3)利用.loc[:,‘songs_id’].value_counts() 求出歌曲没有重复
import pandas as pd
data = pd.read_csv(r"C:\mars_tianchi_songs.csv") # 读取数据
Newdata = data.drop_duplicates(subset=['artist_id']) # 删除重复值
artist_sum = Newdata['artist_id'].count()
#artistChongFu_count = data.duplicated(subset=['artist_id']).count() artistChongFu_count = data.loc[:,'artist_id'].value_counts() 重复次数,即每个歌手的歌曲数目
songChongFu_count = data.loc[:,'songs_id'].value_counts() # 没有重复(歌手)
artistChongFu_count.loc['artist_sum'] = artist_sum # 没有重复(歌曲)artistChongFu_count.to_csv('exp2_1.csv') # 输出文件格式为exp2_1.csv
- 利用merge()合并两个表
import pandas as pd import osdata = pd.read_csv(r"C:\mars_tianchi_songs.csv")
data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv")
num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')
- 利用groupby()[].sum()进行重复性相加
import pandas as pd
data =pd.read_csv('exp2_2.csv')
DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()#重复项相加DataCHongfu.to_csv('exp2_3.csv')
码字不易,记得一键三连哦
用Python 处理文本数据相关推荐
- lda 可以处理中文_用python处理文本数据
用python处理文本数据 Q:这篇文章主要讲什么? A:这篇文章主要讨论如何用python来做一些简单的文本处理--文本相似度比较. 谈起python的自然语言处理,肯定会让人想起NLTK.不过上面 ...
- python中数据用折线图表示_用python处理文本数据
用python处理文本数据 Q:这篇文章主要讲什么? A:这篇文章主要讨论如何用python来做一些简单的文本处理--文本相似度比较. 谈起python的自然语言处理,肯定会让人想起NLTK.不过上面 ...
- python读取文本数据绘制曲线图
目录 写在前面 代码 reference 写在前面 1.本文内容 python读取文本数据曲线图 2.转载请注明出处: https://blog.csdn.net/qq_41102371/articl ...
- 使用Python清洗文本数据
点击关注我哦 一篇文章带你了解使用Python清洗文本数据 数据格式并不总是表格格式.随着我们进入大数据时代,数据具有相当多样化的格式,包括图像,文本,图形等. 由于格式非常多样,从一种数据到另一种数 ...
- 用python处理文本数据,并删除处理之后的数据(Python经典编程案例)
用python处理文本数据,并删除处理之后的数据: # 根据条件把一个文本分成两个文本 # with open(r'list_object.txt', 'r') as file: # lines = ...
- python 定义一个负数_其实Python不难学(4):Python如何处理文本数据
文本的处理是数据分析工作中很重要的业务领域.Python的字符串变量用于操纵文本型数据.以下命令就定义了一个字符串变量,用于存放一段文本资料. 在Python中,文本数据使用一对单引号或双引号来界定的 ...
- python处理文本数据
处理文本数据,主要是通过Seris的str访问.遇到NaN时不做任何处理,保留结果为NaN,遇到数字全部处理为NaN. str是Seris的方法,DataFrame不能直接使用,但是通过索引选择Dat ...
- python清洗文本数据_02.数据预处理之清洗文本信息
准备30万条新闻数据 编号 新闻类别 新闻数量(条) 1 财经 37098 2 教育 41963 3 科技 65534 4 时政 63086 5 体育 65534 6 娱乐 65534 yield生成 ...
- python处理sql数据_用 SQL 而不是 Python 处理文本数据
很多朋友们以为 SQL 是用来处理结构化数据的:而文本是典型的非结构化数据(unstructured data).其实 SQL 可以处理文本,而且比 Python 更方便 . 这篇文章简要介绍如何用 ...
最新文章
- 【青少年编程(第27周)】报名考级的小朋友注意截止时间!
- Visual C++ 2012编译器更新(预览版)发布
- HDU2553 N皇后问题
- Indesign CS6怎么添加框线_InDesign小小知识库
- 如何用python写串口通信软件_如何用python写个串口通信的程序?
- Raft 一致性算法论文译文
- Linux用ICMP协议实现简单Ping网络监测功能
- 生信装虚拟机好还是云服务器,学习小组Day2笔记--潘潘
- 最保值电子产品绝对是它:后悔没多收几台
- php中sql语句有啥用,php中sql语句
- VS2010安装VC9 RunTime 失败的问题
- 知识图谱构建技术综述与实践
- [CyanogenMOD移植教程]第一章:环境的搭建
- Python Django Web开发之表单
- 小程序ibeacon三点定位
- 控制台基于Quartz.Net组件实现定时任务调度(一)
- hive sql报错:SQL 错误 [10004] [42000]: Error while compiling statement: FAILED: SemanticException [Error
- ecshop 服务器操作系统,ecshop 云服务器
- Kotlin Mvp 协程 Retrofit整合
- oracle 所有句型,[转载]7分写作必备句型 3
热门文章
- SpringCloud Alibaba 2021微服务实战十三 gateway 全局过滤器打印日志及如何忽略全局过滤器
- 公信宝CEO黄敏强:区块链让数据所有权回归大众
- 算法 64式 7、搜索算法整理_第4部分_46到60题
- 汽车巨头不愿被 “羞辱”,苹果造车重回代工模式
- java枯燥吗_Java程序员工作枯燥?换什么工作好?
- Android 8 WiFi断流,小米8wifi断流怎么解决
- Forbidden (#403)You are not allowed to access this page.
- 2020中国机器人公司排行榜TOP10揭晓
- 我遇到过最奇葩的初面!
- 有哪些手游的账号卖了值钱?