用Python 处理文本数据

前言

  HI,好久不见,今天是关闭朋友圈的第60天,我是野蛮成长的AC-Asteroid。
  人生苦短,我用Python,通过短短两周时间自学,从基础知识到项目实践,在这个过程中深刻体会到这款语言的魅力,今天带来一个有趣的项目,用Python处理文本数据,一起来看看今天的问题吧。

题目一  用python处理文本数据

实验目的:
  熟悉python的基本数据结构,以及文件的输入与输出。
实验数据:
  利用xxxx年xx机器学习会议的评测数据和评测任务,数据包括训练集和测试集,评测任务为通过给定的训练数据,预测测试集中的关系是正例还是负例,在每个样本最后给出1或者0。
数据描述如下,第一列为关系类型,第二列和第三列为人名,第四列是标题,第五列是关系为正例还是负例,1为正例,0为负例;第六列表示训练集。

事件 人物1 人物2 标题 关系(0 or 1) 训练集

测试集描述如下图,格式基本与训练集类似,唯一不同的是第五列没有关系是正例还是负例的标记。

关系 人物1 人物2 事件

实验内容:

  1. 对训练集数据进行处理,只留下前面五列,输出文本命名为exp1_1.txt。
  2. 在第一步得到的数据的基础上对19类关系进行分类,生成的文本存放在exp1_train文件夹下,按照关系类别出现的顺序,第一个关系类别的数据存放在1.txt中,第二个关系类别存放在2.txt中,直到19.txt。
  3. 测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类,即相同关系类型的数据放到一个文本文件中,同样生成19个类别的测试文件,格式仍旧和测试文件保持一致。存放在exp1_test文件夹下,每个类别的文件仍旧命名为1_test.txt,2_test.txt…
    同时对每个样本在原测试集中出现的位置进行记录,和19个测试文件一一对应起来。比如第一类“传闻不和”的每个样本在原文中处于第几行,在索引文件中进行记录,保存在文件index1.txt,index2.txt….

解题思路:

  1. 第一题是考察我们文件操作与列表的知识,主要考察的难点是对new文件的读取,根据要求处理后在生成一个txt文件,让我们看一下具体的代码实现:
import os
# 创建一个列表用来存储新的内容
list = []
with open("task1.trainSentence.new", "r",encoding='xxx') as file_input: # 打开.new文件,xxx根据自己的编码格式填写with open("exp1_1.txt", "w", encoding='xxx') as file_output:        # 打开exp1_1.txt,xxx根据自己的编码格式填写文件如果没有就创建一个for Line in file_input:                                         # 遍历每一行的文件arr = Line.split('\t')                                      # 以\t为分隔符读取if arr[0] not in list:                                      # if the word is not in the listlist.append(arr[0])                                     # add the word to the listfile_output.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\n")  # write the line to the file
file_input.close()                                                      #关闭.new文件
file_output.close()                                                     #关闭创建的txt文件
  1. 第二题依旧考察了文件操作,在题目一生成的文件基础上,按照同一类型的事件对事件进行分类,是否能高效的分组需要利用循环条件来解决,我们来看看具体的代码实现
import os
file_1 = open("exp1_1.txt", encoding='xxx')             # 打开文件,xxx根据自己的编码格式填写
os.mkdir("exp1_train")                                  # 创建目录
os.chdir("exp1_train")                                  # 修改进程的工作目录(使用该目录)
a = file.readline()                                     # 按行读取exp1_1.txt文件
arr = a.split("\t")                                     # 按\t间隔符作为分割
b = 1                                                   #设置分组文件的序列
file_2 = open("{}.txt".format(b), "w", encoding="xxx")  # 打开文件,xxx根据自己的编码格式填写
for line in file_1:                                     # 按行读取文件arr_1 = line.split("\t")                            # 按\t间隔符作为分割if arr[0] != arr_1[0]:                              # 如果读取文件的第一列内容与存入新文件的第一列类型不同file_2.close()                                  # 关掉该文件b += 1                                          # 文件序列加一f_2 = open("{}.txt".format(b), "w", encoding="xxx") # 创建新文件,以另一种类型分类,xxx根据自己的编码格式填写arr = line.split("\t")                              # 按\t间隔符作为分割f_2.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"t"+arr[4]+"\t""\n") # 将相同类型的文件写入
f_1.close()                                             # 关闭题目一创建的exp1_1.txt文件
f_2.close()                                             # 关闭创建的最后一个类型的文件
  1. 将训练集的19个类别按照人物的关系进行进一步的分类,我们可以通过字典对数据进行遍历,查找关系,把关系相同的内容放到一个文件夹中,不同则新建一个。
import oswith open("exp1_1.txt", encoding='xxx') as file_in1: # 打开文件,xxx根据自己的编码格式填写i = 1                                            # 类型序列arr2 = {}                                        # 创建字典for line in file_in1:                            # 按行遍历arr3 = line[0:2]                             # 读取关系if arr3 not in arr2.keys():arr2[arr3] = i                           i += 1                                   # 类型+1file_in = open("task1.test.new")                 # 打开文件task1.test.newos.mkdir("exp1_test")                            # 创建目录os.chdir("exp1_test")                            # 修改进程的工作目录(使用该目录)for line in file_in:arr = line[0:2]with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:arr = line.split('\t')file_out.write(line)i = 1file_in.seek(0)os.mkdir("exp1_index")os.chdir("exp1_index")for line in file_in:arr = line[0:2]with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:arr = line.split('\t')line = line[0:-1]file_out.write(line + '\t' + "{}".format(i) + "\n")i += 1

题目二  用python处理数值型数据

实验目的:
  熟悉python的基本数据结构,以及文件的输入与输出。
实验数据:
  xxxx年xx天池大赛,也是中国高校第x届大数据挑战赛的数据。数据包括两个表,分别是用户行为表mars_tianchi_user_actions.csv和歌曲艺人表mars_tianchi_songs.csv。大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150831)的用户行为历史记录。选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。



实验内容:

  1. 对歌曲艺人数据mars_tianchi_songs进行处理,统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv,第一列为艺人的ID,第二列为该艺人的歌曲数目。最后一行输出艺人的个数。
  2. 将用户行为表和歌曲艺人表以歌曲song_id作为关联,合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致,第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。
  3. 按照艺人统计每个艺人每天所有歌曲的播放量,输出文件为exp2_3.csv,各个列名为艺人id,日期Ds,歌曲播放总量。注意:这里只统计歌曲的播放量,不包括下载和收藏的数量。

解题思路:(利用pandas库)
1.
(1)利用.drop_duplicates() 删除重复值
(2)利用.loc[:,‘artist_id’].value_counts() 求出歌手重复次数,即每个歌手的歌曲数目
(3)利用.loc[:,‘songs_id’].value_counts() 求出歌曲没有重复

import pandas as pd
data = pd.read_csv(r"C:\mars_tianchi_songs.csv")       # 读取数据
Newdata = data.drop_duplicates(subset=['artist_id'])   # 删除重复值
artist_sum = Newdata['artist_id'].count()
#artistChongFu_count = data.duplicated(subset=['artist_id']).count() artistChongFu_count = data.loc[:,'artist_id'].value_counts() 重复次数,即每个歌手的歌曲数目
songChongFu_count = data.loc[:,'songs_id'].value_counts()  # 没有重复(歌手)
artistChongFu_count.loc['artist_sum'] = artist_sum         # 没有重复(歌曲)artistChongFu_count.to_csv('exp2_1.csv')                   # 输出文件格式为exp2_1.csv
  1. 利用merge()合并两个表
import pandas as pd import osdata = pd.read_csv(r"C:\mars_tianchi_songs.csv")
data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv")
num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')
  1. 利用groupby()[].sum()进行重复性相加
import pandas as pd
data =pd.read_csv('exp2_2.csv')
DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()#重复项相加DataCHongfu.to_csv('exp2_3.csv')

码字不易,记得一键三连哦

用Python 处理文本数据相关推荐

  1. lda 可以处理中文_用python处理文本数据

    用python处理文本数据 Q:这篇文章主要讲什么? A:这篇文章主要讨论如何用python来做一些简单的文本处理--文本相似度比较. 谈起python的自然语言处理,肯定会让人想起NLTK.不过上面 ...

  2. python中数据用折线图表示_用python处理文本数据

    用python处理文本数据 Q:这篇文章主要讲什么? A:这篇文章主要讨论如何用python来做一些简单的文本处理--文本相似度比较. 谈起python的自然语言处理,肯定会让人想起NLTK.不过上面 ...

  3. python读取文本数据绘制曲线图

    目录 写在前面 代码 reference 写在前面 1.本文内容 python读取文本数据曲线图 2.转载请注明出处: https://blog.csdn.net/qq_41102371/articl ...

  4. 使用Python清洗文本数据

    点击关注我哦 一篇文章带你了解使用Python清洗文本数据 数据格式并不总是表格格式.随着我们进入大数据时代,数据具有相当多样化的格式,包括图像,文本,图形等. 由于格式非常多样,从一种数据到另一种数 ...

  5. 用python处理文本数据,并删除处理之后的数据(Python经典编程案例)

    用python处理文本数据,并删除处理之后的数据: # 根据条件把一个文本分成两个文本 # with open(r'list_object.txt', 'r') as file: # lines = ...

  6. python 定义一个负数_其实Python不难学(4):Python如何处理文本数据

    文本的处理是数据分析工作中很重要的业务领域.Python的字符串变量用于操纵文本型数据.以下命令就定义了一个字符串变量,用于存放一段文本资料. 在Python中,文本数据使用一对单引号或双引号来界定的 ...

  7. python处理文本数据

    处理文本数据,主要是通过Seris的str访问.遇到NaN时不做任何处理,保留结果为NaN,遇到数字全部处理为NaN. str是Seris的方法,DataFrame不能直接使用,但是通过索引选择Dat ...

  8. python清洗文本数据_02.数据预处理之清洗文本信息

    准备30万条新闻数据 编号 新闻类别 新闻数量(条) 1 财经 37098 2 教育 41963 3 科技 65534 4 时政 63086 5 体育 65534 6 娱乐 65534 yield生成 ...

  9. python处理sql数据_用 SQL 而不是 Python 处理文本数据

    很多朋友们以为 SQL 是用来处理结构化数据的:而文本是典型的非结构化数据(unstructured data).其实 SQL 可以处理文本,而且比 Python 更方便 . 这篇文章简要介绍如何用 ...

最新文章

  1. 【青少年编程(第27周)】报名考级的小朋友注意截止时间!
  2. Visual C++ 2012编译器更新(预览版)发布
  3. HDU2553 N皇后问题
  4. Indesign CS6怎么添加框线_InDesign小小知识库
  5. 如何用python写串口通信软件_如何用python写个串口通信的程序?
  6. Raft 一致性算法论文译文
  7. Linux用ICMP协议实现简单Ping网络监测功能
  8. 生信装虚拟机好还是云服务器,学习小组Day2笔记--潘潘
  9. 最保值电子产品绝对是它:后悔没多收几台
  10. php中sql语句有啥用,php中sql语句
  11. VS2010安装VC9 RunTime 失败的问题
  12. 知识图谱构建技术综述与实践
  13. [CyanogenMOD移植教程]第一章:环境的搭建
  14. Python Django Web开发之表单
  15. 小程序ibeacon三点定位
  16. 控制台基于Quartz.Net组件实现定时任务调度(一)
  17. hive sql报错:SQL 错误 [10004] [42000]: Error while compiling statement: FAILED: SemanticException [Error
  18. ecshop 服务器操作系统,ecshop 云服务器
  19. Kotlin Mvp 协程 Retrofit整合
  20. oracle 所有句型,[转载]7分写作必备句型 3

热门文章

  1. SpringCloud Alibaba 2021微服务实战十三 gateway 全局过滤器打印日志及如何忽略全局过滤器
  2. 公信宝CEO黄敏强:区块链让数据所有权回归大众
  3. 算法 64式 7、搜索算法整理_第4部分_46到60题
  4. 汽车巨头不愿被 “羞辱”,苹果造车重回代工模式
  5. java枯燥吗_Java程序员工作枯燥?换什么工作好?
  6. Android 8 WiFi断流,小米8wifi断流怎么解决
  7. Forbidden (#403)You are not allowed to access this page.
  8. 2020中国机器人公司排行榜TOP10揭晓
  9. 我遇到过最奇葩的初面!
  10. 有哪些手游的账号卖了值钱?