ML_class

学堂在线《机器学习》实验课代码+报告(其中实验1和实验6有配套PPT),授课老师为张敏老师。课程链接:https://www.xuetangx.com/training/ML080910036802/1048372?channel=i.area.page_course_ad。

持续更新中。
所有代码为作者所写,并非最后的“标准答案”,只有课程设计被扣了1分,其余皆是满分。仓库链接:https://github.com/W-caner/ML_class。 此外,欢迎关注我的CSDN:https://blog.csdn.net/Can__er?type=blog。
部分数据集由于过大无法上传,我会在博客中给出下载链接。如果对代码有疑问,有更好的思路等,也非常欢迎在评论区与我交流~

EXP4 AAAI会议论文聚类分析

本次实验以AAAI 2014会议论文数据为基础,要求实现或调用无监督聚类算法,了解聚类方法。

任务介绍

每年国际上召开的大大小小学术会议不计其数,发表了非常多的论文。在计算机领域的一些大型学术会议上,一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类,有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章,由UCI公开提供,提供包括标题、作者、关键词、摘要在内的信息,希望大家能根据这些信息,合理地构造特征向量来表示这些论文,并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察,看每一类都是什么样的论文,是否有一些主题。

基本要求:

  1. 将文本转化为向量,实现或调用无监督聚类算法,对论文聚类,例如10类(可使用已有工具包例如sklearn);
  2. 观察每一类中的论文,调整算法使结果较为合理;
  3. 无监督聚类没有标签,效果较难评价,因此没有硬性指标,跑通即可,主要让大家了解和感受聚类算法,比较简单。

扩展要求:

  1. 对文本向量进行降维,并将聚类结果可视化成散点图。

注:group和topic也不能完全算是标签,因为

  1. 有些文章作者投稿时可能会选择某个group/topic但实际和另外group/topic也相关甚至更相关;
  2. 一篇文章可能有多个group和topic,作为标签会出现有的文章同属多个类别,这里暂不考虑这样的聚类;
  3. group和topic的取值很多,但聚类常常希望指定聚合成出例如5/10/20类;
  4. 感兴趣但同学可以思考利用group和topic信息来量化评价无监督聚类结果,不作要求。

提示:

  1. 高维向量的降维旨在去除一些高相关性的特征维度,保留最有用的信息,用更低维的向量表示高维数据,常用的方法有PCA和t-SNE等;
  2. 降维与聚类是两件不同的事情,聚类实际上在降维前的高维向量和降维后的低维向量上都可以进行,结果也可能截然不同;
  3. 高维向量做聚类,降维可视化后若有同一类的点不在一起,是正常的。在高维空间中它们可能是在一起的,降维后损失了一些信息。

【机器学习】实验4布置:AAAI会议论文聚类分析相关推荐

  1. AMiner会议论文推荐第三十五期

    AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...

  2. 线上直播丨国际人工智能会议AAAI 2021论文北京预讲会,33场报告+31个Poster等你来...

    注册官网:https://hub.baai.ac.cn/activity/details/119 国际人工智能会议AAAI 2021论文北京预讲会由中国中文信息学会青年工作委员会主办.智源社区承办,将 ...

  3. AMiner 会议论文推荐第十八期

    AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...

  4. 报名即将关闭丨AAAI 2020论文预讲会

    AAAI 2020 论文预讲会,来啦! 30多位论文作者,来自五湖四海,齐聚北大.预会议内容方向包括:翻译对话与生成.文本分析与内容挖掘.知识理解与NLP应用.自然语言中的机器学习等,此外还有两场特邀 ...

  5. 开启注册 | AAAI 2022论文北京预讲会,21场报告+24个Poster等你来

    注册官网:https://event.baai.ac.cn/activities/228 国际人工智能会议AAAI 2022论文北京预讲会由中国中文信息学会青年工作委员会主办.智源社区和北京航空航天大 ...

  6. 周志华:AAAI 2019论文提交创纪录,达到7745篇

    问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI 中午时分,周志华教授发了一条微博. 人工智能顶级会议AAAI 2019,目前的论文摘要提交达到7745篇,创下新纪录. 微博网友纷纷发出&q ...

  7. AAAI 2019 论文解读:卷积神经网络继续进步

    机器之心 卷积神经网络(CNN)近年来已经取得了很大的成功,但研究者仍在进一步推进研究前沿,提出新的思路和方法.在本文中,技术分析师 Joshua Chou 将解读三篇有关卷积神经网络的 AAAI 2 ...

  8. 计算机类高水平文章,作为本科生的我,如何成功发表高水平会议论文

    原标题:作为本科生的我,如何成功发表高水平会议论文 在大概一年前,UCSB计算机科学系的助理教授王威廉在微博上感慨了现在北美PhD申请者竞争力的水涨船高,直接指出在中国学生中第一作者顶会都是基本配置. ...

  9. 2018 年度 ML、NLP 会议论文大盘点:周明、张潼、孙茂松数据亮眼

    2018 年度 ML.NLP 会议论文大盘点:周明.张潼.孙茂松数据亮眼 统计数据覆盖 ACL.EMNLP.COLING.TACL.NeurIPS.ICML.ICLR. AAAI 等 12 个会议/期 ...

最新文章

  1. 美链BEC合约漏洞技术分析 1
  2. 软件工程方法学要素含义_日期时间数据的要素工程
  3. SmartBusinessDevFramework架构设计-2:结构图示
  4. 统计源期刊目录_护理核心期刊投稿最强攻略:期刊目录、投稿周期、发文倾向全在这里了!...
  5. B站后台源码疑似泄露,作为程序员我们得注意哪些?
  6. 这10道经典软件测试题,不会的话真会丢了工作!
  7. 2021-02-20
  8. 【数据分析】2种常见的反爬虫策略,信息验证和动态反爬虫
  9. unity 移动物体到指定位置的四种方法
  10. 方正税控计算机配置,方正计算机U盘启动优先级的BIOS设置说明_IT /计算机_信息...
  11. speedoffice(PPT)插入的表格怎么拆分单元格
  12. python——平方根
  13. 16 | 把大象装进冰箱:HTTP传输大文件的方法
  14. 关于 SVN状态图标不显示的问题(只显示绿色钩匹配) 的解决方法
  15. AV1官方的AOM code下载地址
  16. 联想-thinkbook-有线网卡故障和有线网卡故障-修改方法
  17. Cleanmymac x最新版Mac个人电脑垃圾清理软件工具
  18. 快被垃圾分类逼疯的上海人民,有望被区块链解救吗?
  19. C#请写出代码判断一个整数是不是2的幂次方
  20. 零基础入门进化算法(GEP)

热门文章

  1. .net core平台socket调用失败 This protocol version is not supported.
  2. 计量感知芯片HLW8112在泛电力物联网的核心应用
  3. 动态舞蹈舞动词云图跳跃舞蹈词云视频合成制作 自定义视频素材 自定义词组词频
  4. 阿里云异构计算平台——加速AI深度学习创新
  5. python日志类logging的使用
  6. 英文站如何快速获取大流量
  7. Win8 Metro(C#)数字图像处理--2.70修正后的阿尔法滤波器
  8. css实现多个loading动画效果
  9. 如何在自定义的数据集上训练YOLOv5
  10. Error Missing optional dependency ‘xlrd‘. Install xlrd = 1.0.0 for Excel support Use pipinstall xlr