今年CCL改为线上开展,所有学生研讨、特邀报告全部对外开放。在此,有幸能够听到赵鑫老师,丁宁、王思远等众多优秀学长学姐的科研心得分享(原价2870元/人的研讨会,还是蛮值的)。

1. 如何写一篇"合格"的国际学术论文?(赵鑫教授)

还是一句话,introduction非常非常重要!




notation没有固定的规则,硬要说的话,满足:

  • 好看
  • 好记
  • 自成体系

即可

这里赵鑫老师推荐了一个template,有相应的公式可以简单仿照上面的写法:
DeepLearningBook
也可以自己找本机器学习的书籍,比方说西瓜书。

要记得,活用上下标,notation一定要符合人理解的直觉,并且尽量简单(不要用一些长span的缩写,e.g., src)


关于实验设计上(dataset,metric,etc.)推荐仿照一篇paper,不要想着去创新啥



赵鑫老师推荐的写作(改论文)的pipeline:

赵鑫老师也推荐我们在平时自己写作或者阅读论文的时候,把一些比较常用和native的phrase之类的摘抄下来(笔者也在做这件事情):
珍惜每一次论文修改,导师修改好论文之后不要放在那里就不管了,去看看为什么导师这么改,这样才能进步:

赵鑫老师最后推荐大家去看gpt2, 和gpt3的introduction。“写的非常好,需要强大的内力完成”。
笔者在这里贴上gpt2和gpt3的abstract截图,introduction可以自行查看原论文感受:

  • gpt2:

  • gpt3:

2. 如何想一个idea?(覃立波)

选一个有意义,可以长远做下去的领域,作为自己(maybe 整个博士阶段)的课题进行钻研。

逐层分析该领域现在的方法。以下图为例,从数据到模型,从编码到解码。看看有那个层面,目前做的研究还不够的。

e.g., 推进现在这个领域发展的,是数据集?还是模型?是不是现在模型性能都刷不上去了,但是数据集还是就那么几个?还是反过来?


覃立波学长强调留心自己的平时生活,多和别人交流探讨,有时候idea就是从平时聊天的某句漫不经心的话迸发出来的。

同时也要多考虑应用场景,NLP这个学科本来就是很特殊,它和应用紧密地联系在一起。我们在做研究的同时,一定不要忘了我们为什么要做这个研究,我们这个研究最后用在哪里,真实应用的时候它会出现哪些问题?我能不能在做研究的时候就考虑进去?通过这样的观察,也能想到一些很不错的idea。

3. 如何进行rebuttle?(王思远)

首先要详尽地阅读每一个审稿人的评论,每一个审稿人的每一个问题也好、观点也罢,都要确保自己完全理解!在此基础上,选择回复与否(有些正面的评论就不用回复了,或者是那种比较中性的评价,并没有challenge咋们的),然后再确定优先级,优先级高的回复详尽一些,其余可以带过(节省字数)。

对于不同的reviewers可以分为下面三种类型,不同类型可以采用不同的回复策略:

在rebuttle的过程中,必须保持你的politeness!不管审稿人对你持正面还是负面态度,我们都要怀以敬意,毕竟人家也都是花了时间的 (据笔者自己的经验而言,rebuttle的时候你措词的诚恳、详尽程度,某种程度上也能够加分的~):

如果遇到有些不负责任的reviewer,可以尝试直接和AC解释 (这点俺之前是真没想到):

要注意reviewer话里面的潜台词:

在rebuttle里面不仅可以引用其他相关的publications,甚至还可以引用其他审稿人的评论。
(想起来之前做的一篇incremental的工作,其实从整个框架上看确实非常简单,没啥novelty,但有一个审稿人觉得我们的工作非常novel。现在想想,当时在回应其他两个审稿人的时候,就应该引用一下那个觉得我们novel的审稿人的话 [狗头]):

王思远学姐在此处强调,rebuttle这个过程不仅仅是为了能够让自己眼前的这篇文章能够被收录,更重要的是,在这个过程我们可以看到peer对于我们这片工作的看法,这其实也是一个反馈和迭代优化自身工作的过程 (从这个角度来讲,被拒稿也不可怕,拒稿的次数越多,得到的意见也越多,这篇工作自然也会有更多的提升空间,当然这句话只是用来调整心态的…):

4. 如何进行实验设计?(丁宁)

丁宁学长分享的内容让笔者印象深刻。学长并没有将很多有关于实验设计的trick之类的东西 (笔者以前在听一些其他学者的相似分享的时候,总是会听到一些这方面的技巧),而是在整个分享过程中,不停强调,我们做实验的目的是为了验证我们工作的motivation和contribution,一切以验证我们自己的工作,让我们的工作能够被后人放心地使用为核心目标。包括,我们实验的时候是否应该讨论方法的limitation,工作完成之后代码应该怎么release,readme应该怎么写才算详细?(将真心,很佩服这样的研究者,这才是一个真正研究人员的心态和动机)

下面这幅图笔者非常喜欢,算是丁宁学长总结的一个NLP领域搞研究的比较通用的pipeline (引起笔者的共鸣,尤其是idea exists…真的很常见但是没办法啊你)。

正常来说,想到一个idea之后的验证工作非常重要。所谓的验证,并不是你把代码敲好,跑了一通发现效果好,就直接大规模实验;效果差,就丢掉换一个想法。而是要知道,我的idea好,它好在哪里?需不需要和你的colleague讨论一下?这个直接关系到后面的实验设计和paper里面的motivation,以及idea的novel程度能否过的了peer的审美;效果差?它为什么差?这个非常重要,想清楚这个问题很有可能帮助你refine你的idea,从根源上就避免了你未来做很多无用的试验。

还是一句话,做实验是为了验证你的motivation和contribution,从而带给后人以启发,所以要确保你的方法有高可复现性。比方说上图,你不仅要列出你所有超参数,你最好还需要把你怎么选这些超参数,你的范围,你的策略都能够详尽地列出来,供后人参考(可以在appendix里面描述,包括你复现的baseline)


预实验很有必要(有些研究者非常喜欢做这种),这种实验的一些发现很有利于后续一些工作把这个领域做大做强。比方说下图是最近何凯明发布的MAE中的实验,把自己方法的所有变量(甚至是data处理)都一一做了消融和对照,这样的工作,试问哪个读者会不放心论文的真实性?


有条件的情况下,尽可能把实验做到穷尽,想到什么都去验证,搞清楚自己到底在做啥?,这个领域到底需要啥?我们到底需要做啥才能推动这个领域发展?

同样的,不要刻意隐瞒自己的工作中存在的limitation,虽然这可能会影响到reviewer…从功利的角度来讲,可能会对自己有弊。当然,如丁宁学长所述,如果他是reviewer,看到有paper里面坦诚地讲述自己的limitation,并给出一些启示,反而会加分。(根据笔者自己的经验来看,如果是小白写文章的话,尽量还是坦诚一点吧,你文字上的一些trick是骗不了一些顶会的reviewers的,人家看你的缺陷看得一清二楚,搞不好遇上一些懂哥,发现你的trick之后反而印象上大打折扣;如果是学术老手,那另当别论吧…)

看到这段的时候真的产生了很强的共鸣,试问现在这个圈子里搞研究的那些,一大把都是发了文章,github一堆乱糟糟的代码一扔,管你后面几个issue,看都不回来看一下。丁宁学长所述很中肯,readme和注释,包括一些关键算法的对应代码,都理应公开出来,而不是要等到人家跑不通了来邮件联系你。
用笔者自己的话来说,我们的代码是写给人看的,只不过用机器跑了一下;我们的工作是要给别人用的,只不过在会议上曝光了一下。千万不要忘记自己到底在做什么

5. 如何摆脱研究阶段的低谷?(李北)

李北学长的分享也很贴切,还很幽默。

首先,不要去对比其他人。这点笔者也深有体会,你越是和别人比,越是加剧内卷…每个人基础和条件都不一样,你比的不应该是现在谁强,你应该比的是以后谁更强;你不应该计较现在他比你多多少,你应该在乎的是你未来能提升进步多少

不要忘了,读博是一场修行,是在锻炼你的心智。想不开的时候,记得切换注意力,要知道生活可不止眼前一展不前的科研,还有刺激的lol和pubg???


摆烂点,就一句话:反正已经在谷底了,怎么走都是向上的 [狗头]

pannel

pannel环节,几位学长学姐都针对很多参会人员提出的热门问题进行经验分享。

1. 本科直博 vs. 先硕再博

这个问题老生常谈,几位前辈提供了如下见解,笔者简略总结:

  • 首先,你需要对未来非常清楚,对博士的课程和生活非常了解,对自己老板和实验室非常熟悉了,你才能有条件和自信去做出这个决定。
  • 清楚你自己的vision,如果你是想要走学术(想要教书育人),享受科研的过程并把它当做自己未来的vocation,直博无疑是快速便捷的一条路。
  • 清楚自己的能力,你是否是一个有耐心、肯钻研的人?否则,读博可能会变成赌博

补充一下笔者自己的看法:根据笔者向自己的一些学长学姐请教得到的信息,硕士阶段你能够想清楚很多事情(不仅限于读博,还有你的人生,你的价值观都会发生一定变化),很多学生(尤其是中国学生)都是因为惯性选择深造,很多这些人后来读硕之后都想明白去工作了。另外,其实哪怕就是读了硕,你的能力也依旧在提升。不要忘了我们读PhD的初衷之一是为了修行自身

2. NLP领域的学术和工业之间的区别和联系?

  • NLP这个任务是顶天立地的,你要知道你做的东西不仅是前沿,迟早也还是要落地的

  • 学术界教书育人,培养顶尖人才。这些人才或许还会回到学术圈培养更厉害的人才;或许会进入工业界造福产业,同样也回馈学术界。总之,NLP的学术和工业两个圈子之间的流动是一个正向循环。

  • 不管身在何处,千万不要以数量为王。能独立一作就尽量focus,有时候甚至是共一都会有点影响。一大堆三作、四作只能说明你很active,你或许擅长social。真正厉害的人都是独立一作,哪怕只有四五篇(赵鑫老师所述)。

3.如何应对科研困境,论文难产?

  • 多和他人交流,出去聚餐、散步。何以解忧,唯有干饭。

  • 你可以一直锲而不舍地钻研,但必须要定期限。如果规定期限不能解决,那么其实是可以考虑转向的。

  • 可以尝试一次handle两个相近的topic,一个不停受挫的时候,切换注意力去看看另一个,你的机会也越大。

  • 生活可以不只是科研,你还有朋友(可以是男女朋友),你还有家人,还有你的老板~

  • 失败受挫是常事,身为PhD应该欣然接受这个失败的状态(要知道这也是一种修行),但是千万不要陷进去出不来

CCL 2021 学生研讨会参会记录 (关键slides以及精炼心得)相关推荐

  1. 干货 | 清华大学刘知远 CCL 2018学生研讨会报告(附完整PPT下载)

    来源:TsinghuaNLP 本文多图,建议阅读10分钟. 本文为你分享刘知远博士 CCL 2018学生研讨会报告内容,干货满满. 报告题目:文献综述与研究选题  报  告  人:刘知远 报告人简介: ...

  2. 会议报名丨CSSNLP 2021第二届中国自然语言处理学生研讨会开放注册

    注册官网:https://event.baai.ac.cn/activities/196 第二届中国自然语言处理学生研讨会(The China Student Symposium on Natural ...

  3. 【会议邀请】第二十届中国计算语言学大会(CCL 2021)早鸟票倒计时8天!

    点击下面卡片,关注我呀,每天给你送来AI技术干货! 来自:中国中文信息学会 [会议邀请] 第二十届中国计算语言学大会(CCL 2021)早鸟票倒计时8天!NLP学术盛宴等你来!还有讲习班+前沿综述! ...

  4. 会议报名丨CSSNLP 2020 第一届中国自然语言处理学生研讨会开放注册

    注册官网:https://hub.baai.ac.cn/activity/details/121 中国自然语言处理学生研讨会(The China Student Symposium on Natura ...

  5. 会议报名丨CSSNLP 2022第三届中国自然语言处理学生研讨会开放注册

    ▲扫描图中二维码或点击阅读原文▲ 报名和了解CSSNLP 2022更多信息 会议介绍 About CSSNLP 第三届中国自然语言处理学生研讨会将于2022年12月17日(周六)08:50-17:30 ...

  6. 拥抱变革——RSNA2017参会记录

    拥抱变革--2017年RSNA参会记录 推荐搜索关注微信公众号:医影杂记 每年11月份的芝加哥有两件事情从不爽约.第一,来自密歇根湖的带着几分冷意却并不刺骨的寒风:第二,全球放射学界的顶级盛会北美放射 ...

  7. 2021年夏令营全记录·南开CS

    2021年夏令营全记录·南开CS 准备 面试 复盘面试 后续 7月后续 9月后续 夏令营面经系列: 南开CS 同济电信控制(内含CS内容) 厦大信院SE 华科计算机.中科院网络中心.中科院软件所.浙软 ...

  8. 设一组初始记录关键字序列为(25,50,15,35,80,85,20,40,36,70)进行一趟归并后的结果为

    设一组初始记录关键字序列为(25,50,15,35,80,85,20,40,36,70),其中含有5个长度为2的有序子表,则用归并排序的方法对该记录关键字序列进行一趟归并后的结果为(   ). 15, ...

  9. 2021年年度总结(记录一下自己大学期间吧)

    文章目录 2021年年度总结(记录一下自己吧) 以前的回顾 今年的记忆 来年的期盼 2021年年度总结(记录一下自己吧) 总结是事后对某一阶段的学习.工作或其完成情况加以回顾和分析的一种书面材料,写总 ...

最新文章

  1. java29:Map
  2. 并查集数据结构的几种实现
  3. 蓝色三角_梅山!长三角唯一近海蓝色海湾成网红打卡地
  4. a股历史30年的大盘价_[最新]回顾A股历史上的大井喷行情
  5. ios键盘横屏_iOS横竖屏旋转及其基本适配方法 转
  6. 访问服务器 request.getheader(origin)为null_服务器磁盘不足,1分钟快速搞定!
  7. [转]Hamcrest使用方法实例
  8. centos编译apache php mysql,在CentOS6.7中编译安装 apache php mysql
  9. 鼠标追踪没用_【擺评】赛睿里最好用的小手鼠标---Rival 3
  10. Hadoop入门扫盲:hadoop发行版介绍与选择
  11. 计算机安装微信打不开,电脑版微信打不开解决方法
  12. NRF52840 DFU APP使用noinit ram方法
  13. Java map转list
  14. 面试——路径、转发与重定向的区别
  15. hdu 4939 Stupid Tower Defense 2014多校七 DP
  16. hone hone clock创意前端时钟
  17. 青春散场,挚爱郭敬明(一草著)【连载二】
  18. session Storage
  19. python实现植物大战僵尸_Python开发植物大战僵尸游戏
  20. java实验报告系统分析怎么写_20155218 《Java程序设计》实验二(Java面向对象程序设计)实验报告...

热门文章

  1. webpage结合Vue Loader打包单文件组件
  2. 爬虫之urllib2库的自定义Opener
  3. pypy python_[python]pypy优化python性能
  4. 并购百草味只是开始,好想你或将再创一个“好想你”
  5. 网站被篡改的主要方式有几种?
  6. 管架标准图HG/T21629之恒力弹簧支吊架
  7. JAVA:实现二进制转十进制算法(附完整源码)
  8. Cyclone LC Universal 安装软件下载地址
  9. java 反射 transient_JAVA 对象序列化(三)——transient以及Externalizable的一种替代方法(使用Serializable)...
  10. 域控服务器账号密码,在AD域管理的服务器上