如何阅读一篇文章和如何做实验
一、如何阅读一篇文章,抓住论文的要害?
读完一篇论文必须了解哪些关键内容呢?
我觉得应该包括以下方面:
作者为什么要做这项工作?
要解决的是一个什么问题?
作者在解决问题时遇到了怎样的困难?
为了解决他的困难他提出了什么样的解决办法?
试验结果是否可能真的证明他的方法好,数据是否充分,有没有和别人的工作,别的方法进行对比?
你认为他的方法是否新颖,你从中学到了什么?
该方法有哪些不足,你是否立即有了新的改进方案?
如果有立即记录下来。带着上述问题,抓住要点,做好记录。
在阅读中不断地找出论文中的问题,选题上的,方法上的,实验上的,表述上的,并不断地通过积极独立的思考给出自己认为见解。只有这样,资料才能够为你所用,而不会成为你的包袱。有的同学读资料,越读越丧失信心,发现别人做得太好了,自己的想法都被别人做完了,资料全读完了,自己也准备换课题了,这是失败的读法。
二、怎样做实验
怎样用实验去验证一个想法是否正确呢?第一步是收集数据,第二步是根据你提出的算法编写程序,运行程序,获得实验结果,第三步是对实验结果进行分析,得出结论。
1、 收集数据
收集到的数据必须真实可信,数据就是“证据”,有的人专门搜集对自己有利的证据,比如你要做一个问答系统,需要收集一些问题,那么最好的做法是从某个实际运行的网站获得真实的用户提问,而不应该自己提一些问题。自己提问,因为研制者自己知道什么样的问题能够处理,什么样的问题处理不了,所以你以及你所在小组的同学们提的问题往往会容易一些,以至于不利于激活技术难点。
收集到的数据要有足够的规模,具有统计意义,有的学者用几十个句子做实验数据,在提倡大规模真实文本处理的今天,这样的玩具性实验是不被业界认可的。由于今天的NLP 和IR 学术界越来越重视大规模真实网络数据的使用,以及很多产品直接在互联网上提供服务,从互联网上来到互联网上去,从一开始实验环境就是真实的,就是大规模的。
如果你所从事的研究已经有现成的国际标准评测数据,那么就应该要用标准数据,以便和国际同行比较交流。如果你的研究领域比较新,没有标准数据,也没有关系,只要你自己采集的数据真实充分,同样可以说明问题。
2、 编写程序
用于研究的程序不一定太追求可靠性和速度,因为它的核心目标是验证算法的合理性。
3、 分析结果
如果你的实验结果达到了预期的效果,不能停留在实验验证上,要给出理论分析,为什么你的方法能够取得比别人更好的结果,说不出让人信服的道理来,仍会受到同行的质疑。实验结果再好,仍然达不到100%,做错了的都是哪些数据,具有什么样的特点,可以对这些数据进行细分类,分别找出解决办法,在以后的工作中继续改进。
4 创新:
前面讲过,创新应该是在世界范围内取得最佳结果,因此你的实验结果要在同等条件下和国际上的最好水平进行比较,方能证明你的成功。很多刚开始搞研究的人,往往犯一个致命的错误,就是儿童式的直线思维,例如:有人求我画一辆汽车;我找了一支铅笔和一张打印纸;我画了一辆奔驰(完)。你为什么要用铅笔,而不用毛笔,不用油画笔,为什么不用宣纸,不用油画布?别人用的是什么工具,有没有人用过油画笔和油画布?如果有,他们的作品是否比你的好?你为什么画了一辆奔驰,而不画宝马?你怎么知道别人喜欢奔驰,不喜欢宝马?比较和思辨是科学的翅膀,没有翅膀,就只能在地上爬行。我找到了一支铅笔,因此我就用铅笔画了;我熟悉铅笔的运用;我看到我的一个同学画了一幅铅笔画很好看,因此我也用了铅笔,等等,这些都不是理由,你必须在比较中思辨,在思辨中给出令人信服的理由。
最后还要问问自己,根据你的实验是否具有可重复性,也就是说是否任何一个学者在地球的任何一个角落只要按照你的实验方法重新做一遍,就能够得到相同的结果。真理应该是放之四海而皆准的,如果你的实验不能被重复,它的价值就会被打上一个大大的问号。