木森研心提示您:看后求收藏(吾看中文5kzw.net),接着再看更方便。
凌志打开自己的PPT,毫不怯场地讲道:
“今天给大家分享一下我最近阶段性的实验结果以及论文。”
……
“这是我的数据预处理过程,我大致分为了5个步骤,……”
“这是我对句子对匹配的实验结果,两个句子属于同一人所发布即为正样本,不是同一人即为负样本。……”
“你先等下,你分类所用的特征都有哪些?”
老王问道。
“哦哦,我一会儿会详细说,我现在仅仅是先把结果抛出来。……”
“这个正样本和负样本的叫法合不合理嘞?这个实验结果你们觉得怎么样?”
老王跟大家讨论了一阵,然后让凌志继续。
“我使用的特征是一个14个维度的向量,包括人工提取的特征和神经网络提取的特征。……”
凌志讲PPT沿用了老王以前对学生们的教导——多用图表,少用文字,凌志对此深以为然。
事实上PPT本来就是用来突出重点的,如果往上面堆砌太多文字的话,讲者容易对着PPT念,听者也会觉得乏味,不会自己思考。而用图片和少量文字突出重点,就比较容易让听众们接受。
正如接下来凌志分享的论文,用一张图说明了一句话中每个词之间的远近关系。
“比如现在有两句话,‘他对媒体发表言论’以及‘他出席了新闻发布会’。虽然这两句话意思很接近,但我们如何用程序来进行打分判断呢?”
“我们应当将第一句话中的‘他’所对应的词向量跟第二句话中的每个词进行对比,找出意义最接近的那个。后面以此类推,‘媒体’对应‘新闻发布会’,‘发表’对应‘出席’。就这样通过词向量之间相似度的计算,进而合并为两个句子之间的相似度。”
凌志展示出两个句子之间的相似度:0.912,大家很容易地理解了两个句子之间的相似度是如何计算出的,因为图上每个词之间的距离远近都非常清晰。