第三名:

https://www.kaggle.com/wowfattie/3rd-place

用到了词向量的拼写检查:

https://www.kaggle.com/cpmpml/spell-checker-using-word2vec


第四名:

https://www.kaggle.com/tks0123456789/pme-ema-6-x-8-pochs

还没仔细看


第13名:

https://www.kaggle.com/canming/ensemble-mean-iii-64-36

词向量的权重:

 np.mean((1.28*embedding_matrix_1, 0.72*embedding_matrix_3), axis=0)

不同的模型:

poolRNN(spatialdropout=0.2, gru_units=128, weight_decay=0.04):
 LSTM_GRU(spatialdropout=0.20, rnn_units=64, weight_decay=0.07)
BiLSTM_CNN(spatialdropout=0.2, rnn_units=128, filters=[100, 80, 30, 12], weight_decay=0.10)
singleRNN(spatialdropout=0.20, rnn_units=120, weight_decay=0.08)
跑三趟,保存每个模型生成的结果疑问:
1、整个kernel 的参数量是很大的,不知道如何调
2、用到了AttentionWeightedAverage(Layer):但是不是很清楚怎么控制权重的大小,衰减率怎么选择

第十五名:
https://www.kaggle.com/c/quora-insincere-questions-classification/discussion/80540

the first model is RCNN.
the second model is LSTM(128) + GRU(96) + maxpooling1D + dropout(0.1).
the third model is LSTM(128) + GRU(64) + Conv1D + maxpooling_concatenate.
the fourth model is LSTM(128) + GRU(64) + Conv1D + Attention.

we used the word vector concatenated by glove and fasttext.
we set maxfeatures = None and we set maxlen = 57.

主要集中模型融合上.

第十八名:
https://www.kaggle.com/kentaronakanishi/18th-place-solution
每个epoch逐渐增大batch_size

第20名:
https://www.kaggle.com/jihangz/lt-conc-g-f-lg-mean-g-p-light
loss_fn1 = torch.nn.BCEWithLogitsLoss()
loss_fn2 = f1_loss
 optimizer1 = torch.optim.Adam(model1.parameters(), lr=0.0035)scheduler1 = CosineLRWithRestarts(optimizer1, batch_size, len(x_train_fold), restart_period=4, t_mult=1, verbose=True)optimizer2 = torch.optim.Adam(model2.parameters(), lr=0.0035)scheduler2 = CosineLRWithRestarts(optimizer2, batch_size, len(x_train_fold), restart_period=4, t_mult=1, verbose=True)
两个模型用的两个损失函数, 使用mixed loss(BCE+F1 loss)优化网络

第22名:
使用词性标记来消除单词的歧义问题
https://www.kaggle.com/ryches/22nd-place-solution-6-models-pos-taggingThese choices actually seemed to make some sense given that we have a CNN model,our strongest LSTM/GRU models, use our strongest embedding 3 times and
use POS tagging as an augmentor/differentiator to our weaker embeddings.思路:So the embedding matrix with pos tags will different without pos tags.

第27名:
https://www.kaggle.com/dicksonchin93/kfold-tfidf-trial其中一个模型使用了tf-idf作为训练特征

第29名:
https://www.kaggle.com/luudactam/final-sub
 neg1, neg2 = train_test_split(negative, test_size = 0.5, random_state = C*100)df1, df2 = pd.concat([neg1,positive], ignore_index=True), pd.concat([neg2,positive], ignore_index=True)
对positive 的样本进行过采样,然后训练疑问:试过对0做过采样,为什么自己的不work

第79名:(我自己的)https://www.kaggle.com/c/quora-insincere-questions-classification/discussion/79414

这个discussion里面说到了quroa里面存在了很多关于性别和种族的误分类样本,本人去到数据集检查也发现了确实如此:

  • girls hate me , but they hate me even more when boys are around me , what do i do ?
    are muslims doing love jihad sex pervert ?
  • will sociopaths have sex with women who are unattractive ?
  • why do so many quora readers seem to be ignorant of web searching for answers ?
  • how can a man with an md and a phd be mean to his patients and assault them for being transgender ?
  • what percentage of the anti - trumpers here are russian bots ?
  • are women attracted to men 's anus ?
  • are [unk] stupid ?

这些设计性别和种族的句子,大都有主观因素存在,这也是标签存在噪声的一大根本原因。

'insincere' thredshold 可能会根绝这些分类改变。所以我觉得应该用一个特征去表示这个分类的句子【0,1】。

kaggle Quora Insincere Questions 总结相关推荐

  1. R使用LSTM模型构建深度学习文本分类模型(Quora Insincere Questions Classification)

    R使用LSTM模型构建深度学习文本分类模型(Quora Insincere Questions Classification) Long Short Term 网络-- 一般就叫做 LSTM --是一 ...

  2. 【第一次参加kaggle比赛记录-Quora Insincere Questions Classification】- Word Embedding

    In summary, word embeddings are a representation of the *semantics* of a word, efficiently encoding ...

  3. Quora Insincere Questions Classification 文本分类归纳

    文章目录 [1st place 解决方案](https://www.kaggle.com/c/quora-insincere-questions-classification/discussion/8 ...

  4. kaggle竞赛 | Quora Insincere Question | 文本情感分析

    目录 赛题背景 赛题评价指标 数据集分析 pytorch建模 之前发布了一遍实战类的情感分析的文章,包括微博爬虫,数据分析,相关模型. 可以参考: https://blog.csdn.net/liji ...

  5. kaggle: quora question pairs

    今天看了kaggle竞赛:quora question pairs的一个解决方案,受益匪浅,在此记录一下作者的解题思路. 一.quora question pairs简介 首先,介绍一下quora q ...

  6. Kaggle-Quora Insincere Questions Classification-Solution

    寒假期间参加了Kaggle的一个比赛-QIQC,作为第一个认真参加的Kaggle比赛,最后银牌,感谢啸宇哥的帮助. 比赛链接:https://www.kaggle.com/c/quora-insinc ...

  7. 数据科学/人工智能比赛解决方案汇总 2019.9

    内容来自 apachecn/awesome-data-comp-solution,由 ApacheCN 团队维护. 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 ApacheCN ...

  8. 2019数据科学/人工智能比赛作品解决方案合集

    目录 1. Structured Data/ Time Series 2019 CCF 乘用车细分市场销量预测 2019 CCF 离散制造过程中典型工件的质量符合率预测 2018 科大讯飞 AI 营销 ...

  9. NLP小白的Kaggle一轮游总结

    博主大三,一月中旬期末考试结束之后都放在这个比赛上面了--Quora Insincere Questions Classification. 大半个月过来,做了很多尝试,线下成绩提高了不少,线上LB的 ...

最新文章

  1. 2天训练出15亿参数大模型,国产开源项目力克英伟达Megatron-LM,来自LAMB作者团队...
  2. Linux下多网卡MAC配置问题
  3. IOS-多线程(NSOperation)
  4. Android系统之Broadcom GPS 移植
  5. 四、极大似然参数估计
  6. mysql触发器不起作用 navicat的bug?
  7. sql能查到数据 dataset对象里面没有值_spark系列:RDD、DataSet、DataFrame的区别
  8. jupyter一直*_不用下载安装,你的机器人可以直接在浏览器里跳舞丨Jupyter-ROS
  9. SpringBoot实战总汇--详解
  10. 两种前端在线json编辑器方案(无法解决number精度丢失问题)
  11. Beyond Compare设置文本文件和Delphi源码默认的打开格式为ANSI
  12. php怎么上传文档,php
  13. 基于MATLAB的数字信号处理(2) 时域采样和频域采样
  14. 在境内服务器、虚拟主机上运行未备案域名方法,cf worker反向代理
  15. 计算机保研er历程分享(浙软、厦大、华师、东南网安、东北、西电、中南......)
  16. 随想录一期 day2 [977.有序数组的平方|209. 长度最小的子数组|59.螺旋矩阵II(剥洋葱)]
  17. # GIT团队实战博客
  18. 【宋词】之《菩萨蛮·书江西造口壁》
  19. 使用搜狗浏览器的教育网代理进行下载
  20. 堆外缓存OHCache使用总结

热门文章

  1. 在同一主机上建立用户管理的复制数据库 笔记
  2. linux下的证书安装
  3. N+One公司在摩洛哥部署第一个中立运营的IXP
  4. 名悦集团:什么是汽车强制报废?有什么标准?
  5. web实训知识点_0312
  6. PAT B1001-算法笔记顺序P85
  7. 关于 hystrix 的异常 fallback method wasn't found
  8. X61开机时提示Fan Error
  9. 鼠标指针变成一条竖着的虚线,WIN7,AMD显卡,应急处理方法
  10. 进入Linux系统后英文显示怎么改成中文