kaggle的算力如何
1. 如何利用kaggle进行学习 知乎
个人觉得Kaggle是训练data mining特别好的地方,而对于机器学习的提升并不是特别大。你可以去看已经结束的比赛的winner的解决方案,大部分都是ensemble learning
2. kaggle 101是哪个级别
最近正好组内做了一个文档相似度的分享。决定回答一发。
首先,如果不局限于NN的方法,可以用BOW+tf-idf+LSI/LDA的体系搞定,也就是俗称的01或one hot representation。
其次,如果楼主指定了必须用流行的NN,俗称word-embedding的方法,当然首推word2vec(虽然不算是DNN)。然后得到了word2vec的词向量后,可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然,加权之前一般应该先干掉stop word,词聚类处理一下。
还有,doc2vec中的paragraph vector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《Distributed Representations of Sentences and Documents》(ICML 2014)。
还有一种根据句法树加权的方式,是ICML2011提出的,见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》,后续也有多个改编的版本。
当然,得到词向量的方式不局限于word2vec,RNNLM和glove也能得到传说中高质量的词向量。
ICML2015的论文《From Word Embeddings To Document Distances, Kusner, Washington University》新提出一种计算doc相似度的方式,大致思路是将词之间的余弦距离作为ground distance,词频作为权重,在权重的约束条件下,求WMD的线性规划最优解。
最后,kaggle101中的一个word2vec题目的tutorial里作者如是说:他试了一下简单加权和各种加权,不管如何处理,效果还不如01,归其原因作者认为加权的方式丢失了最重要的句子结构信息(也可以说是词序信息),而doc2vec的方法则保存了这种信息。
在刚刚结束的ACL2015上,似乎很多人提到了glove的方法,其思想是挖掘词共现信息的内在含义,据说是基于全局统计的方法(LSI为代表)与基于局部预测的方法(word2vec为代表)的折衷,而且输出的词向量在词聚类任务上干掉了word2vec的结果,也可以看看。《GloVe: Global Vectors forWord Representation》
3. 参加kaggle 大赛,台式机计算力不足,怎么办
更换更高的配置就好。
计算力不足 这个不是软件能解决的
只能升级配置
或者 改用服务器。
4. 如何重复kaggle的solution
方法一:选择图层,按Ctrl+C复制,按Ctrl+V粘贴。如果想要重复多次复制,按Ctrl+D再制。
方法二:鼠标左键拖离开图层,然后点击右键完成复制。在拖离过程中按住Ctrl键不放,这样复制的图层会保持与原图层在同一水平上。如果想要重复多次复制,按Ctrl+D再制。
方法三:选择图层,按快捷键"+",即可完成复制。如果想要重复多次复制,就多次按"+"
即可。注意复制的图层跟原图层是重叠在一起的,复制完要把图层拖出来。
5. 如何提高泰坦尼克号kaggle分数
提高泰坦尼克号kaggle分数
如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了,或者考虑有值的是一类,没有值的是一类,
如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中
如果缺值的样本适中,而该属性为连续值特征属性,有时候我们会考虑给定一个step(比如这里的age,我们可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中。
有些情况下,缺失的值个数并不是特别多,那我们也可以试着根据已有的值,拟合一下数据,补充上。
6. 如何 系统 学习 入门 kaggle
个人觉得Kaggle是训练data mining特别好的地方,而对于机器学习的提升并不是特别大。你可以去看已经结束的比赛的winner的解决方案,大部分都是ensemble learning,很少有数学上极其优美的解法。
可以从以下几个方面入手:
1. Feature Engineering
- continue variable
- categorical variable
2. Classic machine learning algorithm
- LR, KNN, SVM, Random Forest, GBRT, FM, NN
3. Cross validation, model selection
- grid search, random search, hyper-opt
4. Ensemble learning
推荐这篇 Kaggle Ensembling Guide
5. 多看看之前比赛的winner解决方案
7. 如何解决个人电脑带不动kaggle竞赛数据的问题
带不动有几种情况视情况而定,这种数据 一般是内存问题,如果数据量很大 对硬盘读写也有要求,如果有条件可以购买大一点的内存条建议16G ,如果不行可以用筛选进行处理,般取最近几个月的数据就行了