提高机器学习算力

发布时间: 2021-10-11 08:02:15

1. 机器学习模型的泛化能力不足，有什么改进思路

首先你要知道为什么自己模型的泛化能力不足，一般来说有两个方面吧：

1：在训练集上效果不错，然后在测试集上发现效果不好，这种很大的情况是过拟合问题，也就是说你的模型过多的去拟合训练集去了，利用一些正则化思想可以比较好的解决这些问题。
2：在训练集上效果不行，在测试集上效果更差。这时候你要考虑的是你选择的机器学习算法到底有没有用，你选取的特征到底有没有用，换个算法，换个特征，也许才能提高。

2. 为何说人工智能的发展得益于计算能力的高速增长

据报道，2017英特尔中国行业峰会昨日在苏州举行，会上，国际知名AI专家及技术创新企业家杰瑞·卡普兰博士发表了演讲，阐述了人工智能的发展，以及人工智能如何引领产业变革。

机器学习的兴起，与当下的计算机的计算能力高速增长是分不开的，在过去的30年里，计算机的速度翻了100万倍。如果将30年前的计算机速度比做蜗牛，那么现在就像是“火箭”的速度。

当计算机的速度越来越快，数据量大了之后，机器学习就成为了更好的匹配，尤其是我们即将进入到5G时代，这更加推动了演绎与推理、感知与真实世界互动，未来我们可以造出全新灵活的机器人，有很强的感知能力。

希望人工智能技术可以取得更大的发展！

3. 机器学习，深度学习等人工智能技术在工业界的应用状况是怎样的

你可以这样理解，人工智能是一个婴儿的大脑，而深度学习就是让这个婴儿的大脑又能力看世界、听世界、感受世界。直观的说，深度学习只是服务于人工智能一个工具（也许若干年后，一种全新的工具可以代替深度学习实现人工智能），把这个工具用在语音识别领域，就能让机器更会听；把他用在了计算机视觉领域，就能让机器更会看。

深度学习的本质就是各种神经网络，从最早最简单的感知机，再到多层神经网络，再到现在很火的CNN、RNN，其目的都是构建一个合适的神经网络结构，让机器有能力“自己思考”——我们也称之为“智能”。
关于机器学习，它是比深度学习更为广泛的概念，发展的也比较早。在人工智能届有一种说法：认为机器学习是人工智能领域中最能够体现智能的一个分支。从历史上看，机器学习似乎也是人工智能中发展最快的分支之一。机器学习发展早期，限于计算机计算能力、样本量等因素，很多算法无法实现。而近些年来，计算机的计算能力和存储能力都有了很大的提高，数据发掘引领了大数据时代的到来，使得原来复杂度很高的算法能够实现，得到的结果也更为精细。理论上，只要计算机计算能力足够强、样本数据量足够大，就可以不断增加神经网络的层数以及改变神经网络的结构，这就是“深度学习”，在理论和技术上，并没有太多的创新。只是深度学习代表了机器学习的新方向，同时也推动了机器学习的发展。

4. 如何提高机器学习结果

有一个或两个算法在问题上执行得相当好是一个好的开始，但有时候可能会激励您获得最佳结果，您可以获得可用的时间和资源。
在这篇文章中，您将回顾可用于挤出额外性能的方法，并改进从机器学习算法中获得的结果。
在调整算法时，您必须对测试工具提供的结果具有较高的置信度。这意味着您应该使用减少用于评估算法运行的性能度量的方差的技术。我建议交叉验证的折叠数量相当高（确切数量取决于您的数据集）。
你将在这篇文章中学到的三种策略是：
算法调优
合奏
极限特征工程
算法调优
开始的地方是从你已经知道的算法中获得更好的结果，在你的问题上表现良好。您可以通过探索和微调这些算法的配置来做到这一点。
机器学习算法是参数化的，修改这些参数会影响学习过程的结果。将每个算法参数视为图上的一个维度，并将给定参数的值作为轴上的一个点。三个参数将是该算法的可能配置的立方体，并且n参数将是该算法的可能配置的n维超立方体。
算法调优的目标是为您的问题找到该超立方体中的最佳点或多个点。您将针对您的测试工具进行优化，因此您再也不能低估花时间构建可信测试工具的重要性。
您可以通过使用自动方法来处理此搜索问题，这些方法会在可能性空间中强加一个网格，并在可能的优化算法配置中进行采样。然后，您可以在优化算法中使用这些点来放大最佳性能。
您可以使用许多性能良好的方法重复此过程，并探索每个方法可以实现的最佳效果。我强烈建议这个过程是自动化的，并且是合理的粗粒度，因为您可以快速达到可能无法转化为生产系统的收益递减点（分数百分比性能提升）。
算法参数越调整，算法对训练数据和测试工具的偏见就越大。这种策略可能是有效的，但它也可能导致更脆弱的模型过度使用测试工具，并且在实践中表现不佳。
合奏
集合方法关注于结合多种方法的结果以获得改进的结果。当您有多个专门针对问题的不同部分的“足够好”模型时，集成方法可以很好地工作。
这可以通过许多方式来实现。您可以探索的三种整体策略是：
Bagging：更加正式地称为Bootstrapped Aggregation，即通过训练不同的训练数据子集，相同的算法对问题有不同的观点。
提升：不同的算法在相同的训练数据上训练。
混合：更为正式地称为堆积聚合或堆叠，其中多种模型的预测被作为输入到新模型中，以学习如何将预测结合到总体预测中。
在用完更传统的方法后，进入整体方法是一个好主意。这有两个很好的理由，它们通常比传统方法更复杂，传统方法为您提供了一个良好的基础级别，您可以从中改进和创建您的合奏。

5. 机器学习能否提高数据中心效率

机器学习这个肯定不会提高中心效率，因为这样的话还是需要去看自己的自制能力的。

6. 如何提高机器学习中的分类准确率

造成效果不好的原因可以有：语料质量不好特征词选取不好特征维度不够特征权重不够好选择的算法学习能力弱模型欠拟合以上都不是，看看数据格式是不是有问题，排除不是低级错误导致的效果差等等

7. 机器学习难吗

1、机器学习是一种实现人工智能的方法，深度学习是一种实现机器学习的技术。 2、深度学习本来并不是一种独立的学习方法，其本身也会用到有监督和无监督的学习方法来训练深度神经网络。但由于近几年该领域发展迅猛，一些特有的学习手段相继被提出（如残差网络），因此越来越多的人将其单独看作一种学习的方法。 3、机器学习最基本的做法，是使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。拓展资料： 1、机器学习直接来源于早期的人工智能领域，传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。从学习方法上来分，机器学习算法可以分为监督学习（如分类问题）、无监督学习（如聚类问题）、半监督学习、集成学习、深度学习和强化学习。传统的机器学习算法在指纹识别、基于Haar的人脸检测、基于HoG特征的物体检测等领域的应用基本达到了商业化的要求或者特定场景的商业化水平，但每前进一步都异常艰难，直到深度学习算法的出现。 2、最初的深度学习是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并不是一个全新的概念，可大致理解为包含多个隐含层的神经网络结构。为了提高深层神经网络的训练效果，人们对神经元的连接方法和激活函数等方面做出相应的调整。其实有不少想法早年间也曾有过，但由于当时训练数据量不足、计算能力落后，因此最终的效果不尽如人意。深度学习摧枯拉朽般地实现了各种任务，使得似乎所有的机器辅助功能都变为可能。无人驾驶汽车，预防性医疗保健，甚至是更好的电影推荐，都近在眼前，或者即将实现

8. 机器学习难吗

好吧，我标题党了，sklearn的简单也是相对于机器学习原理本身，要学好也不容易！
人工智能、机器学习，一听就是高大上的东西，想学会肯定很难。这是当然的，要理解机器学习中的各种算法模型，还是需要较强的数学功底的，这无形中提高了机器学习的门槛。但是只是要用它，却并不困难，scikit-learn的出现给程序员带来了福音，极大的降低了机器学习使用的门槛，即使你不求甚解，也能纯熟的使用各种机器学习的算法来完成自己的目

9. 如何提高机器学习算法的召回率

最近在做文本分类，遇到了一些问题，想问问大家有没有好的方法。为了节省时间，我只采取了部分数据来跑算法（全部数据跑了之后的结果和这个差不多）
训练集：4837 documents
测试集：2074 documents
样本比例：正样本：负样本 = 1：3
预测结果中，有的算法在正样本中预测的精确率还行（0.95-1.00之间），但是召回率非常差，通常只有0.01和0.02左右，KNeighbors和DecisionTree的精确率和召回率都是0，只有NaiveBayes和BernoulliNB的PR和Recall比较平均，但是也没有到0.8。
问题：我查了一下那些召回率较低（0.01）的算法，475个样本中（正样本），实际上只有5个被预测正确了的，但是具体原因没有查出来。
我想请问一下：1.召回率低是因为样本极度不平衡造成的吗？（虽然我认为1：3的比例不算极度不平衡。）2.在这种样本不平衡的问题上，有没有什么好的方法可以提高召回率？我试过SMOTE方法（过采样和欠采样都有试过），但对于我的数据集并没有什么好的效果，不止到有没有有什么好的方法可以解决这个问题？谢谢！
添加评论
分享

查看全部 11 个回答

0赞同反对，不会显示你的姓名
Elvin 全是细枝末节，做一个乐于分享的人
两个问题一并回答一下，根据你的描述，我觉得问题应该不是出在正负样本比上，1比3这个比例不但不是非常不均衡，相反在我看来已经是非常均衡了。以前做比赛有处理过正负比1比10000的数据，我觉得这才叫不平衡，才需要使用类似上采样，下采样，以及SMOTE算法（都用过），而且这样的情况下recall，F1等指标的提升是显著的。我觉得正负比例在1：1至1：100间差别都不会太大，需要根据具体问题做离线交叉验证去找到最好的比例。

所以我建议你不用再纠结正负样本比的问题，可以再回头看一看你的数据集，一方面看一看代码是否有误？数据集是否太小？（总觉得你的数据集太小，而且测试集相对于训练集太大）另外训练集，测试集的划分是否正确？或者重新划分一下训练测试集做一下交叉验证看一看各项指标再具体研究。

阅读全文

热点内容

收到假eth币发布：2025-10-20 08:58:16 浏览：973

暗黑破坏神2eth打孔发布：2025-10-20 08:42:58 浏览：105

BTC和CBT是一样的吗发布：2025-10-20 08:42:57 浏览：233

华硕trx40Pro供电发布：2025-10-20 08:33:26 浏览：432

晒人民币编号的朋友圈发布：2025-10-20 08:25:32 浏览：687

doge格式发布：2025-10-20 08:02:00 浏览：382

以太坊会爆发吗发布：2025-10-20 08:01:59 浏览：772

一台比特币矿机的功率发布：2025-10-20 07:39:24 浏览：925

trx辅助带发布：2025-10-20 07:35:29 浏览：48

比特币哈希值有多少位发布：2025-10-20 07:31:20 浏览：633

提高机器学习算力

与提高机器学习算力相关的资讯