手机浏览器扫描二维码访问
巧妇难为无米之炊,数据就是机器学习的“米”。
- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。
- 数据预处理:这步特别关键,就像淘米要去沙。包括:
- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2. 特征工程:给数据“化妆”,让模型看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3. 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4. 模型评估:给机器“考试”打分
训练好的模型得测试一下准不准。常用的指标有:
- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。
《锦庭娇-青铜穗》锦庭娇-青铜穗目录全文阅读,主角是贺兰谆说道小说章节完整质量高,包含结局、番外。------------正文------------楔子拂晓的天光照在京师,相国寺后的窄巷一片灰蒙。隆冬,路上还没有人,只有几只寒鸦立在枯树上,对着弥漫着血腥味的地面不停叫唤。张盈捂着胸口,鲜血像泉水从白皙指间潺潺流出来,她的胸腹各中了两刀,如今无边的痛楚正肆意包裹着她,四肢也在无法自抑地抽搐着。她知道...
林媗偶然得到一个占卜系统,占卜准确率百分百,可趋吉避凶,救人于危难。如此神器,却有一致命弱点,占卜明码标价,一次十块。 发家致富走上人生巅峰的妄想才开个头就被掐断了。 林媗矜矜业业的干活,偶尔靠占卜赚杯奶茶钱,间或从系统商城抽些奇奇怪怪、但没什么用的道具。 【贞子的长发:迷路时可从电视机内爬出,因贞子喜欢帅哥,SO爬出有几率遇见帅哥。】 【夫子的戒尺:持有时可向对方提问,回答错误,可打对方手心十下。】 【老头贴纸:贴上,你就是葫芦娃的爷爷。】 …… “什么乱七八糟的,没一个能用的!” 某日,林媗迷路,走投无路之下,只得戴上贞子的长发,爬出了电视机。 陈初低眉看着半截身子还卡在自家电视机里的女人:“能解释一下吗?” 林媗:贞子果然喜欢帅哥。 强而不自知女主VS大佬男主。...
附:【本作品来自互联网,本人不做任何负责】内容版权归作者所有!福临门之农家医女作者:闲听冷雨潇湘VIP2015-04-29完结有893089人读过此书,已有4537人收藏了此书。已更新2140621字,作品已完成内容介绍:绝育女医生重生成为秀才的懒馋孕妻。娘亲早逝,爹是商人,哥是捕快,把她宠得没个边。公公厚道,继母刁难,大哥憨厚木讷,大伯母尖酸刻薄,小叔...
汉元帝年间,护送昭君出塞的队伍行至某处古城遗迹时,护卫竖爷与他的外甥三恒遭遇异变,来到了几千里之外的西域。更加悲剧的是,他们发现整个西域大地被无形结界封锁,归乡之路断绝。为了返乡,舅甥二人踏上了追寻之旅,从蒲类的月牙山谷到乌秅的莽莽群山,最终在神秘道人的指引下,踏入了神奇的山海界。在山海界,他们与一群志同道合者,历......
明末的王朴情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的历史军事小说,明末的王朴-云上朱雀1-小说旗免费提供明末的王朴最新清爽干净的文字章节在线阅读和TXT下载。...
玉皇大帝传情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,玉皇大帝传-墨剑飘香-小说旗免费提供玉皇大帝传最新清爽干净的文字章节在线阅读和TXT下载。...