nlp预处理常用函数
删除html标签 from bs4 import BeautifulSoup a = BeautifulSoup() a.get_text() 删除数字与标点符号 import re letter_only = re.sub("[^a-zA-Z]", " ", example.get_text() ) 转化大…
|
8
|
|
52 字
|
1 分钟内
西瓜皮
模型评估与选择 评估方法 留出法 就是目前用的划分数据集的办法,注意是互斥的数据集 交叉验证 分为k个子集,用k-1作为训练集,剩下的作为测试集 性能度量 回归最常用的是均方误差 定义混淆矩阵: 正例 反例 TP(预测为真,实际为真) FN(预测为假,实际为真) FP(预测为真,实际为假) TN(预测为假,实际为假) 查准率(Precision)=…
|
119
|
|
6716 字
|
26 分钟
天池-工业蒸汽量排放预测4
天池-工业蒸汽量排放预测4 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征优化 合成特征 从一个或多个输入特征衍生而来的特征,包括以下类型 将一个特征与其本身或其他特征相乘(特征组合) 两个特征相除 对连续特征分箱处理,分为多个区间分箱 特征的简单变换 单调变换(取对数)都不适用于决策树。…
|
83
|
|
241 字
|
1 分钟内
天池-工业蒸汽量排放预测3
天池-工业蒸汽量排放预测3 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 模型评估 欠拟合与过拟合 模型的泛化与正则化 泛化:处理新样本的能力 正则化:添加一些规则以防止过拟合 交叉验证 1. 简单交叉验证 2. k折交叉验证,k值通常需要大于等于3 from sklearn.model_se…
|
77
|
|
233 字
|
1 分钟内
天池-工业蒸汽量排放预测2
天池-工业蒸汽量排放预测2 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 特征工程 ——“数据和特征决定了机器学习的上限,而模型与算法只是逼近这个上限” 数据预处理 没啥好说的,但是有一个正负样本不平衡的问题: 正样本>负样本,且量大的情况下,采用下采样 正样本<负样本,且量不…
|
93
|
|
644 字
|
3 分钟
天池-工业蒸汽量排放预测1
天池-工业蒸汽量排放预测1 链接:工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池的赛题与数据 (aliyun.com) 数据探索 变量识别 通过变量类型,数据类型等方面分析,常见的有:字符型变量,数值型变量,连续性变量,类别性变量 变量分析 单变量分析 连续性变量需要统计数据的中心分布趋势与变量分布 类别性变量使用频次或者占比表示每一个类…
|
118
|
|
1000 字
|
6 分钟
机器学习_4:模型实用技巧
机器学习_4:模型实用技巧 只套用模型会造成以下问题: 不能保证数据特征都是好的 学习得到的参数不一定是最优的 默认配置下的模型不是最佳的 因此,本节给出三种提升模型性能的方法 特征提升 特征抽取 将类似于声纹,图像,符号化等文本量化为特征向量。可以用DictVectorizer对特征进行抽取与向量化 # 自定义字典 measurements=[{…
|
84
|
|
777 字
|
7 分钟
机器学习_3:无监督学习经典模型
机器学习_3:无监督学习经典模型 可以算作是一种特征工程的办法了。他最重要的是发现数据本身的特点。功能如下: 发现数据的群落(聚类),寻找离群的样本 降维处理(PCA),保留低维且相关性高的特征 数据聚类 k均值算法 导包+导数据集 import numpy as np import matplotlib.pyplot as plt import …
|
69
|
|
406 字
|
5 分钟
机器学习_2:监督学习经典模型
机器学习_2:监督学习经典模型 模型是小,因为通过百度掉包都可以实现,但是重要的是流程 分类学习 线性分类器 数据集url地址(乳腺癌良恶性预测):https://archive. ics. uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/ 假设特征与分类结果存在线性关系,…
|
87
|
|
1164 字
|
12 分钟
机器学习_1:基础知识
想恶补一下基础,为5月份的实习做准备,写一篇浅浅记录一下吧 引言 分类 有监督学习:有特征与标记(决定监督学习的种类),使用特征向量描述数据样本, 无监督学习:没有特征与标记,无法预测 从原始数据转为特征向量的过程中,存在多种数据数据类型(类别形,数值型,缺失值) 性能 预测性质:预测正确类别的百分比,俗称准确性(Accuracy) 回归:预测值与…
|
71
|
|
219 字
|
1 分钟内