## 任务类型，worker，network配置
    
配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
train | train | Angel 任务类型，表示模型训练
predict | predict | 使用模型进行预测
inctrain | inctrain | 对已有模型进行增量训练
ml.matrix.dot.use.parallel.executor | false | 稠密矩阵Dot运算是否使用并行
angel.worker.thread.num | 1 | 一个worker使用的线程数
angel.compress.bytes | 8 | 低精度压缩，每个浮点数的大小，可设为[1,8]

    
## 数据参数
    
配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.data.type | libsvm | Angel 模型输入数据格式，支持libsvm，dense，dummy；默认值为libsvm
ml.data.splitor | \s+ | 输入数据分隔符，可定制分隔符
ml.data.has.label | true | 输入数据是否有标签，默认有标签
ml.data.label.trans.class | NoTrans | 输入数据标签转换，支持NoTrans<不转换>,PosNegTrans(threshold)<利用阈值将标签转换成+1，-1，即大于阈值为1，小于阈值为-1>,ZeroOneTrans(threshold)<利用阈值将标签转换成0, 1，即大于阈值为1，小于阈值为0>,AddOneTrans<所有标签+1>,SubOneTrans<所有标签-1>
ml.data.label.trans.threshold | 0 | 输入数据标签转换阈值，与ml.data.label.trans.class中的PosNegTrans，ZeroOneTrans搭配使用
ml.data.validate.ratio | 0.05 | 验证集采样率
ml.feature.index.range | -1 | 输入数据维度，由于特征hash时, 不能充满整个hash空间, 其中有大量空隙, 该项配置就是hash空间的大小. 最大的featureID值+1，当选择-1时表示特征维度可以映射到(0, long.max) 
ml.block.size | 1000000 | 划分矩阵后每个块的的大小，行数*列数<=block.size，目的是使得矩阵划分的均匀
ml.data.use.shuffle | false | 数据是否使用随机打乱
ml.data.posneg.ratio | -1 | 正负样本采样比例，-1表示关闭采样功能, 正常值为正实数（0~1），对于正负样本相差较大的情况有用(如5倍以上)

### 数据格式
    
名称 | 说明
---------------- | ---------------
libsvm | 每行文本表示一个样本，每个样本的格式为"y index1:value1 index2:value2 index3:value3 ..."。其中：index为特征的ID,value为对应的特征值；训练数据的y为样本的类别，可以取1、-1两个值；预测数据的y为样本的ID值。比如，属于正类的样本[2.0, 3.1, 0.0, 0.0, -1, 2.2]的文本表示为“1 0:2.0 1:3.1 4:-1 5:2.2”，其中“1”为类别，"0:2.0"表示第0个特征的值为2.0。同理，属于负类的样本[2.0, 0.0, 0.1, 0.0, 0.0, 0.0]被表示为“-1 0:2.0 2：0.1”
dense | 每行文本表示一个样本，每个样本的格式为"y value1 value2 value3 ..."。训练数据的y为样本的类别，可以取1、-1两个值；预测数据的y为样本的ID值。比如，属于正类的样本[2.0, 3.1, 0.0, 0.0, -1, 2.2]的文本表示为“1 2.0 3.1 -1 2.2”，其中“1”为类别，"2.0"表示第0个特征的值为2.0。同理，属于负类的样本[2.0, 0.0, 0.1, 0.0, 0.0, 0.0]被表示为“-1 2.0 0.1”
dummy | 每行文本表示一个样本，每个样本的格式为"y index1 index2 index3 ..."。其中：index特征的ID；训练数据的y为样本的类别，可以取1、-1两个值；预测数据的y为样本的ID值。比如，属于正类的样本[2.0, 3.1, 0.0, 0.0, -1, 2.2]的文本表示为“1 0 1 4 5”，其中“1”为类别，“0 1 4 5”表示特征向量的第0、1、4、5个维度的值不为0。同理，属于负类的样本[2.0, 0.0, 0.1, 0.0, 0.0, 0.0]被表示为“-1 0 2”


## 模型参数
    
配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.model.class.name | "" | Angel模型类名称
ml.model.size | -1 | 模型的大小，当选择-1时范围在(0, +long.max) 
ml.model.type | RowType.T_FLOAT_DENSE.toString | Angel模型类型，支持28种类型
ml.model.is.classification | true | 模型是否属于分类模型
ml.epoch.num | 30 | 迭代次数
ml.batch.sample.ratio | 1.0 | 表示每个batch占整体数据的百分比
ml.learn.rate | 0.5 | 初始学习率
ml.num.update.per.epoch | 10 | 一个epoch中更新参数的次数
ml.opt.decay.class.name | StandardDecay | 衰减类名称，可选项：StandardDecay<标准衰减，与alpha一起使用>，WarmRestarts<热启动衰减，与alpha一起使用>，CorrectionDecay<更正衰减，与alpha和beta一起使用>，ConstantLearningRate<常数衰减>
ml.opt.decay.on.batch | false | 是否在批量上进行衰减
ml.opt.decay.intervals | 100 | 衰减间隔
ml.opt.decay.alpha | 0.001 | 衰减系数alpha
ml.opt.decay.beta | 0.001 | 衰减系数beta

### 模型类型
    
名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
RowType.T_DOUBLE_DENSE | 0 | 表示模型数据行的类型是索引值在Int范围的稠密Double类型
RowType.T_DOUBLE_DENSE_COMPONENT | 1 | 表示模型数据行的类型是索引值在Int范围的组合稠密Double类型
RowType.T_DOUBLE_DENSE_LONGKEY_COMPONENT | 2 | 表示模型数据行的类型是索引值在Long范围的组合稠密Double类型
RowType.T_DOUBLE_SPARSE | 3 | 表示模型数据行的类型是索引值在Int范围的稀疏Double类型
RowType.T_DOUBLE_SPARSE_COMPONENT | 4 | 表示模型数据行的类型是索引值在Int范围的组合稀疏Double类型
RowType.T_DOUBLE_SPARSE_LONGKEY | 5 | 表示模型数据行的类型是索引值在Long范围的稀疏Double类型
RowType.T_DOUBLE_SPARSE_LONGKEY_COMPONENT | 6 | 表示模型数据行的类型是索引值在Int范围的组合稀疏Double类型
RowType.T_FLOAT_DENSE | 7 | 表示模型数据行的类型是索引值在Int范围的稠密Float类型
RowType.T_FLOAT_DENSE_COMPONENT | 8 | 表示模型数据行的类型是索引值在Int范围的组合稠密Float类型
RowType.T_FLOAT_DENSE_LONGKEY_COMPONENT | 9 | 表示模型数据行的类型是索引值在Long范围的组合稠密Float类型
RowType.T_FLOAT_SPARSE | 10 | 表示模型数据行的类型是索引值在Int范围的稀疏Float类型
RowType.T_FLOAT_SPARSE_COMPONENT | 11 | 表示模型数据行的类型是索引值在Int范围的组合稀疏Float类型
RowType.T_FLOAT_SPARSE_LONGKEY | 12 | 表示模型数据行的类型是索引值在Long范围的稀疏Float类型
RowType.T_FLOAT_SPARSE_LONGKEY_COMPONENT | 13 | 表示模型数据行的类型是索引值在Long范围的组合稀疏Float类型
RowType.T_LONG_DENSE | 14 | 表示模型数据行的类型是索引值在Int范围的稠密Long类型
RowType.T_LONG_DENSE_COMPONENT | 15 | 表示模型数据行的类型是索引值在Int范围的组合稠密Long类型
RowType.T_LONG_DENSE_LONGKEY_COMPONENT | 16 | 表示模型数据行的类型是索引值在Long范围的组合稠密Long类型
RowType.T_LONG_SPARSE | 17 | 表示模型数据行的类型是索引值在Long范围的稀疏Long类型
RowType.T_LONG_SPARSE_COMPONENT | 18 | 表示模型数据行的类型是索引值在Int范围的组合稀疏Long类型
RowType.T_LONG_SPARSE_LONGKEY | 19 | 表示模型数据行的类型是索引值在Long范围的稀疏Long类型
RowType.T_LONG_SPARSE_LONGKEY_COMPONENT | 20 | 表示模型数据行的类型是索引值在Long范围的组合稀疏Long类型
RowType.T_INT_DENSE | 21 | 表示模型数据行的类型是索引值在Int范围的稠密Int类型
RowType.T_INT_DENSE_COMPONENT | 22 | 表示模型数据行的类型是索引值在Int范围的组合稠密Int类型
RowType.T_INT_DENSE_LONGKEY_COMPONENT | 23 | 表示模型数据行的类型是索引值在Long范围的组合稠密Int类型
RowType.T_INT_SPARSE | 24 | 表示模型数据行的类型是索引值在Int范围的稀疏Int类型
RowType.T_INT_SPARSE_COMPONENT | 25 | 表示模型数据行的类型是索引值在Int范围的稀疏Int类型
RowType.T_INT_SPARSE_LONGKEY | 26 | 表示模型数据行的类型是索引值在Long范围的稀疏Int类型
RowType.T_INT_SPARSE_LONGKEY_COMPONENT | 27 | 表示模型数据行的类型是索引值在Long范围的组合稀疏Int类型


## 优化器配置
    
配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.fclayer.optimizer | Momentum | 全连接层优化器，可选优化器：Momentum，AdaDelta，AdaGrad，Adam，FTRL
ml.embedding.optimizer | Momentum | embedding层优化器，可选优化器：Momentum，AdaDelta，AdaGrad，Adam，FTRL
ml.inputlayer.optimizer | Momentum | 输入层优化器，可选优化器：Momentum，AdaDelta，AdaGrad，Adam，FTRL
ml.fclayer.matrix.output.format | classOf[RowIdColIdValueTextRowFormat].getCanonicalName | 全连接层输出矩阵格式
ml.embedding.matrix.output.format | classOf[TextColumnFormat].getCanonicalName | embedding层输出矩阵格式
ml.simpleinputlayer.matrix.output.format | classOf[ColIdValueTextRowFormat].getCanonicalName | 简单输入层输出矩阵格式
ml.reg.l2 | 0.0 | L2惩罚项系数
ml.reg.l1 | 0.0 | L1惩罚项系数

### Momentum

配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.opt.momentum.momentum | 0.9 | 动量系数

### AdaDelta

配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.opt.adadelta.alpha | 0.9 | alpha系数
ml.opt.adadelta.beta | 0.9 | beta系数

### AdaGrad

配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.opt.adagrad.beta | 0.9 | beta系数

### Adam

配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.opt.adam.gamma | 0.99 | gamma系数
ml.opt.adam.beta | 0.9 | beta系数

### FTRL

配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.opt.ftrl.alpha | 0.1 | alpha系数
ml.opt.ftrl.beta | 1.0 | beta系数


## 层，模型等参数配置

### Embedding 参数配置
    
配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.fm.field.num | -1 | 输入数据特征维数，-1表示全部特征，范围可以映射到(0, +long.max)
ml.fm.rank | 8 | embedding中vector的长度

### (MLP) Layer 参数配置
    
配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.num.class | 2 | 类别数目

### (MLR) Layer 参数配置

配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.mlr.rank | 5 | 区域个数

### RobustRegression 参数配置

配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.robustregression.loss.delta | 1.0 | 残差分段点

### Kmeans 参数配置

配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.kmeans.center.num | 5 | K值，即簇的个数
ml.kmeans.c | 0.1 | 学习速率参数

### GBDT 参数配置

配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
ml.gbdt.task.type | classification | 任务类型，可选项：classification, regression
ml.gbdt.class.num | 2 | 类别个数
ml.gbdt.tree.num | 10 | 树的数量
ml.gbdt.tree.depth | 5 | 树的最大高度
ml.gbdt.max.node.num | 无 | 最大的节点个数
ml.gbdt.split.num | 5 | 每个特征的梯度直方图的大小
ml.gbdt.sample.ratio | 1 | 特征下采样的比率
ml.gbdt.min.child.weight | 0.01 | 最小的子节点权重
ml.gbdt.reg.alpha | 0 | L1正则
ml.gbdt.reg.lambda | 1.0 | L2正则
ml.gbdt.thread.num | 20 | 线程个数
ml.gbdt.batch.size | 10000 | 批量大小
ml.gbdt.server.split | false | 两阶段分裂算法开关
ml.gbdt.cate.feat | none | 离散特征，"特征id:特征数量"的格式，以逗号分隔，例如"0:2,1:3"。设为"none"表示没有离散特征，设为"all"表示全部为离散特征。


## 评估指标
    
配置项名称 | 默认值 | 配置项含义
---------------- | --------------- | ---------------
train.loss | 无 | 训练损失
validate.loss | 无 | 验证损失
log.likelihood | 无 | 对数似然
train.error | 无 | 训练错误
validate.error | 无 | 验证错误