kettle过滤数据库_kettle数据导出到另一个数据库必须先建表结构吗

『壹』如何使用kettle从数据库中抽取数据

如果你用的是INNODB数据库，有一个最简单有效的调整，就是将INI文件里面的下版面参数调整权：
原始：
innodb_flush_log_at_trx_commit=1
调整为：
innodb_flush_log_at_trx_commit=2
具体什么意思就不解释了，试了效果好再去找度娘

『贰』 kettle数据导出到另一个数据库，必须先建表结构吗

需求：
1.你是否遇到了需要将mysql数据库中的所有表与数据迁移到Oracle。
2.你是否还在使用kettle重复的画着：表输入-表输出、创建表，而烦恼。

下面为你实现了一套通用的数据库迁移流程。

技术引导：
实现之初，在kettle提供的例子中找到了一个类似的（samples\jobs\process all tables）。
通过相关改造，终于达到目标。

实现过程解剖：
整套流程分为：2个job，4个trans。
使用到的Trans插件：表输入、字段选择、复制记录到结果、从结果获取记录、设置变量、自定义java脚本、表输出。
1.大job。

2.要迁移的源库表名称获取，并设置到结果集，为下面的job使用。

3.配置子job为前面的每一条记录（即每个表）执行一次该子job

4.下面是子job。

5.获取记录中的表名称，并设置为到变量。

6.读取当前表的结果信息，并在目标库中创建表（这个是难点）。

因为只需要获取抓取要抽取表的结构信息，故在sql后面加上 where 1=2。

下面代码是创建目标库表。

Java代码
public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException
{
// First, get a row from the default input hop
//
Object[] r = getRow();

org.pentaho.di.core.database.DatabaseMeta dbmeta = null;

java.util.List list = getTrans().getRepository().readDatabases();//3.x中获取资源库的所有数据库连接信息用getDatabases();

if(list != null && !list.isEmpty())
{
for(int i=0;i<list.size();i++)
{
dbmeta = (org.pentaho.di.core.database.DatabaseMeta)list.get(i);
//下面是目标库的数据库连接，大家可根据需要修改
if("mysql_test".equalsIgnoreCase(dbmeta.getName()))
{
break;
}
}
}

if(dbmeta!=null)
{
org.pentaho.di.core.database.Database db=new org.pentaho.di.core.database.Database(dbmeta);

try
{
db.connect();

String tablename = getVariable("TABLENAME");

logBasic("开始创建表：" + tablename);

if(tablename!=null && tablename.trim().length()>0)
{
String sql = db.getDDL(tablename, data.inputRowMeta);//${TABLENAME}

db.execStatement(sql.replace(";", ""));

logBasic(sql);
}
}
catch(Exception e)
{
logError("创建表出现异常",e);

}finally{
db.disconnect();
}
}
return false;
}

7.表数据迁移。

8.差不多就行了，本人使用mysql到mysql、oracle的测试是没有问题的不过在测试过程中，发现源表若存在有blob的表，会有问题，可能是由于表输出没有指定字段的原因，具体解决办法，也没有去多想，以后有时间在完善把。

上面的整套流程的是在kettle4.3下完成的，附件里面可下载完整流程。下载地址如下：
http://download.csdn.net/detail/feng19821209/4846668
原文地址：http://ainidehsj.iteye.com/blog/1735434

『叁』 kettle怎样连接数据库连接

下载pdi-ce-4.4.0-stable.zip，解压到文件夹，打开data-integration中的.bat
2
出现欢迎界面后来到Repository Connection窗口，选择建立一个新的repository，随后出现“资源库信息”窗口：

在“资源库信息”窗口中选择新建一个数据库连接，弹出“Database Connection”窗口：

在其中输入Connection Name, Host Name, Database Name, Port Number, User Name,Password信息即可建立连接，完成之后在Repository Connection窗口以admin用户名登陆。
新建一个名为cscgTransTest的Transformation，从“核心对象”中将两个“表输入”和一个“插入/更新”拖入到cscgTransTest中，并建立它们之间的连接，如下图所示：

在cscgTransTest中建立一个新的数据库连接ttt，通过表输入“max_createtime”从目标数据库ttt中获取某个表中最新数据的建立时间：
SELECT max(trunc(createtime)) FROMumdata.toeventmedia
在cscgTransTest中建立一个新的数据库连接testdb，以表输入“max_createtime”的查询结果替代表输入“umdata.toeventmedia”中的变量，执行SQL语句从数据库testdb中获取需要插入或者更新到ttt数据库的数据
SELECT * FROMumdata.toeventmedia where trunc(createtime) >= trunc(?)
在“插入/更新”中选择“数据库连接”、“目标模式”、“目标表”等信息，“用来查询的关键字”中的字段用来查询某条记录是否在目标表中存在，不存在则插入记录；如果存在，则继续比较其他字段是否与流里的字段值相同，如果相同则不执行任何操作，如果不同则更新“更新字段”中所列字段。
“用来查询的关键字”所列字段是该表的primarykey，从而可以唯一标识一条记录。

分别为每一个表建立一个如上模式的转换步骤。
新建一个名为“cscgJobTest”的Job，在核心对象中将“START”和“Transformation”拖入cscgJobTest中，并建立两者之间的连接。

选中START中的“重复执行”，类型为“不需要定时”；在Transformation中将转换名设置为之前建立的“cscgTransTest”.
点击“Run this Job”运行。Job和Transformation的执行结果如如下：

『肆』 KETTLE 连接sql server数据库转换数据

新建一个【Transformation】，在【Transform】中有知【Add sequence】组件，可以生成序道列版ID，也可以控回制数据库的序列答ID。后续的ID加工还可以进行组合加工，看你自己的需要权了。

『伍』 kettle 不支持什么数据库

Java程序连接oracle数据库时，用oci驱动要比用thin驱动性能好些。主要的区别是使用thin驱动时，不需要安装oracle的客户端，而使用oci时则要安装oracle的客户端。

『陆』 kettle数据导出到另一个数据库，必须先建表结构吗

kettle数据导出到另一个数据库，不需要先建表结构，导出方法为：

1、打开内SQL Database Studio。

『柒』 kettle中做查询时，遇到大数据时怎么处理

在kettle常常有处理从一个源数据中做转换.做转换的时候, 需要去查另一个数据库.

这种问题遇到数据小时候还好办. 但是数据魇时候就麻烦来了.

下面针对三种情况做具体情况的选择办法

先上一个图

[img]

[/img]

1. 当需要转换的数据特别大的时候, 例如: 10W条以上.或者100W条以上时.

上图中,hadoop数据导入,导入的数据如果够多,例如100W条以上,其中一个字段需要查询数据库中查询,而这个字段的类型并不多,例如只有10个类型或者数据库中就只有这10个类型.那么,可以走线路2, 并且线路2中的 "使用缓存" 可以打勾,也可以不打.当然你这个源里的数据太多,打上当然最好了.因为省得再去你的数据库里再查.

但是当源里的数据类型还是只有10个类型,但是你的数据库里面存了有10000条记录时,怎么办?
有两种解决办法:
1).线路2:并且查询节点中的 "使用缓存" 不能打勾.
2).线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来.这样在流里的比对时.也很快很多.必竟是在内存里做运算了

2. 查另一个数据库的数据量大时,而你的源数据不大.

最好的选择是
线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来.这样在流里的比对时.也很快很多.必竟是在内存里做运算了

3. 当两个数据源都非常大时(最不想遇到的)
这种情况是最不想遇到的办法
一种选择:
1).线路2中的 "使用缓存" 打勾.

当然还有别的更复杂但是会更快的办法.适用场景比较少,不再详细写了.

『捌』怎么通过kettle 删除mysql数据

一、准备工作
源数据库目标数据库MongoDB，在源数据库添加删除、更新触发器
二、操作步骤
添加表输入组件，连接ORACLE触发器记录表
添加JAVA代码组件，进行步骤跳转，根据输入的数据判断是删除或者更新，如果是删除，则跳转至MongoDB Delete步骤中，如果是更新的话，跳转至字段选择步骤中。JAVA代码中的详细信息如下：
import java.util.List;

import org.pentaho.di.core.exception.KettleException;
import org.pentaho.di.core.row.RowDataUtil;
import org.pentaho.di.core.row.RowMeta;
import org.pentaho.di.core.row.RowMetaInterface;
import org.pentaho.di.core.row.ValueMeta;
import org.pentaho.di.trans.Trans;
import org.pentaho.di.trans.TransMeta;

private Object[] previousRow;//上一行
private RowSet t1 = null;//业务表步骤
private RowSet t2 = null;//删除步骤

public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException
{
Object[] r = getRow(); //获取输入行

if ( first ) {
if ( getInputRowMeta() == null ) {
setOutputDone();//设置输出完成
return false;
}

『玖』 kettle 锁定资源数据库,试图获取排他性访问……

应该不是这种工具在数据抽取的时候应该是多线程的并不是逐条插入亲测orderby 无法实现

『拾』 kettle一个数据库表数据抽取到另一个数据库，中间想对几个字段下的值先进行解密再存到另一个数据库怎么做

Kettle学习一：简单的表输入输出
1.创建两个DB连接，test和test1，分别连接两个不同的数据库
2.拖拽专表输入，字段转换，属表输出图标到界面，并住shift键连接它们
3.表输入：用于查询出一个数据表中需要搬运的数据。
双击表输入——>选择需要搬运的数据库(test)——>获取 SQL查询语句——>确定

导航:首页 > 净水问答 > kettle过滤数据库

kettle过滤数据库

与kettle过滤数据库相关的资料