hbase過濾器示例_hbase的過濾器有哪些

㈠有沒有Python寫的spark連接Hbase的例子

博主項目實踐中，經常需要用Spark從Hbase中讀取數據。其中，spark的版本為1.6，hbase的版本為0.98。現在記錄一下如何在spark中操作讀取hbase中的數據。
對於這種操作型的需求，沒有什麼比直接上代碼更簡單明了的了。so，show me the code!
object Demo extends Logging{

val CF_FOR_FAMILY_USER = Bytes.toBytes("U");
val CF_FOR_FAMILY_DEVICE = Bytes.toBytes("D")
val QF_FOR_MODEL = Bytes.toBytes("model")
val HBASE_CLUSTER = "hbase://xxx/"
val TABLE_NAME = "xxx";
val HBASE_TABLE = HBASE_CLUSTER + TABLE_NAME

def genData(sc:SparkContext) = {
//20161229的數據,rowkey的設計為9999-yyyyMMdd
val filter_of_1229 = new RowFilter(CompareFilter.CompareOp.EQUAL, new SubstringComparator("79838770"))
//得到qf為w:00-23的數據
val filter_of_qf = new QualifierFilter(CompareFilter.CompareOp.EQUAL,new SubstringComparator("w"))

val all_filters = new util.ArrayList[Filter]()
all_filters.add(filter_of_1229)
all_filters.add(filter_of_qf)

//hbase多個過濾器
val filterList = new FilterList(all_filters)

val scan = new Scan().addFamily(CF_FOR_FAMILY_USER)
scan.setFilter(filterList)
scan.setCaching(1000)
scan.setCacheBlocks(false)

val conf = HBaseConfiguration.create()
conf.set(TableInputFormat.INPUT_TABLE,HBASE_TABLE )
conf.set(TableInputFormat.SCAN, Base64.encodeBytes(ProtobufUtil.toScan(scan).toByteArray()))
sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],classOf[ImmutableBytesWritable],classOf[Result])
//後面是針對hbase查詢結果的具體業務邏輯
.map()
...

def main(args: Array[String]): Unit = {
val Array(output_path) = args

val sparkConf = new SparkConf().setAppName("demo")
sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
val sc = new SparkContext(sparkConf)

genUuidWifi(sc).saveAsTextFile(output_path)
sc.stop()
}
}04142434445460414243444546

需要注意的一個小點就是如果hbase里有多個過濾器，注意需要使用FilterList。

㈡簡述通過Apache+HBase+API進行表過濾器應用的理解

摘要過濾器是HBase為客戶端提供的一種高級API，是HBase的一種高級特性，它提供了非常強大的功能幫助用戶處理表中的數據。HBase中讀取數據的API主要是get()和scan()，它們都支持直接讀取數據和通過指定起始行健訪問數據的功能，可以通過添加限定條件如列族、列、時間戳等來限制查詢的數量，但是它們缺少一種細粒度的的篩選功能，比如基於正則表達式的篩選。由此誕生過濾器，Get類和Scan類都支持過濾器，通過方法setFilter(Filter filter)可以設置查詢時的過濾器。

㈢ hbase shell 中有版本過濾器嗎

進入hbase shell console
$HBASE_HOME/bin/hbase shell
如果有kerberos認證，需要事先使用相應的keytab進行一下認證（使用kinit命令），認證成功之後再使用hbase shell進入可以使用whoami命令可查看當前用戶！

㈣ hbase的過濾器有哪些

HBase為篩選數據提供了一組過濾器，通過這個過濾器可以在中的數據的多個維度（行，列，數據版本）上進行對數據的篩選操作，也就是說過濾器最終能夠篩選的數據能夠細化到具體的一個存儲單元格上（由行鍵，列明，時間戳定位）。通常來說，通過行鍵，值來篩選數據的應用場景較多。

1. RowFilter：篩選出匹配的所有的行，對於這個過濾器的應用場景，是非常直觀的：使用BinaryComparator可以篩選出具有某個行鍵的行，或者通過改變比較運算符（下面的例子中是CompareFilter.CompareOp.EQUAL）來篩選出符合某一條件的多條數據，以下就是篩選出行鍵為row1的一行數據：

[java]view plain

Filterrf=newRowFilter(CompareFilter.CompareOp.EQUAL,newBinaryComparator(Bytes.toBytes("row1")));//OK篩選出匹配的所有的行

2.PrefixFilter：篩選出具有特定前綴的行鍵的數據。這個過濾器所實現的功能其實也可以由RowFilter結合RegexComparator來實現，不過這里提供了一種簡便的使用方法，以下過濾器就是篩選出行鍵以row為前綴的所有的行：

[java]view plain

Filterpf=newPrefixFilter(Bytes.toBytes("row"));//OK篩選匹配行鍵的前綴成功的行

3.KeyOnlyFilter：這個過濾器唯一的功能就是只返回每行的行鍵，值全部為空，這對於只關注於行鍵的應用場景來說非常合適，這樣忽略掉其值就可以減少傳遞到客戶端的數據量，能起到一定的優化作用：

[java]view plain

Filterkof=newKeyOnlyFilter();//OK返回所有的行，但值全是空

4.RandomRowFilter：從名字上就可以看出其大概的用法，本過濾器的作用就是按照一定的幾率（<=0會過濾掉所有的行，>=1會包含所有的行）來返回隨機的結果集，對於同樣的數據集，多次使用同一個RandomRowFilter會返回不通的結果集，對於需要隨機抽取一部分數據的應用場景，可以使用此過濾器：

[java]view plain

Filterrrf=newRandomRowFilter((float)0.8);//OK隨機選出一部分的行

5.InclusiveStopFilter：掃描的時候，我們可以設置一個開始行鍵和一個終止行鍵，默認情況下，這個行鍵的返回是前閉後開區間，即包含起始行，但不包含終止行，如果我們想要同時包含起始行和終止行，那麼我們可以使用此過濾器：

[java]view plain

Filterisf=newInclusiveStopFilter(Bytes.toBytes("row1"));//OK包含了掃描的上限在結果之內

6.FirstKeyOnlyFilter：如果你只想返回的結果集中只包含第一列的數據，那麼這個過濾器能夠滿足你的要求。它在找到每行的第一列之後會停止掃描，從而使掃描的性能也得到了一定的提升：

[java]view plain

Filterfkof=newFirstKeyOnlyFilter();//OK篩選出第一個每個第一個單元格

7.ColumnPrefixFilter：顧名思義，它是按照列名的前綴來篩選單元格的，如果我們想要對返回的列的前綴加以限制的話，可以使用這個過濾器：

[java]view plain

Filtercpf=newColumnPrefixFilter(Bytes.toBytes("qual1"));//OK篩選出前綴匹配的列

8.ValueFilter：按照具體的值來篩選單元格的過濾器，這會把一行中值不能滿足的單元格過濾掉，如下面的構造器，對於每一行的一個列，如果其對應的值不包含ROW2_QUAL1，那麼這個列就不會返回給客戶端：

[java]view plain

Filtervf=newValueFilter(CompareFilter.CompareOp.EQUAL,newSubstringComparator("ROW2_QUAL1"));//OK篩選某個（值的條件滿足的）特定的單元格

9.ColumnCountGetFilter：這個過濾器來返回每行最多返回多少列，並在遇到一行的列數超過我們所設置的限制值的時候，結束掃描操作：

[java]view plain

Filterccf=newColumnCountGetFilter(2);//OK如果突然發現一行中的列數超過設定的最大值時，整個掃描操作會停止

10.SingleColumnValueFilter：用一列的值決定這一行的數據是否被過濾。在它的具體對象上，可以調用setFilterIfMissing(true)或者setFilterIfMissing(false)，默認的值是false，其作用是，對於咱們要使用作為條件的列，如果這一列本身就不存在，那麼如果為true，這樣的行將會被過濾掉，如果為false，這樣的行會包含在結果集中。

[java]view plain

SingleColumnValueFilterscvf=newSingleColumnValueFilter(
Bytes.toBytes("colfam1"),
Bytes.toBytes("qual2"),
CompareFilter.CompareOp.NOT_EQUAL,
newSubstringComparator("BOGUS"));
scvf.setFilterIfMissing(false);
scvf.setLatestVersionOnly(true);//OK

11.：這個與10種的過濾器唯一的區別就是，作為篩選條件的列的不會包含在返回的結果中。

12.SkipFilter：這是一種附加過濾器，其與ValueFilter結合使用，如果發現一行中的某一列不符合條件，那麼整行就會被過濾掉：

[java]view plain

Filterskf=newSkipFilter(vf);//OK發現某一行中的一列需要過濾時，整個行就會被過濾掉

13.WhileMatchFilter：這個過濾器的應用場景也很簡單，如果你想要在遇到某種條件數據之前的數據時，就可以使用這個過濾器；當遇到不符合設定條件的數據的時候，整個掃描也就結束了：
Filterwmf=newWhileMatchFilter(rf);//OK類似於Pythonitertools中的takewhile

14.FilterList：用於綜合使用多個過濾器。其有兩種關系：FilterList.Operator.MUST_PASS_ONE和FilterList.Operator.MUST_PASS_ALL，默認的是FilterList.Operator.MUST_PASS_ALL，顧名思義，它們分別是AND和OR的關系，並且FilterList可以嵌套使用FilterList，使我們能夠表達更多的需求：
List<Filter>filters=newArrayList<Filter>();
filters.add(rf);
filters.add(vf);
FilterListfl=newFilterList(FilterList.Operator.MUST_PASS_ALL,filters);//OK綜合使用多個過濾器，AND和OR兩種關系

㈤ hbase有幾種讀法

不明白你問的意思。
首先可以按照rowkey進行查找
還可以按照列族，列，列的值等等等等
hbase 有很多過濾器，你可以看看不過效率不是很好

㈥求教：怎樣用hbase過濾器實現，一個列多列值

HBase為篩選數據提供了一組過濾器，通過這個過濾器可以在HBase中的數據的多回個維度（行，列，數據版本答）上進行對數據的篩選操作，也就是說過濾器最終能夠篩選的數據能夠細化到具體的一個存儲單元格上（由行鍵，列明，時間戳定位）。

㈦ hbase中rowkey設置問題。

主鍵設計成：現有的主鍵+頻度+列，即h+1+hi，但是最好將每個都格式化成定長的字元串，當你需要取前5個記錄時使用過濾器取出前5條記錄即可。大體如此，具體細節可能還需要好好設計

㈧關於HBase的rowkey設計我想問以下問題

首先過濾器在RegionServer里發揮作用，即在RS層過濾掉客戶端不需要的數據，以減少網路傳輸的數據量，以此減少查詢時間，所以不會減少查詢的數據量。根據你的需求，個人覺得rowkey應該設計成用戶名+學校+學院+姓名，並且將這幾個值全部轉換成定長的字元串存儲，以便查詢。

㈨如何使用python在hbase里進行模糊查詢

#導入thrift和habse包
from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
from hbase import Hbase
from hbase.ttypes import *

#此處可以修改地址和埠
host = '192.168.1.1'
#默認埠為9090
port = 9090
#要查詢的表名
table = 'table_name'
#定義一個過濾器，此為關鍵步驟
filter = "RowFilter(=,'regexstring:.3333.')" #此行原創：）
# Make socket
transport = TSocket.TSocket(host, port)
# Buffering is critical. Raw sockets are very slow
# 還可以用TFramedTransport,也是高效傳輸方式
transport = TTransport.TBufferedTransport(transport)
# Wrap in a protocol
#傳輸協議和傳輸過程是分離的，可以支持多協議
protocol = TBinaryProtocol.TBinaryProtocol(transport)
#客戶端代表一個用戶
client = Hbase.Client(protocol)
#打開連接
try:
transport.open()
scan.filterString=filter
scanner = client.scannerOpenWithScan(table, scan)
except Exception:
finally:
client.scannerClose(scan)
transport.close()

連接代碼網上一搜一大堆，非原創，來源已不可考，非本人研究成果；

關鍵就是這個："RowFilter(=,'regexstring:.3333.')"
這個過濾器要寫對，hbase有十幾種內置的過濾器方法，有幾種比較運算符和比較器，上面這個是正則方式，即'regexstring:.3333.'；
過濾器整個雙引號裡面的內容會通過thrift傳給hbase服務端處理，下劃線這部分正則要支持java的正則要求不然會報錯

㈩ hbase模糊查詢

哈哈哈，恰好我也在做一個類似的問題；hbase權威指南133頁，關於rowkey有一個內建的過濾器：

Scan scan = new Scan();
Filter filter = new RowFilter(CompareOp.EQUAL,new RegexStringComparator(".*京Q00"));
scan.setFilter(filter);
ResultScanner scanner;
try {
scanner = table.getScanner(scan);
for(Result res:scanner)
{
System.out.println(res);
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
上面內這段代碼應該容能夠解決你的問題啦，enjoy it.

導航:首頁 > 凈水問答 > hbase過濾器示例

hbase過濾器示例

與hbase過濾器示例相關的資料