RubyGems - fluent-plugin-datahub - Versions diffs - 0.0.1 → 0.0.2 - Mend

fluent-plugin-datahub 0.0.1 → 0.0.2

Files changed (6) hide show

checksums.yaml +4 -4
data/README.md +104 -10
data/VERSION +1 -1
data/lib/fluent/plugin/datahub/datahub-http-client-test.rb +3 -3
data/lib/fluent/plugin/out_datahub.rb +3 -3
metadata +3 -3

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 922859012ad1c685d8396cca953cc6ca35471758
-  data.tar.gz: 646a600f82a8891f8fcb8e05de4db5ccbeecaadc
+  metadata.gz: 08bd89385bb962843dda18bc6b1bedb50b44ad4d
+  data.tar.gz: 53591931a750c4c0641d17676ba5ead6a4e96a36
 SHA512:
-  metadata.gz: 9f36f93349cb259c9c9194909186ef5d3322dabe0a1287698ec04f803e9d0c971552bb9db91ae9d6bd941e8f506990c7c9d31ec84e750f31e6c29df69241323f
-  data.tar.gz: 861bf12a2478ee7458d50f2843295f59be030e3410f8c1fd9f463681fffce8ebea340e834c8af8045db3d63e312e5eaae3c50d7afdb090e4ab9bb7a64aef67d5
+  metadata.gz: 3cdc9cf69f25d5d8f49b04ad1457c522456e071a27524d2cfee40a8bcbe3d26e41a3ba27d67ccccfb1c30d6840a65b8382762314ccd909ed815de380e7b51285
+  data.tar.gz: 6542e96bcd6a409d0100f1ec6c6686a7e719be4e52d0a8c9aed3d56a7d9e0b2a7d91836388a3373a443b03fbd92fbed68b04429092f5936a2fd67976213b8c42

data/README.md CHANGED

@@ -1,10 +1,61 @@
 # fluent-plugin-datahub
- 概述
--------
-  fluent的datahub上传插件
-安装
--------
-gem install fluent-plugin-datahub
+## DataHub基本介绍
+DataHub服务是阿里云提供的流式数据处理(Streaming Data)服务，它提供流式数据的发布 (Publish)和订阅 (Subscribe)的功能，让您可以轻松构建基于流式数据的分析和应用。DataHub服务可以对各种移动设备，应用软件，网站服务，传感器等产生的大量流式数据进行持续不断的采集，存储和处理。用户可以编写应用程序或者使用流计算引擎来处理写入到DataHub的流式数据比如实时web访问日志、应用日志、各种事件等，并产出各种实时的数据处理结果比如实时图表、报警信息、实时统计等。
+DataHub服务基于阿里云自研的飞天平台，具有高可用，低延迟，高可扩展，高吞吐的特点。DataHub与阿里云流计算引擎StreamCompute无缝连接，用户可以轻松使用SQL进行流数据分析。
+DataHub服务也提供流式数据归档的功能，支持流式数据归档进入MaxCompute(原ODPS)。
+## 环境要求
+使用此插件，需要具备如下环境:
+1. Ruby 2.1.0 或更新
+2. Gem 2.4.5 或更新
+3. Fluentd-0.12 或更新 (*[Home Page](http://www.fluentd.org/)*)
+4. Ruby-devel
+## 安装部署
+安装部署Fluentd可以选择以下两种方式之一。
+1. 一键安装包适用于第一次安装Ruby&Fluentd环境的用户或局域网用户，一键安装包包含了所需的Ruby环境以及Fluentd。目前一键安装包仅支持Linux环境。
+2. 通过网络安装适用于对Ruby有了解的用户，需要提前确认Ruby版本，若低于2.1.0则需要升级或安装更高级的Ruby环境，然后通过RubyGem安装Fluentd。
+注：
+* RubyGem源建议更改为https://ruby.taobao.org/
+* 局域网环境安装可以通过本地安装Gem文件
+```
+gem install --local fluent-plugin-datahub-0.0.1.gem
+```
+### 安装方式一：一键安装包安装
+1. 下载解压 fluentd-with-datahub-0.12.23.tar.gz
+2. 可以修改install.sh中$DIR为你想安装ruby的路径，默认会安装在当前路径下面
+3. 执行如下命令，提示“Success”表示安装成功
+```
+bash install.sh
+```
+4. fluentd程序会被安装在当前目录的bin目录下面
+### 安装方式二：通过网络安装
+1. Ruby安装（已经存在Ruby 2.1.0以上环境可忽略此步骤）：
+```
+wget https://cache.ruby-lang.org/pub/ruby/2.3/ruby-2.3.0.tar.gz
+tar xzvf ruby-2.3.0.tar.gz
+cd ruby-2.3.0
+./configure --prefix=DIR
+make
+make install
+```
+2 Fluentd以及插件安装
+```
+$ gem install fluent-plugin-datahub
+```
+## 插件使用示例
+### 示例一 上传csv文件中的数据
 配置
 -------
@@ -16,7 +67,7 @@ gem install fluent-plugin-datahub
   format csv
   keys id,name,gender,salary,my_time
 </source>
+```
 ```
 <match test1>
   @type datahub
@@ -32,7 +83,50 @@ gem install fluent-plugin-datahub
   dirty_data_file ${DIR}/dirty.data
   retry_times 3
 </match>
  ```
-  1、source标签中的keys为源数据，会根据key对应fields中字段\<br>
-  2、match标签中的column_names为要写入datahub的字段
+### 示例二 上传日志文件中的数据
+配置
+------
+```
+source>
+  @type tail
+  path ${DIR}/log_sample.log
+  tag test
+  format /(?<request_time>\d\d:\d\d:\d\d.\d+)\s+\[(?<thread_id>[\w\-]+)\]\s+(?<log_level>\w+)\s+(?<class>\w+)\s+-\s+\[(?<request_id>\w+)\]\s+(?<detail>.+)/
+</source>
+```
+```
+<match test>
+  @type datahub
+  access_id yourAccessId
+  access_key yourAccessKey
+  endpoint yourEndpoint
+  project_name test_project
+  topic_name datahub_fluentd_out_1
+  column_names ["thread_id", "log_level", "class"]
+</match>
+```
+1、source标签中的keys为源数据，会根据key对应fields中字段\<br>
+2、match标签中的column_names为要写入datahub的字段
+3、具体数据样例可参见gem包中的sample文件
+## 参数说明
+access_id :阿里云access_id.
+access_key :阿里云access key.
+endpoint :DataHub Endpoint
+project_name :datahub project name
+topic_name :datahub topic name
+retry_times :重试次数, 默认1
+retry_interval :重试周期，下一次重试的间隔，单位为秒， 默认3
+column_names :提交的列名，用户可以配置topic的列，采集部分列或者全部列，默认为空数组，表示按照topic的顺序及全字段提交，另外：列的配置不用保序，但是要求该字段在topic的schema中存在
+source_keys :指定源头采集的keys, record 按照这些keys 获取数据, 写入datahub， 默认空数组, 此时record使用column_names 获取数据, 写入datahub
+dirty_data_continue :当出现脏数据时，是否继续写入，当开启该开关，必须指定@dirty_data_file文件
+dirty_data_file :脏数据文件名称，当数据文件名称，在@dirty_data_continue开启的情况下，需要指定该值，特别注意：脏数据文件将被分割成两个部分.part1和.part2，part1作为更早的脏数据，part2作为更新的数据
+shard_id :写入指定的 shard_id，默认轮询发送
+shard_keys :按照指定字段的值计算hash，依据于该hash值落某个shard
+retry_limit :fluentd自带的 retry次数, 由于可能导致数据重写，该参数默认设置为0
+put_data_batch_size :多少条数据 写一次datahub, 默认100条，请不要超出1000条。
+data_encoding :默认使用源数据标示的encode方式，根据string.encoding获取，如果需要指定源数据编码方式，请设置该值，支持的类型："US-ASCII", "ASCII-8BIT", "UTF-8",

data/VERSION CHANGED

	@@ -1 +1 @@
1	- 0.0.1
1	+ 0.0.2

data/lib/fluent/plugin/datahub/datahub-http-client-test.rb CHANGED

@@ -6,7 +6,7 @@ require_relative "datahub-record-entity"
 class DatahubHttpClientTest < Test::Unit::TestCase
     # def setup
-        # @client = DatahubHttpClient.new("http://10.101.200.231:12357", "63wd3dpztlmb5ocdkj94pxmm", "oRd30z7sV4hBX9aYtJgii5qnyhg=")
+        # @client = DatahubHttpClient.new("", "", "")
         # @project_name = "ruby_sdk_test_project"
         # begin
@@ -110,7 +110,7 @@ class DatahubHttpClientTest < Test::Unit::TestCase
     # end
     #
     # def test_write_and_read
-    #     @client = DatahubClient.new("http://10.101.200.231:12357", "63wd3dpztlmb5ocdkj94pxmm", "oRd30z7sV4hBX9aYtJgii5qnyhg=")
+    #     @client = DatahubClient.new("", "", "")
     #     @datahub_project = @client.get_project("test_project")
     #     # @datahub_topic = @datahub_project.get_topic("fluentd_out_6")
     #     # abc = @datahub_topic.record_schema
@@ -312,7 +312,7 @@ class DatahubHttpClientTest < Test::Unit::TestCase
     # end
     def test
-        @client = DatahubHttpClient.new("http://10.101.200.231:12357", "63wd3dpztlmb5ocdkj94pxmm", "oRd30z7sV4hBX9aYtJgii5qnyhg=")
+        @client = DatahubHttpClient.new("", "", "")
         record_schema = RecordSchema.new
         record_schema.setEncoding("UTF-8")

data/lib/fluent/plugin/out_datahub.rb CHANGED

@@ -43,13 +43,13 @@ module Fluent
         config_param :dirty_data_file, :string, :default => ""
         # 脏数据文件的最大大小，该值保证脏数据文件最大大小不超过这个值，目前该值仅是一个参考值
-        config_param :dirty_data_file_max_size, :integer, :required => false, :default => 50024000
+        config_param :dirty_data_file_max_size, :integer, :default => 50024000
         # 写入指定的 shard_id
-        config_param :shard_id, :string, :required => false, :default => ""
+        config_param :shard_id, :string, :default => ""
         # 按照指定字段的值计算hash，依据于该hash值落某个shard
-        config_param :shard_keys, :array, :required => false, :default => []
+        config_param :shard_keys, :array, :default => []
         # fluentd自带的 retry次数, 由于可能导致数据重写，该参数默认设置为0
         config_param :retry_limit, :integer, :default => 0

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: fluent-plugin-datahub
 version: !ruby/object:Gem::Version
-  version: 0.0.1
+  version: 0.0.2
 platform: ruby
 authors:
 - Aliyun
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2016-09-19 00:00:00.000000000 Z
+date: 2017-03-31 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: fluentd
@@ -90,7 +90,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.4.5.1
+rubygems_version: 2.6.10
 signing_key:
 specification_version: 4
 summary: Aliyun Datahub output plugin for Fluentd event collector