RubyGems - arquivo - Versions diffs - 0.2.2 → 0.2.3 - Mend

arquivo 0.2.2 → 0.2.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: ed65dd3f514e1950093d139e190ba9104037dc1637f4aa63a879aa5a26e7707f
-  data.tar.gz: 75603c49ac01b58575ad63bba4aee0cf5265594fa41a95407aaa10125a717cf4
+  metadata.gz: cb7ecf71153002b263d88303a43e2c298d9afc9a25bf1ff996c18016c60dc6eb
+  data.tar.gz: 9304605a85684d6572891709c48082bf730d38ddc8c273a614ad5052a04596c3
 SHA512:
-  metadata.gz: 2440e3fa68fbc48bc7e34432bcbb0d832d6c530c3dbbe872b649cb9f7c6d830b7e04034621b8dbbc8a2ad506abce5587394b6334c324f9c1932fd0f09cdca2d4
-  data.tar.gz: dc20b52f6c192f51922637b96ebc8cc063178ce5812a8947aa0cc1f13c395cbba8698a0810d4269e70af9693cbbaf72ce54905726a46c74c8c958e7615a9a536
+  metadata.gz: 00aaddf208d5ab5123858c2ea52105b2c18495e35e398059c17b982a082fcdc80762a5d6d8f75bfa43e2cc5faeb6b0b68fc7ec05c91934e1620e35f6eec4a36f
+  data.tar.gz: 2c5f2f72098327bc4fee7df75281e5a55ded17058af3af633527750ecc04250ede81f4b06bb575d2be9b0854b73834ec10d44dfa2f1b1ed142d2c7eb02a9cc6e

data/Gemfile.lock CHANGED

@@ -1,7 +1,7 @@
 PATH
   remote: .
   specs:
-    arquivo (0.2.2)
+    arquivo (0.2.3)
       fastimage (~> 2.1)
       google-api-client (~> 0.34)
       pdf-reader (~> 2.3)
@@ -49,7 +49,7 @@ GEM
       hashery (~> 2.0)
       ruby-rc4
       ttfunk
-    public_suffix (4.0.1)
+    public_suffix (4.0.2)
     rake (10.5.0)
     representable (3.0.4)
       declarative (< 0.1.0)

data/lib/arquivo.rb CHANGED

@@ -76,7 +76,7 @@ module Arquivo
     def dir(pasta)
       return unless File.ftype(pasta) == 'directory'
-      C118dir.new(pasta, options).processa_pasta(pasta)
+      C118dir.new(pasta, options).processa_pasta
     end
   end
 end

data/lib/arquivo/dir.rb CHANGED

@@ -7,21 +7,15 @@ require 'googleauth/stores/file_token_store'
 require 'arquivo/noise'
 module Arquivo
-  # O1 = '2>/dev/null'
-  # O2 = '1>/dev/null 2>&1'
-  O1 = ''
-  O2 = ''
-  AT = ['.mp3', '.m4a', '.wav', '.sox'].freeze
   # permite processar e arquivar pasta com documentos c118
   class C118dir < Enumerator
     # @!group processamento
-    # processa items duma pasta - sub-pastas recursivamente
+    # processa items duma pasta
     def processa_items
       n = 0
       while next_item
         if File.ftype(item) == 'directory'
-          C118dir.new(item, opcoes).processa_pasta(item)
+          C118dir.new(item, opcoes).processa_pasta
         else
           processa_file(File.extname(item).downcase)
           n += 1
@@ -36,16 +30,16 @@ module Arquivo
     def processa_fim(num)
       return unless num.positive?
-      cmd = if /minuta/i.match?(base)
-              "rm -f #{base}.*"
+      cmd = if contem == :fsg
+              "rm -f #{nome}.*;sox tmp/zip/* #{nome}.mp3"
             else
-              "rm -f #{base}.*;pdftk tmp/stamped*.pdf cat output #{base}.pdf"
+              "rm -f #{nome}.*;pdftk tmp/stamped* cat output #{nome}.pdf"
             end
-      system cmd + ";cd tmp/zip;tar cf ../../#{base}.tar *" \
-                   ";cd ../..;gzip --best #{base}.tar" \
-                   '' # ';rm -rf tmp'
+      system cmd + ";cd tmp/zip;tar cf ../../#{nome}.tar *" \
+                   ";cd ../..;gzip --best #{nome}.tar" \
+                   ';rm -rf tmp'
-      puts "#{base} (#{num})"
+      puts "#{nome} (#{num})"
     end
     # processa ficheiro JPG, PDF ou AUDIO
@@ -63,13 +57,11 @@ module Arquivo
     end
     # processa conteudo duma pasta
-    #
-    # @param pasta (see CLI#dir)
-    def processa_pasta(pasta)
-      unless File.ftype(items.peek) == 'directory'
+    def processa_pasta
+      if contem
         system 'mkdir -p tmp/zip'
-        obtem_dados(pasta)
-        obtem_noiseprof(pasta)
+        obtem_dados
+        obtem_noiseprof
       end
       processa_items
     end
@@ -82,19 +74,16 @@ module Arquivo
     end
     # @!group dados online
-    # @param pasta (see CLI#dir)
     # @return [Hash] dados oficiais para reclassificacao de faturas e recibos
-    def obtem_dados(pasta)
+    def obtem_dados
       @dados = {}
       # somente faturas e recibos necessitam reclassificacao
-      return unless /fac?tura/i.match?(pasta) || /recibo/i.match?(pasta)
+      return unless %i[fft frc].include?(contem)
       # sheet c118-contas
       dg = '1PbiMrtTtqGztZMhe3AiJbDS6NQE9o3hXebnQEFdt954'
-      # range dos dados (faturas/recibos)
-      sh = (/fac?tura/i.match?(pasta) ? 'rft' : 'rrc') + '!A2:E'
-      @dados = c118_sheets.get_spreadsheet_values(dg, sh).values
-                          .group_by { |k| k[0][/\w+/] }
+      @dados = c118_sheets.get_spreadsheet_values(dg, contem.to_s + '!A2:E')
+                          .values.group_by { |k| k[0][/\w+/] }
     rescue StandardError
       @dados = {}
     end

data/lib/arquivo/extrato.rb CHANGED

@@ -101,7 +101,7 @@ module Arquivo
       @paginas = []
       n = pagina.scan(%r{N\. *(\d+)/(\d+)}).flatten
-      @nome = n.empty? ? nil : "ex#{n[0][/\d{2}$/]}#{n[1]}"
+      @nome = n.empty? ? nil : "ex#{n[1]}-#{n[0]}"
     rescue StandardError
       @nome = nil
     end

data/lib/arquivo/jpg.rb CHANGED

@@ -3,7 +3,7 @@
 require 'fastimage'
 module Arquivo
-  # size limit after trim attempt
+  # tipos de audio que consigo processa
   LT = 9000
   # A4 page (8.27x11.69) inches
@@ -54,18 +54,28 @@ module Arquivo
       apara.pdf.final(dad[id]).marca
     end
-    # @return [C118jpg] jpg com melhor aparado
+    # @return [C118jpg] jpg com melhor aparo
     def apara
-      f = opcoes[:fuzz]
-      h = {}
-      # aparar borders ao maximo
-      while f >= 1
-        o = "tmp/#{id}-#{f}.jpg"
-        h[o] = size_aparado(f, o)
-        f -= 4
-      end
-      m = h.min_by { |_, v| v }
-      m[1].between?(LT, size) ? C118jpg.new(m[0], opcoes) : self
+      system cmd_apara(opcoes[:fuzz], '')
+      melhor_aparo
+    end
+    # @return (see #apara)
+    def melhor_aparo
+      m = Dir.glob("tmp/#{id}-*.jpg")
+             .map { |s| [s, File.size(s)] }
+             .min_by { |_, v| v.between?(LT, size) ? v : size }
+      m[1] < size ? C118jpg.new(m[0], opcoes) : self
+    end
+    # @return [String] comando para aparar imagem
+    def cmd_apara(fuzz, cmd)
+      return cmd[1..-1] unless fuzz >= 1
+      cmd += ";convert \"#{file}\" -fuzz #{fuzz}% -trim +repage " \
+             "#{oqualidade} tmp/#{id}-#{fuzz}.jpg #{O2}"
+      cmd_apara(fuzz - 4, cmd)
     end
     # @return [C118pdf] pdf com jpg processada dentro
@@ -76,15 +86,6 @@ module Arquivo
       C118pdf.new("tmp/#{id}-trimed.pdf", opcoes)
     end
-    # @param [Numeric] fuzz fuzziness actual em processamento
-    # @param [String] out jpg aparada
-    # @return [Numeric] tamanho da jpg aparada
-    def size_aparado(fuzz, out)
-      system "convert \"#{file}\" -fuzz #{fuzz}% -trim +repage " \
-             "#{oqualidade} #{out} #{O2}"
-      File.size(out)
-    end
     # @return [String] opcoes comprimir jpg
     def oqualidade
       "-quality #{opcoes[:quality]}% -compress jpeg"

data/lib/arquivo/mp3.rb CHANGED

@@ -60,7 +60,7 @@ module Arquivo
     # @param [Integer] pse numero do segmento em processamento
     # @return [String] nome do segmento
     def nome_segmento(pse)
-      "s#{format('%<v>02d', v: pse)}-#{base[/\d{8}/]}#{base[/-\w+/]}"
+      "sg#{format('%<v>02d', v: pse)}-#{base[/\d{8}/]}#{base[/-\w+/]}"
     end
     # @param tempos (see #segmenta_minuta)

data/lib/arquivo/noise.rb CHANGED

@@ -1,17 +1,29 @@
 # frozen_string_literal: true
 module Arquivo
+  O1 = '2>/dev/null'
+  O2 = '1>/dev/null 2>&1'
+  # tipos de audio que consigo processar
+  AT = %w[.mp3 .m4a .wav .sox].freeze
+  # tipos de documentos validos
+  # @example contem (see C118dir#obtem_conteudo)
+  DT = %i[fsc fsg frc fft fex].freeze
   # permite processar e arquivar pasta com documentos c118
   class C118dir < Enumerator
+    # @return [String] local da pasta
+    attr_reader :local
     # @return [Enumerator] items dentro duma pasta
     attr_reader :items
-    # @return [String] base nome ficheiros para arquivo (pdf, tar.gz)
-    attr_reader :base
+    # @return [String] nome ficheiro de arquivo
+    attr_reader :nome
     # @return [Hash] parametrizar JPG, MINUTA
     attr_reader :opcoes
+    # @return [Symbol] conteudo da pasta
+    attr_reader :contem
     # @return [String] documento c118
     attr_reader :item
     # @return (see #obtem_dados)
     attr_reader :dados
     # @return (see #obtem_noiseprof)
@@ -30,54 +42,77 @@ module Arquivo
     # @option opt [Numeric] :rate (16) sample rate - radio-16k, CD-44.1k,
     #   PC-48k, pro-96k
     # @return [C118dir] pasta de documentos c118
-    def initialize(pasta, opt)
-      @items = Dir.glob(File.join(pasta, '*')).each
-      @base = File.basename(pasta, File.extname(pasta)) + '-' +
+    def initialize(dir, opt)
+      c = Dir.glob(File.join(dir, '*'))
+      @local = dir
+      @items = c.each
+      @nome = File.basename(dir, File.extname(dir)) + '-' +
               Date.today.strftime('%Y%m%d')
       @opcoes = opt
+      @contem = obtem_conteudo(c)
+    end
+    # Agrupa conteudo duma pasta segundo tipos de documentos validos
+    #
+    # @param [Array] fls lista items duma pasta
+    # @return [Symbol] tipo de conteudo
+    # @example contem
+    #   :fsc scq
+    #   :fsg minutas
+    #   :frc recibos
+    #   :fft faturas
+    #   :fex extratos
+    def obtem_conteudo(fls)
+      t = fls.group_by { |f| File.ftype(f)[0] + File.basename(f)[0, 2] }.keys
+      return unless t.size == 1 && DT.include?(t[0].to_sym)
+      t[0].to_sym
     end
     # @!group perfil silencio
-    # @param pasta (see CLI#dir)
     # @return [String] perfil do maior silencio inicial de todos segmentos audio
-    def obtem_noiseprof(pasta)
-      return unless /minuta/i.match?(pasta)
+    def obtem_noiseprof
+      return unless contem == :fsg
-      l = obtem_segmentos(pasta)
+      l = obtem_segmentos
       return unless l.size.positive?
       t = -1
       m = ['', 0]
-      m = obtem_maximo_silencio(l, t += 1) while noisy?(m, t)
+      m = maximo_silencio(l, t += 1) while noisy?(m[1], t)
       cria_noiseprof(m)
     end
-    # @param [Array<String, Float>] seg segmento, duracao silencio inicial
-    # @param thr (see #obtem_maximo_silencio)
+    # @param [Float] duracao silencio
+    # @param thr (see #maximo_silencio)
     # @return [Boolean] segmento audio tem som ou silencio no inicio
-    def noisy?(seg, thr)
-      thr < opcoes[:threshold] && seg[1] <= opcoes[:sound]
+    def noisy?(sin, thr)
+      thr < opcoes[:threshold] && sin <= opcoes[:sound]
     end
-    # @param [Array] lsg lista segmentos audio com duracoes
+    # @param [Array] lsg lista segmentos audio com duracoes e file silencio
     # @param [Numeric] thr limiar para silencio em processamento
     # @return [Array<String, Float>] segmento com maior duracao silencio inicial
-    def obtem_maximo_silencio(lsg, thr)
-      lsg.sort.map { |e| obtem_silencio(e, thr) }.max_by { |_, s| s }
+    def maximo_silencio(lsg, thr)
+      system lsg.inject('') { |s, e| s + cmd_silencio(e, thr) }[1..-1]
+      lsg.map { |e| [e[0], duracao_silencio(e)] }.max_by { |_, s| s }
     end
-    # @param [Array<String, Float>] seg segmento audio, duracao
-    # @param thr (see #obtem_maximo_silencio)
-    # @return [Array<String, Float>] segmento audio, duracao silencio inicial
-    def obtem_silencio(seg, thr)
-      o = "tmp/thr-#{File.basename(seg[0])}"
-      system "sox #{seg[0]} #{o} silence 1 #{opcoes[:sound]}t #{thr}% #{O2}"
+    # @param [Array<String, Float, String>] seg segmento, duracao, file silencio
+    # @param thr (see #maximo_silencio)
+    # @return [String] comando para cortar silencio inicial sum segmento
+    def cmd_silencio(seg, thr)
+      ";sox #{seg[0]} #{seg[2]} silence 1 #{opcoes[:sound]}t #{thr}% #{O2}"
+    end
-      [seg[0], (seg[1] - duracao(o)).round(2, half: :down)]
+    # @param seg (see #cmd_silencio)
+    # @return [Float] duracao silencio em segundos
+    def duracao_silencio(seg)
+      (seg[1] - duracao(seg[2])).round(2, half: :down)
     end
-    # @param seg (see #noisy?)
+    # @param [Array<String, Float>] seg segmento, duracao silencio inicial
     # @return [String] perfil sonoro do silencio inicial dum segmento
     def cria_noiseprof(seg)
       return unless seg[1] > opcoes[:sound]
@@ -90,11 +125,10 @@ module Arquivo
       @noiseprof = File.size?(o).positive? ? o : nil
     end
-    # @param pasta (see CLI#dir)
-    # @return [Array] lista segmentos audio com duracoes
-    def obtem_segmentos(pasta)
-      AT.map { |e| Dir.glob(File.join(pasta, 's[0-9][0-9]-*' + e)) }.flatten
-        .map { |s| [s, duracao(s)] }
+    # @return [Array] lista segmentos audio com duracoes e file silencio
+    def obtem_segmentos
+      AT.map { |e| Dir.glob(File.join(local, 'sg*' + e)) }.flatten
+        .map { |s| [s, duracao(s), "tmp/thr-#{File.basename(s)}"] }
     end
     # @param [String] audio ficheiro de audio

data/lib/arquivo/pdf.rb CHANGED

@@ -121,7 +121,7 @@ module Arquivo
       return false if id[0] == 'r'
       o = "tmp/#{id}.txt"
-      # se pdf contem texto -> not scanned
+      # se pdf contem texto -> not scanned pdf
       system "pdftotext -q -eol unix -nopgbrk \"#{file}\" #{o}"
       return false if File.size?(o)
@@ -129,6 +129,7 @@ module Arquivo
       # utilizar somente 1 imagem, comvertida em jpg
       system "convert #{Dir.glob("tmp/#{id}-???.???")[0]} #{jpg} #{O2}"
+      # jpg demasiado pequeno -> not scanned pdf
       File.size?(jpg) > LT
     end

data/lib/arquivo/version.rb CHANGED

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module Arquivo
-  VERSION = '0.2.2'
+  VERSION = '0.2.3'
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: arquivo
 version: !ruby/object:Gem::Version
-  version: 0.2.2
+  version: 0.2.3
 platform: ruby
 authors:
 - Hernâni Rodrigues Vaz
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2019-12-28 00:00:00.000000000 Z
+date: 2019-12-30 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler