scylla 0.4.3 → 0.5.0

Sign up to get free protection for your applications and to get access to all the features.
Files changed (94) hide show
  1. data/Gemfile +1 -0
  2. data/Gemfile.lock +10 -0
  3. data/VERSION +1 -1
  4. data/lib/scylla/generator.rb +1 -1
  5. data/lib/scylla/lms/13375P33K.lm +156 -156
  6. data/lib/scylla/lms/arabic.lm +133 -133
  7. data/lib/scylla/lms/bulgarian.lm +122 -122
  8. data/lib/scylla/lms/catalan.lm +151 -151
  9. data/lib/scylla/lms/danish.lm +137 -137
  10. data/lib/scylla/lms/english.lm +207 -207
  11. data/lib/scylla/lms/french.lm +400 -400
  12. data/lib/scylla/lms/japanese.lm +400 -400
  13. data/lib/scylla/lms/korean.lm +233 -233
  14. data/lib/scylla/lms/norwegian.lm +398 -398
  15. data/lib/scylla/lms/spanish.lm +98 -98
  16. data/lib/scylla/lms/swedish.lm +123 -123
  17. data/lib/scylla/lms/tagalog.lm +223 -223
  18. data/lib/scylla/lms/welsh.lm +234 -234
  19. data/lib/scylla/resources.rb +10 -10
  20. data/scylla.gemspec +17 -40
  21. data/source_texts/catalan.txt +28 -28
  22. data/source_texts/danish.txt +62 -62
  23. data/source_texts/english.txt +10 -10
  24. data/source_texts/french.txt +470 -77
  25. data/source_texts/japanese.txt +453 -199
  26. data/source_texts/norwegian.txt +96 -63
  27. data/source_texts/spanish.txt +269 -269
  28. data/test/classifier_test.rb +2 -2
  29. data/test/fixtures/lms/13375p33k.lm +156 -156
  30. data/test/fixtures/lms/danish.lm +137 -137
  31. data/test/fixtures/lms/english.lm +207 -207
  32. data/test/fixtures/lms/french.lm +400 -400
  33. data/test/fixtures/lms/hindi.lm +400 -0
  34. data/test/fixtures/lms/italian.lm +400 -0
  35. data/test/fixtures/lms/japanese.lm +400 -400
  36. data/test/fixtures/lms/norwegian.lm +400 -0
  37. data/test/fixtures/lms/spanish.lm +98 -98
  38. data/test/fixtures/source_texts/danish.txt +62 -62
  39. data/test/fixtures/source_texts/english.txt +10 -10
  40. data/test/fixtures/source_texts/french.txt +470 -77
  41. data/test/fixtures/source_texts/hindi.txt +199 -0
  42. data/test/fixtures/source_texts/italian.txt +120 -0
  43. data/test/fixtures/source_texts/japanese.txt +453 -199
  44. data/test/fixtures/source_texts/norwegian.txt +190 -0
  45. data/test/fixtures/source_texts/spanish.txt +269 -269
  46. data/test/fixtures/test_languages/english +61 -0
  47. data/test/fixtures/test_languages/french +0 -0
  48. data/test/fixtures/test_languages/german +29 -0
  49. data/test/fixtures/test_languages/hindi +3 -0
  50. data/test/fixtures/test_languages/italian +6 -0
  51. data/test/fixtures/test_languages/japanese +79 -0
  52. data/test/fixtures/test_languages/norwegian +14 -0
  53. data/test/fixtures/test_languages/spanish +22 -0
  54. data/test/generator_test.rb +0 -1
  55. data/test/language_test.rb +28 -0
  56. metadata +20 -43
  57. data/lib/scylla/lms/esperanto.lm +0 -400
  58. data/lib/scylla/lms/hungarian.lm +0 -400
  59. data/lib/scylla/lms/irish.lm +0 -400
  60. data/lib/scylla/lms/kannada.lm +0 -400
  61. data/lib/scylla/lms/latin.lm +0 -400
  62. data/lib/scylla/lms/malay.lm +0 -400
  63. data/lib/scylla/lms/marathi.lm +0 -400
  64. data/lib/scylla/lms/mingo.lm +0 -400
  65. data/lib/scylla/lms/nepali.lm +0 -400
  66. data/lib/scylla/lms/quechua.lm +0 -400
  67. data/lib/scylla/lms/rumantsch.lm +0 -400
  68. data/lib/scylla/lms/sanskrit.lm +0 -400
  69. data/lib/scylla/lms/scots_gaelic.lm +0 -400
  70. data/lib/scylla/lms/serbian.lm +0 -400
  71. data/lib/scylla/lms/swahili.lm +0 -400
  72. data/lib/scylla/lms/tamil.lm +0 -400
  73. data/lib/scylla/lms/ukrainian.lm +0 -400
  74. data/lib/scylla/lms/yiddish.lm +0 -400
  75. data/source_texts/esperanto.txt +0 -199
  76. data/source_texts/hungarian.txt +0 -102
  77. data/source_texts/irish.txt +0 -209
  78. data/source_texts/kannada.txt +0 -283
  79. data/source_texts/latin.txt +0 -120
  80. data/source_texts/malay.txt +0 -108
  81. data/source_texts/marathi.txt +0 -100
  82. data/source_texts/mingo.txt +0 -146
  83. data/source_texts/nepali.txt +0 -131
  84. data/source_texts/quechua.txt +0 -108
  85. data/source_texts/rumantsch.txt +0 -110
  86. data/source_texts/sanskrit.txt +0 -135
  87. data/source_texts/scots_gaelic.txt +0 -93
  88. data/source_texts/serbian.txt +0 -121
  89. data/source_texts/swahili.txt +0 -120
  90. data/source_texts/tamil.txt +0 -167
  91. data/source_texts/ukrainian.txt +0 -214
  92. data/source_texts/yiddish-utf.txt +0 -83
  93. data/test/fixtures/lms/kannada.lm +0 -400
  94. data/test/fixtures/source_texts/kannada.txt +0 -283
data/scylla.gemspec CHANGED
@@ -5,11 +5,11 @@
5
5
 
6
6
  Gem::Specification.new do |s|
7
7
  s.name = %q{scylla}
8
- s.version = "0.4.3"
8
+ s.version = "0.5.0"
9
9
 
10
10
  s.required_rubygems_version = Gem::Requirement.new(">= 0") if s.respond_to? :required_rubygems_version=
11
11
  s.authors = ["Ashwin Hegde"]
12
- s.date = %q{2011-09-12}
12
+ s.date = %q{2011-09-21}
13
13
  s.default_executable = %q{scylla}
14
14
  s.description = %q{Allows for text categorization by guessing the language of a given text using n-grams}
15
15
  s.email = %q{ahegde@zendesk.com}
@@ -38,49 +38,31 @@ Gem::Specification.new do |s|
38
38
  "lib/scylla/lms/chinese.lm",
39
39
  "lib/scylla/lms/danish.lm",
40
40
  "lib/scylla/lms/english.lm",
41
- "lib/scylla/lms/esperanto.lm",
42
41
  "lib/scylla/lms/finnish.lm",
43
42
  "lib/scylla/lms/french.lm",
44
43
  "lib/scylla/lms/german.lm",
45
44
  "lib/scylla/lms/greek.lm",
46
45
  "lib/scylla/lms/hebrew.lm",
47
46
  "lib/scylla/lms/hindi.lm",
48
- "lib/scylla/lms/hungarian.lm",
49
47
  "lib/scylla/lms/icelandic.lm",
50
48
  "lib/scylla/lms/indonesian.lm",
51
- "lib/scylla/lms/irish.lm",
52
49
  "lib/scylla/lms/italian.lm",
53
50
  "lib/scylla/lms/japanese.lm",
54
- "lib/scylla/lms/kannada.lm",
55
51
  "lib/scylla/lms/korean.lm",
56
- "lib/scylla/lms/latin.lm",
57
- "lib/scylla/lms/malay.lm",
58
- "lib/scylla/lms/marathi.lm",
59
- "lib/scylla/lms/mingo.lm",
60
- "lib/scylla/lms/nepali.lm",
61
52
  "lib/scylla/lms/norwegian.lm",
62
53
  "lib/scylla/lms/polish.lm",
63
54
  "lib/scylla/lms/portuguese.lm",
64
- "lib/scylla/lms/quechua.lm",
65
55
  "lib/scylla/lms/romanian.lm",
66
- "lib/scylla/lms/rumantsch.lm",
67
56
  "lib/scylla/lms/russian.lm",
68
- "lib/scylla/lms/sanskrit.lm",
69
- "lib/scylla/lms/scots_gaelic.lm",
70
- "lib/scylla/lms/serbian.lm",
71
57
  "lib/scylla/lms/slovak.lm",
72
58
  "lib/scylla/lms/slovenian.lm",
73
59
  "lib/scylla/lms/spanish.lm",
74
- "lib/scylla/lms/swahili.lm",
75
60
  "lib/scylla/lms/swedish.lm",
76
61
  "lib/scylla/lms/tagalog.lm",
77
- "lib/scylla/lms/tamil.lm",
78
62
  "lib/scylla/lms/thai.lm",
79
63
  "lib/scylla/lms/turkish.lm",
80
- "lib/scylla/lms/ukrainian.lm",
81
64
  "lib/scylla/lms/vietnamese.lm",
82
65
  "lib/scylla/lms/welsh.lm",
83
- "lib/scylla/lms/yiddish.lm",
84
66
  "lib/scylla/loader.rb",
85
67
  "lib/scylla/resources.rb",
86
68
  "lib/scylla/string.rb",
@@ -95,68 +77,63 @@ Gem::Specification.new do |s|
95
77
  "source_texts/chinese.txt",
96
78
  "source_texts/danish.txt",
97
79
  "source_texts/english.txt",
98
- "source_texts/esperanto.txt",
99
80
  "source_texts/finnish.txt",
100
81
  "source_texts/french.txt",
101
82
  "source_texts/german.txt",
102
83
  "source_texts/greek.txt",
103
84
  "source_texts/hebrew.txt",
104
85
  "source_texts/hindi.txt",
105
- "source_texts/hungarian.txt",
106
86
  "source_texts/icelandic.txt",
107
87
  "source_texts/indonesian.txt",
108
- "source_texts/irish.txt",
109
88
  "source_texts/italian.txt",
110
89
  "source_texts/japanese.txt",
111
- "source_texts/kannada.txt",
112
90
  "source_texts/korean.txt",
113
- "source_texts/latin.txt",
114
- "source_texts/malay.txt",
115
- "source_texts/marathi.txt",
116
- "source_texts/mingo.txt",
117
- "source_texts/nepali.txt",
118
91
  "source_texts/norwegian.txt",
119
92
  "source_texts/polish.txt",
120
93
  "source_texts/portuguese.txt",
121
- "source_texts/quechua.txt",
122
94
  "source_texts/romanian.txt",
123
- "source_texts/rumantsch.txt",
124
95
  "source_texts/russian.txt",
125
- "source_texts/sanskrit.txt",
126
- "source_texts/scots_gaelic.txt",
127
- "source_texts/serbian.txt",
128
96
  "source_texts/slovak.txt",
129
97
  "source_texts/slovenian.txt",
130
98
  "source_texts/spanish.txt",
131
- "source_texts/swahili.txt",
132
99
  "source_texts/swedish.txt",
133
100
  "source_texts/tagalog.txt",
134
- "source_texts/tamil.txt",
135
101
  "source_texts/thai.txt",
136
102
  "source_texts/turkish.txt",
137
- "source_texts/ukrainian.txt",
138
103
  "source_texts/vietnamese.txt",
139
104
  "source_texts/welsh.txt",
140
- "source_texts/yiddish-utf.txt",
141
105
  "test/classifier_test.rb",
142
106
  "test/fixtures/lms/13375p33k.lm",
143
107
  "test/fixtures/lms/danish.lm",
144
108
  "test/fixtures/lms/english.lm",
145
109
  "test/fixtures/lms/french.lm",
146
110
  "test/fixtures/lms/german.lm",
111
+ "test/fixtures/lms/hindi.lm",
112
+ "test/fixtures/lms/italian.lm",
147
113
  "test/fixtures/lms/japanese.lm",
148
- "test/fixtures/lms/kannada.lm",
114
+ "test/fixtures/lms/norwegian.lm",
149
115
  "test/fixtures/lms/spanish.lm",
150
116
  "test/fixtures/source_texts/13375P33K.txt",
151
117
  "test/fixtures/source_texts/danish.txt",
152
118
  "test/fixtures/source_texts/english.txt",
153
119
  "test/fixtures/source_texts/french.txt",
154
120
  "test/fixtures/source_texts/german.txt",
121
+ "test/fixtures/source_texts/hindi.txt",
122
+ "test/fixtures/source_texts/italian.txt",
155
123
  "test/fixtures/source_texts/japanese.txt",
156
- "test/fixtures/source_texts/kannada.txt",
124
+ "test/fixtures/source_texts/norwegian.txt",
157
125
  "test/fixtures/source_texts/spanish.txt",
126
+ "test/fixtures/test_languages/english",
127
+ "test/fixtures/test_languages/french",
128
+ "test/fixtures/test_languages/german",
129
+ "test/fixtures/test_languages/hindi",
130
+ "test/fixtures/test_languages/italian",
131
+ "test/fixtures/test_languages/japanese",
132
+ "test/fixtures/test_languages/norwegian",
133
+ "test/fixtures/test_languages/spanish",
158
134
  "test/generator_test.rb",
159
135
  "test/helper.rb",
136
+ "test/language_test.rb",
160
137
  "test/loader_test.rb",
161
138
  "test/scylla_test.rb"
162
139
  ]
@@ -92,11 +92,11 @@
92
92
  El treball de creació comporta implícita una labor mental, l'artista no
93
93
  llevaron a cabo en el permetent al mateix temps a l'Ajuntament la
94
94
 
95
- El català és una llengua romànica parlada per més de 11,5 milions de persones[1] (7,7 milions com a materna) a Catalunya, al País Valencià (tret d'algunes comarques de l'interior), les Illes Balears, Andorra, la Franja de Ponent (a l'Aragó), la ciutat de l'Alguer (a l'illa de Sardenya), la Catalunya del Nord[2] i el Carxe, un petit territori de Múrcia poblat per immigrants valencians.[3][4] El seu domini lingüístic, amb una superfície de 59.905 km² i 12.805.197 d'habitants (2006), inclou 1.687 termes municipals. Juntament amb les altres llengües romàniques, el català descendeix del llatí vulgar, el llenguatge comú dels romans que s'establiren a Hispània durant l'edat antiga.
95
+ El català és una llengua romànica parlada per més de 11,5 milions de persones (7,7 milions com a materna) a Catalunya, al País Valencià (tret d'algunes comarques de l'interior), les Illes Balears, Andorra, la Franja de Ponent (a l'Aragó), la ciutat de l'Alguer (a l'illa de Sardenya), la Catalunya del Nord i el Carxe, un petit territori de Múrcia poblat per immigrants valencians. El seu domini lingüístic, amb una superfície de 59.905 km² i 12.805.197 d'habitants (2006), inclou 1.687 termes municipals. Juntament amb les altres llengües romàniques, el català descendeix del llatí vulgar, el llenguatge comú dels romans que s'establiren a Hispània durant l'edat antiga.
96
96
  El català posseeix dos estàndards principals: el regulat per l'Institut d'Estudis Catalans, o estàndard general, que pren com a base l'ortografia establerta per Pompeu Fabra amb els trets gramaticals i ortogràfics característics del català central; i el regulat per l'Acadèmia Valenciana de la Llengua, estàndard d'àmbit restringit, centrat en l'estandardització del valencià i que pren com a base les Normes de Castelló, és a dir, l'ortografia de Pompeu Fabra però més adaptada a la pronúncia del català occidental i als trets que caracteritzen els dialectes valencians. El català té diversos dialectes (se n'han arribat a comptar fins a vint-i-un) dividits en dos grans blocs: el català occidental i el català oriental. Aquests dialectes presenten divergències del català estàndard a nivell gramatical, fonètic i de lèxic. Al llarg de les últimes dècades, la majoria dels dialectes del català han rebut una forta influència de l'espanyol, o del francès a la Catalunya del Nord, que ha deixat empremta en forma de nou vocabulari i noves expressions, i que també ha funcionat en sentit invers.
97
97
  L'ordre estàndard de les frases és Subjecte-Verb-Objecte, tot i que això pot canviar en certs tipus de frases com ara les oracions interrogatives. La morfologia del català és similar a la de la resta de llengües romàniques, és a dir, relativament poques flexions; dos gèneres, cap cas (excepte en els pronoms personals, on encara romanen vestigis de la declinació llatina), i una distinció entre singular i plural. Els adjectius van generalment darrere el substantiu que modifiquen, i també es flexionen segons el gènere i el nombre. La prosòdia presenta un accent prosòdic que pot ser marcat per mitjà d'accent gràfic. La llengua té una varietat vocàlica mitjana, amb set sons vocàlics diferents. El català també és notable pel pretèrit perfet perifràstic, un temps verbal singular per la manera com es construeix.
98
98
  Al segle xiv ja es constata la denominació d'aquesta llengua, entre d'altres noms, com a valencià, denominació emprada sobretot al País Valencià. Actualment, i per evitar els conflictes potencials que es podrien utilitzar com a arma política per afeblir la llengua en base a aquesta doble denominació, l'Acadèmia Valenciana de la Llengua defensa que:
99
- « És un fet que a Espanya hi ha dos denominacions igualment legals per a designar esta llengua: la de valencià, establida en l'Estatut d'Autonomia de la Comunitat Valenciana, i la de català, reconeguda en els Estatuts d'Autonomia de Catalunya i les Illes Balears.[5] »
99
+ « És un fet que a Espanya hi ha dos denominacions igualment legals per a designar esta llengua: la de valencià, establida en l'Estatut d'Autonomia de la Comunitat Valenciana, i la de català, reconeguda en els Estatuts d'Autonomia de Catalunya i les Illes Balears. »
100
100
  Taula de continguts [amaga]
101
101
  1 Classificació
102
102
  2 Història
@@ -142,8 +142,8 @@
142
142
  [modifica]Classificació
143
143
 
144
144
  El català és una llengua indoeuropea, i pertany a la branca occitanoromànica de les llengües romàniques. El català té una classificació bastant complicada i no exempta de polèmica (fins i tot amb un cert rerefons polític), car comparteix moltes característiques amb el castellà i el portuguès (llengües iberoromàniques) i el francès (gal·loromànica), i és la llengua més propera a l'occità. És per aquest motiu que la classificació de la llengua catalana varia entre les diferents fonts.
145
- La Gramàtica del català contemporani [6] situa el català dins de les llengües romàniques occidentals, en una posició intermèdia entre la família gal·loromànica i la família iberoromànica. El català nasqué dins de la família gal·loromànica i s'hi mantingué fins el segle xv, però a partir d'aleshores experimentà un decantament cap a la família iberoromànica. En comparar les diferents llengües romàniques, el català sovint s'ha considerat com una llengua pont o de transició entre les llengües iberoromàniques i les gal·loromàniques, posició que sovint implica certes connotacions de llengua menor. Altres estudis més moderns classifiquen el català dins el diasistema de les llengües occitanoromàniques, un conjunt lingüístic diferenciat en el context romànic.
146
- Posicions minoritàries dins la lingüística catalana, però majoritàries dins la lingüística occitana, sostenen que, d'acord amb criteris d'intel·ligibilitat mútua, semblança lingüística i tradició literària comuna entre el català i l'occità, ambdues llengües s'haurien de considerar com a dialectes d'un mateix idioma. Sobre aquesta qüestió els pares de la romanística, com ara Wilhelm Meyer-Lübke o Friedrich Christian Diez, van incloure el català com a part integrant del conjunt occità. [7][8][9][10][11][12]
145
+ La Gramàtica del català contemporani situa el català dins de les llengües romàniques occidentals, en una posició intermèdia entre la família gal·loromànica i la família iberoromànica. El català nasqué dins de la família gal·loromànica i s'hi mantingué fins el segle xv, però a partir d'aleshores experimentà un decantament cap a la família iberoromànica. En comparar les diferents llengües romàniques, el català sovint s'ha considerat com una llengua pont o de transició entre les llengües iberoromàniques i les gal·loromàniques, posició que sovint implica certes connotacions de llengua menor. Altres estudis més moderns classifiquen el català dins el diasistema de les llengües occitanoromàniques, un conjunt lingüístic diferenciat en el context romànic.
146
+ Posicions minoritàries dins la lingüística catalana, però majoritàries dins la lingüística occitana, sostenen que, d'acord amb criteris d'intel·ligibilitat mútua, semblança lingüística i tradició literària comuna entre el català i l'occità, ambdues llengües s'haurien de considerar com a dialectes d'un mateix idioma. Sobre aquesta qüestió els pares de la romanística, com ara Wilhelm Meyer-Lübke o Friedrich Christian Diez, van incloure el català com a part integrant del conjunt occità.
147
147
  [modifica]Història
148
148
 
149
149
  Article principal: Història de la llengua catalana
@@ -153,8 +153,8 @@
153
153
 
154
154
 
155
155
  Les Homilies d'Organyà són un dels primers documents literaris més antics escrits en català
156
- El primers testimonis de català escrit són del segle IX, encara que el primer document considerat literari en català són les Homilies d'Organyà, del segle XIII.[13] Fins als segles XVI i XVII, quan comença el retrocés de la llengua front al castellà, el català s'estén i la seva literatura es desenvolupa amb autors com ara Ramon Llull (s. XIII - s. XIV), Ausiàs March i Joanot Martorell (s. XV).
157
- L'ús del català fou prohibit al Principat de Catalunya en el camp oficial des del Decret de Nova Planta (1716),[14] al País Valencià (1707) i a Mallorca i Eivissa (1715). A Catalunya Nord ja s'havia aplicat una prohibició similar el 1700. Menorca va passar a sobirania britànica el 1713. Aquestes prohibicions van restar excepte breus períodes durant la primera i segona república espanyola als territoris catalans d'Espanya i fins a l'entrada dels diferents estatuts d'autonomia entre el 1978 i el 1983, excepte a la Franja. Aquesta oficialitat però és compartida amb el castellà, tot i no ésser la llengua pròpia. A més, el castellà continua essent la llengua promoguda per l'estat espanyol mitjançant els mitjans de comunicació, lleis, etc.
156
+ El primers testimonis de català escrit són del segle IX, encara que el primer document considerat literari en català són les Homilies d'Organyà, del segle XIII. Fins als segles XVI i XVII, quan comença el retrocés de la llengua front al castellà, el català s'estén i la seva literatura es desenvolupa amb autors com ara Ramon Llull (s. XIII - s. XIV), Ausiàs March i Joanot Martorell (s. XV).
157
+ L'ús del català fou prohibit al Principat de Catalunya en el camp oficial des del Decret de Nova Planta (1716), al País Valencià (1707) i a Mallorca i Eivissa (1715). A Catalunya Nord ja s'havia aplicat una prohibició similar el 1700. Menorca va passar a sobirania britànica el 1713. Aquestes prohibicions van restar excepte breus períodes durant la primera i segona república espanyola als territoris catalans d'Espanya i fins a l'entrada dels diferents estatuts d'autonomia entre el 1978 i el 1983, excepte a la Franja. Aquesta oficialitat però és compartida amb el castellà, tot i no ésser la llengua pròpia. A més, el castellà continua essent la llengua promoguda per l'estat espanyol mitjançant els mitjans de comunicació, lleis, etc.
158
158
  El català va ser parlat en el Regne de Múrcia per components militars de la Corona d'Aragó i per pobladors catalans des de mitjan segle XIII fins a finals del segle XIV. A la ciutat de Càller, a Sardenya, havia estat llengua habitual fins al segle xviii. Durant el segle xix hi va haver importants colònies catalanoparlants a Saint Augustine (Florida) i a Algèria en el dialecte extint conegut com a patuet.
159
159
  [modifica]Característiques del català
160
160
 
@@ -219,11 +219,11 @@
219
219
  El sistema d'escriptura també presenta certs trets particulars. El català presenta una característica única, l'escriptura de la ela geminada: ‹l·l› (com a intel·ligent). L'altre tret especial del català és la ‹ny› [ɲ] que només es retroba de manera general a l'hongarès i a diverses llengües africanes. També convé esmentar la grafia ‹-ig› [t͡ʃ] representada a poques paraules (com faig, maig, mig ([mit͡ʃ]), puig, raig, Reig, roig, vaig, veig) o la representació amb ‹t› + "consonant" les consonants dobles en: ‹tm›, ‹tn›, ‹tl› i ‹tll› i l'africament en: ‹ts›, ‹tz›, ‹tx›, ‹tg› i ‹tj› (setmana, cotna, Betlem, bitllet, potser, dotze, jutge, platja).
220
220
  [modifica]Gramàtica
221
221
  Article principal: Gramàtica del català
222
- Els substantius i adjectius catalans es declinen en gènere i nombre. Els substantius pertanyen a un d'entre dos gèneres – masculí per la forma un/una i femení per la forma una/unes.[15] Igual que els determinants, els adjectius han de concordar en gènere i nombre amb el substantiu que acompanyen. Per exemple, el sintagma el noi senzill es pot flexionar de la següent manera:
222
+ Els substantius i adjectius catalans es declinen en gènere i nombre. Els substantius pertanyen a un d'entre dos gèneres – masculí per la forma un/una i femení per la forma una/unes. Igual que els determinants, els adjectius han de concordar en gènere i nombre amb el substantiu que acompanyen. Per exemple, el sintagma el noi senzill es pot flexionar de la següent manera:
223
223
  Singular Plural
224
224
  Masculí el noi senzill els nois senzills
225
225
  Femení la noia senzilla les noies senzilles
226
- En el cas dels substantius que poden anar en masculí o femení, el femení es forma habitualment afegint el sufix -a a la forma masculina; per exemple, gat/gata o nen/nena. Tanmateix, també hi ha nombrosos adjectius que presenten una forma diferent pel masculí i el femení (home/dona, bou/vaca), que formen el femení de forma especial (emperador/emperadriu, metge/metgessa) o que tenen la mateixa forma pel masculí i el femení (estudiant, portaveu). En alguns pocs casos especials, un substantiu pot canviar de gènere si canvia de nombre. Així doncs, es diu "l'art paleocristià" però "les belles arts".[16]
226
+ En el cas dels substantius que poden anar en masculí o femení, el femení es forma habitualment afegint el sufix -a a la forma masculina; per exemple, gat/gata o nen/nena. Tanmateix, també hi ha nombrosos adjectius que presenten una forma diferent pel masculí i el femení (home/dona, bou/vaca), que formen el femení de forma especial (emperador/emperadriu, metge/metgessa) o que tenen la mateixa forma pel masculí i el femení (estudiant, portaveu). En alguns pocs casos especials, un substantiu pot canviar de gènere si canvia de nombre. Així doncs, es diu "l'art paleocristià" però "les belles arts".
227
227
  Les frases catalanes segueixen un esquema SVO (subjecte-verb-complement o objecte) si bé es permet la variació en l'ordre dels elemets per qüestions d'estil o per donar més rellevància a determinada informació. La paraula més important de la frase és el verb, ja que sense ell no existeix l'oració gramatical.
228
228
  [modifica]Nombre de parlants al món i coneixements
229
229
 
@@ -257,7 +257,7 @@
257
257
  Franja de Ponent 88,8 98,5 72,9 30,3
258
258
  L'Alguer 67,6 89,9 50,9 28,4
259
259
  (% de la població de 15 i més anys).
260
- Fonts: Catalunya: Dades del cens de l'any 2004, Institut d'Estadística de Catalunya, Generalitat de Catalunya[4] . Dades sociolingüístiques de l'IEC, any 2003[5] .País Valencià: Dades del cens de l'any 2004, Institut Valencià d'Estadística, Generalitat Valenciana[6] . Dades sociolingüístiques de l'IEC, any 2004[7] .Illes Balears: Dades del cens de l'any 2002, Institut Balear d'Estadística, Govern de les Illes Balears[8] .Dades sociolingüístiques de l'IEC, any 2002[9] . Catalunya del Nord: Estadística sobre els usos lingüístics a la Catalunya Nord 2004 (EULCN 04), dades corresponents al 1999, Generalitat de Catalunya[10] . Andorra: Dades dels cens, Servei d'Estudis, Ministeri de Finances, Govern d'Andorra[11] . Dades lingüístiques de l'IEC, any 1999[12] .Franja de Ponent: Dades de població, Centre de Recerca i Documentació Pau Vila[13] . Dades sociolingüístiques de l'Enquesta d'Usos Lingüístics a la Franja, amb resultats a Sorolla (2005) . Alguer: Estadística sobre els usos lingüístics a l 'Alguer 2004 (EULA 04)[14] . Dades de població, Ministeri d'Economia i Finances italià. Resta del Món: Estimació 1999 de la Federació d'Entitats Catalanes a l'exterior.
260
+ Fonts: Catalunya: Dades del cens de l'any 2004, Institut d'Estadística de Catalunya, Generalitat de Catalunya . Dades sociolingüístiques de l'IEC, any 2003 .País Valencià: Dades del cens de l'any 2004, Institut Valencià d'Estadística, Generalitat Valenciana . Dades sociolingüístiques de l'IEC, any 2004 .Illes Balears: Dades del cens de l'any 2002, Institut Balear d'Estadística, Govern de les Illes Balears .Dades sociolingüístiques de l'IEC, any 2002 . Catalunya del Nord: Estadística sobre els usos lingüístics a la Catalunya Nord 2004 (EULCN 04), dades corresponents al 1999, Generalitat de Catalunya . Andorra: Dades dels cens, Servei d'Estudis, Ministeri de Finances, Govern d'Andorra . Dades lingüístiques de l'IEC, any 1999 .Franja de Ponent: Dades de població, Centre de Recerca i Documentació Pau Vila . Dades sociolingüístiques de l'Enquesta d'Usos Lingüístics a la Franja, amb resultats a Sorolla (2005) . Alguer: Estadística sobre els usos lingüístics a l 'Alguer 2004 (EULA 04) . Dades de població, Ministeri d'Economia i Finances italià. Resta del Món: Estimació 1999 de la Federació d'Entitats Catalanes a l'exterior.
261
261
  [modifica]Ús social del català
262
262
  Territoris A Casa Al Carrer
263
263
  Catalunya 45 51
@@ -268,8 +268,8 @@
268
268
  Franja de Ponent 70 61
269
269
  L'Alguer 8 4
270
270
  (% de la població de 15 i més anys).
271
- Fonts: Vídeo i notícia que explica l'ús del català extret d'un estudi de la Generalitat.[15] [16]
272
- Segons dades de la UNESCO el català és actualment la vint-i-dosena llengua més traduïda a altres llengües del món.[17] Segons un estudi de Jordi Mas, de Softcatalà, el català és la vint-i-sisena llengua més emprada a Internet.[18]
271
+ Fonts: Vídeo i notícia que explica l'ús del català extret d'un estudi de la Generalitat.
272
+ Segons dades de la UNESCO el català és actualment la vint-i-dosena llengua més traduïda a altres llengües del món. Segons un estudi de Jordi Mas, de Softcatalà, el català és la vint-i-sisena llengua més emprada a Internet.
273
273
  [modifica]Dialectes de la llengua catalana
274
274
 
275
275
  Article principal: Dialectes del català
@@ -338,35 +338,35 @@
338
338
  c) Catanyol
339
339
 
340
340
  [modifica]Estàndards del català
341
- Existeixen dos estàndards principals per a la llengua catalana, el regulat per l'Institut d'Estudis Catalans, l'estàndard general vàlid per a tot el domini lingüístic, tenint com a centre l'ortografia establerta per Pompeu Fabra però amb els trets gramaticals i ortogràfics característics del català central[19] no influenciats pel castellà, i el regulat per l'Acadèmia Valenciana de la Llengua, estàndard d'àmbit restringit vàlid per al País Valencià, centrat en l'estandardització del valencià prenent com a base les Normes de Castelló, és a dir, l'ortografia de Pompeu Fabra però adaptada a la pronúncia del català occidental i als trets que caracteritzen els dialectes valencians.
341
+ Existeixen dos estàndards principals per a la llengua catalana, el regulat per l'Institut d'Estudis Catalans, l'estàndard general vàlid per a tot el domini lingüístic, tenint com a centre l'ortografia establerta per Pompeu Fabra però amb els trets gramaticals i ortogràfics característics del català central no influenciats pel castellà, i el regulat per l'Acadèmia Valenciana de la Llengua, estàndard d'àmbit restringit vàlid per al País Valencià, centrat en l'estandardització del valencià prenent com a base les Normes de Castelló, és a dir, l'ortografia de Pompeu Fabra però adaptada a la pronúncia del català occidental i als trets que caracteritzen els dialectes valencians.
342
342
  L'estàndard de l'IEC, ultra tenir com a base els trets del català central, pren també trets d'altres dialectes considerant-los com a estàndard. Tot i això, la diferència més notable de tots dos estàndards és l'accentuació de moltes "e" tòniques, per exemple: francès o anglès (IEC) - francés o anglés (AVL), cafè (IEC) - café (AVL), conèixer (IEC) - conéixer, comprèn (IEC) - comprèn (AVL). Això és degut a la diferent pronunciació d'algunes "e" tòniques, especialment les Ē ("e" llargues) i les Ǐ ("i" breus) tòniques del llatí, en ambdós blocs del català, on al bloc oriental es pronuncia [ɛ] a l'occidental es pronuncia [e]. Malgrat açò, l'estàndard de l'AVL manté l'accent greu "è", sense pronunciar-se obert al bloc occidental, en algunes paraules com són: què, València, èter, sèsam, sèrie i època.
343
343
  També hi ha altres divergències com l'ús de tl en alguns mots per l'AVL en comptes de tll com en ametla/ametlla, espatla/espatlla o butla/butlla, l'ús dels determinants demostratius elidits (este, eixe) igual que els reforçats (aquest, aqueix) o l'ús de moltes formes verbals comunes en el valencià, i moltes esteses pel bloc occidental, com les formes del subjuntiu o l'escriptura dels incoatius tant en -ix- com en -eix- o l'ús preferent del morfema -e de la 1a persona singular del present d'indicatiu.
344
344
  A les Illes Balears es fa servir l'estàndard de l'IEC adaptat al marc dialectal balear per la secció filològica de la Universitat de les Illes Balears, l'òrgan consultiu del Govern Balear. D'aquesta manera, per exemple, l'IEC indica que tant correcte és escriure "cantam" com "cantem" i la Universitat determina que la forma preferent a les Illes ha de ser "cantam" fins i tot en àmbits formals. Un altre tret de l'estàndard balear és l'escriptura de la 1a persona del singular del present d'indicatiu, on no hi ha desinència: "jo cant", "jo tem", jo "dorm".
345
345
  A l'Alguer, l'IEC ha adaptat l'estàndard a la varietat algueresa. En aquest estàndard s'hi pot trobar, entre d'altres característiques, l'article lo d'ús general, possessius especials la mia, lo sou/la sua, lo tou/la tua, etc., ús de la -v- al pretèrit imperfet a totes les conjugacions: cantava, creixiva, llegiva; ús de moltes paraules de caràcter arcaic a la resta del domini mes d'ús molt corrent a l'alguerès: manco per menys, calqui u per algú, qual/quala per quin/quina, etc. i adaptacions dels pronoms febles.
346
346
  [modifica]Situació sociolingüística del català
347
347
 
348
- La característica sociolingüística més destacada del català és que en tots els territoris on es parla es troba en situació de bilingüisme social: amb el francès a Catalunya del Nord, amb l'italià (més aviat que amb el sard) a L'Alguer, i amb el castellà a la resta del seu domini lingüístic, incloent-hi Andorra, on també es parla francès i espanyol. D'altra banda, el català és la desena llengua en traducció, la vuitena a la blogosfera i la vintena en edició al món.[20]
348
+ La característica sociolingüística més destacada del català és que en tots els territoris on es parla es troba en situació de bilingüisme social: amb el francès a Catalunya del Nord, amb l'italià (més aviat que amb el sard) a L'Alguer, i amb el castellà a la resta del seu domini lingüístic, incloent-hi Andorra, on també es parla francès i espanyol. D'altra banda, el català és la desena llengua en traducció, la vuitena a la blogosfera i la vintena en edició al món.
349
349
  [modifica]Catalunya
350
- Segons l’Enquesta Demogràfica de 2007, de les dades comparatives que aquesta enquesta ofereix en relació a les de l’any 1986, tot just encetada la política lingüística, destaca el fet que mentre la població en aquests 11 anys havia crescut en 1.193.467 habitants, la població que havia adquirit les distintes habilitats lingüístiques ho havia fet de manera superior: 1.304.446 persones més entenien el català, hi havia 1.570.034 nous parlants, 1.588.658 eren nous lectors i 2.116.533 persones més sabien escriure en català, factor que és atribuïble a una actitud social favorable i a polítiques públiques eficaces.[21]
351
- Tot i així, pel que fa als usos, el català és la segona llengua més parlada de Catalunya, on és superada pel castellà tant com a llengua materna,[22] d'identificació[23] i habitual[24] segons les dades oficials de l'Institut d'Estadística de Catalunya 2008.
350
+ Segons l’Enquesta Demogràfica de 2007, de les dades comparatives que aquesta enquesta ofereix en relació a les de l’any 1986, tot just encetada la política lingüística, destaca el fet que mentre la població en aquests 11 anys havia crescut en 1.193.467 habitants, la població que havia adquirit les distintes habilitats lingüístiques ho havia fet de manera superior: 1.304.446 persones més entenien el català, hi havia 1.570.034 nous parlants, 1.588.658 eren nous lectors i 2.116.533 persones més sabien escriure en català, factor que és atribuïble a una actitud social favorable i a polítiques públiques eficaces.
351
+ Tot i així, pel que fa als usos, el català és la segona llengua més parlada de Catalunya, on és superada pel castellà tant com a llengua materna, d'identificació i habitual segons les dades oficials de l'Institut d'Estadística de Catalunya 2008.
352
352
  Segons l'Institut d'Estadística de Catalunya, en 2008 el català era la llengua materna del 31,6% de la població, el 55% parlava castellà com a llengua materna i un 3,8% era bilingüe matern. L'idioma català ha patit també un fort retrocés com a llengua habitual passant del 46% el 2003 al 35,6% a 2008, mentre que el castellà es manté des del 47,2% el 2003 al 45,9% el 2008. Per la seva banda els bilingües perfectes segueixen incrementant fins el 12% el 2008. Segons la mateixa font el català ha seguit augmentant tant en parlants com en coneixement escrit de la població, però continua disminuint en percentatge respecte al total de la ciutadania catalana.
353
- A Catalunya el factor més important del bilingüisme social és la immigració des de la resta de l'estat espanyol. Hom ha calculat que, sense migracions, la població de Catalunya hagués passat d'uns 2 milions de persones al 1900 a 2,4 al 2001,[25] en comptes dels més de 6,1 milions censats en aquesta data (i que són més de 7 al 2008); és a dir, la població sense migració hauria estat el 39% de la real. El percentatge de parlants de català com a primera llengua a Catalunya ha passat del 36,2%, més 2,5% de bilingües en 2003 al 31,6% més un 3,8% de bilingües en 2008, unes dades[26] que confirmen el retrocés del català a Catalunya, encara que, més lentament que en altres territoris.
353
+ A Catalunya el factor més important del bilingüisme social és la immigració des de la resta de l'estat espanyol. Hom ha calculat que, sense migracions, la població de Catalunya hagués passat d'uns 2 milions de persones al 1900 a 2,4 al 2001, en comptes dels més de 6,1 milions censats en aquesta data (i que són més de 7 al 2008); és a dir, la població sense migració hauria estat el 39% de la real. El percentatge de parlants de català com a primera llengua a Catalunya ha passat del 36,2%, més 2,5% de bilingües en 2003 al 31,6% més un 3,8% de bilingües en 2008, unes dades que confirmen el retrocés del català a Catalunya, encara que, més lentament que en altres territoris.
354
354
  [modifica]País Valencià
355
- A la part del País Valencià on és llengua pròpia, existeix un procés de substitució lingüística del català pel castellà. Aquest procés s'ha completat gairebé del tot a la ciutat d'Alacant[27] i és molt avançat a la de València, malgrat que encara no és important a àrees rurals. Fins a una època recent, molts parlants eren en situació prop de la diglòssia, cosa que vol dir que feien servir el català només en situacions informals, mentre que a les situacions institucionalitzades feien servir exclusivament el castellà.
355
+ A la part del País Valencià on és llengua pròpia, existeix un procés de substitució lingüística del català pel castellà. Aquest procés s'ha completat gairebé del tot a la ciutat d'Alacant i és molt avançat a la de València, malgrat que encara no és important a àrees rurals. Fins a una època recent, molts parlants eren en situació prop de la diglòssia, cosa que vol dir que feien servir el català només en situacions informals, mentre que a les situacions institucionalitzades feien servir exclusivament el castellà.
356
356
  [modifica]Dades sociolingüístiques
357
- Les dades sociolingüístiques referides al valencià publicades al Llibre blanc de l’ús del valencià - I editat per l'Acadèmia Valenciana de la Llengua en 2005 [28] per l’AVL són:
357
+ Les dades sociolingüístiques referides al valencià publicades al Llibre blanc de l’ús del valencià - I editat per l'Acadèmia Valenciana de la Llengua en 2005 per l’AVL són:
358
358
  Quant a les quatre habilitats lingüístiques:
359
359
  El 76% de la població del País Valencià de més de quinze anys entén el valencià. Poc més de la meitat, el 53% és capaç de parlar-lo. El 46% està capacitada per a llegir-lo, i el 25% pot escriure'l.
360
360
  Quant a l’ús de la llengua. Les dades de l’ús del valencià donen compte de la minorització de la llengua:
361
361
  A casa el 36% usa el valencià predominantment o en exclusiva, El 33% l’utilitza en les relacions d'amistat i un 20% el fa servir en grans superfícies comercials
362
- Comparativa de la situació sociolingüística de 1985 [29] i 2004.[30]
362
+ Comparativa de la situació sociolingüística de 1985 i 2004.
363
363
  Quant a les quatre habilitats lingüístiques es verifica un estancament en el percentatge de població que és capaç d'entendre el valencià, una disminució en 7 punts de la població competent per a parlar-lo i un increment notable de la que pot llegir-lo i escriure’l (en 19 punts i 17 punts respectivament).
364
364
  Quant a l’ús de la llengua el percentatge de població que usa el valencià ha baixat 15 punts o més en tots els àmbits d’ús.
365
365
  [modifica]Balears
366
- El cas balear és semblant al de Catalunya, també aquí el factor principal en l'expansió del castellà ha estat la immigració, en mesura molt més gran que la substitució lingüística.[31]
366
+ El cas balear és semblant al de Catalunya, també aquí el factor principal en l'expansió del castellà ha estat la immigració, en mesura molt més gran que la substitució lingüística.
367
367
  [modifica]Catalunya del Nord
368
- A la Catalunya del Nord, com a la major part de França, el procés de substitució lingüística de la llengua local pel francès és molt avançat,[32] i encara el primer terç del segle XX el català era la llengua de relació en moltes poblacions, especialment en l'àmbit rural.[33]
369
- A la Catalunya del Nord, el català ha estat reconegut com a llengua del departament, ensems amb el francès, el 10 de desembre del 2007 pel Consell General dels Pirineus Orientals [34] mitjançant la Carta en favor del català. Tot i que aqueix acte no comporta pas cap conseqüència ni té pas cap valor legal a l'estat francès.
368
+ A la Catalunya del Nord, com a la major part de França, el procés de substitució lingüística de la llengua local pel francès és molt avançat, i encara el primer terç del segle XX el català era la llengua de relació en moltes poblacions, especialment en l'àmbit rural.
369
+ A la Catalunya del Nord, el català ha estat reconegut com a llengua del departament, ensems amb el francès, el 10 de desembre del 2007 pel Consell General dels Pirineus Orientals mitjançant la Carta en favor del català. Tot i que aqueix acte no comporta pas cap conseqüència ni té pas cap valor legal a l'estat francès.
370
370
  [modifica]Estatut jurídic actual de la llengua
371
371
 
372
372
  El fet que la comunitat lingüística catalana estiga disgregada en quatre estats diferents provoca una gran diversitat quant a l'estatut legal de la llengua.
@@ -391,13 +391,13 @@
391
391
  El Carxe. Dins l'Estat espanyol els catalanoparlants que tenen l'estatut jurídic més desfavorable són els carxencs.
392
392
  El Carxe és una zona catalanoparlant situada a terres de Múrcia que comprèn algunes pedanies dels municipis de Iecla, Jumella i Favanella. El català no té cap reconeixement oficial a la Comunitat Autònoma de Múrcia. L'única actuació en favor de la llengua la realitza l'Acadèmia Valenciana de la Llengua que des de 2006 imparteix classes de català a Iecla, atenent al prec de veïns carxencs.
393
393
  [modifica]Andorra
394
- Al Principat d'Andorra el català és l'única llengua oficial segons la Constitució d'Andorra del 1993.[35]
394
+ Al Principat d'Andorra el català és l'única llengua oficial segons la Constitució d'Andorra del 1993.
395
395
  [modifica]Catalunya Nord
396
396
  Exclusió de les llengües pròpies a França. Al llarg de la història l'Estat francés ha desenvolupat tot un sistema d'exclusió de les llengües pròpies.
397
397
  La llei Deixonne. Malgrat les inquietuds regionalistes que comencen a manifestar-se a principis del segle xx, caldrà esperar a la llei Deixonne de 1951. Aquesta Llei obria una petita escletxa en el sistema escolar. A l'escola primària, els mestres podien ser autoritzats a ensenyar durant una hora les llengües locals. A l'escola secundària només podien assegurar-se cursos com a activitats extraescolars. Les lleis posteriors sobre les "llengües locals i regionals no han anat més enllà de la llei Deixonne.
398
398
  [modifica]L'Alguer
399
- L'any 1997, el Consell Regional de Sardenya va reconèixer la igualtat en dignitat de la llengua sarda amb la italiana en tota l'illa, així com amb altres llengües d'àmbit més reduït entre les quals es cita el català a la ciutat de l'Alguer.[36] La ciutat, per la seua part, promou la normalització del català als seus estatuts de l'any 2000.[37]
400
- En virtut de la "Norma en matèria de tutela de les minories lingüístiques històriques del 1999", l'Estat italià preveu l'ús de llengües com el el català en l'administració pública i en el sistema educatiu, així com l'emissió de continguts radiotelevisius per part de la RAI sempre que així ho sol·licite el 15% de la població dels municipis que en facen la petició al consell provincial.[38]
399
+ L'any 1997, el Consell Regional de Sardenya va reconèixer la igualtat en dignitat de la llengua sarda amb la italiana en tota l'illa, així com amb altres llengües d'àmbit més reduït entre les quals es cita el català a la ciutat de l'Alguer. La ciutat, per la seua part, promou la normalització del català als seus estatuts de l'any 2000.
400
+ En virtut de la "Norma en matèria de tutela de les minories lingüístiques històriques del 1999", l'Estat italià preveu l'ús de llengües com el el català en l'administració pública i en el sistema educatiu, així com l'emissió de continguts radiotelevisius per part de la RAI sempre que així ho sol·licite el 15% de la població dels municipis que en facen la petició al consell provincial.
401
401
  [modifica]Influència del català en altres llengües
402
402
 
403
403
  [modifica]Parlars amb empremta de la llengua catalana
@@ -406,8 +406,8 @@
406
406
  Sicilià (Sicília)
407
407
  Napolità (Nàpols)
408
408
  Xurro (Comarques xurres)
409
- Patuet (originat a Algèria, avui testimonial a França entre alguns pied-noir)[39]
409
+ Patuet (originat a Algèria, avui testimonial a França entre alguns pied-noir)
410
410
  [modifica]Manlleus del català a altres llengües
411
- Hi ha paraules d'origen català que han relat en diverses llengües. Existeixen paraules que van entrar en la llengua castellana durant el segle xx a causa d'una expansió i importació d'especialitats vinculades a la gastronomia com poden ser les paraules ensaïmada, escalivada, paella, bajel (vaixell). I d'altres com orxata van arrelar al castellà per la mateixa raó però no eren originals del català sinó provinents d'origen llatí.[40]
412
- En anglès - que fa part de les llengües germàniques occidentals - han relat també diversos mots com Allioli, Barraca i Paella en la seva llengua.[41]
411
+ Hi ha paraules d'origen català que han relat en diverses llengües. Existeixen paraules que van entrar en la llengua castellana durant el segle xx a causa d'una expansió i importació d'especialitats vinculades a la gastronomia com poden ser les paraules ensaïmada, escalivada, paella, bajel (vaixell). I d'altres com orxata van arrelar al castellà per la mateixa raó però no eren originals del català sinó provinents d'origen llatí.
412
+ En anglès - que fa part de les llengües germàniques occidentals - han relat també diversos mots com Allioli, Barraca i Paella en la seva llengua.
413
413
  Paella, Barraca i Porxo han estat utilitzades per l'esperanto