<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>pintant... &#187; llengua</title>
	<atom:link href="http://pintant.cat/category/llengua/feed/" rel="self" type="application/rss+xml" />
	<link>http://pintant.cat</link>
	<description>amb teclat qwerty</description>
	<lastBuildDate>Sun, 22 Jan 2012 17:55:23 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Aprendre un llenguatge: llegir o escriure</title>
		<link>http://pintant.cat/2010/03/10/aprendre-un-llenguatge-llegir-o-escriure/</link>
		<comments>http://pintant.cat/2010/03/10/aprendre-un-llenguatge-llegir-o-escriure/#comments</comments>
		<pubDate>Wed, 10 Mar 2010 21:16:24 +0000</pubDate>
		<dc:creator>carles</dc:creator>
				<category><![CDATA[llengua]]></category>
		<category><![CDATA[Tecnologia]]></category>

		<guid isPermaLink="false">http://pintant.cat/?p=762</guid>
		<description><![CDATA[Fa temps que havia pensat una cosa semblant, però al Fosdem algú ho va explicar encara millor (tristament no recordo qui): per escriure un llenguatge primer es llegeix. Per parlar primer s&#8217;escolta. Bàsicament, primer llegim la lletra &#8220;a&#8221;, &#8220;e&#8221;, &#8220;i&#8221;&#8230; i quan sabem llegir una mica escrivim (sí, ja sé que en aquest cas hi [...]]]></description>
			<content:encoded><![CDATA[<p>Fa temps que havia pensat una cosa semblant, però al Fosdem algú ho va explicar encara millor (tristament no recordo qui): per escriure un llenguatge primer es llegeix. Per parlar primer s&#8217;escolta.</p>
<p>Bàsicament, primer llegim la lletra &#8220;a&#8221;, &#8220;e&#8221;, &#8220;i&#8221;&#8230; i quan sabem llegir una mica escrivim (sí, ja sé que en aquest cas hi ha el sistema motor per escriure que no val per llegir i altres «detalls»).<br />
<span id="more-762"></span><br />
Abans d&#8217;escriure una novel·la els escriptor en llegeixen força.</p>
<p>Per algun motiu, no es fa el mateix amb els llenguatges de programació, almenys no a la universitat. Un pot acabar d&#8217;estudiar informàtica amb qualsevol de les seves variants i, normalment, i fins on he pogut investigar demanant a amics, la gent escriu molt codi i en llegeix poc. Bàsicament llegeix el d&#8217;algun company i poca cosa més. Si ho comparem amb els llenguatges normals seria que un nen de 5 o 6 anys l&#8217;únic que llegís abans d&#8217;escriure serien les lletres dels seus companys.</p>
<p>Està una mica tret fora de context, però llegir codi és important igual que llegir llibres és important per escriure&#8217;n.</p>
]]></content:encoded>
			<wfw:commentRss>http://pintant.cat/2010/03/10/aprendre-un-llenguatge-llegir-o-escriure/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>De llengues (segona part). Diferències</title>
		<link>http://pintant.cat/2007/01/30/de-llengues-segona-part-diferencies/</link>
		<comments>http://pintant.cat/2007/01/30/de-llengues-segona-part-diferencies/#comments</comments>
		<pubDate>Tue, 30 Jan 2007 20:52:31 +0000</pubDate>
		<dc:creator>carles</dc:creator>
				<category><![CDATA[llengua]]></category>

		<guid isPermaLink="false">http://pintant.cat/2007/01/30/de-llengues-segona-part-diferencies/</guid>
		<description><![CDATA[Entrada prèvia relacionada A l&#8217;empresa a vegades em fan preguntes capcioses. Tipus &#8220;i el català i el castellà, són molt diferents? Quan de diferents?&#8221;. I després &#8220;és més diferent el castellà o el francès?&#8221;, etc.Normalment contesto el poc que sé: el francès, si és escrit, el puc entendre força bé. El castellà, penso que si [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://pintant.cat/2007/01/27/llengues-primera-part/">Entrada prèvia relacionada</a></p>
<p>A l&#8217;empresa a vegades em fan preguntes capcioses. Tipus &#8220;i el català i el castellà, són molt diferents? Quan de diferents?&#8221;. I després &#8220;és més diferent el castellà o el francès?&#8221;, etc.Normalment contesto el poc que sé: el francès, si és escrit, el puc entendre força bé. El castellà, penso que si algú només sap català el podria entendre &#8220;força bé&#8221;, i si algú només sap castellà el català ha d&#8217;entendre coses. Si vol, clar!</p>
<p>Un dia la pregunta era &#8220;però quin percentatge de paraules creus que són diferents?&#8221; i clar, un davant aquestes preguntes no es pot aguantar.</p>
<p>Uns dies més tard vaig posar-me a fer la feina: agafar els diccionaris que venen a Debian de català, anglés i francés i vaig posar-me a fer les proves.</p>
<p><span id="more-227"></span></p>
<p>Dades: el diccionari català conté 684720 paraules(!!), l&#8217;anglès 98326, el francès 139704 i el castellà 86016. Veure que el català ha estat fet de diferent manera, i conté plurals i altres variacions de les paraules.</p>
<p>Vaig creuar totes les llengua amb català (així és fàcilment comparable). Els reulstats són:<br />
-<strong>16%</strong> de les paraules castellanes estan incloses al diccionari català (13774 paraules)<br />
-<strong>5.5%</strong> de les paraules franceses estan incloses al diccionari català (7684 paraules)<br />
-<strong>5.3%</strong> de les paraules angleses estan incloses al diccionari català</p>
<p>Els resultats NO són massa acurats perquè:</p>
<ul>
<li>Hi ha paraules que estan igual escrites i volen dir diferent coses. Per exemple, &#8220;cama&#8221; en català (part del cos) i &#8220;cama&#8221; en castellà que és llit en català</li>
<li>Paraules que s&#8217;escriuen &#8220;una mica diferent&#8221; però s&#8217;endevina el significat (&#8220;paper&#8221; i &#8220;papel&#8221;)</li>
</ul>
<p>M&#8217;ha sorprès que la distància, mal comptat d&#8217;aquesta manera, català i francès i català i anglès sigui tant igual. M&#8217;esperava ser molt més proper al francés. De fet, crec que sense estudiar francés el podria entendre millor (llegit) que no pas l&#8217;anglès.</p>
<p>Com a comentari, però conec força paraules franceses que són molt semblants a les catalanes. Per exemple &#8220;Moulin Rouge&#8221; ja es veu que és &#8220;Molí Roig&#8221;, en canvi amb anglés seria &#8220;Red Mill&#8221; (que això, ja no es veu que sigui &#8220;Molí roig&#8221;). Una altra: &#8220;fromage&#8221; i &#8220;formatge&#8221; (cheese). Evidentment també n&#8217;hi ha que passaria el mateix amb l&#8217;anglés&#8230;</p>
<p>Com a comentari, també hi ha paraules que s&#8217;escriuen igual però es pronuncien diferent (&#8220;paper&#8221; en català i anglés).</p>
<p>Idees per millorar la comparativa:</p>
<ul>
<li>Es podria fer transcripció fonètica i comparar fonemes. Ja no seria tant fàcil. Hi ha maneres de tenir el so que es representen les paraules, algunes maneres com <a href="http://en.wikipedia.org/wiki/Soundex">Soundex</a> són molt simples i es fan servir a bases de dades. Però, almenys Soundex, està centrat amb la llengua anglesa. Es podria fer alguna cosa amb Festival (agafar la transcripció fonètica i comparar-ho)</li>
<li>Es podria mirar la distància (com qui calcula la distància de Hamming, <a href="http://ca.wikipedia.org/wiki/Dist%C3%A0ncia_de_Hamming">castellà i senzill</a>, <a href="http://en.wikipedia.org/wiki/Hamming_distance">anglés i molt complet</a>). Amb això es podria comparar la distancia promig d&#8217;una paraula amb la més propera de l&#8217;altre diccionari. Per exemple, &#8220;paper&#8221; i &#8220;paper&#8221; són iguals, però no &#8220;paper&#8221; i &#8220;papel&#8221;. La distància de Hamming en aquest cas seria 1 (només canvia un caràcter). Així es podria mirar amb quants canvis es pot passar d&#8217;una paraula a la més propera, en promig.</li>
</ul>
<p>De moment no crec que faci aquestes idees, tot i que la segona especialment m&#8217;atrau l&#8217;atenció.</p>
<p>De totes maneres, suposo que ja hi ha molts estudis en aquest àmbit i estic re-descobrint la sopa d&#8217;all. També miraré què hi ha, o preguntaré als entesos <img src='http://pintant.cat/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://pintant.cat/2007/01/30/de-llengues-segona-part-diferencies/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Llengües (primera part)</title>
		<link>http://pintant.cat/2007/01/27/llengues-primera-part/</link>
		<comments>http://pintant.cat/2007/01/27/llengues-primera-part/#comments</comments>
		<pubDate>Sat, 27 Jan 2007 20:57:28 +0000</pubDate>
		<dc:creator>carles</dc:creator>
				<category><![CDATA[llengua]]></category>

		<guid isPermaLink="false">http://pintant.cat/2007/01/27/llengues-primera-part/</guid>
		<description><![CDATA[Algun cop ho he comentat: de llengües, no en sé, però m&#8217;agraden (així que escric això des de l&#8217;ignorància). Tinc unes curiositat entrellaçades que voldria comentar. Primer de tot: fa molts anys, un professor d&#8217;anglès tècnic va comentar que entenent el 75% del text és quan s&#8217;entén de què va. Menys del 75% no. Per [...]]]></description>
			<content:encoded><![CDATA[<p>Algun cop ho he comentat: de llengües, no en sé, però m&#8217;agraden (així que escric això des de l&#8217;ignorància). Tinc unes curiositat entrellaçades que voldria comentar.</p>
<p>Primer de tot: fa molts anys, un professor d&#8217;anglès tècnic va comentar que entenent el 75% del text és quan s&#8217;entén de què va. Menys del 75% no. Per això, quan sabíem el 75% ens posava un aprovat just (menys d&#8217;això no era suficient).</p>
<p>Altra dada: a la Vanguardia havia vist un anunci de &#8220;Aprenda Inglés en 1000 palabras&#8221;. Segons explicaven, amb 1000 paraules s&#8217;entén més o menys tot (vida cotidiana!). Insistien en dominar molt bé aquestes 1000 paraules de base. I que havien fet estudis rigorosos per buscar les 1000 paraules més importants. Jo per curiositat també ho vaig fer (amb textes llargs i un programet) i justament amb 1000 paraules i textes normals es tenen entre el 70% i el 75% de les paraules (just per entendre, segons el professor d&#8217;anglès). Evidentment la dada no és gens acurada perquè no té en compte que una paraula pot tenir plural, temps verbals, etc. però ja dona una idea.<br />
<span id="more-226"></span></p>
<h2>I quantes paraules sé?</h2>
<p>Fa anys em vaig preguntar: i quantes paraules jo faig servir? I quines són les que més? Vaig agafar textes anglesos que jo havia escrit espontàniament (xat, mails ràpids). Amb el programa d&#8217;abans vaig mirar com anava, i feia servir (crec) unes 2000 o 2500 paraules (plurals inclosos com a paraules diferents). A més vaig mirar amb la gent que jo parlava: tenien més vocabulari, unes 3000 o 4000. Evidentment, hi ha moltes paraules que jo no faig servir però sé què volen dir.Més coses: volia buscar una manera de saber quantes paraules sé. Sí, puc fer aproximacions o coses, però he fet un altre enfoc. He agafat els fitxers XML de <a href="http://www.catalandictionary.org">Dacco</a> (unes 12000 entrades a la versió que tinc al disc, en anglès). Ho he passat a fitxer de text que m&#8217;és més còmode <img src='http://pintant.cat/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' />  i llavors he fet un programa que agafa una paraula a l&#8217;atzar i et demana si la saps o no la saps. Ho va fent fins que un vol sortir. En qualsevol moment es pot premer &#8220;s&#8221; per veure l&#8217;estadística:<br />
&#8212;&#8212;&#8212;<br />
Paraules demanades:  83<br />
Has sabut:  74<br />
Percentatge:  89.16<br />
Projectant a univers paraules:  10944.87<br />
&#8212;&#8212;&#8212;</p>
<p>L&#8217;univers de paraules són les 12000 paraules totals, i aquí diu quantes en sé del total de paraules. Era una prova, hauria d&#8217;estar &#8220;jugant&#8221; més estona.</p>
<p>Pot ser poc acurat. De fet, però, el &#8220;Projectant a univers de paraules&#8221; hauria de ser una cota inferior prou bona: sé el 89% de paraules de Dacco agafades a l&#8217;atzar, doncs almenys sembla que sàpiga unes 10900 paraules.</p>
<p>Evidentment: hauria de jugar més que 83 paraules demanades.</p>
<p>De totes maneres m&#8217;ha sorprès molt positivament. A veure si jugo una estona llarga per saber què passa.</p>
<p>Ah! el tema va molt bé, perquè les paraules que no sé les miro i potser algunes les recordaré <img src='http://pintant.cat/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </p>
<p><strong>El programa</strong><br />
<a href="http://pinux.info/utils/paraules.tar.gz">Enllaç al programa amb el fitxer de dades.</a> És un .tar.gz, descomprimir, anar al directori i executar &#8220;./demanar.py&#8221; . Us anirà demanant les paraules, podeu veure l&#8217;estadística (ho fa automàtic al sortir, també), etc.</p>
<p>PD: és fàcil canviar el fitxer de dades, per exemple, per /usr/share/dict/british-english, paquet a Debian wbritish. Sobrescriviu el diccionari.txt o bé editeu el fitxer demanar.py i on posa DADES= poseu la ruta al fitxer.</p>
<p><a href="http://pintant.cat/2007/01/30/de-llengues-segona-part-diferencies/">Continuació</a></p>
]]></content:encoded>
			<wfw:commentRss>http://pintant.cat/2007/01/27/llengues-primera-part/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
	</channel>
</rss>

