Inicio | DOAC | BigPress | Weblog | Sobre mí |

Buika

Esta es de las cosas que alegran el dia a uno. Aparte de la noticia de la aprobacion del estatut vemos a Concha Buika en portada del periodico mas leido de Espanha y agotando las entradas para sus conciertos tras su primer disco. Esta mallorquina lleva el alma gitana en su sangre mezclandola con jazz,funk… y mucha autoreivindicacion.

Tambien esta triunfando Ela, que tiene mucha material en su web.

PD: Escribiendo esto me han preguntado si va a venir a A Corunha. Pues si, estara el 5 de Agosto!!

Tags:

Comentarios: 0

Cada palabra conta

Cada día os/as blogueiros galegofalantes escriben máis de 12.000 palabras. Dende onte G3 estrea unha nube de palabras, que que danos unha idea de que se está a tratar na blogosfera galega. Onte quedaba patente o relieve que está tendo a reforma do convenio do metal e as críticas á represión policial e pola noite destacaban as novas sobre as eleccións na Universidade de Santiago.

A primeira nube de palabras famosa foi a de Flickr á que logo seguiron a de Technorati ou del.icio.us. Máis preto de nós anticipouse a nube de palabras do blogomillo de Calidonia, empregando un servizo externo. Unha magoa que deixase de funcionar pois sería moi interesante comparar os resultados.

Tags:

Comentarios: 0

G3 vs. Paxinas.Com

G3A empresa 3.14 Financial esta a preparar, como moitos de vos saberedes, o lanzamento dun novo buscador en galego que chamarase Paxinas.Com. Moitos foron xa os visitados polo Paxinasbot, basado na araña de codigo aberto Larbin, eu sigo esperando coma mozo namorado a sua visita. Espero que acoda pronto, e estame ben empregado por tanto falar inglés.
Nembargantes este non é nin o primeiro nin o único buscador galego na rede. Sempre foron famosos os directorios -que ninguén os confunda cun buscador a pesares da semellanza- Vieiros ou Galicia City. Logo viron os intentos quizais demasiado tempranos, debido ó atraso tecnolóxico de Galicia, Enxebre e U-lo.

Cando Paxinas.Com comece a funcionar non será o primeiro, pero tampouco o único, pois dende hai preto dun ano está activo G3: O pequeno buscador. Pequeniño pero moi xeitoso conta dende hoxe con novas funcións, mostrando o que se está a falar nos xornais e na blogosfera galegofalante. Tamén xa está disponible a extensión de G3 para o cadro de busca de Firefox.

Tamén nos últimos meses incorporouse a versión en galego de Seekport. Galicia comeza a descobrer Internet o cal da pe unha ampla gama de propostas: Blog Galego, Chuza!, etc.

Tags:

Comentarios: 0

Biblioteca Digital Europea: papel mojado

European Site LibraryLa Biblioteca Digital Europea fue propuesta por Francia que recibió el apoyo de Italia, España, Alemania, Polonia y Hungría en una carta enviada al Presidente del Consejo Europeo, Jean-Claude Juncker, y al Presidente de la Comisión Europea, José Manuel Barroso el 28 de abril de 2005.

Posteriormente 19 países anunciaron oficialmente su apoyo a la creación de la Biblioteca Digital Europea: Austria, Bélgica, República Checa, Dinamarca, Estonia, Finlandia, Francia, Alemania, Grecia, Hungría, Italia, Lituania, Luxemburgo, Países Bajos, Polonia, Eslovenia, Eslovaquia, España y Suecia. Todos los dirigentes españoles así como el rector de la Universidad de Alicante que mantiene la Biblioteca Virtual Miguel de Cervantes sitúan a España como pionera en este proyecto gracias a su experiencia en la BVMC, siendo esta más una web de difusión cultural que una biblioteca propiamente dicha debido a que es poco accesible y los contenidos son en su mayoría clásicos; aparte carece de ningún proyecto de investigación tecnológica directamente asociado

.El 4 de mayo de 2005 la Unión Europea destina 96 millones de euros para proyectos de digitalización durante los siguientes tres años de los cuales 36 millones serán destinados a la investigación. Francia anuncia 8 y 15 millones de euros para digitalizar de 150.000 a 200.000 libros por año. El 20 de septiembre se inicia una consulta publica para recoger ideas de particulares, empresas e instituciones sobre cómo crear la biblioteca.

A finales de año el sitio web de la Biblioteca Digital Europea comienza a funcionar y ofrece la lista de países e instituciones que han participado en su construcción: Austria, Croacia, Dinamarca, Estonia, Finlandia, Francia, Alemania, Italia, Letonia, Países Bajos, Portugal, Serbia, Eslovenia, Suiza, Reino Unido, así como el ICCU (Instituto Central de Catalogamiento de Italia) y la CENL (Conferencia de Bibliotecas Nacionales Europeas). Disponiendo de una interfaz y recursos para los mencionados paises, anuncia que en una fase posterior se digitalizarán contenidos del resto de bibliotecas europeas las cuales menciona como participantes básicos, entre las que se encuentra la española, las cuales se puede deducir que únicamente participarán simbolicamente ofreciendo contenidos.

El próximo Congreso Europeo de Bibliotecas Digitales se celebrará en Alicante en Septiembre bajo el lema “Hacia la Biblioteca Digital Europea” pero paradojicamente España no estará realmente en este proyecto.

Actualización: Teresa Malo de Molina, directora Técnica de la Biblioteca Nacional, en una entrevista aparecida en Barrapunto responde que se prevee la incorporación de la BNE como miembro de pleno derecho a finales de año.

Tags:

Comentarios: 0

A inaccesibilidade das pxinas en galego

Unha das cousas que falta en Galicia son os buscadores de paxinas en galego. Penso que, aparte de todo interes nacionalista/patriotico/galeguista que poida ter este feito, esta a provocar unha inaccesibilidade destas paxinas, que perden lectores con respecto a outras en castelan. A consecuencia final de todo isto e que ninguen publica en galego na internet xa que de seguro vana ter menos ligazons. Se nos fixamos no buscador Google.es, este non conta cunha funcion para buscar paxinas cuio contido este en lingua galega, o contrario que ocorre co castelan, euskera, e catalan. Alguen sabe porque?

Eu tenho unha sospeita. Existen varias formas de detectar en que lingua esta un texto. Moi eficaces sobre todo as basadas en redes neuronais. Pero cando o que estas clasificando son millons de paxinas, unha rede neuronal resulta demasiado custosa en canto a termos de rendemento, asi que o que fan alguns programas aranha coma Nutch, programa araña de codigo aberto que forma parte do proxeto Lucene de Apache, e facer unha busqueda basada en modelos N-Gram que se obtenhen das frecuencias de aparicion de grupos de n caracteres seguidos (xeralmente 1, 2 e 3 caracteres, por ex. “vac”). Para saber en que lingua esta un texto se compara o modelo resultante do texto en cuestion cos de todalas linguas (xeralmente se comparan os 300 primeiros n-gram) e se calcula a distancia entre a posicion dun elemento nunha e outra lista ou ben a diferencia entre a frecuencia. O texto categorizarase como pertencente a lingua cuias sumas de distancias sexan menores.

Tamen pode chegarse a conclusion de que pode pertencer a duas linguas con probabilidades semellantes. Como e normal o caracter mais comun sempre e o espazo (_), pero ainda asi resulta moi util xa que linguas como o aleman tenhen palabras moi longas o cal fai diminuir sustancialmente a frecuencia de aparicion. O feito de que so se comproben as trescentas primeiras cadeas debese a que por experiencia sabese que a partires de enton o modelo volvese moi dependente do tema que trate o texto, sendo tamen moi util este sistema para clasificar artigos por temas.

A que ven todo isto? Resulta que existen modelos n-gram publicamente disponibles para 52 linguas, entre as que se atopan o euskera e o catalan pero non o galego. Seguramente estas son as que emprega Google na sua deteccion da linguaxe e por iso a maioria dos textos en galego figuran como textos en castelan. Para os que pensen que Google detecta moi mal o idioma dicirvos que estos modelos se estiman que acertan nun 89% das veces. Espero que isto sirva de resumo para os non introducidos, non sei se isto dase en algunha asignatura da facultade. Como curiosidade dicir que este sistema empregouse tamen en criptografia. Un dos sistemas de encriptacion mais sinxelos (non moi eficaz por certo) e sustituir cada letra do abecedario por outra o azar. O texto resultante e ilexible a simple vista, pero obtendo un modelo podese saber cales foron as sustitucions feitas basandose na sua frecuencia.

Actualmente estou pensando en facer un modelo para o galego. A gran cuestion e que corpus linguistico empregar para a crear o modelo. Outra cuestion e a diferencia existente entre o galego reintegracionista e o normativo, ata o punto que o abecedario que empregan e distito e quizais fose mellor facer un modelo que soamente cubra o galego normativo Estaria moi complicado distinguir o galego reintegracionista do portugués).

Tags:

Comentarios: 0

Feeds galegos para o teu Firefox

Xogando con expresións regulares pensei en crear uns feeds RSS para os xornais galegos que extranamente non dispoñen deles. Non podo engadir contido debido a problemas legais pero poden ser moi utiles para usa-los no teu Firefox. Aquí está o resultado:

  • Canal Ciencia: RSS (xa teñen o seu propio)
  • Codigo Cero: RSS
  • Galicia Hoxe: RSS
  • Vieiros: RSS
  • Xunta de Galicia: RSS

Tags:

Comentarios: 0

Spreading the Semantic Web

Everybody likes to talk about the Internet as a whole without realizing that all this is conformed by single publication efforts. (It will be necessary to be easy to public some small lines to make millions of pages to publicated).

For that reason some eople doesn’t realize for what all this technology and applications may be useful, what apports the semantic web, xml, etc.

Semantic Web sounds very nice, machines will process the information for us and make the process of findidng information more productive, but you really think that every corporation will want to know how to use this techonology if they won’t get anything? And all this young college students will want to learn about this if they just wanna get some extra money?

HTML has its succesful secret in it’s simplicity in all the views. Easy to develop and to understand. More complex application has also started will the development of, by order, images, visit counters, PHP/MySQL and Content Manageement Systems. But how this happen to the semantic Web?

Tags:

Comentarios: 0

400 Visitas!!

Todo indica que hoy esta humilde página personal alcanzará 400 visitas en una franja de 24 horas, sé que muchas de estas buscando información sobre la Web Semántica, otras alguno de mis articulos de opinión y la mayorí­a simplemente porque la posición en Google es bastante buena. Pero vamos a ser sinceros, la página esta hecha un desastre, casi nunca actualizo y todo esta a medias. No explico la actitud de algunos que mantienen su suscripción o incluso la visitan con regularidad.

En fin, prometo mejorarla un poco, escribir más y no tenerla así de cutre. Todo sea por ponerle Google Adsense y el consecuente imaginario beneficio económico.

PD: No voy a publicar vanalidades así­ que recomendadme algun tema a tratar, pero que sea interesante.

Actualización: Finalmente fueron 451 los visitantes, más de los que habí­a previsto. Esto quiere decir sin duda que debo actualizar más a menudo.

Tags:

Comentarios: 0

La valla de Melilla

Ultimamente, osea en las dos pasadas semanas, se habla mucho sobre Katrina, como de costumbre, los Españoles opinan sobre todo menos sobre ellos mismos. Hay otra gran noticia que igualmente mantiene un gran seguimiento en los informativos. Sin embargo debatimos mucho sobre la gestión d ela crisis del Katrina, sobre lo segundo no de habla absolutamente nada.

Las personas que llegan, si personas, parece que muchas veces se nos olvida y solo sabemos decir inmigrantes llegan sobre todo por dos razones. O bien porque su lugar de origen tiene problemas economicos o bien esta en la guerra, y de ambas los del club europeo tenemos la culpa. Todo esto tiene su origen en el proteccionismo economica y tanto las guerras coloniales comno la valla que se levanta en Melilla son caras de la misma moneda. Opinan ustedes que en tiempos del muro de Berlin la gente lo observaba con la misma impasivifdiad con la que nosotros lo hacemos en Melilla? y sin embargo dentro de 200 años cualquiera mirara a ambos como actos vergonzantes. Pero… dira usted, es que existe una frontera entre Africa y Europa. Si, tambien la existia entre Alemania del Norte y Alemania del Sur, tambien entre Israel y Palestina. Esta en concreto pronto tendrá vallas de 6 metros de altura, camaras cada 560 metros, vigilancia continua y alambrada de espinos. Nada que envidiar a las anteriores.

Un hombre es libre cuando puede ir a donde quiera da igual que se trate de una pequeña celda que de algo mucho mas grande, si es apersona no puede moverse de sentira enjaulado. Los europeos podemos ir a cualquier lugar del mundo, tanto si es de vaciones como para trabajar alli. En algunos sitios esperamos que nos reciban con los brazos abiertos. Porque con los africanos no hacemos lo mismo?

El gobierno nos vende titulares
A la gente de derechas le cuenta que no van a dejar que no entre nadie. A la de izquierdas que hay que dar dinero a África y que los soldados de la frontera no pueden llevar armas. Pero que se esconde bajo este discurso?

La relación con la adhesión de Turquí­a
El debate sobre la adhesión de Turquí­a a la UE es muy ilustrativo sobre la situación de rechazo de las personas inmigrantes. El temor de muchos ciudadanos a que Turquí­a se integre dentro de la unión europea no se debe a razones económicas, ya que Turquí­a goza de buena salud económica (añadir datos de la renta per capita), sino hay que buscar otro origen, el temor que alguna gente siente por la cultura musulmana, que recuerda a los tiempos de los reyes catolicos.

Tags:

Comentarios: 0

Google launches Sitemaps

Google has recently launched Sitemaps a service that will allow webmaster to notify directly to Google when their websites are updates and allows to having to crawl millions of pages in big sites and also not leaving anything alone. It also supplies search engine submission in an more easy way.

It would be nice if other wearch engines start making use of this technology and becomes a substite of the old robots.txt. Will Google at least let us search depending on the last time a website has been updated?

I think there is only a problem that it is not really an standard so you have to ping google every time you update the website, so that could not be used by other search engines. Also, some websites are updated hundreds of times a day and only alternative is to create a cron job that does it periodically. Other webmasters could easily find a way to use it for spam.

My suggestion is to add this inside the head tag of your website:

Tags:

Comentarios: 0