Da mesma forma que fiz um pequeno estudo da palavra "novel" na PubMed , fiz também um estudozinho da proximidade entre alguns blogs e políticos na web. Criei dois conjuntos:= { contra a corrente = {Ramalho Eanes , Mário Soares , Freitas do Amaral , Cavaco e Silva , António Guterres , Durão Barroso , Jorge Sampaio , Álvaro Cunhal , Ferro Rodrigues , Paulo Portas, Santana Lopes}Depois calculei uma medida de proximidade que é uma probabilidade de co-ocorrência de termos (nomes) destes conjuntos em páginas web indexadas pelo Altavista
prox (b i , p j )=hits (b i AND p j )/hits (b i OR p j ) (1)
i
j
em quequer dizer o numero de páginas da web indexadas no Altavista em que a expressão acontece. Neste caso, a medida de proximidade é o racio entre o numero de páginas em que o blog bco-ocorre com o político pe o numero de páginas total em que pelo menos um destes ocorre. É assim uma probabilidade de um blog co-ocorrer com um político dado que um deles ocorreu.A figura em baixo mostra a distribuição de proximidade de co-ocorrência de cinco blogues com o conjunto de políticos utilizado. Podemos aqui vêr, por exemplo, que quase 5% de páginas do abrupto ou que mencionam o abrupto, falam de Durão Barroso, ou que mais do 6% de páginas relacionadas com o blog de esquerda (e 3.5% do contra-a-corrente) falam de Paulo Portas...Com estes valores de proximidade baseada em co-ocorrência, calculei também a correlação entreos vários blogues. Isto é, dois blogues são considerados muito correlacionados se a sua distribuição de proximidade no conjunto de políticos é semelhante; simplificando, quando falam na mesma proporção dos mesmos políticos.A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.7:A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.8:Ambas as figuras mostram uma rede de associação de blogs mediante a sua proximidade (medida em co-ocorrência) ao conjunto de políticos utilizado. Acho interessante a grande correlação entre o blog de esquerda e o contra-a-corrente!Finalmente, também calculei a proximidade de co-ocorrência entre estes políticos na web como é vista pelo Altavista (estamos a falar de milhões de páginas...).
prox (p i , p j )=hits (p i AND p j )/hits (p i OR p j ) (2)
Esta proximidade (2) também pode ser vista como uma rede de associações. A figura em baixo mostra esta rede com todos os vertices superiores a 1%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 1% das páginas.A figura em baixo mostra esta rede com todos os vertices superiores a 5%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 5% das páginas.A figura em baixo mostra esta rede com todos os vertices superiores a 10%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 10% das páginas.Talvez isto dê uma prespectiva diferente às relações entre blogs, entre políticos e entre ambos como são vistas da web!Nota: muitos outros blogs podiam e deveriam constar deste estudozinho, talvez se eu arranjar alguem interessado a ajudar, se possa fazer algo com todos os blogs nacionais...
Categorias
Entidades
Da mesma forma que fiz um pequeno estudo da palavra "novel" na PubMed , fiz também um estudozinho da proximidade entre alguns blogs e políticos na web. Criei dois conjuntos:= { contra a corrente = {Ramalho Eanes , Mário Soares , Freitas do Amaral , Cavaco e Silva , António Guterres , Durão Barroso , Jorge Sampaio , Álvaro Cunhal , Ferro Rodrigues , Paulo Portas, Santana Lopes}Depois calculei uma medida de proximidade que é uma probabilidade de co-ocorrência de termos (nomes) destes conjuntos em páginas web indexadas pelo Altavista
prox (b i , p j )=hits (b i AND p j )/hits (b i OR p j ) (1)
i
j
em quequer dizer o numero de páginas da web indexadas no Altavista em que a expressão acontece. Neste caso, a medida de proximidade é o racio entre o numero de páginas em que o blog bco-ocorre com o político pe o numero de páginas total em que pelo menos um destes ocorre. É assim uma probabilidade de um blog co-ocorrer com um político dado que um deles ocorreu.A figura em baixo mostra a distribuição de proximidade de co-ocorrência de cinco blogues com o conjunto de políticos utilizado. Podemos aqui vêr, por exemplo, que quase 5% de páginas do abrupto ou que mencionam o abrupto, falam de Durão Barroso, ou que mais do 6% de páginas relacionadas com o blog de esquerda (e 3.5% do contra-a-corrente) falam de Paulo Portas...Com estes valores de proximidade baseada em co-ocorrência, calculei também a correlação entreos vários blogues. Isto é, dois blogues são considerados muito correlacionados se a sua distribuição de proximidade no conjunto de políticos é semelhante; simplificando, quando falam na mesma proporção dos mesmos políticos.A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.7:A figura em baixo mostra o grafo de correlação para os vários blogues mostrando apenas os vertices com correlação maior que 0.8:Ambas as figuras mostram uma rede de associação de blogs mediante a sua proximidade (medida em co-ocorrência) ao conjunto de políticos utilizado. Acho interessante a grande correlação entre o blog de esquerda e o contra-a-corrente!Finalmente, também calculei a proximidade de co-ocorrência entre estes políticos na web como é vista pelo Altavista (estamos a falar de milhões de páginas...).
prox (p i , p j )=hits (p i AND p j )/hits (p i OR p j ) (2)
Esta proximidade (2) também pode ser vista como uma rede de associações. A figura em baixo mostra esta rede com todos os vertices superiores a 1%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 1% das páginas.A figura em baixo mostra esta rede com todos os vertices superiores a 5%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 5% das páginas.A figura em baixo mostra esta rede com todos os vertices superiores a 10%. Isto é, um vertice entre dois políticos existe se estes co-ocorrerem em 10% das páginas.Talvez isto dê uma prespectiva diferente às relações entre blogs, entre políticos e entre ambos como são vistas da web!Nota: muitos outros blogs podiam e deveriam constar deste estudozinho, talvez se eu arranjar alguem interessado a ajudar, se possa fazer algo com todos os blogs nacionais...