Algoritmo, Demasiado Humano

Como o algoritmo de recomendações do YouTube pode ter incorporado um viés

Por Breno Queiroz (breno.rqueiroz@gmail.com)

Escrever uma matéria sobre o algoritmo de recomendações do YouTube foi como escrever uma matéria sobre Deus. Sim, Deus. Existem várias analogias possíveis que aproximam Deus e o YouTube. Mas a minha comparação é a mais básica: não ter conhecimento material do objeto de pesquisa.

Segundo o próprio YouTube, são mais de um bilhão de usuários — um terço de toda internet — e um bilhão de horas de vídeos assistidas todos os dias. Só que o algoritmo que filtra todo esse oceano de conteúdo é um mistério. Todos esses números, sobre horas assistidas, uploads diários e mais, podem ser facilmente acessados. Inclusive estão dispostos de uma forma muito didática na página do YouTube feita para a imprensa.

Porém, quando o assunto sai da potencial do YouTube para a comunicação e vai para seu funcionamento interno, as informações começam a minguar. Isso não é exclusividade dessa plataforma: Facebook, Instagram e Twitter também possuem algoritmos pra filtrar o conteúdo, com funcionamentos que não são transparentes ao público. E mais: as engrenagens desses algoritmos podem ser desconhecidas até por seus desenvolvedores, como veremos mais pra frente. 

Aqui enfrentamos um problema novo. Por muito tempo a humanidade sonhou com o poder do conhecimento, com a difusão rápida da informação, com o encurtamento das distâncias. E parece que esse momento chegou, enquanto nos sentimos atrasados em relação às mudanças constantes; construindo as regras de convivência de uma sociedade que já convive independente delas.

 

O que é algoritmo?

Se você perguntar pra alguém que tem a paciência de explicar, a pessoa vai te responder com outras perguntas: Você gosta de cozinhar? Já fez pelo menos um bolo de caixinha? Isso porque todo mundo convive com algoritmos o tempo todo, apenas não percebe. A receita de preparo do bolo, que vem atrás do pacote, é em si um algoritmo.

Faça isso, depois faça aquilo. Uma série de instruções, não ambíguas, para resolver um determinado problema. Sem apelar pra tecnicidades, é basicamente isso, com a dificuldade extra de que o leitor do algoritmo não é sempre uma pessoa, como no caso da receita de bolo. Na maioria das vezes é uma máquina, que exige uma linguagem própria, com uma semântica específica, assim como você também exige.

Em uma plataforma em que a cada minuto são disponíveis 300 novas horas de vídeo, a situação se torna um pouco mais complexa — são várias receitas de bolo.

 

Machine Learning e Inteligência Artificial

Estamos acostumados com máquinas que nos substituem em funções que sabemos desempenhar: máquina de café, escavadeira, aspirador de pó. Mas e as funções que não sabemos como fazer? Como conseguir com que mais de um bilhão de usuários receba recomendações e propagandas personalizadas? Precisamos discutir as máquinas que inventam suas próprias respostas, que pensam por nós.

A área de inteligência artificial se ocupa de construir artefatos com comportamento inteligente.” Essa é a definição do professor Fábio Cozman, Chefe do Departamento de Engenharia Mecatrônica e de Sistemas Mecânicos na Escola Politécnica da USP. Ele confessa que é necessário um complemento: “De forma geral, reconhecemos como inteligente um comportamento que envolve procurar por soluções de problemas complicados, ou tomar decisões, ou aprender com experiências.”

No caso do YouTube, as tomadas de decisão, acontecem em relação aos dados dos usuários, e a experiência é uma série infinita de testes para se atingir um objetivo específico. O algoritmo de recomendação tem diversos dados para analisar: histórico, tempo do vídeo, o que se fala nos comentários, a imagem na thumbnail, vídeos que pessoas parecidas com você também assistiram; e tem que decidir qual o peso desses elementos para determinação de qual vídeo recomendar.

Uma subdivisão da inteligência artificial é o complicado Machine Learning, ou como pode ser traduzido, “Aprendizado de Máquina”. Segundo a definição da Encyclopædia Britannica, “é a disciplina interessada na implementação de software que pode aprender autonomamente”. Essa capacidade de enxergar padrões e relacionar dados, algo que nós humanos temos e tanto nos orgulhamos, é muito melhor explorada no campo da ciência da computação.   

O processo de Machine Learning demanda várias tentativas com modificações aleatórias. Às vezes, um robô que dá mais importância para o histórico do usuário faz melhores recomendações e retêm mais pessoas na plataforma, ou às vezes o melhor pode ser aquele que dá mais importância pro que se fala nos comentários dos vídeos. Por isso são necessários diversos testes para melhor determinar a combinação de pesos de cada aspecto. E também nasce disso uma demanda por dados dos usuários que servirão para treinar os algoritmos.

Nesse funcionamento, é possível perceber que se tem pouco controle sobre a optimização do algoritmo, e que nem mesmo os desenvolvedores podem ter clareza sobre os processos de decisão. Apesar disso, devemos lembrar que isso nunca foi um problema paras empresas que utilizam essa tecnologia, já que no final, independente de como, a resposta pro problema é o suficiente.  

 

Mente de robô, ideologia de humano

“Não existe algo como algoritmo objetivo, porque no mínimo, a pessoa construindo o algoritmo define o propósito.” Essa fala é de Cathy O’Neil em uma de suas palestras no Google. Ela é Ph.D. em matemática por Harvard, já trabalhou como cientista de dados no sistema financeiro, e agora oferece seu conhecimento acumulado em livros e artigos. O mais famoso deles, que inclusive foi tema da palestra em questão, é o Weapons of Math Destruction, de subtítulo indiscreto: como a Big Data aumenta a desigualdade e ameaça a democracia.

Por ser uma voz muito representativa e com muita legitimidade no meio, Cathy cita diversos exemplos: de algoritmos de policiamento aos usados na avaliação de professores em escolas públicas, a fim de nos levar a uma mesma conclusão. “Algoritmos não são inerentemente objetivos ou  justos. Tudo que eles estão fazendo, tudo que eles são bons em fazer é pegar padrões do passado e repeti-los […] estamos literalmente codificando práticas do passado.”

Voltando ao algoritmo do YouTube, onde está a parte humana desse robô? Será que as práticas do passado entraram nas linhas de código da nova tecnologia?  

Em entrevista para o Guardian, Guillaume Chaslot, ex-funcionário do Google, um dos poucos engenheiros selecionados para trabalhar com o algoritmo, declarou que o “YouTube é algo que parece real, mas é distorcido pra fazer você gastar mais tempo online”. Assim como Cathy O’Neil alertou, a tecnologia continua reproduzindo um modo de pensar específico — o modo de pensar de uma empresa que lucra com propaganda na sua plataforma de vídeos: “o algoritmo de recomendação não está sendo otimizado para o que é verdadeiro, ou balanceado, ou saudável para democracia”, reconhece o engenheiro. “Tempo de exibição era a prioridade […] todo resto era considerado uma distração.”

 

Tempo de exibição e Ruud Koopmans     

Não foi o advento da internet que tornou a mídia ávida por atenção. A TV aberta, por exemplo, tem como nota de corte para sua programação os índices do Ibope. Um programa não sustenta sua existência sem audiência. Mas antes que entremos em pensamentos mais distópicos, vamos ver tudo de um jeito mais acadêmico.   

Ruud Koopmans é um sociólogo holandês, que ainda atua como professor na Universidade Humboldt em Berlim, dirigindo o departamento de “Migração, Integração e transnacionalização”. Sua pesquisa interessa para discutir esse assunto porque ele investigou a intersecção entre comunicação e política, tendo como base os movimentos populares alemães após a queda do muro de Berlim e a reintegração das Alemanhas.

No artigo Movements and media: Selection processes and evolutionary dynamics in the public sphere (Movimentos e mídia: Processos de seleção e dinâmicas evolutivas na esfera pública), introduz-se a noção de que o método de disseminar mensagens políticas e disputar as consciências mudou gradualmente na virada do século. A intermediação entre autoridades e movimentos sociais é limitada pela cobertura das mídias de massa, e isso serve também para a interação dos movimentos com a esfera pública.

Usando o discurso da direita radical alemã nos anos 90, Koopmans analisou quais eram os mecanismos que impulsionavam ou limitavam a cobertura midiática. Organizou assim três grandezas que se relacionam para determinar a chance de difusão de uma mensagem:  ressonância, legitimidade e visibilidade.

A ressonância é a capacidade que uma mensagem tem de causar reações. A legitimidade é o apoio que essas reações podem ter. E a visibilidade é a cobertura dada pela mídia de massa.

O canal Meteoro Brasil, no YouTube, tem um vídeo sobre polarização política que explica muito bem os conceitos elaborados por Ruud Koopmans, de tal forma que só me resta pegar emprestado o gráfico deles:

Foto: POLARIZAÇÃO POLÍTICA | Especial #Meteoro

No eixo horizontal está representada a legitimidade; no vertical, a ressonância. Para as mensagens que a direita pretendia espalhar naquele momento histórico, “Queremos mais empregos” tem uma legitimidade alta, quer dizer que ela consegue muito apoio. Ao mesmo tempo que tem ressonância baixa, porque gera poucas reações, é um consenso. “Emprego alemão para trabalhador alemão” tem uma legitimidade menor, nem todo mundo apoia. Porém isso causa um aumento na ressonância, porque é um tópico muito discutido, polarizador. Por fim, quando a verdadeira ideologia é mostrada, o Neonazismo remanescente da direita radical, a população alemã que carrega na memória as dores desse regime, tira a legitimidade do movimento indiscutivelmente. Ou seja, sem ressonância e sem legitimidade.

A principal ligação que esse estudo promove é entre a ressonância e a visibilidade. Pautada pela busca por atenção, a mídia de massa irá selecionar as mensagens com maior ressonância e portanto, maior visibilidade.

De volta ao YouTube. Espero que ainda esteja fresco na cabeça que o algoritmo de recomendações tem uma definição de propósito, e essa é manter o usuário grudado à tela, aumentar o tempo de exibição. Será que ele dará prioridade às mensagens com alta ou baixa ressonância?

 

Algoritmo, Demasiado Humano

“I’m sorry, Dave”, mas a realidade supera a ficção nesse ponto. Eu gostaria de escrever uma matéria para concluir que os algoritmos de recomendação são as máquinas que tornariam o livro 1984 do George Orwell uma realidade próxima. Pelos conceitos do Ruud Koopmans, seria uma matéria com bastante visibilidade.

Só que as evidências encontradas são menos empolgantes que tudo isso. A internet nasceu de diversas iniciativas de pesquisadores, desocupados, e criativos sem espaço, tornando-se rapidamente a esperança da humanidade, um novo horizonte a ser explorado. Mas humanos — demasiado humanos — que somos, logo demos novos significados à essa ferramenta. O YouTube particularmente, que vinha como uma disrupção da forma convencional do audiovisual, já demonstra, pelo propósito do seu algoritmo, suas intenções mais terrenas.

A plataforma de vídeos que tinha como maior trunfo a liberdade de publicação e a diversidade de conteúdo, começa a atender novos interesses, escamoteados pela censura prévia, direitos autorais e, mais importante, a personalização do serviço. Como Cathy O’Neil advertiu, “estamos codificando práticas do passado”. Antes o YouTube se orgulhava de não ser a TV, agora ele automatizou o trabalho feito por um diretor de TV, de alocar anunciantes e priorizar os conteúdos com maior audiência.


Tags: ,