arXiv blog

O Maior Desafio dos Sistemas de Recomendação

Se você compartilhar uma conta de filmes on-line com outras pessoas de sua família, você provavelmente recebe algumas recomendações inadequadas. Isso pode mudar em breve.

The Physics arXiv Blog 25/08/2014

A frase "As pessoas que compraram X, também compraram Y" tornou-se um dos apelidos famosos da era da internet. Esta construção específica de palavras surgiu de sistemas de recomendação que analisam os produtos que você comprou no passado para sugerir produtos que você pode gostar no futuro, normalmente com base nas escolhas feitas por outras pessoas com gostos semelhantes.

Bons sistemas de recomendação podem aumentar as vendas em vários pontos percentuais. É por isso que eles se tornaram um recurso essencial para lojas e serviços online.

Logo, não é difícil entender por que há um grande interesse em melhorar o desempenho dos sistemas de recomendação. De fato, em 2006, o provedor de filmes online, Netflix, ofereceu um prêmio de US$ 1 milhão para qualquer pessoa que conseguisse melhorar seu algoritmo de recomendação em mais de 10 por cento. O prêmio foi devidamente abocanhou só três depois.

Então, de onde podem vir as próximas melhorias?

Hoje, temos um direcionamento graças ao trabalho de Amy Zhang, do Instituto de Tecnologia de Massachusetts em Cambridge, e dois colegas. Eles salientar que quando se trata de serviços online, como provedores de filmes, geralmente várias pessoas têm a mesma conta. Isso significa que a escolha dos filmes e as avaliações para esta conta são as escolhas combinadas de várias pessoas diferentes.

A questão que se propôs a responder é se é possível identificar contas compartilhadas simplesmente estudando as classificações associadas. E se assim for, como modificar as recomendações em resposta?

Eles começam com dois conjuntos de dados de recomendações de filmes. O primeiro é composto por mais de 4 milhões de recomendações de 171.000 usuários em mais de 20.000 filmes. Este conjunto de dados também tem informações adicionais sobre os arranjos domiciliares para um subconjunto de 600 usuários. Destes, 272 famílias têm dois usuários, 14 têm três usuários e quatro têm quatro usuários. Assim, as recomendações dessas famílias fornecem uma imagem verídica da situação das contas compartilhadas.

Zhang e col. têm também o conjunto de dados do Netflix com a classificação de mais de 17.000 filmes por quase 500 mil usuários.

Eles começam sua análise com um tratamento matemático de como decompor um conjunto comum de avaliações em suas partes componentes. A tarefa consiste essencialmente em determinar o número de agrupamentos coerentes para recomendações que corresponda ao número de pessoas no domicílio.

Na prática, isso significa encontrar aglomerados de filmes semelhantes com classificações semelhantes. Uma técnica que acaba sendo importante, é possível alocar alguns filmes a diferentes usuários com alto grau de confiança. Por exemplo, os filmes Toy Story, Monstros S.A. e Frozen podem, com alto grau de certeza, ter sido vistos e avaliado por um indivíduo diferente do que assistiu o conjunto de filmes O Massacre da Serra Elétrica, Extraterrestre e O Exorcista.

Matematicamente, isto é conhecido como um problema de agrupamento de subespaço e há várias abordagens padrão para resolvê-lo. Zhang e col. primeiro aplicar estes métodos aos conjuntos de dados em que as famílias são conhecidos para descobrir qual funciona melhor.

Eles então aplicaram esse método a cerca de 55 mil usuários do banco de dados do Netflix que avaliaram mais de 500 filmes. O algoritmo classificou 37.000 dessas contas como tendo somente um usuário, 15.000 como contas com 2 usuários e 3.000 como contas utilizadas por 3 ou mais pessoas.

Não há como saber se essa classificação está correta, já que as informações reais não estão disponíveis. No entanto, é possível estudar a composição dessas contas para ver se parecem razoáveis. "Uma inspeção visual das contas que foram classificadas como compostas leva a algumas observações interessantes", diz Zhang e col.

Por exemplo, eles descobriram que em muitos casos sequências de filmes ou temporadas de uma mesma serie estavam agrupadas. Eles também descobriram que um usuário prefere filmes classificados como "ficção científica e fantasia", enquanto outro pode preferir filmes classificados como "românticos". Isso parece dar a Zhang e col. confiança de que seu algoritmo está no caminho certo.

A última pergunta a se abordar é: como mudar as recomendações depois de o algoritmo ter demonstrado que mais de um usuário compartilha a mesma conta. A resposta é simples. Basta apresentar as principais recomendações para cada usuário.

Essa é uma abordagem interessante, embora não esteja claro quão melhor estas recomendações seriam do que as feitas por sistemas convencionais em termos de se aumentar as vendas ou não. Esse é um objetivo óbvio para futuras pesquisas.

Curiosamente, Zhang e col. salientam que esta abordagem pode permitir que uma única pessoa pareça ser um usuário composto, incluindo deliberadamente classificações em filmes que normalmente não gosta. "Alterar seu próprio perfil de classificação para parecer um usuário composto, com o objetivo de obscurecer, por exemplo, seu sexo, é um tópico de pesquisa interessante", dizem eles.

Talvez vejamos os resultados desta pesquisa, em algum momento no futuro.

Ref: arxiv.org/abs/1408.2055 : Guess Who Rated This Movie: Identifying Users Through Subspace Clustering

Para deixar seu comentário, por favor, regístrate ou efetue seu login

Esqueceu sua senha?

Publicidade

Vídeo

Inovadores com menos de 35 anos Brasil

Mais Vídeos

Informes Especiais

Uma Cura para os Gastos com Saúde

Os gastos com a saúde estão fora de controle. E a inovação em medicamentos, testes e tratamentos é o motivo. Mas e se a tecnologia pudesse ser uma forma de poupar dinheiro ao invés de gastá-lo?

Ganhando Com Dispositivos Móveis

Publicidade
Publicidade