Ética e Inteligência Artificial (IA) | 4 tipos de viés em machine learning

Ética e Inteligência Artificial: viés em machine learning

A inteligência artificial (IA) está longe de ser infalível. Por isso, é bastante comum novos debates tratarem da ética associada à inteligência artificial.

Quer se trate de acidentes de veículos autônomos ou de contratempos com reconhecimento facial, é tentador para o público em geral pensar que a inteligência artificial não é fidedigna. Entretanto, ela apenas faz o que é treinada a executar.

Os modelos de IA incluem algoritmos e dados. Logo, são tão bons quanto a matemática aplicada e a qualidade dos dados sobre os quais são treinados.

Quando as coisas dão errado com a IA, é por uma das duas razões: ou o modelo de IA ​​é falho, partindo de premissas erradas, ou o algoritmo que conduz o modelo foi insuficientemente ou incorretamente treinado.

O viés, de uma forma ou de outra, está por trás de muitos problemas associados aos algoritmos e aos dados. Se não for atenuado fará com que o modelo de inteligência artificial sistematize, eventualmente, até mesmo preconceitos.

Isso, é claro, levanta grandes questionamentos relacionados à ética desse tipo de tecnologia.

De modo geral, existem quatro tipos distintos de viés que os cientistas de dados e os desenvolvedores de IA precisam estar cientes para evitá-los. Neste artigo você irá conhecê-los melhor e entender como podem afetar o aprendizado de máquina.

 

1. Viés de Algoritmo

Esse primeiro tipo de viés, conhecido como ‘Algorithm Bias”, na verdade não tem nada a ver com dados. Em vez disso, refere-se a uma propriedade do próprio algoritmo de inteligência artificial.

Quando usado no contexto de aprendizado de máquina, a palavra “bias” (viés na tradução para o português) tem um significado diferente. Para os cientistas de dados, o viés, juntamente com a variância, descreve uma propriedade de algoritmo que influencia o desempenho da previsão.

O viés e a variação são interdependentes e os cientistas de dados geralmente buscam um equilíbrio entre os dois.

Modelos com alta variação tendem a se flexionar para encaixar os dados de treinamento. Eles podem acomodar mais facilmente a complexidade, mas também são mais sensíveis ao ruído e podem não ser bem generalizados para dados fora do conjunto de treinamento.

Modelos com alto viés são rígidos. Eles são menos sensíveis a variações nos dados e podem perder complexidades subjacentes. Ao mesmo tempo, eles são mais resistentes ao ruído.

Encontrar o equilíbrio apropriado entre essas duas propriedades para um determinado modelo em um determinado ambiente é um conjunto de habilidades críticas para a ciência de dados.

Reduzir erros de previsão no aprendizado de máquina através do trade-off de viés é uma etapa bem compreendida pelos bons profissionais, mas ainda podem ocorrer falhas. Portanto, é preciso atenção para evitar o viés de algoritmo.

 

2. Viés de Amostra

O viés de amostra ocorre quando os dados usados ​​para treinar o modelo não representam com precisão as amostras e o problema no qual o modelo operará.

Há uma variedade de técnicas para selecionar amostras de populações e validar sua representatividade. Também há várias técnicas para identificar características populacionais que precisam ser capturadas em amostras.

Em outras palavras, atenuar o viés da amostra é uma técnica bem compreendida em várias disciplinas, incluindo psicologia e ciências sociais. Equipes de ciência de dados podem buscar esse conhecimento, caso não tenham experiência em amostragem experimental.

Para citar um exemplo óbvio, mas ilustrativo, se se espera que um veículo autônomo opere durante o dia e à noite, mas seja treinado apenas com dados diurnos, seus dados de treinamento certamente refletirão o viés de amostra.

É altamente improvável que o modelo que dirige o veículo aprenda a operar à noite com dados de treinamento incompletos e pouco representativos. Cientistas de dados devem buscar um equilíbrio entre os dois.

 

3. Viés de Preconceito

O viés de preconceito ocorre quando o conteúdo dos dados de treinamento é influenciado por estereótipos ou preconceitos provenientes da população. Esse tipo de preconceito tende a dominar as manchetes em torno dos fracassos da IA, porque afeta questões culturais e políticas sensíveis.

Torna-se um problema quando os cientistas de dados ou as organizações que os empregam geram sistemas que manifestam comportamentos que refletem esses preconceitos.

Um algoritmo que é exposto a bancos de imagens com fotos de profissionais de enfermagem, por exemplo, poderia ser facilmente induzido ao erro. Muitas profissões são estereotipadas, pois possuem grande representatividade de um gênero. A profissão enfermagem está muito associada a mulheres, logo bancos de imagens poderiam representar a profissão apenas com integrantes do sexo feminino.

Portanto, se uma reflexão prévia não for aplicada às imagens que são introduzidas no algoritmo, poderia ser possível deduzir que todos os profissionais de enfermagem são mulheres. Isso pode acontecer porque, na realidade – e em amostras aleatórias de fotos de pessoas no trabalho – estatisticamente há mais enfermeiras mulheres do que homens.

Mas mesmo que a população de profissionais de enfermagem hoje seja majoritariamente feminina, não é verdade que todos sejam mulheres. Podemos considerar inadequado que o algoritmo produza resultados que inferem incorretamente uma relação causal.

Mitigar o viés de preconceito requer insights sobre as maneiras pelas quais o preconceito e os estereótipos podem chegar aos dados. Além disso, os humanos que rotulam e anotam dados de treinamento podem ser treinados para evitar a introduzir seus próprios preconceitos sociais ou estereótipos nos dados de treinamento.

Abordar essa forma de preconceito geralmente requer a colocação de restrições nos dados de entrada (treinamento) ou saídas (resultados). Assim, por exemplo, um modelo não concluirá que todos os profissionais de enfermagem são mulheres se também for exposto a imagens de enfermeiros homens em números proporcionais aos que podem ser encontrados no local de trabalho.

 

4. Viés de Medida

Esse tipo de viés resulta de uma medição incorreta. O resultado é uma distorção sistemática de todos os dados.

Essa distorção pode ser originada por um dispositivo que coleta os dados. Uma câmera com um filtro cromático, por exemplo, gerará imagens com um viés de cor de forma consistente.

Tal como acontece com o viés da amostra, também existem técnicas estabelecidas para detectar e mitigar o viés de medição. É uma boa prática comparar as saídas de diferentes dispositivos de medição, por exemplo.

Além disso, a coleta de dados pode ser mal planejada. Uma pesquisa com perguntas direcionadas, mesmo que de forma inconsciente, também exercerá influência sobre as respostas.

Profissionais familiarizados, com mais experiência em pesquisa, já conhecem práticas para evitar distorções sistemáticas. Também é essencial treinar os funcionários de rotulagem e anotação antes que eles trabalhem em cima dos dados reais.

“O algoritmo e os produtos orientados por dados sempre refletirão as escolhas de design dos seres humanos que os criaram, e é irresponsável assumir o contrário.” Fred Benenson, Kickstarter

 

Conclusão

Modelos de IA e algoritmos são construídos por humanos. Da mesma forma, os dados que treinam esses algoritmos são criados, limpos, rotulados e anotados também por humanos.

A matemática, apesar de correta, pode ser mal utilizada, pois os algoritmos buscarão padrões em dados tendenciosos. Os resultados, previsivelmente, nem sempre estarão corretos.

Nem todas as equipes de ciência de dados possuem as habilidades internas para evitar e mitigar o viés de dados de treinamento. Portanto, é preciso que essas equipes pelo menos estejam conscientizadas dos problemas de inteligência artificial associados à ética e ao viés.

About the Author: Pedro César Tebaldi Gomes

Trabalho há 10 anos no mercado B2B de tecnologia da informação e hoje atuo como líder de um time de Business Intelligence. Já escrevi mais de 500 artigos sobre tecnologia durante esse período. Estudo ciência de dados, machine learning e estatística para atingir melhores resultados nos diferentes projetos que atuo.

Deixe uma resposta

Ética e Inteligência Artificial: viés em machine learning

tempo de leitura: 8 min