A Detecção de face, aumentando, sensoriamento humana

Por: Leonardo Coutinho • 15/11/2017 • Projeto de pesquisa • 5.126 Palavras (21 Páginas) • 234 Visualizações

Página 1 de 21

Este documento descreve um quadro de detecção de rosto, que é capaz de processar imagens de forma extremamente rápida e alcançar altas taxas de detecção. Existem três principais contribuições. O primeiro é a introdução de uma nova representação da imagem chamado de "imagem integral", que permite que os recursos utilizados pelo nosso detector seja calculado muito rapidamente. O segundo é um classificador simples e eficiente que é construído usando o algoritmo de aprendizagem AdaBoost (Freund e Schapire, 1995) para selecionar um pequeno número de características visuais críticos de um conjunto muito grande de recursos potenciais. A terceira contribuição é um método para combinar classificadores em uma "cascata", que permite que regiões da imagem de fundo para ser rapidamente descartado enquanto gastando mais a computação em regiões cara-como promissores. Um conjunto de experiências no domínio da detecção de rosto é apresentado. Os rendimentos do sistema enfrentar desempenho de detecção comparável aos melhores sistemas anteriores (Sung e Poggio, 1998;. Rowley et al, 1998; Schneiderman e Kanade, 2000;. Roth et al, 2000). Implementado em um desktop convencional, detecção de face prossegue a 15 quadros por segundo.

Palavras-chave: detecção de face, aumentando, sensoriamento humana

1. Introdução

Este trabalho reúne novos algoritmos e insights para construir uma estrutura para a detecção visual robusto e extremamente rápido. Para este fim, construímos um sistema de detecção de face frontal que atinge detecção e taxas de falsos positivos que são equivalentes aos melhores resultados publicados (Sung e Poggio, 1998; Rowley et al, 1998;. Osuna et al, 1997a;. Schneiderman e Kanade , 2000;. Roth et al, 2000). Este sistema de detecção de rosto é mais claramente distinguidos de abordagens anteriores na sua capacidade de detectar rostos de forma extremamente rápida. Operando em 384 por 288 pixel imagens, rostos são detectados a 15 quadros por segundo em uma convencional de 700 MHz Intel Pentium III. Em outros sistemas de detecção de rosto, informação auxiliar, tais como diferenças de imagem em sequências de vídeo, ou a cor do pixel em imagens coloridas, têm sido utilizados para alcançar altas taxas de quadros.

Nosso sistema atinge altas taxas de quadros que trabalham apenas com a informação presente na imagem em escala de cinza único. Essas fontes alternativas de informação também pode ser integrado com o nosso sistema para alcançar taxas de quadros ainda mais elevados.

Existem três principais contribuições da nossa estrutura de detecção de rosto. Vamos introduzir cada uma dessas idéias brevemente abaixo e, em seguida, descrevê-los em detalhes nas seções seguintes.

A primeira contribuição deste trabalho é uma nova representação da imagem denominada imagem integral, que permite a avaliação característica muito rápido. Motivado em parte pelo trabalho de Papageorgiou et al. (1998) nosso sistema de detecção não funciona diretamente com intensidades de imagem.

Como esses autores que usam um conjunto de características que são uma reminiscência de funções de base Haar (embora também vamos usar filtros relacionados que são mais complexas do que os filtros Haar). Para calcular esses recursos muito rapidamente em muitas escalas, apresentamos a representação de imagem integral para imagens (a imagem integral é muito semelhante à tabela da área resumiu usado em computação gráfica (Crow, 1984) para o mapeamento de textura). A imagem integral pode ser computada a partir de uma imagem usando algumas operações por pixel. Uma vez calculado, qualquer uma destas características Haar-like pode ser calculado em qualquer escala ou localização no tempo constante.

A segunda contribuição deste trabalho é um classificador simples e eficiente, que é construído pela seleção de um pequeno número de características importantes de um enorme biblioteca de recursos potenciais usando AdaBoost (Freund e Schapire, 1995). Dentro de qualquer sub-janela de imagem o número total de recursos Haar-LIKE é muito grande, muito maior do que o número de pixels. A fim de garantir a classificação rápida, o processo de aprendizagem deve excluir a grande maioria dos recursos disponíveis, e se concentrar em um pequeno conjunto de características críticas. Motivada pelo trabalho de Tieu e Viola (2000) seleção de recursos é obtida usando o algoritmo de aprendizagem AdaBoost, restringindo cada classificador fraco para depender de apenas um único recurso. Como resultado, cada fase do processo de reforço, que selecciona um novo classificador fraco, pode ser visto como um processo de selecção característica. AdaBoost fornece um algoritmo de aprendizagem eficaz e fortes limites sobre o desempenho de generalização (Schapire et al., 1998).

A terceira maior contribuição deste trabalho é um método para combinar sucessivamente classificadores mais complexas em uma estrutura em cascata que aumenta drasticamente a velocidade do detector, concentrando a atenção em regiões promissoras da imagem. A noção atrás foco de atenção abordagens é que muitas vezes é possível determinar rapidamente onde em uma imagem pode ocorrer uma cara (Tsotsos et ai, 1995;.. Itti et ai, 1998; Amit e Geman, 1999; Fleuret e Geman, 2001 ). Mais um processamento complexo é reservada apenas para essas regiões promissoras. A principal medida de uma tal abordagem é a taxa de "falso negativo" do processo de atenção. Deve ser o caso em que todos, ou quase todos, os casos de face são seleccionados pelo filtro de atenção.

Vamos descrever um processo para treinar um classificador extremamente simples e eficiente que pode ser usado como um "supervisionado" foco de atenção operator.1 Um operador de Detecção de Rosto de atenção pode ser aprendido que irá filtrar mais de 50% da imagem, preservando 99% das faces (como avaliado ao longo de um grande conjunto de dados). Este filtro é extremamente eficiente; pode ser avaliada em 20 operações simples por local / escala (aproximadamente 60 instruções do microprocessador).

Esses sub-janelas que não são rejeitadas pelo classificador inicial são processados por uma sequência de classificadores, cada um pouco mais complexo do que o último. Se algum classificador rejeita a sub-janela, nenhum processamento adicional é realizada. A estrutura do processo de detecção em cascata é essencialmente a de uma árvore de decisão degenerada, e, como tal, está relacionado com o trabalho de Fleuret e Geman (2001) e Amit e Geman (1999).

A cascata de detecção de rosto completo tem 38 classificadores, que totalizam mais de 80.000 operações. Não obstante a estrutura

...

Baixar como (para membros premium) txt (33.4 Kb) pdf (174.3 Kb) docx (22.7 Kb)

Continuar por mais 20 páginas »

Disponível apenas no TrabalhosGratuitos.com

Ler documento completo Salvar