뉴스 피드 알고리즘에 관해서는 많은 이론과 신화가 있습니다. 대부분의 사람들은 직장에서 알고리즘이 있다는 것을 이해하고 많은 사람들이 그 알고리즘을 알리는 몇 가지 요소를 알고 있습니다(게시물을 좋아하든 참여하든 등).). 그러나 여전히 오해되는 것이 많이 있습니다.
우리는 뉴스 피드의 많은 세부 사항과 기능을 공개적으로 공유합니다. 그러나 후드 아래,힘 뉴스 피드 기계 학습(기계 학습)순위 시스템은 많은 계층으로,매우 복잡하다. 우리는 순위 시스템이 어떻게 작동하는지,그리고 20 억 명이 넘는 사람들을 위해 콘텐츠를 개인화하고 페이스 북에 올 때마다 각 사람들이 관련성이 높고 의미있는 콘텐츠를 보여줄 수있는 시스템을 구축하는 데 대한 새로운 세부 사항을 공유하고 있습니다..
무엇이 그렇게 어려운가?
첫째,볼륨이 엄청납니다. 전 세계 20 억 명이 넘는 사람들이 페이스북을 사용하고 있다.. 그 사람들 각각에 대해 천 개 이상의”후보”게시물(또는 그 사람의 피드에 잠재적으로 나타날 수있는 게시물)이 있습니다. 우리는 지금 페이스 북에있는 모든 사람들에 걸쳐 게시물의 수조에 대해 얘기..
이제 페이스 북에있는 각 사람에 대해,우리가 그 사람이 가장 관련성이 찾을 수 있습니다 무엇을 결정하기 위해 평가해야 할 신호의 수천이 있음을 고려한다.<.>
그리고 이 모든 일이 이루어지면 상황이 바뀌고,클릭베이트와 잘못된 정보의 확산 등 새로운 이슈를 고려해야 합니다. 이 경우,우리는 새로운 솔루션을 찾을 필요가있다. 실제로 순위 시스템은 단지 하나의 알고리즘이 아니라 각 사용자에게 가장 관련성이 높고 의미있는 콘텐츠를 예측하기 위해 적용하는 여러 계층의 기계 학습 모델 및 순위입니다. 우리가 각 단계를 통해 이동,순위 시스템은 주어진 시간에 누군가의 뉴스 피드에 나타나는 몇 백 후보 게시물의 그 수천을 좁혀.
어떻게 작동합니까?
간단히 말해서,시스템은 뉴스 피드에 표시되는 게시물을 결정하고,어떤 순서로,당신이 관심이 있거나 참여 가능성이 가장 높은 것을 예측함으로써. 이러한 예측은 최근에 무엇을 팔로우했는지,좋아했는지 또는 참여했는지를 포함하여 다양한 요소를 기반으로합니다. 이 실제로 어떻게 작동하는지 이해하기 위해,의 페이스 북에 로그인 한 사람에 대해 어떻게되는지 시작하자:우리는 후안 그를 부를 것이다..
어제 후안의 로그인 이후,그의 친구 웨이는 그의 코커 스패니얼의 사진을 올렸다. 또 다른 친구,산비,그녀의 아침 실행에서 비디오를 게시. 그의 마음에 드는 페이지는 밤에 은하수를 볼 수있는 가장 좋은 방법에 대한 흥미로운 기사를 게시,그의 마음에 드는 요리 그룹은 네 개의 새로운 효모 조리법을 게시하면서.
이 모든 내용은 후안 그가 그것을 공유하는 사람이나 페이지를 따르기로 선택했기 때문에 관련이 있거나 흥미로울 것입니다. 이러한 것들 중 어느 것이 후안의 뉴스 피드에서 더 높게 나타나야 하는지를 결정하기 위해,우리는 그에게 가장 중요한 것이 무엇인지,어떤 콘텐츠가 그를 위해 가장 높은 가치를 지니고 있는지 예측해야합니다. 수학적 용어로,우리는 후안에 대한 목표 함수를 정의하고 단일 목표 최적화를 수행해야합니다.
사진에 태그가 지정된 사람,게시 시기와 같은 게시물의 특성을 사용하여 후안이 좋아할지 여부를 예측할 수 있습니다. 예를 들어,후안이 산비의 게시물과 상호 작용하는 경향이있는 경우(예:,공유 또는 주석)종종 그녀의 실행중인 비디오는 매우 최근,후안 그녀의 게시물을 좋아하는 높은 확률이있다. 후안이 과거에 사진보다 더 많은 비디오 콘텐츠를 사용했다면 웨이의 코커 스패니얼 사진에 대한 예측이 상당히 낮을 수 있습니다. 이 경우,우리의 순위 알고리즘은 후안이 원하는 더 높은 확률을 예측하기 때문에 산비의 달리기 비디오를 웨이의 개 사진보다 높게 평가합니다.
그러나 사람들이 페이스 북에서 자신의 취향을 표현하는 유일한 방법은 아닙니다.. 매일 사람들은 흥미로운 기사를 공유하고,팔로우하는 사람 또는 유명인의 비디오를 보거나,친구의 게시물에 사려 깊은 의견을 남깁니다. 수학적으로,우리는 모두 우리의 주요 목표까지 추가 여러 목표에 최적화해야 할 때 상황이 더 복잡 얻을:그들에게 의미 있고 그들에게 관련 콘텐츠를 보여줌으로써 사람들을위한 가장 장기적인 가치를 창출.
후안은 웨이의 사진,산비의 비디오,은하수 기사 또는 사워 도우 레시피에 참여할 확률입니다. 각 모델은 후안을 위해 이러한 콘텐츠의 순위를 매기려고합니다. 때때로 그들은 동의하지 않습니다-후안이 산비의 달리기 비디오를 은하수 기사보다 좋아할 확률이 높지만 비디오보다 기사에 대해 언급 할 가능성이 더 높을 수 있습니다. 따라서 우리는 이러한 다양한 예측을 하나의 점수로 결합 할 수있는 방법이 필요합니다.장기 가치라는 우리의 주요 목표에 최적화되어 있습니다.
어떤 것이 사람에게 장기적인 가치를 창출하는지 어떻게 측정할 수 있는가? 우리는 그들에게 묻습니다. 예를 들어,사람들이 친구와의 상호 작용을 얼마나 의미있게 발견했는지 또는 게시물이 자신의 시간 가치가 있는지 물어보고 사람들이 즐기고 의미 있다고 말하는 것을 시스템에 반영하도록 조사합니다. 그런 다음 우리는 사람들이(설문 조사를 통해)더 의미 있고 자신의 시간 가치가 우리에게 행동을 기반으로 후안에 대한 계정에 각 예측을 취할 수 있습니다.
레이어 다시 필링
사용자 당,하루,20 억 명 이상에 대 한 1000 개 이상의 게시물 순위—실시간으로—우리는 프로세스를 효율적으로 만들 필요가 있다. 우리는 전략적으로 신속하게 필요한 컴퓨팅 자원의 양을 제한하기 위해 배치,다양한 단계에서이 관리 할 수 있습니다.
첫째,시스템은 우리가 후안에 대해 평가할 수있는 모든 후보 게시물(코커 스패니얼 사진,러닝 비디오 등)을 수집합니다.). 이 자격 인벤토리는 친구,그룹,또는 그가 그 그의 마지막 로그인 이후 만들어진 삭제되지 않은 연결있어 페이지에 의해 후안와 공유 게시물을 포함한다. 그러나 아직 보지 못한 후안의 마지막 로그인 전에 생성 된 게시물을 어떻게 처리해야합니까?
보이지 않는 게시물이 재검토되도록하기 위해,우리는 읽지 않은 부딪 치는 논리를 적용:그의 이전 세션에서 후안(하지만 그는 볼 수 없습니다)에 대한 순위가 신선한 게시물이 세션의 자격 인벤토리에 추가됩니다. 우리는 또한 액션 범핑 논리를 적용하므로 후안이 이미 친구 사이에서 흥미로운 대화를 촉발 한 게시물이 적격 인벤토리에 추가됩니다.
다음으로,시스템은 게시물의 유형,다른 항목과의 유사성 및 게시물이 후안이 상호 작용하는 경향과 얼마나 일치하는지와 같은 다양한 요소에 대해 각 게시물의 점수를 매겨야합니다. 수십억 명의 사용자 각각에 대해 1,000 개 이상의 게시물에 대해이를 계산하기 위해 예측 변수라는 여러 시스템에서 모든 후보 스토리에 대해 이러한 모델을 병렬로 실행합니다.
이러한 모든 예측을 단일 점수로 결합하기 전에 몇 가지 추가 규칙을 적용해야합니다. 우리는 우리가 순위가 될 게시물의 풀을 좁힐 수 있도록 우리는 이러한 첫 번째 예측이 될 때까지 기다립니다—우리는 계산 능력을 절약하기 위해 여러 패스를 통해 적용.
첫째,특정 무결성 프로세스가 모든 게시물에 적용됩니다. 이들은 순위 지정을 위해 선택한 스토리에 적용해야 하는 무결성 검색 측정값(있는 경우)을 결정하도록 설계되었습니다. 다음 패스에서,경량 모델은 약 후보자의 풀을 좁혀 500 후안에 대한 가장 관련 게시물. 적은 수의 스토리 순위를 매기면 다음 패스에 더 강력한 신경망 모델을 사용할 수 있습니다.
다음은 개인화의 대부분이 일어나는 주요 득점 패스입니다. 여기에서 각 스토리에 대한 점수가 독립적으로 계산 된 다음 500 개의 게시물이 모두 점수별로 정렬됩니다. 어떤 사람들에게는 댓글보다 좋아하는 것을 통해 자신을 더 많이 표현하기를 좋아하기 때문에 댓글보다 좋아하는 것에 대해 점수가 높을 수 있습니다. 사람이 거의 관여하지 않는 모든 행동(예:0 에 매우 가까운 예측)은 예측 값이 매우 낮기 때문에 자동으로 순위에서 최소한의 역할을 얻습니다.
마지막으로,우리는 콘텐츠 형식 다양성 규칙과 같은 상황에 맞는 기능이 있는지 후안의 뉴스 피드가 콘텐츠 형식의 좋은 혼합을 가지고 있으며,그는 여러 비디오 게시물,잇달아보고 아니에요 확인하기 위해 추가되는 상황에 맞는 패스를 실행합니다. 이러한 모든 순위 단계는 후안 페이스 북 응용 프로그램을 열려면 걸리는 시간에 발생,초 이내에,그는 그를 검색하고 즐길 준비가 득점 뉴스 피드를 가지고..