Focused Web crawling là 1 chủ đề thú vị
Topic này có từ thời sơ khai khi build Google những năm cuối 1997s. Ngày nay thì Facebook và Web 2.0 model phát triển tới mức tạo cả núi thông tin mà 1 cái box như Google là không đủ.
phim The Dark Knight Rises là 1 bộ film hay, trước khi đi xem film, mọi người thường xem qua trailer hay review trên các forums (rất nhiều site)
VD: cần nghe soundtrack http://nhacso.net/nghe-album/the-dark-knight-rises-ost.XV5UUUtX.html
từ google keywords "dark knight rises soundtrack nhacso"
hay "dark knight rises trailer" hoặc "dark knight rises reviews"
review từ IMDB: http://www.imdb.com/title/tt1345836/ , 9/10 từ hơn 200.000 ratings , hơi bị cao #_#.
Vấn đề là: làm sao để tập hợp cả núi thông tin reviews lại 1 chỗ để đọc cho nhanh và tiện, thay vì google lòng vòng ?
Facebook ngày càng được ưa chuộng vì khi bạn like 1 thứ gì đó, facebook sẽ record nó lại vào social graph. Mọi thông tin được push vào wall của bạn 1 cách có chủ đích bằng facebook feeds ranking algorithms.
Tuy nhiên, điểm mạnh của FB cũng lại điểm yếu của FB, trong quản lý social networking, FB là số 1, còn quản lý information, FB chỉ là 1 cái wall lộn xộn.
Nó không đủ chỗ để show tất cả các feeds nếu bạn like hơn 50 pages, mỗi page có hơn 10 feeds mới mỗi ngày.
Chưa kể chúng trùng nhau khá nhiều.
Những năm làm ở Yopco (1 startup web 2.0 và là cty đầu tiên mình đi làm), để xây dựng model xử lý thông tin đơn giản cho rất nhiều loại thông tin khác nhau, mình có recommend my boss về concept gọi là "info tree".
(tiết là chắc my boss chằng để tâm lắm nên cứ theo concept của ông ấy "collection-item" và cloud computing lúc đó, 2008 cũng chưa phát triển như giờ , => fail ??)
"info tree" đơn giản vì hầu như ai sử dụng computer để biết đến concept "cây thư mục" (directory tree), và rất dễ quản lý cũng như browsing 1 số lượng lớn các class thông tin khác nhau.
tạm thời bookmark các resources sau:
http://www.udacity.com/view#Course/cs101/CourseRev/apr2012/Unit/671001/Nugget/671007
http://www.almaden.ibm.com/almaden/feat/www8/
http://www2003.org/cdrom/papers/poster/p181/p181-tsoi/p181-tsoi.html
http://www.cs.uwaterloo.ca/~tozsu/courses/cs856/W05/Presentations/Mohamed.pdf
http://cis.poly.edu/cs912/lectures.html
Topic này có từ thời sơ khai khi build Google những năm cuối 1997s. Ngày nay thì Facebook và Web 2.0 model phát triển tới mức tạo cả núi thông tin mà 1 cái box như Google là không đủ.
phim The Dark Knight Rises là 1 bộ film hay, trước khi đi xem film, mọi người thường xem qua trailer hay review trên các forums (rất nhiều site)
VD: cần nghe soundtrack http://nhacso.net/nghe-album/the-dark-knight-rises-ost.XV5UUUtX.html
từ google keywords "dark knight rises soundtrack nhacso"
hay "dark knight rises trailer" hoặc "dark knight rises reviews"
review từ IMDB: http://www.imdb.com/title/tt1345836/ , 9/10 từ hơn 200.000 ratings , hơi bị cao #_#.
Vấn đề là: làm sao để tập hợp cả núi thông tin reviews lại 1 chỗ để đọc cho nhanh và tiện, thay vì google lòng vòng ?
Facebook ngày càng được ưa chuộng vì khi bạn like 1 thứ gì đó, facebook sẽ record nó lại vào social graph. Mọi thông tin được push vào wall của bạn 1 cách có chủ đích bằng facebook feeds ranking algorithms.
Tuy nhiên, điểm mạnh của FB cũng lại điểm yếu của FB, trong quản lý social networking, FB là số 1, còn quản lý information, FB chỉ là 1 cái wall lộn xộn.
Nó không đủ chỗ để show tất cả các feeds nếu bạn like hơn 50 pages, mỗi page có hơn 10 feeds mới mỗi ngày.
Chưa kể chúng trùng nhau khá nhiều.
Những năm làm ở Yopco (1 startup web 2.0 và là cty đầu tiên mình đi làm), để xây dựng model xử lý thông tin đơn giản cho rất nhiều loại thông tin khác nhau, mình có recommend my boss về concept gọi là "info tree".
(tiết là chắc my boss chằng để tâm lắm nên cứ theo concept của ông ấy "collection-item" và cloud computing lúc đó, 2008 cũng chưa phát triển như giờ , => fail ??)
"info tree" đơn giản vì hầu như ai sử dụng computer để biết đến concept "cây thư mục" (directory tree), và rất dễ quản lý cũng như browsing 1 số lượng lớn các class thông tin khác nhau.
tạm thời bookmark các resources sau:
http://www.udacity.com/view#Course/cs101/CourseRev/apr2012/Unit/671001/Nugget/671007
http://www.almaden.ibm.com/almaden/feat/www8/
http://www2003.org/cdrom/papers/poster/p181/p181-tsoi/p181-tsoi.html
http://www.cs.uwaterloo.ca/~tozsu/courses/cs856/W05/Presentations/Mohamed.pdf
http://cis.poly.edu/cs912/lectures.html
My focused crawling algorithm |
Usecase: simple active recommended node for user in knowledge graph |
Comments